1.4.2 信息检索语言的类型

1.4.2 信息检索语言的类型

信息检索语言类型很多,不同的划分标准有不同的类型。按学科范围,有综合性检索语言和专业性检索语言等两类。

按表述信息特征,有表述信息外部特征和表述信息内容特征的两类检索语言。前者主要是题名、著者、号码、出版信息、引文等,后者主要包括主题词、分类号和摘要等。

按组配方式,可分为先组式检索语言和后组式检索语言等两类。先组式检索语言是指在检索之前,表述文献信息主题概念的标识已事先拟定好了的检索语言,如标题词语言、分类语言等。后组式检索语言是指不预先固定组配表述文献信息主题概念的标识,而是在检索时临时根据检索需要,按组配原则进行组配的检索语言,如叙词语言等。

按词语受控情况,可分为规范检索语言(如单元词语言、标题词语言和叙词语言等)和自然语言(如关键词语言)等两类。

按构成规则和结构原理,可分为分类语言、主题语言、代码语言(专利号、报告号、标准号和化学分子式索引等)和引文语言(以文献的作者姓名为检索标识的一种非组配方式的检索语言)等四类。

1.主题语言

主题语言是一种描述性语言,即它用词语来描述文献所论述或研究的事物概念(即主题)。它以词语规范化为基础,通过概念组配表述任何专指概念,具有较好的专指性,便于特性组配检索。检索者无须判断所需文献是什么学科的,只要根据课题研究对象,直接用能描述文献内容的主题词去检索。按主题词性质,主题语言分为标题词语言、单元词语言、叙词语言和关键词语言等四种。

1)标题词语言

这是最早使用的主题语言。标题词是经过规范化处理的用于表达文献主题概念的单词、词组和短语。其主要特征是事先编制标题词表,标题词以固定的组合方式组织在主题表中,形成标题,检索时按既定组配执行即可。

用标题词语言编写的词表称为标题词表,如《美国国会图书馆标题词表》、美国《工程标题词表》等。由于标题词语言的检索标识是组配式的,同体系分类法一样仍然存在“集中与分散”的矛盾,解决这一难题的关键在于采用组配法,单元词语言的出现正好解决了这个问题。

2)单元词语言

单元词语言是在标题词语言基础上发展起来的一种规范化检索语言。它是一种最基本的、不能再分解的词汇单位,也称为元词,是从文献内容中抽取的并经规范化处理,能代表一个独立的概念的词语。如“文化”、“经济”、“艺术”就是不能再拆分的词语了,如再拆分就会产生歧义。

单元词具有相对的独立性,词与词之间没有隶属关系和固定组合关系,检索时根据需要进行组配,具有灵活的组配功能。用单元词语言编写的词表称为单元词表。但由于语言的复杂性,在实际检索过程中,单元词的错误匹配会导致漏检和误检,可靠性较差。实际上,除了单一概念外,还有许多复合概念可表达事物的概念,随着科技的进步和新兴学科的不断产生,单元词语言已不能适应信息检索的需要,它已被更先进的叙词语言所代替。

3)叙词语言

叙词语言是主题语言的高级形式,是20世纪50年代产生的一种规范化的检索语言。叙词是从文献正文、摘要或题目中抽取出来的,以概念为基础,经过优选的规范化名词术语。

叙词语言吸收了其他检索语言的优点,并加以改进。例如,它吸收了分类语言体系的等级关系,编制了词族表;吸收了标题词语言的规范化处理方法和参照系统,达到了一词一义,发展了词与词之间的逻辑关系,形成了语义网络,编制了叙词表;吸收了单元词语言的组配原理,并取代了单元词语言;吸收了关键词语言的轮排方法,编制了各种叙词索引。

一般而言,叙词语言具有概念性、描述性、组配性,还具有语义的关联性、动态性和直观性。用叙词语言编写的词表称为叙词表,在词表中词与词之间无从属关系,都是相互独立的,在检索时,利用这些概念单元组配起来,表达一个复杂的概念,特别适合于计算机检索。

4)关键词语言

(1)关键词语言的概念 关键词又称为“键词”,关键词语言是一种用自然语言作为检索标识的检索语言。它直接选用文献中的自然语言作为基本词汇,将那些能揭示文献题名或主要意旨的关键性自然语词作为关键词进行标引。关键词一般直接从文献题名和内容中抽取,不受词表控制,存在同义词、多义词现象。由于关键词可实现轮排,使得标引的深度和专指度较高,编制索引的速度较快,广泛运用于计算机检索系统。其缺点是未经规范化处理,用词不统一,因而漏检率高,查全率较低。

(2)关键词的抽取技术 关键词抽取技术已成为自然语言处理和文本信息检索的基础和核心技术。人们普遍认为,汉语语言区别于英语等西方语种的特殊性加剧了关键词提取的难度,难以取得令人满意的检索效果。关键词的抽取技术直接影响到中文文本信息处理的效率和检索服务的效果。

在信息检索过程中,关键词的抽取质量直接影响着检索效果。检索课题的名称是所需文献的“眼睛”,它高度浓缩和概括了文献的内容,因此,可通过分析检索课题,从检索课题中抽取关键词来检索。首先,对课题进行切分,把具有实际意义的词语作为检索词,删除没有检索意义的介词、连词、助词、感叹词或部分词语;其次,对检索词进行分析,该替补则进行替补,该组合则进行组合,该增加则进行增加。

①切分:切分是对检索课题的语句以自由词为单位进行拆分,转换为检索的最小单元。自由词切分仅适用于自然语言检索。值得注意的是,当词切分后将失去原来的意思时,不应再切分,即必须注意保持词语意义的完整性。如“中国科学院”、“电子邮件”不可再切分。例如,检索“当前大学生就业状况调查”,直接切分“当前‖大学生‖就业‖状况‖调查”,切分后,“大学生”、“就业”、“调查”可作为检索词,其他词没有实质性的检索意义,可不用作检索词。

②删除:根据切分好的词汇与其词性筛选关键词,删除无实质性检索意义的连词、介词、助词、感叹词和部分动词等,或者使用频率较低的词,或者专指性太高、过分宽泛的词,或者过分具体的限定词、禁用词,或者不能表达课题实质的高频词,或者存在蕴含关系可以合并的词,如“研究”、“探讨”、“关系”、“的”、“与”、“要”等一律予以删除。

③替补:替补就是对检索词进行替换和补充。如“经管”可替换为“经济管理”。“公交”可替换为“公共交通”;“绿色包装”中的“绿色”可替换为“环保”、“无污染”、“可降解”;“非典”可考虑补充“SARS”、“非典型肺炎”、“传染性非典型肺炎”、“严重急性呼吸综合征”。通过替补可增加规范词汇、常用词汇、同义词和近义词,避免由于检索词不全而出现的漏检现象。

④组合:主要有以下三种组合方式。

A.概念相交组合。这个新概念是原来用于组合的两个概念的下位概念,如“会计”和“数学”可组合为“会计数学”。“教育”和“心理学”可组合为“教育心理学”。“商务”和“英语”可组合为“商务英语”。

B.概念限定组合。这个新概念可用来表示这一事物的某一属性或某一个方面。如“合同法”与“经济”可组合为“经济合同法”,“劳动法”与“报酬”可组合为“劳动报酬法”。

C.概念删除组合。概念删除组合是指两个具有上下位关系的自由词间的组合,其结果使概念检索的范围缩小,如“信息处理”与“模拟信息处理”可组合为“数字信息处理”。

A、B两种组配方式,所得到的新概念,都是原来用以组合的两个概念的下位概念,缩小了检索范围,提高了概念的专指度,达到提高查准率的目的。

⑤增加:增加就是为检索词添加限义词。增加限义词,有两种方法:一是直接增加限义词,可缩小检索范围;二是挖掘隐含词、提取潜在的检索词增加限义词,用此方法可扩大检索范围。

A.增加限义词:直接增加限义词,用限义词来修饰和限制主要关键词,可缩小检索范围,提高检准率。增加的限义词越多,检索结果就越理想。可采用逻辑运算符来限定主要关键词与增加的限义词之间的逻辑关系。例如检索有关大学生思想政治教育方面的文章,“思想政治教育”是主要关键词,而“大学生”是对主要关键词起限定作用的,可用“思想政治教育AND大学生”这个检索表达式进行检索。例如检索有关敦煌石窟方面的文章,“石窟”是主要关键词,“敦煌”是对主要关键词起地域限制作用的,可用“石窟AND敦煌”这个检索表达式进行检索。

B.挖掘隐含词:挖掘潜在的主题词还可以通过对上位词、下位词、同类词关系的分析得到其他相关主题词,可扩大检索范围。例如“军事工程”可增加“陆军工程”、“海军工程”、“空军工程”、“防空工程”、“战略导弹军事工程”等,“亚洲各国哲学”可增加“中国哲学”、“日本哲学”、“朝鲜哲学”、“印度哲学”、“越南哲学”、“阿拉伯哲学”、“伊朗哲学”和“以色列哲学”等。

2.分类语言

分类语言是用分类号来表达各种概念,以学科体系为基础,将各种概念按学科性质进行分类和系统排列的语言。分类语言中最常见的是体系分类语言,其特点是能集中体现学科的系统性,反映事物的从属、派生关系,便于按学科门类进行族性检索。分类语言的基本结构是按知识门类的逻辑次序,从总到分、由一般到具体,从低级到高级,从简单到复杂,进行层层划分、分门别类地逐级展开的。

国外著名的分类语言表有《杜威十进分类法》(DDC)、《美国国会图书馆分类法》(LCC)、《国际专利分类表》(IPC)。我国分类语言表主要有《中国图书馆分类法》(简称《中图法》)、《中国科学院图书馆图书分类法》(简称《科图法》)、《中国人民大学图书馆图书分类法》(简称《人大法》)、《中国图书分类法》(台湾赖永祥编订)。图书分类法是按照一定的思想观点,以科学分类为基础,结合图书资料的内容和特点,分门别类组成的分类表。

《中图法》是我国图书馆和情报单位普遍使用的一部综合性的分类法。《中图法》的标记符号采用汉语拼音字母和阿拉伯数字相结合的混合制号码。用一个字母标志一个大类,以字母的顺序反映大类的序列。在字母后用数字表示大类以下类目的划分。数字的编号使用小数制,即首先顺序字母后的第一位数字,然后顺序第二位,以下类推。分类号码的排列,严格按照小数制的排列方法。数字的设置,尽可能使号码的级数代表类的级数,基本上遵从层累制的编制原理。

《中图法》由5大部类22个大类组成。5大部类为“马克思主义、列宁主义、毛泽东思想、邓小平理论”、“哲学”、“社会科学”、“自然科学”、“综合性图书”。5大部类下又展开为具体的22个大类。现将5大部类及下设的22个大类列出。

1)马克思主义、列宁主义、毛泽东思想、邓小平理论

A 马克思主义、列宁主义、毛泽东思想、邓小平理论

2)哲学

B 哲学

3)社会科学

C 社会科学总论

D 政治            H语言、文字

E 军事            I文学

F 经济            J艺术

G 文化、科学、教育、体育   K历史、地理

4)自然科学

N 自然科学总论        S农业科学

O 数理科学和化学       T工业技术

P 天文学、地球科学      U交通运输

Q 生物科学          V航空、航天

R 医药、卫生         X环境科学、安全科学

5)综合性图书

Z 综合性图书

其中,T大类下又展开为以下16个二级类目。

TB 一般工业技术       TL 原子能技术

TD 矿业工程         TM 电工技术

TE 石油、天然气工业     TN 无线电电子学、电信技术

TF 冶金工业         TP 自动化技术、计算机技术

TG 金属学、金属工艺     TQ 化学工业

TH 机械、仪表        TS 轻工业、手工业

TJ 武器工业         TU 建筑科学

TK 动力工程         TV 水利工程

分类语言以学科体系为分类基础,必然受到学科发展的影响和制约。当新的学科产生时,分类法就必须进行修订以容纳新学科,因此,分类法每隔一段时间(如5~10年)便修订一次。《中图法》于2010年8月出版了第五版。