1.6.2 截词检索
截词检索(truncation searching)是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英、美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等。为了保证查全,在检索式中加上这些具有各种变化形式的相关意义的检索词,这样就会使检索式过于冗长,输入检索词的时间太久,同时也耗费太多机时。截词检索就是为了解决这个问题而设计的,它既可保证不漏检,又可节约输入检索式的时间。
大多数系统都提供截词检索的功能。所谓截词,是指检索者将检索词在他认为合适的地方截断,保留相同的部分,用相应的截词符代替可变化部分。而截词检索,则是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。
截词方式有多种。截词按截断的位置可分为后方截断、前方截断、中间截断三种类型;截词按截断的字符数量可分为有限截断和无限截断两种类型。这里有限截断是指说明具体截去字符的数量。而无限截断是指不说明具体截去多少个字符的截断。
常用的截词符有“?”、“*”、“#”、“$”等多种表示形式,不同的检索系统其截词符的表示形式和截词检索的方式是不同的。例如,Dialog系统用“?”,BRS系统用“$”,ORBIT系统用“#”等。下面用“?”表示截词符,有以下几种截词方式。
1.后方截词
后方截词,也称为前方一致。它是将截词符放在一串字符的后面,表示以相同字符串开头,而结尾不同的所有词。
后方截词又分为词尾的有限截断和词尾的无限截断两种情况。
1)词尾的有限截断
相同字符串后可能变化一个字符时,在其后使用“?(空格)?”形式,常用来表示检索词的单复数变化。例如,用“system??”可以查出system和systems的文献。
相同字符中可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。例如,“??”表示两个字符,“???”表示三个字符,以此类推。
2)词尾的无限截断
相同字符串后可能变化任何字符串时,则在其后使用一个“?”。这种方法可以查找出含有相同字符串的所有检索词。例如,用“comput?”可查出compute、computer、computing、computation、computerisation等。
2.中间截词
中间截词又称为中间屏蔽,是一种用截词符屏蔽词中不同字符的方法。例如“woman”和“women”可用“wom?n”代替;“defence”和“defense”可用“defen?e”代替。
截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约了机时。
但应注意的是,使用后截断,有可能检出无关词汇。尤其注意使用无限后截断时,所选词干不能太短,否则将造成大量误检,或是发生溢出,导致检索失败。对此大部分系统都规定,采用无限截断可检出的词汇的极限(通常为800个左右)。
3.前方截词
与后方截词相对,前方截词是将截词符号置放在一个字符串左方,以表示其左的有限或无限个字符不影响该字符串的检索。这种方式称为前方截词。从检索性质上讲,前方截词是后方一致检索。如用“?ology”可检索出methodology、biology、etiology、pathology、radiology等。可以看出使用前方截词进行一个学科的不同应用领域的检索是很方便的。