检索词的选择对检索结果的影响

张溢

摘要   利用计算机进行数据检索时,其核心是在文档集中为用户检出最相关的子文档集,或者按检出文档的相关程度进行排序,作为对检索用户所提出查询的回应。检索的结果受到两方面的影响,一是系统本身的属性,即系统从众多数据资源中“披沙拣金”的能力,二是检索者的主观因素。对于一个普通的检索者,系统属性是一个既定的因素,那么主观因素就成为决定检索结果的最重要变量,其中,检索词的选择对检索结果有着直接的影响。

 

关键词:检索词  检索结果

 

1          问题的提出

据统计,70年代以来全世界每年出版图书50万种以上、期刊10万种以上、专利约50万件、科技报告约90万件、会议文献10多万篇、产品样本50多万种,每年发表的科技论文总数近500万篇,并呈指数式增长。如何从这浩如烟海的数据资料中找出所需信息,已经成为了每一个现代人所面临的问题。我们在实际操作时经常出现两种现象:①检索到过多的资料②检索不到所需的信息。

针对这两种常见现象,本文对北京师范大学图书馆内的数字资源进行了研究,通过对ProQuestFirst SearchWeb of Science三个数据库的比较,阐述了检索词的选择对检索结果在数量和质量上的重要影响。

 

2          研究方法  

2.1选定被试数据库:ProQuestFirst SearchWeb of Science。其中,ProQuest数据库包括ARL sfx链接源、ProQuest Education Journals、心理学数据库sfx链接源、博硕论文文摘库PQDD、学位论文全文检索系统。First Search数据库包括ECO电子期刊库sfx链接源和OCLC First Search sfx链接源。

2.2在选定的数据库中对同样的一组词汇(或词组)进行检索,包括:leadershipknowledge managementwomen as managerprincipalship。对检索结果的数量进行比较。

2.3    ProQuest ARLsfx链接库中对检索结果用递加的条件进行过滤,比较检索到的文章数量。

2.4  改变其中某些检索词的表达方法重新进行检索。用womenmanager两个检索词的布尔运算代替women as manager这个词组式的检索词,用principal代替principalship在博硕论文文摘库PQDD和学位论文全文检索系统中重新检索,对检索结果的数量进行比较。

 

3        结果

 

                   1    不同数据库中检索到的文献数量

   

       检索词

数据库

leadership

Knowledge management

Women as manager

principalship

ARL sfx链接源

89557

2741

5266

163

博硕论文文摘库PQDD

28603

334

0

1029

学位论文全文检索系统

190

50

0

9

ECO电子期刊库sfx链接源

10777

9127

112

86

OCLC First Search sfx链接源

163000

24750

1165

1260

Web of Science

13537

3192

0

8

 

 

2    加入不同限定条件时的检索结果

 

     条件

 

检索词

 

无条件

Education Journals

 

 

全文数据库

 

学术期刊

 

 

7

Leadership

89557

18389

17027

3782

73

Knowledge management

2741

507

432

159

3

Women as Manager

5266

364

220

124

0

Principalship

163

158

99

36

0

 

 

3    改变检索词对检索结果的影响

 

       检索词

数据库

Women as Manager

Women & Manager

Principalship

Principal

博硕论文文摘库PQDD

0

199

1029

31327

学位论文全文检索系统

0

0

9

1428

 

4        讨论

4.1      由表1可以观察出,同一个词在不同的数据库中进行检索和不同的词在相同的数据库中进行检索得到的结果差别相当大。对于leadership这种使用频率较高、涵盖范围较广的的词汇来说,检索结果的数量是惊人的。对于一个检索者来说,数量如此巨大的信息是没有什么意义的,必须通过增加检索条件,把检索词限定在一定的范围内以去掉误检的信息。在这一点上,PQDD数据库做得非常好,它可以同时指定三个检索词,包括关键词、作者、题目、领域等等,而且这三个检索词可以进行逻辑与、或、与非的运算,为检索带来了很多方便。在ARL中,逐级增加检索条件(见表2),可以看出,检索结果的数量是逐渐减少的,这种方法也可以帮助我们找到自己想要的信息。

4.2      继续观察表1发现,对women as manager进行检索时,在其中三个数据库甚至检索不到任何文章,这样的检索结果也是不能让人满意的。主要原因是womenasmanager三个词在检索过程中是逻辑与的关系,也就是说,检索结果与三个词当中的任何一个词不相符,其“与”的结果就为0,因此,这种过于严密的检索词过滤掉了大部分信息,造成了漏检。对于这种现象,最好的解决方法就是将检索词拆开,表3中列出了利用women as managerwomen & manager分别作检索词所得到的结果。利用First Search检索时,系统能自动的将较长的检索词分割成几个关键词,因此,其检索结果同人为拆分的效果是一样的。

4.3      Principalship进行信息检索时,出现另外一个常见的问题:给出检索词过于生僻。Principalship是“首要的职务、地位”的意思,《牛津高阶英汉双解辞典(第四版)》甚至没有收录这个词,用这样一个词做检索词显然是不明智的。解决这个问题的方法就是寻找同义词来代替原词,但要注意,所选择的“同义词库”必须尽量与原词相当,否则又会造成新的漏检和误检。表3列出了用Principal代替Principalship后得到的结果,在数量上,前者是后者的几百倍甚至上千倍。

 

5        结论

今天是一个信息爆炸的时代,检索已经从一门专门的学问变成一种应当普及的技能。经过上述分析,在选择检索词时主要需要注意以下一些问题:①分析课题,搞清学科归属;②使用规范化的语言;③控制好检索词覆盖范围的大小;④利用好“同义词库”;⑤使用专业的检索工具。

检索词的选择在检索的过程中占有举足轻重的作用,选择了合适的检索词,可以找到数量适中质量上乘的文献资料,反之只能找到一些无用的文字或查无所获。

   

6        参考文献

[1] 王家钺.2005.信息检索中“相关性”概念的研究.取于2005926,取自http://www.in2in.com/jywang/publ/mfl0102.htm

[2]饶伟红.网络信息资源管理与检索[M].北京:电子工业出版社,2004.

[3]周和玉,郭玉强.信息检索与情报分析[M].武汉:武汉理工大学出版社,2004.

[4]李莹等. 计算机信息检索[M].北京:机械工业出版社,1997