在文献检索的过程中,经常有同学提出疑问:为何检索获得的文献与自己所需的主题相关度不高?针对这个问题,本期数据库案例,将从检索词的选取、检索字段的选择两个方面来谈谈这个话题。
一、检索词的选取
选择有实际意义的、恰当的检索词,实际上是个学理问题。多阅读相关专业的图书专著、核心期刊论文,多关注领域内学者使用的关键词,建立扎实的专业基础,在充分了解本专业和学科的知识框架、学科域值的前提下,才能提升判断并确定恰当检索词的能力。
1.确定检索词的基本原则
确定的检索词要能提炼研究课题的主要概念与隐含概念;
注意中/英文的规范表达;注意同义词、近义词、上位类词、下位类词等;注意全称、简称,学名、俗名等;
避免选择概念过大或者过小的词语作为检索词;
避免长尾关键词:单词组成较多的关键词,通常是3-5个单词或者更多词组成的词组和短句、问句;
避免无意义检索词,如地域:中国、我国、中美,中日等;连接词:和、与、及等;研究角度:未来、问题、情况、研究、分析、模式、程度、测量、质量等。
2.中文检索词的规范
通过工具书、字词典、网络搜索引擎等查清词义和同义词、近义词等,以CNKI中国知网学术文献总库(以下简称CNKI)为例。
(1)CNKI的知识元检索:知识问答、百科、词典、工具书等。
(2)数据库的智能推送,可获取相关检索词。
(3)数据库检索结果的主题分析和关键词分析。
CNKI检索结果中的主题分析,可了解一个大主题下的多个分主题。“超星发现系统”的关键词分析,“万方数据资源系统”的“相关热词”也具备相同功能。
如下图:以“中美关系”这个大主题为例,下列有“中美贸易战”、“中美贸易摩擦”、“对华政策”等多个分主题,为进一步精确检索和细化研究主题提供了参考。
3.英文检索词的规范
英文检索词的规范度直接影响着英文文献检索的相关度。
(1)注意通配符*的使用,如Language translation、Language translate、Language translating等检索词,可以用Language translat*进行检索,提高检全率。
(2)注意使用精确检索,如对于英文固定词组“Knowledge graph”、“data mining”这两个主题进行高级检索,使用引号进行精确检索获取的检索结果相关度更高。
(3)通过英文辞典,厘清英文检索词的含义及同义词、近义词、上下位词的关系。如EBSCO ASP+BSP全文期刊库的“Academic Search Premier-Subject Terms”、Westlaw Classic法律在线数据库的“Black's Law Dictionary”,或是相关翻译软件等工具。
以查找有关“中美关系”的外文文献为例。输入检索词“SINO-US relation”,但相关文献不多。通过翻译软件和其它词典,查找到同义词和近义词,如“Sino-U.S. relation”、“Sino-USA relation”、“US-SINO ralation”、“US-China ralation”、“U.S.-China Relations”、“U.S.-SINO Relations”等,每一个不同的表达都可以检索出相应的文献。如果没有注意到这些不同的表达,很可能会遗漏这一主题的重要文献。
二、检索字段的选择
一般来说,当检索词出现在篇名、关键词、摘要、主题等检索字段中时,检索获得文献的相关度会更强。
如在CNKI中,直接选择篇关摘字段,或者分别选择篇名、关键词、文摘、主题字段等,输入相应的检索词,更容易找到相关度高的文献。
三、检索案例
当用某一检索字段进行检索,无检索结果或者检索结果太泛,则需拆分主题,选取多个检索字段进行高级检索,可提升检索文献的相关度。
案例一:同学A咨询,查找“市场情绪和股市定价之间的关系”的论文,怎么检索不出来呢?
同学A的检索式如下,未获得任何检索结果。
在此需要将“市场情绪和股市定价之间的关系”进行拆分,得到有实际意义的两个检索词:市场情绪、股市定价,再增加同义词:投资者情绪、股价,通过布尔逻辑运算符进行高级检索。
选择“篇名”字段进行一次检索,获得158条检索结果;
选择“篇关摘”字段进行二次扩展检索,扩大检索范围,获得1189条检索结果。
案例二:同学B咨询,检索主题是“场景文本识别中的注意力机制研究”,检索出来的文献太泛,没有办法精准地检索出自己想要的文献,怎么办?
同学B采用了一个主要主题“场景文本识别”进行检索,检索式如下,检索结果过泛。
为提高检索相关度,在提炼检索词时,还需关注另一个主题“注意力机制”,将两个主题进行组配检索,检索结果缩小至545条,增强了检索结果相关性。