信息检索
信息检索(图书馆信息学 Retrieval,简称:IR),在狭义上是指用户通过使用检索工具或系统,采用特定的检索策略和方法,从信息资源集合中查找和获取所需信息的过程。广义上首先是信息的标引和存储过程,其次是信息的分析和检索过程。信息检索的本质是用户信息需求与信息资源集合之间进行匹配的过程。用户在查找所需信息时表达需求,系统将需求特征与信息资源系统中的检索语言进行匹配。
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来。到了20世纪70年代,随着通信技术的发展,美国出现了Tymnet和Telnet等数据通信网络,通信费用有所降低,联机检索在美国逐渐普及。在20世纪80年代,随着微型计算机的广泛运用和高密度存储介质——光盘的出现,计算机信息检索进入了光盘检索阶段。在20世纪90年代,随着卫星通信技术、网络技术和多媒体技术的发展,信息检索进入了网络化检索阶段。此外,随着人工智能技术的发展,因特网检索逐渐向语义和知识检索发展,进入智能化信息检索阶段。
信息检索四大基本要素包括信息资源、信息需求、信息获取和信息利用,在实践中经常使用的信息检索技术主要有布尔逻辑检索、截词检索、限定检索和位置检索等。信息检索有多种分类,按检索手段可分为手工信息检索和数字信息检索;按检索对象可分为文献信息检索、数据信息检索和事实信息检索;按组织方式可分为全文检索、超文本检索和超媒体检索,可通过以内容特征划分的主题途径和分类途径以及以外表特征划分的著者途径、题名途径、序号途径和引文途径进行信息检索。
信息检索广泛应用在文档检索、网页检索和社交媒体分析等领域,使人们能够用最少的时间和精力在文献中迅速而准确地获得所需的知识,且能够培养人们获取最新信息和自我知识更新的能力,保持与社会发展同步的知识结构和思维方式,提高独立学习的能力。但是信息检索同样面临着检索结果不全面、标引准确度不高、无法长久主动地提供信息服务等局限性。
历史沿革
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来。
手工检索
信息检索起源于参考咨询工作,读者需要独立使用图书馆提供的书目和索引工具,查询所需的文献和情报。在这个阶段,信息检索行为已经出现,但它是分散和非专业的,缺乏必要的重视和研究,因此未能形成专业化的情报检索系统。19世纪下半叶,正规的参考咨询工作逐渐发展起来,特别是在美国的公共图书馆和大专院校图书馆。20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。索引成为独立的检索工具,书目、文摘开始编制并用于专题文献检索。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向科学化方向发展。
然而,手工检索操作简单、费用低廉、查准率高,但效率很低,查全率不能保证。随着科学技术的发展,文献信息在不断增加。传统的利用印刷型文献进行手工检索的方式已不能适应信息的急剧增长,更跟不上时代发展的步伐。
机械信息检索
机械信息检索系统是在20世纪50年代开始使用的,它利用各种机械装置进行情报检索的机械系统。这是手工检索向计算机信息检索的过渡阶段。1954年,万尼瓦尔·布什(V Bush)博士在“Aswe may think”一文中首次提出了利用机械和电子技术实现情报检索的设想。他描述了一种叫做“Memex”的机器,用于非线性检索。他和美国农业部图书馆馆员拉尔夫·肖共同制造了一台快速检索机,叫做布什·肖检索机。这台机器利用光电原理,对复制在胶卷上的文档进行检索。胶卷的边缘上有黑白点作编码,当遇到检索内容时就停下来。
机械信息检索系统通过改进信息的存贮和检索方式,利用先进的机械装置来控制机械动作,借助机械信息处理机的数据识别功能来代替部分人脑。这促进了信息检索的自动化。但是,机械信息检索系统并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索的工具。此外,它过分依赖于设备,检索复杂且成本较高,检索效率和质量都不理想。因此,机械信息检索系统很快被迅速发展的计算机情报检索系统所取代。
脱机批处理信息检索
在20世纪60年代初期,美国开始利用计算机进行检索工具的编辑和排版,并采用计算机来处理文献记录。他们将文献记录存储在盒式录音磁带上,并编制各种索引,实现了自动照相排版和脱机批处理检索服务。在这个阶段,相继产生了“化学题录”和“医学索引”数据库。然而,由于当时计算机技术条件的限制,数据载体主要是磁带和磁鼓,系统仅由一台计算机和几个相关的文件构成。专职情报工作人员根据用户的需求和说明,将其编制成检索提问,并将各种提问累积到一定数量后一次性输入计算机进行批处理。然后将检索结果返回给用户。这个阶段的特点是用户并不直接参与检索,而且由于数据载体是盒式录音磁带、磁鼓,只能进行简单的顺序查找。
联机检索
在20世纪60年代中期,以半导体为主要器件的计算机的出现,使得计算机的分时处理能力得到了大幅度的提高。同时,强功能检索软件的研制成功,使得脱机检索迅速发展为联机检索。DIALOG和ORBIT等著名的国际联机检索系统开始对外提供服务。然而,由于当时的联机检索是租用公用电话线路,因此检索费用非常昂贵。
到了20世纪70年代,随着通信技术的发展,美国出现了Tymnet和Telnet等数据通信网络,通信费用有所降低,联机检索在美国逐渐普及。随后,卫星通信被用于计算机网络,世界各大计算机检索系统纷纷进入通信网络为世界各地区提供服务,从而发展成为国际联机检索。
光盘检索
在20世纪80年代,随着微型计算机的广泛运用和高密度存储介质——光盘的出现,计算机信息检索进入了光盘检索阶段。光盘以其超媒体、大容量的存储方式,受到了情报界的青睐。光盘检索不像联机检索那样需要投资巨大的基础设施和复杂的技术,检索人员也无须具备专门的检索技术,更不必担心通信、联机打印费用等问题。用户可以不断修正检索策略,得到较为满意的检索结果。光盘数据库的类型除了原来的书目、文摘数据库外,增加了全文数据库。但这种检索方式受到光盘数据库更新的局限,提供的信息有一定的时差。
光盘检索系统分为单机和联机两种。单机光盘检索系统由微机、CD-ROM驱动器、CD-ROM光盘数据库以及检索程序、驱动程序构成,它可以自成系统,供单个用户检索使用。联机光盘检索系统是单机系统的发展,20世纪80年代末出现了光盘塔和局域网支撑的光盘网络。在局域网(如图书馆内部网或校园网)中连接多个用户终端,由服务器管理、运行一组光盘数据库,使多个终端用户能同时检索这些数据库,共享信息资源。
因特网检索
在20世纪90年代,随着卫星通信技术、网络技术和多媒体技术的发展,信息检索进入了网络化检索阶段。这一时期,越来越多的正式出版物被放到网上,各种电子期刊、电子图书、网络化数据库不断涌现,网上有书目型、文摘型数据库甚至全文数据库,信息检索十分方便,而且声像结合、图文并茂、形象生动。因特网使信息资源共享成为现实,其规模、复杂程度和快速发展趋势已经使它成为世界上强大的通信工具,世界各大检索系统纷纷进入因特网。
智能化信息检索
此外,随着人工智能技术的发展,因特网检索逐渐向语义和知识检索发展,进入智能化信息检索阶段。智能检索是把现代人工智慧的技术与方法引入到信息检索系统,使后者具有一定程度的智能特征,在更高的层次上实现其功能。智能化信息检素在对内容的分析理解、内容表达、知识学习推理机制、决策等基础上实现检索的智能。以语义和知识检索为例,相对于传统检索,语义检索除了能够检索出与用户关键词完全匹配的结果之外,语叉检索还能够对关键词进行扩展,从而有可能得到更加理想的检索结果。语义检索会尝试着去理解检索人员想要检索的整个构思,推理出检索人员的检索意图,从而检索得到所需要的结果。知识检索和信息检索的不同,就在于知识检索强调了语义,不会和信息检索一样,只是基于字面的机械匹配,它从文章的语义、概念出发,能够揭示文章的内在含义。做到了语义和概念层次上的标引工作知识检索就提高了查全率和查准率,降低了用户的负担。
原理
信息检索的本质是用户信息需求与信息资源集合之间进行匹配的过程。因此信息检索的一般步骤就是一个问题从提出到解决的过程。这个过程要求信息检索人员从检索到的信息中甄别出能够解决问题的方法,最终解决问题。信息检索的基本步骤一般包括分析检索课题明确检索要求、选择检索工具、确定检索途径、提取检索词、编制检索表达式、实施检索、调整检索策略、输出检索结果。用户在查找所需信息时表达需求,系统将需求特征与信息资源系统中的检索语言进行匹配。如果匹配成功,则所需信息在检索结果中出现;如果匹配不成功,则需要重新分析检索需求,调整检索词进行二次检索。由于网络信息资源体量大且更新快,很多信息资源的内容与元数据描述不相符,因此很难达到信息需求与信息集合完全匹配的情况。在信息检索的过程中,需要根据检索结果,适度调整检索词,使检索结果尽量与信息需求相匹配。
基本要素
信息资源
信息资源是用户需求得到满足的基本保障。信息资源按出版形式可包括图书、报刊、研究报告、会议信息、专利信息和学位论文等,按文献载体可包括印刷型、机读型和声像型等。用户通常通过检索工具来寻找和获取所需的信息资源,这些检索工具是基于对信息资源进行加工和整理的基础上创建的。正是由于用户的信息需求和信息资源的存在,促使人们开发了各种检索工具。通过利用这些工具,用户可以更加有效地发现和获取所需的信息,进而满足他们的需求。
信息需求
用户的信息需求是进行信息检索的必要动力,他们通常通过检索条件来表达这些需求。由于个体差异的存在,不同的用户会有不同的信息需求,即使对于相同描述内容的信息,不同用户的理解也会有所不同。具体表现为人们对信息的敏感程度、选择取向和理解识别能力等。信息需求的意识包含信息认知、信息情感和信息行为三个层面,也是人们学习信息知识并运用信息解决实际问题的基础。此外,用户对检索工具的认知程度也会影响他们正确选择检索工具和制定不同的检索策略。
信息获取
信息获取是信息检索的目标,要达到这个目标则需要了解各种信息来源,掌握信息检索方法,熟练使用检索工具,对信息检索效果进行正确评估。具体体现在人们对信息存储机构(如图书馆、Internet和各种光盘数据库等)的应用能力。当用户确定了合适的检索工具后,他们需要选择满足其信息需求的检索词和检索字段来构建检索条件。在设定了合适的检索条件后,检索工具就会执行查找目标文献的任务。不同的检索策略会导致不同的结果,其中关键的步骤是检索条件的设定。
检索工具的质量直接关系到检索任务完成的质量,这包括用户能否在较短的时间内,以较少的成本找到足够多的目标信息的线索和原始信息。据美国国家基金会在化学工业部内的调查统计表明,科研人员的全部工作时间分配是:收集信息占50.9%,实验论证占32.1%.数据处理占9.3%,计划与思考占7.7%。所以,掌握信息获取技术,可以让研究人员以最快速度、最精确的途径获得所需信息。
信息利用
检索信息资源的目的在于利用,检索效果的好坏与用户的信息需求有直接的关系。实际上,信息资源是一种再生资源,在工程和科技等领域中可以根据不同的目标利用有关的信息。一方面,利用信息将能够扩展视野,避免重复别人的研究工作;另一方面,也能够将已有信息转换成新知识。然而,由于在创建各种信息线索时缺乏统一的标准,不同的信息提供者往往根据自己的习惯来创建信息线索,导致许多符合用户需求的信息线索不能被找到。另外,有些信息线索虽然符合用户的检索条件,但并不完全符合用户的信息需求。
类型
按检索手段划分
手工信息检索
手工信息检索是一种传统的检索方式,它主要是通过使用各种工具书,如文摘、索引、手册、目录卡片等来检索信息。这种检索方式源自于文摘索引工作和图书馆的参考咨询工作。尽管手工信息检索不需要使用特殊的设备,其方法简单且灵活,也容易为人们所掌握,但是它存在一些明显的缺点。由于没有机械设备的帮助,检索过程非常费时且费力,很容易造成漏检和误检。同时,由于纯手工操作,对操作者的知识储备和专业技能要求较高。
数字信息检索
数字信息检索主要指的是计算机检索。自1946年第一台计算机诞生以来,计算机在信息检索领域的应用不断取得突破。随着网络技术和多媒体技术的出现,信息检索技术也在不断更新和变革。随着新媒体时代的到来,数字信息检索的方式也增加了微信检索、新浪微博检索以及各类应用软件内置的检索等功能。这些新的检索方式使得人们可以更加方便、快捷地获取所需的信息,同时也使得信息检索更加智能化和个性化。
按检索对象划分
文献信息检索
文献信息检索主要关注文献的特征,旨在通过各种检索工具(如文摘数据库、索引数据库、书目数据库等)查找文献线索,并依据这些线索找到一次文献。这种类型的信息检索涉及大量的数据,是信息检索的主要组成部分。文献检索是一种深层次的、探寻相关性的过程,它并不能直接给出用户问题的直接答案。然而,通过文献信息检索,科研用户可以对特定课题的主要内容进行深入剖析,为项目研究提供重要的参考和借鉴。
数据信息检索
数据信息检索以数据为主要对象,其目的是通过特定的检索工具(如数值数据库、统计数据库等)查找具体的数据,如文献中的特定数据、公式、图表,或某种物质的化学分子式等。
事实信息检索
事实信息检索以事实为主要检索对象,旨在通过特定的检索工具(如指南数据库、全文数据库等)查找具体的事实性、知识性的答案。与文献信息检索不同,数据信息检索和事实信息检索都是一种确定性检索,用户可以直接使用检索出的信息,从而极大地节省了科研人员的时间,提高了研究效率。
按组织方式划分
全文检索
全文检索是指对存储在数据库中的整本书、整篇文章中的任意信息进行检索。用户可以根据个人需求从中获取相关的章节、段落等信息,同时还可以进行各种频率统计和内容分析。
超文本检索
超文本是一种通过超链接将不同空间内的文字信息组织在一起的网状文本。它由多个信息节点和表示节点之间关联的链组成,形成一个具有特定逻辑结构和语义关系的非线性网络。超文本检索是对每个节点中存储的信息以及信息链构成的网络信息的检索。在进行超文本检索时,重要的是理解中心节点之间的语义连接结构,这需要依靠系统提供的工具来进行图形化展示和节点浏览查询。
超媒体检索
对文本、图像、声音等多种媒体信息的检索,是超文本检索的补充。
检索语言
用户在检索时,需要将检索提问转换为系统所能接收的语言,这就是检索语言。检索语言是用于描述检索系统中信息的内部或外部特征,表达用户信息提问的一种专门语言。常见的检索语言有分类语言和主题语言。
分类语言
分类语言是一种使用分类号和相应的分类款目名称来表达信息主体概念,并将信息按照学科性质进行系统分类组织的检索语言。其中最常见的是体系分类语言,它按照学科体系从综合到一般、从复杂到简单、从高级到低级的顺序逐级展开。常用的检索语言包括《中国图书馆分类法》《国际十进分类法》《美国国会图书馆分类法》《国际专类分类法》等。分类语言能够较好地体现学科的系统性,将同一学科的文献集中起来,有利于用户从学科或专业的角度进行检索,但需要用户知道与概念相对应的分类号。
《中国图书馆分类法》
《中国图书馆分类法》简称《中图法》,是中国各类图书馆和情报单位普遍使用的一部综合性分类法。《中图法》是按照科学分类,结合图书特性所编制的一套系统的体系分类法,分为5大基本部类,又细分为22个基本大类,每个大类下面又根据学科的具体内容层层展开,逐级形成一个等级分明的科学体系。不同的字母与数字组合代表不同级次的类目,其中特殊的是“工业技术”用双字母代表二级类目。
《国际十进分类法》
《国际十进分类法》,全称为Universal Decimal Classification,也被广泛称为通用十进分类法。它是全球范围内规模最大、用户数量最多、影响最为深远的文献分类法。其基础来源于美国的《杜威十进制分类法》(Dewey Decimal Classification,简称DDC),并被广泛应用于科学论文的分类。
UDC采用简单的阿拉伯数字作为标记符号。一级类目使用单个数字(0-9)进行标记,二级类目使用双位数字(00-99)进行标记,三级类目使用三位数字(000-999)进行标记。如果需要进一步细分,则会在每增加一位数后加上一个小数点。
《国际专利分类法》
在1971年3月24日获得通过的《国际专利分类斯特拉斯堡协定》的基础上编制而成的IPC分类表,是全球范围内唯一通用的专利文献分类和检索工具。世界知识产权组织(WIPO)负责对该分类表进行周期性修订。全世界有超过100个国家和地区,以及专利合作条约的WIPO国际局都在使用IPC分类法,其覆盖了全世界95%以上的专利文献。国际专利分类系统的体系结构如下:该系统按照技术主题设立类目,将整个技术领域划分为五个不同等级,分别是部(Section)、大类(Class)、小类(Subclass)、大组(Group)和小组(Subgroup)。
主题语言
主题语言又称主题词语言,其不同于分类语言以学科体系为中心,而是用表达某一事物或概念的名词术语来表达信息的特征。主题语言检索直接、直观,对某一主题信息的检索效率较高。根据编制方法、规则和规范化处理的不同,主题语言一般分为标题词语言、关键词语言、单元词语言、叙词语言。
标题词语言
标题词语言是一种早期使用的主题语言,它采用规范化的词汇来表达事物概念。这些词汇是从自然语言中筛选出来的,包括词、词组或短语。标题词表是一种根据标题词语言编制的词汇表,其中收录了各种标题词及其使用规则,揭示了词汇之间的逻辑关系,是进行信息标引和检索的重要依据。
然而,由于标题词表中的主、副标题词已经实现了固定的组配,使得在标引和检索时受到一定的限制。因此,标题词语言已不再适应现代信息检索系统的发展需求。例如,标题词表《EI标题词表》(Subject Heading for Engineering,简称SHE)已无法完全满足《EI检索期刊》(Engineering 索引,简称EI)的检索需求。因此,《工程叙词表》(Engineering Thesaurus,简称EIThesaurus)已取代了《EI标题词表》的地位。
关键词语言
关键词语言是一种自然语言,直接来源于信息的标题、文摘和全文,并对表征文献主题内容具有实质意义。除了禁用词(如一些冠词、介词、副词和连词)外,凡在概念上有意义的词都可以用作关键词。以关键词为检索入口的检索语言被称为关键词语言。公用关键词能够直接、不受词表控制地表达事物概念,能够及时反映新事物、新概念。关键词语言已经被广泛应用于计算机检索中。在撰写学术论文、毕业论文时,期刊的格式要求中会要求列出3~5个关键词,以便于进行信息检索。
单元词语言
单元词,也称为元词,是能够表达主题的最小的、不能再分割的词汇单位。它是从标题词基础上发展而来的检索语言。单元词具有相对的独立性,但专指度较低,因此对查准率产生较大的影响。
叙述语言
叙词语言是以自然语言为基础,经过规范化处理后,通过词汇的组配来标识主题的一种检索语言。它借鉴了其他检索语言的优点,并进行了改进。在直观性、专指性以及兼容性等方面,叙词语言都优于其他检索语言。
检索技术
布尔逻辑检索
布尔逻辑检索是检索系统中应用最广泛的检索技术之一,同时也是最早建立的检索理论之一。其理论基础是集合论与布尔逻辑。它采用布尔逻辑表达式来表达用户的检索需求,布尔逻辑运算符有三个基本算符:“AND”“OR”“NOT”。使用这些算符可以连接两个以上检索词,以表达检索需求。
截词检索
在西方的语言文字中,一个词的不同形态往往只具有语法意义,对于用户而言它们是相同的。因此,为了减少漏检,大多数检索系统采用截词检索的方法。截词检索是指将检索词进行截断,只取其中的一部分内容进行检索。这种截断操作可以使用特定的截词符号进行,如“*”“#”和“
限定检索
在文献记录中,同样的词出现在不同位置时,其对于表达文献主要内容的作用会有所不同。常用的字段限制符包括“in”、“.”和“=”。其中,“in”是字段限制符,表示检索内容必须出现在特定字段中。例如,“English in LA”表示限制检索结果的语种为英文。而“.”和“=”则分别表示在特定字段中查找该词或该字段的内容。
位置检索
位置检索是指利用位置算符规定检索词在一次文献中的相邻位置关系。位置运算符都隐含了逻辑运算符AND的含义,即由它们连接的两个检索词(或检索式)都必须出现,但位置运算符还对连接的两个检索词(检索式中的词的位置关系)作了进一步的限定。
倒排索引
倒排索引(Inverted index)是一种在特定应用中根据属性值来查找记录的索引方法。在索引表中,每一项都包括一个属性值和具有该属性值的各记录的地址。由于记录的位置是由属性值决定的,而不是由记录本身决定的,因此称之为倒排索引。
哈希索引
哈希索引(HashIndex)是一种特殊类型的索引,它建立在哈希表的基础上。哈希索引只对精确查找有用,适用于使用索引中的每一列的情况。对于每一行,存储引擎会计算被索引的哈希码。哈希码是一个较小的值,可能与其它行的哈希码不同。存储引擎将哈希码保存在索引中,并保存一个指向哈希表中每一行的指针。如果多个值具有相同的哈希码,索引将把行指针以链表的方式保存在哈希表的同一条记录中。
查询扩展
查询扩展的目的是使用与用户检索意图一致的词语来扩展初始的、不成功的查询,或者生成一个最有可能检索到更相关文档的相关查询。当用户提交的原始查询简短且具有歧义性,需要主题相关词语辅助时,查询扩展机制对改善检索性能起到显著作用,这也符合微博检索所面临的困难情况。查询扩展的基本思想是在信息检索过程中通过与用户交互来提高最终的检索效果。
Web查询处理
Web查询处理是搜索引擎信息检索的关键步骤,也是用户与搜索引擎交互的核心环节,主要体现在以下两个方面:
首先,为用户提供准确的查询信息是搜索引擎的重要研究方向。由于查询的特性,当前基于关键字匹配模式的搜索引擎无法完全满足用户的查询需求,此外,随着搜索引擎中结构化和半结构化数据的不断增加,在这些数据资源上进行检索能够得到更直接和准确的结果。
其次,从提供信息到提供服务的转变是当前搜索引擎的一个发展趋势。搜索引擎致力于成为提供互联网上信息、资源(如音频、视频、图像等)以及交互应用(如地图、购物、本地生活服务、新闻、社交等)的服务平台。这种基于服务平台的搜索引擎迫切需要准确理解用户的查询需求,向用户提供更加个性化、场景化的精准信息搜索服务。
检索模型
布尔模型
布尔(Boolean)检索模型是一种经典的信息检索模型,广泛应用于传统的信息检索系统中。它将文档表示为布尔表达式,然后通过与用户查询的表达式进行逻辑比较来检索相关文档。
在布尔检索模型中,用户可以使用逻辑运算符(AND)、(OR)(NOT)将多个关键词连接成一个逻辑表达式来提交查询。匹配函数由布尔逻辑的基本法则确定,通过对文档表达式与用户查询表达式的逻辑比较进行检索。检索出的文档要么与查询相关,要么与查询无关。
向量空间模型
向量空间模型(VSM)是Salton在1975年提出的一种信息检索理论框架,旨在解决布尔模型中二元权重的局限性。VSM采用特征词表达方式,使用TF-IDF(Term-频率/Inverse Document Frequency)对特征词进行权重赋值,利用倒排文件建立索引,使用余弦夹角作为距离度量,并使用查全率和查准率评价检索系统性能。这些成果被成功地应用于基于关键词的中文和英文信息检索中。
向量空间模型的最大优点在于它在知识表示方法上具有巨大的优势。在向量空间模型中,通过在文档资源中提取其特征词,并以某种方式为特征词赋权,将文档资源转化成一组特征向量。与文档资源的表示方法类似,也可以用向量空间模型来表示用户兴趣模型(User Profiles),即基于相同的特征词将用户兴趣模型表示成N维空间的一个向量,向量中的每一维元素由相应的特征词及其权重组成,权重值表达了用户对该特征词的兴趣程度。
概率模型
概率模型(Probabilistic Models)是基于概率排序原则的信息检索方法。它根据文档资源与查询的相关性概率大小进行排序,将最有可能被获取的文档资源放在最前面。概率模型旨在解决信息检索中相关性判断的不确定性和查询信息表示的模糊性问题。在概率模型中,可以通过概率计算来分析特征词之间的依赖关系以及特征词与文档资源之间的关联。这有助于预测文档与用户查询的相关概率,进而按照相关度概率的大小对检索结果进行排序。
检索途径
按内容特征
主题途径
主题途径是一种按照文献内容的主题来查找文献的途径。它以确定的主题词作为检索入口,按照主题字顺进行查找。通常利用主题目录和文献检索工具中的主题索引来实现。主题词的选词参照体系是《主题词表》。使用主题途径检索文献的优点在于,无需考虑文献的学科体系,比较直观,适合特征检索。
分类途径
分类途径是一种按照文献所属的学科类别来检索文献的途径。它以分类号(或类目)作为检索入口,按照分类号(或类目)的顺序进行查找。通常利用分类目录和文献检索工具中的分类目次表,依据的是一个可参照的分类体系,如分类法、分类目次等。使用分类途径检索文献的优点在于,能够将同一学科领域的文献集中在一起进行查找,方便对特定学科领域的研究资料进行系统性的检索。通过学科分类体系,可以快速地定位到相关文献所在的类别,提高检索的效率。然而,分类途径也存在一些缺点。新兴学科、交叉学科和边缘学科在分类时往往难以明确归属,给查找带来不便。此外,从分类途径进行检索必须了解学科分类体系的构建和概念转换为分类号的过程,否则容易发生差错,导致漏检。
按外表特征
著者途径
根据著者的名称查找文献,是以已知的著者(个人著者、团体著者或公司、机构)的名称作为检索入口,通过著者目录、个人著者团体著者索引等途径来查找所需文献的方法。
题名途径
根据篇名或书刊名称进行检索,是通过文献题名(包括书名、刊名、篇名)来查找文献的途径。这种途径以题名作为检索入口,只要知道文献的题名,就可以通过文献的题名索引(目录)查找到所需文献。
序号途径
根据文献的顺序编号进行检索,是通过文献出版时所编的序号(如专利号、标准号、报告号、合同号、文献登记号或人藏号等)作为检索入口,利用序号索引来查找文献的途径。在序号索引中,单纯为数字的序号按数字大小排列,字母与数字混合的序号则先依字母顺序排列,然后再按数字大小排列。如果已知文献号码,使用这种检索途径不仅简单,而且不易造成错检或漏检。通过文献的顺序编号进行检索,可以准确地找到所需的文献资料,提高检索的准确性和效率。在根据文献顺序编号进行检索时,需要确保所使用的索引或数据库是完整和可靠的,以避免因索引或数据库的不完整而导致漏检或错检的情况。
引文途径
通过文献结尾所附参考引用文献或引文检索工具查找引用文献。
评价指标
混淆矩阵也称为误差矩阵,是理解大多数评价指标的基础,用n行n列的矩阵来表示,主要包括如下4个要素:
准确率(Accuracy):准确率是最为常见的一项指标,即预测正确的结果占总样本的百分比,其公式如下:
虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,并不能作为很好的指标来衡量结果。假设在所有样本中,正样本占90%,负样本占10%,样本是严重不平衡的,模型将全部样本预测为正样本即可得到90%的高准确率。因此,也就衍生出了其他两种指标:精确率和召回率。
召回率(Recall):召回率又叫查全率,它是针对原样本而言的。召回率表示在实际为正的样本中被预测为正样本的概率,其公式如下:
精准率(Precision):精确率又叫查准率,它是针对预测结果而言的。精确率表示在所有被预测为正的样本中实际也为正的样本的概率。即在预测为正样本的结果中,有把握可以预测正确的概率,其公式如下:
F值:在信息检索文献中,将精确度与召回率的调和平均值称为F值(F-easure)。这个指标实际上借由精确度和召回率的加权调和平均值对模型的性能做出统计分析。
检索方法
追溯法
追溯法可分为向前追溯法和向后追溯法。
向前追溯法
向前追溯法是一种传统的获取文献的方法,它利用有关文献后所附的参考文献进行追溯查找。由于著者文献后所附的参考文献一般早于著者文献5~10年时间,因此通过追溯法只能检索到著者文献之前5~10年范围内的文献。此外,由于著者文献后所附的参考文献数量有限,摘录年代也不连续、不系统,而且当引用文献很多时,可能会掺杂某些参考价值不大的文献,这会影响到文献检索的效果。因此,只有在文献检索工具不齐全或计算机网络环境不好的情况下,才会采用这种方法。
向后追溯法
向后追溯法,也称为引文法,是利用文献之间的引用和被引用关系,通过引文索引这种文献检索工具(如美国出版的《科学引文索引》)进行文献追溯查找的方法。引文索引是按照期刊论文后面所附参考文献的著者姓名顺序编排的。在这种索引中,被引用著者的姓名下会按年代列举引用文献的著者及其文献出处。若要找到引用文献的标题,则可以再利用来源索引,在引文索引中出现的引用文献著者的文献标题及其查找原文的线索都可以从来源索引中找到。由来源索引中列出的引用文献,就其内容来说,一定比被引用文献内容新,某些论点有创新。如果再以引用文献为起点继续进行检索,就可以查到一批内容比原来文献更新颖的相关文献。这种方法可以避开分类法和主题法检索文献的难点。有时,只需知道某论文的著者,亦同样可以检索到所需要的文献。另外,它对检索边缘学科、交叉学科的文献也是一种十分有效的方法。
工具法
工具法是一种利用文摘、索引、题录等各种文献检索工具(文献数据库)查找文献的方法。由于这种方法是文献检索中最常使用的一种方法,因此也被称为常用法。工具法有顺查、倒查和抽查3种方法。
顺查法
顺查法是一种按照时间顺序从前往后查找文献的方法。它以课题研究开始年代为起点,利用文献检索工具,逐年查找,直到近期为止。顺查法的优点是漏检较少,查出的文献可以及时筛选,因此查全率和查准率比较高。其缺点是检索的工作量比较大,需要有一套齐全的文献检索工具和较充裕的检索时间。使用这种方法检索出来的文献比较系统,有助于了解学科的产生、演变和发展情况。
倒查法
倒查法与顺查法相反,即从近期向远期逐年查找。倒查法检索效率比顺查法高,花费时间不多,却能检索到内容新颖的文献。
抽查法
抽查法是一种根据学科发展特点,选择学科发展迅速、文献发表较多的年代进行集中检索的方法。它的优点是检索时间相对较少,但能够获取较多的相关文献。然而,使用抽查法需要检索者熟悉学科发展的特点,了解学科文献集中发布的时间和范围,才能达到最佳的检索效果。
交替法
交替法也称循环法,实际上是追溯法和工具法的相互结合。根据结合的不同,又可以分为复合交替法和间隔交替法两种。
复合交替法
复合交替法是一种结合了工具法和追溯法的文献检索方法。首先,利用文献检索工具查出一批有用的文献,然后利用这些文献后所附参考文献中提供的线索,追溯查找,扩大检索范围(即先工具法、后追溯法)。或者先掌握一批文献后所附的参考引用文献线索,分析查找这些文献所适宜的各种检索途径(如著者途径、分类途径、主题途径等),然后利用相应的文献检索工具扩大检索范围,获取新的文献线索(即先追溯法、后工具法)。
间隔交替法
间隔交替法是一种结合了工具法和追溯法的文献检索策略。首先,利用文献检索工具查出一批有用的文献,然后利用这些文献所附的参考文献追溯查找,扩大检索范围。之后,跳过一定时间(一般为5年),再用工具法进行查找,查出一批新的有用文献后,再进行追溯。如此循环进行检索。之所以可以跳过5年再直接从工具书中查找文献,是因为根据文献发表的特点,一般5年内的重要文献会被引用,也就是说在参考文献中会出现。
应用领域
文档检索
文档检索(Archie)为用户提供了一种用于搜索和获取电子目录资源的功能。它实际上是一个大型的数据库,以及与该数据库相关的检索方法。文档检索最早是一个由麦吉尔(McGill)大学的学生开发的计算机科学项目。文档检索的核心是一个数据库,该数据库包含了可通过断点续传获取的资源信息,包括文件名、文件长度、存放文件的计算机名及目录名等详细信息。文档检索数据库大约每月与每个站点进行一次FTP连接,并生成该站点所提供内容的列表。然后,这个数据库会向各个文档检索服务器发布,以便每个人都可以使用它进行查询。
网页搜索
在众多的网络主机及网页中,要连结某一个特定的网站却又不知道该网站的网址时,就必须先进行网页搜索。一般说来,网页搜索的工作都是利用门户网站中的搜索引擎来完成,只要在搜索引擎的查询栏中输入关键字,就可以进行相关网站、网页的查询。网页索引技术就是依据一定的逻辑规范或排列顺序去组织和管理文档数据库的方法。应用网页搜索的本质特征是,只揭示网页内容的大致主题、网页来源的“出处或线索”性信息。对于数据组织或用户查询而言,网页搜索并不直接提供完整的网页本身的内容信息。搜索引擎使用网页搜索的主要作用是,为广大网络搜索用户快速地获得海量网页的全文内容提供准确且高效的线索性指引。
社交媒体分析
社交媒体数据挖掘源于人们对社交媒体数据分析的需求。社交媒体上的用户由于其本身的“社会属性”形成了在线的社会。在这个社会中,用户与用户之间发生很多不同类型的“交流”,包括一般的交谈、给予评价、分享自己的状态更新、对他人的分享和信息表示赞赏。通过在社交网站上收集用户信息,营销人员可以更好地理解客户行为、目标受众细分及受众黏性。
检索策略的编制及调整
检索策略是为实现文献查全、查准、查新这些目标而制定的方案。主要包括合理选择数据库,灵活选用检索途径,正确编写检索式,实检及反馈调节等步骤。
合理选择数据库
信息检索的效果一方面取决于现有的数据库资源,另一方面则依赖于检索者对各检索系统的特性、功能的了解,以及对于各检索数据库的收录情况、检索途径的了解。
灵活选用检索途径
不同的数据库有不同的检索途径。只有认真分析检索课题,并熟悉和掌握数据库各条途径的使用和特点,才能选择正确的检索途径,获得较高的检索效率。
正确编写检索式
检索式,又称检索提问式,是用户向计算机检索系统表达检索需求的句式。根据对检索课题实质性的分析,将最能表达课题内容和概念的自然语言转换为计算机检索数据库能够识别的检索标识,并用各种检索符号进行合理的连接。
实检和反馈调节
在检出结果后,可以进行多次修改,直到满意为止。在调整检索式时,可以从检出信息的数量和质量两个方面进行考虑。如果检索结果不够理想,需要分析原因并及时修正。如果结果质量不高,内容与原课题不符,则应考虑是否检索词选择有误或检索式编写不当,需要重新分析选择并修改检索式。如果检出结果数量太多,可以在原检索式的基础上进行修改。
检索系统
SCI
1961年,美国科学信息研究所(Institute for Seientific Information,ISI)在美国费城推出了著名的科学引文数据库SCI(Science Citation Index)。SCI是全球闻名的引文索引数据库和科技文献检索工具,与EI、ISTP一起被称为全球三大检索系统。由于SCI具有创新性的内容、高质量的数据以及悠久的历史,它被誉为“全球三大索引之首”。
SCI收录了涵盖数理化、农、林、医、生物学、天文、地理、工程技术等自然科学各学科的近8000种高质量核心期刊,时间跨度近百年。所收录的文献主要是期刊论文,还包括会议录、书评、专著等,涉及170多个学科。SCI不仅提供文献本身的各项信息,还以期刊论文、会议文献等资料的参考文献(引文或引文文献)的作者、出处等项目为依据,按照引证(来源文献)与被引证(引文文献)之间的关系进行排列和组织,从而形成一种独特的检索语言和检索方法。
EI
美国工程索引(The Engineering 索引,EI)是全球著名的工程技术领域的权威大型文摘性检索工具之一,创建于1884年。最初由美国工程师学会联合会下设的工程索引公司负责编辑出版,早期以印刷版、微缩版等形式提供信息产品。自1969年开始,EI提供EI Compendex数据库服务。
在EI数据库主页,用户可以通过默认的快速检索界面进行检索。该界面支持最多三个检索途径的逻辑组配,使用户能够快速有效地找到所需信息。此外,EI还提供了专业检索方法,以提供更强大和灵活的检索功能。在专业检索中,用户需要使用检索词和布尔逻辑运算符以及检索字段限制符来构建检索式。
ISTP
科学技术会议录索引(Index to Scientific\u0026Technical Proceedings,ISTP)由美国科学情报研究所(Institute for Scientific Information)编辑出版,自20世纪80年代末创刊以来,以月刊形式每年度发布,是一种用于检索多学科会议论文的索引工具。
会议录内容构成了ISTP的主要部分,主要报道以期刊或图书形式出版的会议录。这些会议录按照会议录编号的顺序排列,著录内容包括会议录名称、会议名称、会议日期、地点、主办单位,以及会议录的书名和副书名、从书名和卷号、期刊名称、全部作者及第一作者的地址等详细信息。
Google是由斯坦福大学的博士生拉里·佩奇(Larry Page)与谢尔盖·布林(Sergey Brin)于1998年9月创立的。Google是最早被公认为全球规模最大的搜索引擎。
Google搜索提供常规搜索和高级搜索两种功能,Google默认的中英文主界面为基本检索,以Google中文高级检索页面为例,该页面提供了对检索词在搜索结果中出现的4种限定:包括全部字词、包括完整字句、包括至少一个字词、不包括字词。在高级检索界面中,还可以对语言、地区、文件格式、日期、字词位置、网站和使用权限进行限定。用户可以根据自己的检索需要来进行限定,以提高搜索的准确度。
中国知网
1999年6月,清华大学、清华同方发起了以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目工程,简称中国知识基础设施工程(China National Knowledge Infrastructure,CNKI)。中国知网以中文文献为主,同时汇集了多种类型的外文文献,资源类型包括期刊、学位论文、会议论文、年鉴、报纸、图书、标准、专利、科技成果等。
中国知网的检索功能包括简单检索、高级检索、专业检索、作者发文检索及句子检索。简单检索是一种类似于搜索引擎的检索方式,用户只需在检索框中输入目标检索词,选择相应的检索字段,点击“检索”即可获取相关文献。在高级检索中,用户可以通过“+”增加或减少相关的检索条件,利用“并含”、“或含”及“不含”三种逻辑关系实现检索词的组配,从而构建检索式。
OPAC
OPAC(Online Public Access Catalogue),即联机公共目录检索系统,于20世纪70年代初发端于美国的大学和公共图书馆,是供图书馆读者查询馆藏的联机目录检索系统。它取代了卡片目录手工检索系统,通过计算机网络对馆藏的信息资源进行检索。在OPAC上可以检索图书馆的书目数据库。OPAC是网络上的公共资源,凡互联网用户都可检索,读者也可检索国内外其他图书馆的OPAC。
OPAC检索系统的功能包括书刊信息检索、个人信息检索等,OPAC书刊信息检索指馆藏书刊目录信息查询,用户可以通过书名、刊名、作者、分类号主题、ISBN、ISSN、出版社等多种途径,对馆藏印本资源进行检索。