基于共现网络和多元统计技术的信息检索研究结构分析

2018-09-21 11:12张辉王菲
新世纪图书馆 2018年6期
关键词:信息检索检索语义

张辉 王菲

摘 要 论文以2006-2015年国内信息检索领域的论文为研究对象,展示我国信息检索领域研究的阶段性发展变化。经过统计分析,得出近十年来信息检索领域文献的年度分布;利用词频统计和共现关系分析技术对提取的题录信息进行分析得出高频关键词和共现关系网络;采用共词分析和多元统计技术对高频关键词进行处理,得出信息检索领域的研究热点。

关键词 信息检索 词频分析 共词聚类分析 社会网络分析

分类号 G254.9

DOI 10.16810/j.cnki.1672-514X.2018.06.017

信息检索(Information Retrieval)是指按照特定的检索目的,从信息源中找出符合用户需要的信息的过程。随着信息社会和知识经济的发展,信息的来源渠道日趋广泛,数量与日俱增,获取信息的途径也越来越多样化。信息检索相关的文献和研究也越来越多,然而国内的相关研究大多是从信息检索的特定主题领域出发、以针对少量文献的定性评述为主。为了从总体上定位信息检索领域的研究热点,描绘国内信息检索研究的宏观图景,本文采用词频分析、共词分析等常用的文献计量分析方法,选用中国知网数据库中将近10年(2006-2015年) 国内信息探索研究文献进行系统的梳理和统计,期望为该领域研究提供借鉴。

1 近十年信息检索文献数量统计

在一个学科的漫长发展时期内,某段时间发表的论文数量能反应出该学科在此时间段的成长历程和发展方向。本文针对在中国知网以“信息探索”为检索词检索出的8783篇样本论文,采用文献增长逻辑模型计算2006-2015年间的逐年文献累积量,利用EXECL进行回归拟合分析,結果显示本文选取的样本文献的实际增长曲线与理论增长曲线拟合度(R2) 达到0.9278,这表明对选取的8783篇文献的增长分析具有科学的参考意义,通过对此时段文献的分析验证可以作出对我国信息检索研究发展阶段的初步判断。

从2006-2015文献年度统计情况中可以看出,近十年信息检索的发展大致分为两个阶段。第一阶段为2006-2011年,每年的文献量都在900篇左右,在2008年文献量达到1002篇,但2011年之后出现了一定幅度的下降;第二阶段为2012-2015年,信息检索研究的热情稍微有所消退,文献数量逐渐减少,但每年维持在800篇的状态,趋于平衡。从总体上看,我国信息检索论文的发表数量呈连续、均衡递增趋势,只是增长速度缓慢。根据文献计量学奠基人普赖斯的“科学文献增长四阶段”理论,这在一定程度上表明,我国的信息检索研究已处于成熟阶段。

2 近十年信息检索发文核心作者统计

由于所选取的8783篇样本论文中,很大一部分是合著论文,本文为了方便统计,采用平权处理的方法,分别记为每位作者发文一篇,得出的论文总数会高于实际的论文数量。根据十年间信息检索领域期刊论文的总发文量得出的作者人数统计表(表1) 所示,2006-2015年间共有12 644位作者参与发表了信息检索领域的相关文章,其中79.46%的作者发表了一篇文献,12.88%的作者发表了2篇文献。

普赖斯在洛特卡定律的基础上提出了“杰出科学家”或“高产作者”的概念,并提出了著名的普赖斯定律,即完成专业论文总和一半的核心作者的人数在数量上等于该专业作者总数的平方根。根据普赖斯定律并基于发文量的作者人数统计得出,我国信息检索领域的核心作者应为发文量最多的前112人。

在特定研究领域的文献体系当中,科学文献之间都是相互联系的,并不是孤立存在的个体,文献之间的相互引证恰如其分地展现了这些文献间的相互关系。2005年,美国科学家Hirsch首次提出把数量指标和质量指标结合起来作为评价学术的新指标,用h指数来测评各个学科领域的核心科学家[1]。一般认为,科学家的h指数越高意味着其在该学科领域的影响力越大。本文在112位核心作者中,选取发文量在10篇以上的作者进行h指数分析,得出2006-2015年信息检索领域影响力最大的24位作者,见表2。

本文将在2006-2015年间所写的信息检索领域的全部文章按被引次序从高到低进行排序,然后根据h指数计算方法[2],以被引量仍然大于论文序号的文章作为最后一篇论文,并以此论文的被引量作为h指数。可以看出,武汉大学的吴丹教授、中山大学的邹永利教授等,论文的被引频次非常高,可以认为这些著者是该研究领域发展的领头人,是近十年信息检索领域科研群体的实质核心。

3 基于词频统计的共现网络分析

本文将选取的8783篇论文的题录信息导入SATI软件,对2006-2015年信息检索领域学术论文中的关键词进行词频统计。其中总词频频次超过80的前27个关键词的累计词频达7246,占这10年间总词频数(36 492) 的19.85%。统计结果符合集中分散的“二八定律”,说明这些高频关键词能够代表信息检索近10年来的研究热点[3]。27个高频关键词词频统计和排列结果如表3所示,从信息检索高频关键词及频次统计表中可以清晰的看出近年来信息检索领域的研究热点。

除了词频统计外,本文还采用了SATI和Ucinet软件对高频关键词的共现关系进行了研究,并对信息检索领域的热点主题进行了分析。首先采用SATI软件生成27个高频关键词的共现矩阵,然后将得到的共现矩阵导入社会网络分析软件Ucinet,利用可视化绘图软件 NetDraw 绘制出高频关键词共现网络,原始矩阵中关键词的共现关系在社会网络图谱中得到完整展现。图中圆点代表高频关键词结点,结点越大在网络中的作用越大;结点之间的关系用实线连接,实线越粗,代表相互之间的关系越强,处于网络图中心位置的关键词反映出受关注度高的主题[4]。从图1信息检索领域文献关键词共现网络示意图中可以看出高频关键词网络以信息检索、数字图书馆为核心结点,这两个结点与其他结点的联系最紧密,是该领域的核心关键词;其次,搜索引擎、本体和高校图书馆等节点在网络中也起了比较重要的作用,与其他关键词有较强的联系,能够反映出该领域的研究内容。从整个网络来看,核心关键词以外的结点联系也较为紧密,说明信息检索领域已处于成熟期,形成了比较集中的研究主题。

4 基于共词分析和多元统计技术的信息检索研究结构分析

共词分析思想来源于文献计量学的引文耦合与共被引概念,即当两个能够表达某一学科领域研究主题的专业术语在同一篇文章出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明他们的关系越密切、距离越近[5]。根据这种“距离”,利用聚类分析的方法,对某一学科内的关键词加以分类,有利于理清该学科领域内各大主题间的关系,更加直观地呈现出该学科的主要研究结构。

在8783篇学术论文中,利用SATI软件进行数据格式的转换、文献题录信息的抽取、关键词频次的统计,得到27个高频关键词两两同时出现的频次,形成一个高频关键词共词矩阵。高频关键词共词矩阵中列出的是关键词两两共现频次的观察矩阵,反映的是一种表象,因为两个关键词共现频次的多少直接受两个关键词各自词频大小的影响[3]。为了准确揭示关键词之间的共现关系,消除原始共词矩阵绝对值差异的影响,本文使用SATI和Matlab软件,采用表示关键词共现相对强度的Salton系数[3]对矩阵进行标准化处理,计算公式为:Sij=nij/(ni×nj)1/2。式中取值在0~1之间,代表关键词i和j共同出现的概率,分别表示关键词i和j的共现频次[3]。例如,关键词信息检索和图书馆的Salton系数 = 55/(2959230)1/2 = 0.066669。矩阵对角线上的数据表示某个词与自身的相关程度,均为1。标准化后的高频关键词共词矩阵如表4所示。

5 基于聚类分析的信息检索研究结构分析

聚类分析是把具有相似属性的对象通过静态分类的方法分成更多的子集,同一个子集中的成员对象都有相似的一些属性。本文采用聚类分析中应用最为广泛的分层聚类,其分类原理是把每个变量看作一个个体,然后将最“亲密”的个体聚成一类,重复上述过程,即可把所有的个体和小类聚集成越来越大的类,直到所有的个体都分类完毕,最后把全部分类结果汇总在一张谱系图中。我们可以从图中清楚的看出变量间的亲疏关系。共词矩阵经过标准化后,已由离散变量转变为连续变量,利用软件SPSS21.0进行聚类,选择欧式距离平方作为变量距离的测度,聚类结果如树状图2所示。

结合当前国内信息检索领域对研究结构的分类,并根据图2中聚类分析结果,得出信息检索领域的研究结构,从研究结构可看出信息检索研究的主要领域为语义检索、检索策略、网络信息检索技术、信息服务、数据库、信息检索教育。

(1) 语义检索。早在上世纪80年代SIGIR会议论文中已经开始对语义检索这一主题进行讨论,但由于语义信息处理发展水平的局限,语义检索研究自上世纪末伴随着语义网技术的兴起与发展才得以迅速发展。本體是语义网技术的核心部分,承担着语义表达的关键任务。语义网是一个基于某种知识表达语言的、机器可处理的语义网文档集合[6]。与传统网络检索相比,语义检索的优点是能够通过提取信息的语义内容来进一步实现匹配和推理,实现从基本的文献检索到知识检索的转变。然而目前自然语言处理和人工智能还不能支持完全自动化处理,所以本体构建仍然是语义检索发展急需解决的主要问题之一[6]。此外,语义检索目前还面临诸如语义的标注、检索结果的排序以及友好用户接口的提供等方面的问题。

(2) 检索策略。随着计算机检索的发展,“检索策略”的概念被提出并逐步引起重视。所谓“检索策略”,是指为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导[7]。用户在某个检索系统中实施检索,其检索结果是否令人满意取决于用户能否制定出正确的检索策略和该检索系统是否提供完备的检索功能。目前网络信息检索的发展仍然面对很多的障碍因素,如存在网络信息资源建设本身不完善、检索工具的用户体验不便捷和检索者本身信息素养不高等。为了更好地利用网络信息检索技术,规避网络技术中的弊端,提高网络资源检索的查准率和查全率,我们需要制定更加完善的检索策略。很多研究者提出通过制定相应的检索策略来改善检索方式和检索程序,真正提升用户获取和利用网络信息资源的能力。从研究近十年的论文可以看出,如何针对不同的检索障碍制定不同的检索策略实现检索目的已成为近期的研究热点。

(3) 网络信息检索技术。如何在纷杂的网络资源中快速准确地找到目标信息,开发与提升网络信息检索技术显得尤为重要。查阅2006-2015年的文章发现,网络信息检索技术的研究热点具体主要是搜索引擎、个性化、数据挖掘、向量空间模型、查询扩展和lucene等。随着网络信息检索技术的发展,网络检索出现智能化、多样化、可视化、个性化等趋势,为用户准确快速检索互联网信息提供了极大的便利。结合聚类分析的树状图与社会网络图可以看出,当前网络信息检索的热点集中于网络信息检索技术方面的研究,预期对网络信息检索技术研究会成为今后的趋势。

(4) 信息服务。信息服务是指对用户信息进行研究以及组织,再根据用户特征和需求将有价值的信息传递给用户并解决用户问题的一系列过程。实质上是指一种信息的传播、交流和增值的过程。随着现代计算机技术、网络通讯技术、多媒体数字技术等高新技术广泛应用,不仅改变了传统图书馆的组织结构,同时也改变了图书馆信息服务方式与理念。面对大数据环境的冲击,图书馆如何做好信息服务,为用户提供精、准、全的信息检索,提高信息服务质量,将成为相关专家愈来愈关注的研究热点。

(5) 数据库技术。随着信息技术的发展和市场需求的不断变化,数据管理成为用户管理所需数据的一种管理方式,不再只是存储和管理数据。2003年,美国数据库研究人员在集会上提出 Lowell 报告,他们认为:数据库逐渐与网络、通讯、存储等相关领域结合,在数据的收集、组织、管理及存取方面,采用新的技术,使数据库中数据的内容、类型、系统结构的检索技术正在发生改变,同时给信息检索技术带来巨大影响[8]。同时信息检索技术的快速发展在很大程度上又促进了数据库技术的发展,提高管理和组织信息的能力成为数据库检索技术的重要发展方向。由于数据资源分布的网络化,面对互联网中丰富的数据库资源,如何实现多数据库的链接检索、聚类检索、相似检索、自然语言检索都成为数据库检索技术的主要研究课题[8]。

(6) 信息检索教育。随着信息社会的到来,知识经济的发展对人才素质提出了新的要求,网络的出现也带来了信息教育的革命,如何提高信息素养成为人们日益关注的内容。我国高校信息检索教育发展的障碍因素有很多,比如很多高校图书馆并没有充分发挥自身在学校中的职能作用,学校相关部门对信息检索教育的重视程度不够,只将信息检索课程作为“选修课”,这使得学生对信息检索课程的关注度和重视程度大大降低,从而影响了整个信息检索课程的教学质量与教学效果。从实践方面来看,很多高校信息检索教育仅仅是从理论的角度开展,没有很好地和其他学科结合起来,与教师科研课题教学和学生论文写作的联系也非常少,最终导致信息检索教学实施的效果不理想。在欧美等发达国家,信息素养教育已经形成了相对比较完整的教育体系,无论是在学前、在校、还是离校,不同层次的教育体系中都具有完备的信息检索教育课程,与他们相比,我国在信息检索教育方面仍然存在着很大的差距。

6 结语

本文对近10年来国内信息检索领域文献进行了统计分析,从词频统计和共现关系,对研究热点和主题进行了分析,并通过共词分析和多元统计技术对信息检索领域的研究结构进行了统计,归纳出信息检索领域在语义检索、信息检索策略、网络信息检索技术、信息服务、数据库、信息检索教育等六个方面的研究进展。根据相關文献以及聚类结构进一步分析,从发文增长规律、核心作者以及高频关键词分析总结出近10年信息检索领域在研究方面处于一种稳定性、规律性的发展趋势中,国内对信息检索领域的研究已经深入到信息检索的各个领域,呈现出百花齐放的研究态势,特别在由传统的理论研究向技术研究和服务研究方面渗透过程中,数据挖掘、云计算以及智能信息检索的发展以及个性化信息服务研究等范围不断得到扩展。

参考文献:

韩曾丽.基于h指数和知识图谱的学科研究热点分析:以我国图情领域高被引论文为例[J].现代情报,2012(9):163-167.

刘强,丁瑞常.SSCI对我国学者学术研究的影响:以教育学科为例[J].比较教育研究,2014(7):87-92.

邱均平,丁敬达,周春雷.1999-2008年我国图书馆学研究的实证分析(上)[J].中国图书馆学报,2009(5):72-79.

张红春,卓越.国内社会保障研究的知识图谱与热点主题:基于文献计量学共词分析的视角[J].公共管理学报,2011(4):111-121,128.

郭顺利,张向先,李秀霞.我国PIS领域博硕士学位论文的文献计量分析[J].情报科学,2015(12):71-76.

黄敏,赖茂生.语义检索研究综述[J].图书情报工作,2008(6):63-66.

胥林.Web2.0环境下信息检索策略研究[J].中国科技信息,2013(15):89,93.

沙则勋.数据库及其在信息检索中的发展趋势[J].牡丹江师范学院学报(自然科学版),2008(4):15-16.

猜你喜欢
信息检索检索语义
浅析开源情报信息检索与信息鉴别
韩国语“容入-离析”关系表达及认知语义解释
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
英国知识产权局商标数据库信息检索
高职院校《信息检索》课程教学改革研究
中外档案网站信息检索功能比较研究