对数透视法在信息检索结果评价中的应用研究

2017-02-27 00:31杨海锋
现代情报 2017年1期
关键词:信息检索评价指标

杨海锋

〔摘要〕信息检索评价得到了学者们的广泛研究,而从用户认知的角度来对其进行研究逐渐成为学者们追捧的热点。本文从用户认知的角度出发,借助布鲁克斯提出的对数透视法思想,对目前比较常用的评价指标进行了改进,将物理世界(“世界1”)中的评价指标通过“对数尺”转换到了“世界2”和“世界3”的精神世界,从用户所获取的情报量对其检索结果进行了评价,克服了以文献数量为计量单位评价的不足。同时,通过应用分析对其改进的评价指标进行了说明。最后提出了本研究的不足和需要改进的地方。

〔关键词〕对数透视法;信息检索;评价指标;用户认知

DOI:10.3969/j.issn.1008-0821.2017.01.012

〔中图分类号〕G252.7〔文献标识码〕A〔文章编号〕1008-0821(2017)01-0066-05

〔Abstract〕Information retrieval evaluation has been widely researched to scholars,the research from the perspective of cognitive has gradually become a hot pursuit of the scholars.Based on logarithmic law proposed by Brooks,this paper made some changes to commonly used evaluation index,from the perspective of user cognition,change evaluation measures in material“world 1”to spiritual“world 2”and“world 3”by logarithmic law,evaluated result by information amount instead of the number of documents.At the same time,the article did a application analysis to explain the changes and pointed out the deficiency and what should do at last.

〔Key words〕logarithmic law;information retrieval;evaluation measures;user cognition

信息检索评价得到了学者们的广泛研究,最常用的评价指标包括召回率、准确率、P@N(Precision at rank N)、AP(Average Precision)、MAP(Mean Average Precision)、NDCG(Normalized Discount Cumulative Gain)等[1-3]。上述评价标准大多(除NDCG外)是以所检索出文献(档)的数量作为计量单位,并在此基础上形成常用的评价指标,同时,这些评价指标仅仅针对二元相关性,要么相關,要么不相关。NDCG方法的出现弥补了二元相关评价方法的不足,它能够系统地结合文档排序和相关性得分,可以说是对文档满足用户需求的情况进行了考虑。用户在信息检索过程的认知行为是检索评价的重要依据,但由于认知行为的隐蔽性和不确定性,传统的评价指标对其考虑较少。因此,可从用户认知角度出发,对传统评价指标进行改进,力求最大程度衡量用户检索过程的满足感。布鲁克斯情报学认知观范式,对情报学发展起到了重要的影响推动作用,其思想不断地被使用、推广、延伸和完善。通过他提出的对数透视法,我们将尝试通过“对数尺”将物理世界的“硬”评价转化到精神世界的“软”评价。本文基于此展开研究,在相关研究的基础上,对对数透视法理论进行了较为全面的梳理和分析后,对传统的信息检索评价指标进行了改进,并通过相关的应用对其进行了说明。

1相关研究

1980年,英国著名情报学家布鲁克斯发表了一组《情报学的基础》论文,提出了当前情报学研究的现状和特点,并较宏观地介绍了一些定量性的研究方法。比如,情报学的任务是探索和组织客观知识世界(“世界3”),提出了对数透视法、情报学基本方程等。对于对数透视法,布鲁克斯指出解决物理现象所采用的计算方法,应用于精神现象以及情报过程的定量化时要采取修正的方法,这种修正方法就是利用对数透视法来加以变换,不能简单地用物理数据来度量认知范围的问题,应当进行相应的变换[4]。信息检索结果评价中,传统的查准率和查全率衡量指标是布鲁克斯称之为物理现象采用的计算方法,它忽略了不同用户的信息需求和满足程度,必须进行相关的修正。因此,尝试将对数透视法则应用于信息检索结果的评价中,将可能更加客观地衡量不同用户主体对检索结果的满意程度。

关于对数透视法的应用,学者们对其进行了一些研究,但只是提到相关的现象,没有专门以此展开讨论。马费成在检索系统的效率评价问题中指出,人的情报吸收过程呈现情报递减规律,传统的检全率错误地认为每篇文档含有等量的情报,计数文献是一种客观活动,而情报检索过程是人的主观活动和情报过程,同时举例说明了如何使用对数透视原理对检全率进行了改进[5]。马费成提出的情报学的6个原理中,对数透视原理便是其中重要的一条原理[6]。娄银银等指出,根据情报学基本方程式和对数透视法,可构建动态认知的智能网络信息检索系统,并在保证知识含金量不变的情况下,适当降低召回率来提高准确率[7]。肖楠等分析了网络环境下的对数透视原理,在基于对数透视原理的网络检索效率中指出,用户即使只选择100条结果集中的10条,其检全率是50%而不是10%[8]。邓慧敏将对数透视原理应用于网络链接分析中,验证了对数透视原理在银行网站链接中的适用性[9]。同时,从文献查阅过程发现,关于对数透视法在信息检索评价中的研究相对较少,且以理论研究为主。

在一些检索结果评价指标的研究中,布鲁克斯的对数透视法思想其实也已经融入其中。归一化惩罚累积增益(NDCG)评价方法,是一种多级的相关排序方法,采用了对数惩罚函数对排名较低的文档进行了惩罚,其实和布鲁克斯对数透视原理有非常相似之处[4],即说明不同文档所包含的情报量不同。对于AP评价指标的争议,比如主题上的AP值不符合正态分布、边界0~1情况、对检索困难的主题关注较少等,Robertson[10]对AP进行了修正,涉及到公式转换和平滑,在GMAP(Geometric MAP)的基础上提出了logAP(即lAP),同时也关注到了ltAP(即logitAP=AP1-AP)[11],并对两者边界问题进行了定义。同时又从概率的角度解决了0~1边界问题,这里使用到了Laplace平滑,即可得到平滑后的sAP、slAP以及(yet another AP)yaAP=logit(sAP)。最后,在假设AP概率符合正态分布的基础,对上述变换评价指标进行了卡方检验,yaAP取得了较好效果。Kelly[12]认为信息检索评价应该从检索背景(包括用户差异性、信息需求等)、人机交互、检索性能(通过常用评价指标衡量)、易用性(效果、效率、满意度等)4个方面进行考虑,常用的量化评价仅在检索性能展开。信息量和用户满意度也是评价的重要指标,信息量评价关注相关性的相对评价而不是绝对衡量,假设让用户从信息量递减的顺序对文档进行排序,而满意度是用户检索过程中的体验感受,影响下次检索过程的执行,常通过用户的问卷或面谈获得。文献[13]对信息量在信息搜寻和检索环境中的概念进行了再讨论,认为信息量是以用户为中心的概念,能对信息检索过程的有效性进行评价,能构建传统评价到用户扮演重要评价角色的桥梁,并且克服了传统方法中认为排序中文档之间独立性假设的不足。Tague-Sutcliffe认为,信息检索系统评价应以检索过程的信息量来进行衡量,提出了信息量的估量方法以及数学公式的推导过程,反映了面向用户、上下文相关、对数响应的特性,用检索到的词条信息量来对检索结果排序,并指出词条信息量的评价方法,而且这些词条信息量满足对数特性[14-15]。

信息检索过程可从系统(算法)观和认知观进行分析[16],系统观(“世界1”)主要体现在Cranfield和TREC评价模型中,它在实验室环境中通过控制实验变量和重复实验达到结果的可靠性,这个观点关注系统,并对用户、用户需求、用户行为做了抽样假设,为了计算方便,仅仅考虑系统的局部特征而整体考虑不足[12]。信息检索用户的认知角度,也就是布鲁克斯所提出的“世界2”和“世界3”范畴,它在现实操作环境进行信息检索研究中,认为信息检索过程可描述为认知任务的信息搜索过程,交互过程涉及因素多且具有内在的复杂性,关注用户信息搜索和检索、用户信息交互、人机交互过程中的认知活动,认知角度试图对基本的信息检索现象和概念做一个全面的理解,比如信息需求的本质、认知不一致和检索重叠、逻辑不确定性、“文档”的概念、相关性衡量、实验环境设置等,这里面更多的依赖社会学和心理学的研究方法[17-18],它是物质世界(系统或算法观)到精神世界(认知观)的转换。同时,两种观点的融合在不断增强,Borlund[19]指出合并两种观点的混合方法是必要的,并继而提出交互式信息检索评价的框架。Ingwersen等[20]暗示两者研究中的融合,比如评价中共同使用标准的TREC数据集,对相关性假设进行简化等。

总之,将物质世界的信息检索相关方法改造移植到精神世界范畴的研究中,虽然学者们所采用的方法和关注领域不尽相同,但都是对信息检索过程中精神世界知识的探索,本文也不例外。

2传统评价指标修正

传统的信息检索评价指标是“硬指标”,是布鲁克斯所划分的“世界1”的外在表现,而从用户认知角度出发的检索评价指标可称为“软指标”,是对布鲁克斯所提到的“世界2”的探索,以及最终转变到“世界3“,是对传统评价“硬指标”的修正。

3应用分析

在对传统评价指标进行改进的基础上,本节对其进行了应用分析。图2显示了与某查询相关的文档以及检索结果排名前10的文档,表1给出了前10个排序位置的召回率和准确率,分为传统方法和应用对数透视法后(即公式(5)、(6))的改进方法两种情况。

从上面的图表可以发现,对于文档列表的每个位置,改进后的召回率升高,但准确率降低了,这和召回率升高而准确率下降或不变的现象相符合。

通常也可以绘制召回率—准确率图。定义标准召回率等级是0.0~1.0,增量为0.1。插值方法为在任何标准召回率等级R处,定义准确率P为[21]:

P(R)=max{P′;R′≥R∧(R′P′)∈S}

其中,S是观察点(R,P)的集合。标准召回率等级上的准确率如表2所示,其中,准确率1表示传统评价方法中的插值,而准确率2描述了使用对数透视法后的插值结果。图3为表2图示后的召回率-准确率折线图。

从图3可以看出,两个折线图的形狀相当,都产生了一个单调递减的函数,即准确率的值随着召回率的升高而下降或者不变。在TREC8中的Ad hoc任务中,在50个查询上对每个标准召回率上的准确率求算数平均值,某TREC系统的11点插值召回率-准确率平均曲线逐渐趋于平滑[21]。同理,随着查询数的不断增加,改进后的正确率-召回率平均曲线也会逐渐趋于平滑。改进后的P@N、AP和MAP也可在上述计算基础上进行,这里不再赘述。

从上述的分析得出,相对传统的评价指标,改进后的评价指标评价效果相当,但评价结果的数量级不同,改进后的曲线相当于从准确率1曲线的位置向下移动到了准确率2的位置。同时发现,同样的召回率,准确率2比准确率1要低,这也说明检索结果中相关文档的信息含量不同,靠后的文档可能会产生更多的噪声。

4评价与总结

4.1结论

将对数透视法则应用到信息检索评价中,是基于用户认知角度对信息检索评价的探索,从中得到了一些好的结论:

1)能从用户认知的角度出发来对检索结果进行评价,是对信息检索结果评价方法的提升和改进,并且提出了量化方法,符合当前研究的方向。

2)对用户来说,每篇文献所包含的情报量是不同的,用户吸收文献的内容呈现报酬递减规律,即靠前的文献能吸收更多的情报内容,而对于后读的文献,由于其内容必然与前面的文献有重复之处,所以获得的新内容就不及靠前的文献[5]。

3)通过对数透视法,将通常使用的物理评价方法转化到了精神世界范畴的量度。

4)克服了评价中以文献数量(假设每篇文献包含情报量相同)为计量单位的不足,通过用户所获得的情报量来对检索结果进行评价。

4.2不足

由于对数透视法思想提出的年代较早,后续可借鉴的研究不多,因此本研究相对简单且存在一些不足的地方:

1)对传统的评价方法中的准确率和召回率,两个公式中,分母代表的文献数量所包含的情报量前者不高于后者(只要相关文档包含情报,非相关文档情报量为零),因此,对有准确率来说,分母不适合对数法则,但分子通过对數法则后,一般情况下准确率有所下降,召回率会有较高的提升,这比较符合准确率和召回率互逆相关性(通常情况下)的解释。这种情况类似于评价指标(R-precision),该评价指标中召回率和准确率相同[22]。

2)对数透视法目前适用于二元的相关性评价指标中,在按相关性排序的方法中也用到了对数计算,其过程可以看作对数透视法则思想变换[4,10,13],两者之间的关系还有待于进一步研究。

3)对数透视法则中,情报区间是一片联系的平面空间区域,但对于检索结果无序排列的情况,显然不能得到满足,但不影响最终计算结果。如果检索结果是按照相关度由高到底排序的话,那么用户所获得的情报量比无序结果要多的多,对其评价可使用两次对数透视法则[5]。

4)应用结果显示,改进前后的评价指标评价效果类似,只是数量级发生了变化。因此,两种评价指标的适用范围和环境还不很清楚。

总之,从用户角度来对信息检索结果进行评价是研究的一个热点,对数透视法只是提供了一种新的研究方法。由于对数透视法提出较为宏观,笔者对其思想把握深度还不够,因此,研究过程中,理论研究扩展不强,分析方法和数据收集还较为简单,说服力还不够,对于其适用性和可靠性还需一定的探索。

参考文献

[1]Voorhees E M.Evaluation by Highly Relevant Documents[C]∥Proceedings of the 24th Annual International ACM SIGIR Conference,New Orleans,Louisiana,2001:74-82.

[2]Manning C D,Raghavan P,Schutez H,et al.Introduction to Information Retrieval[M].Cambridge University Press,2008.

[3]Jrvelin K,Keklinen J.Cumulated Gain-based Evaluation of IR Techniques[C]∥ACM Transactions on Information Systems,2002,20(4):422-446.

[4]Brookes B C.The foundations of information science:Part Ⅲ.Quantitative aspects:objective maps and subjective landscapes[J].Journal of Information Science,1980:269-275.

[5]马费成.论布鲁克斯情报学的定量方法[J].情报科学,1983,(4):1-9.

[6]马费成.论情报学的基本原理及理论体系构建[J].情报学报,2007,26(1):3-13.

[7]娄银银,刘春茂.布氏情报学思想对网络信息检索结果的认识优化[J].情报杂志,2008,27(8):61-63.

[8]肖楠,任全娥,胡凤.网络环境下的对数透视原理[J].图书情报知识,2007,(3):60-64.

[9]邓慧敏.基于网络链接分析的对数透视原理的适用性探讨[J].中山大学研究生学刊:社会科学版,2013,34(3):51-61.

[10]Robertson S.On smoothing average precision[M]∥Advances in Information Retrieval.Springer Berlin Heidelberg,2012:158-169.

[11]Cormack G V,Lynam T R.Statistical precision of information retrieval evaluation[C]∥Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2006:533-540.

[12]Kelly D.Methods for evaluating interactive information retrieval systems with users[J].Foundations and Trends in Information Retrieval,2009,3(1-2):1-224.

[13]Freund L,Toms E G.Revisiting informativeness as a process measure for information interaction[J].Decision Analysis,2004,3(3):70-90.

[14]Tague-Sutcliffe J.Measuring the informativeness of a retrieval process[C]∥Proceedings of the 15th annual International ACM SIGIR Conference on Research and development in information retrieval.ACM,1992:23-36.

[15]Tague-Sutcliffe J,Hayes R M.Measuring information:An information services perspective[J].Library Quarterly,1996,66(2):222-222.

[16]Ingwersen P,Willett P.An introduction to algorithmic and cognitive approaches for information retrieval[J].Libri,1995,45(3-4):160-177.

[17]Ingwersen P.Cognitive perspectives of information retrieval interaction:elements of a cognitive IR theory[J].Journal of documentation,1996,52(1):3-50.

[18]Sutcliffe A,Ennis M.Towards a cognitive theory of information retrieval[J].Interacting with computers,1998,10(3):321-351.

[19]Borlund P.The IIR evaluation model:a framework for evaluation of interactive information retrieval systems[EB/OL].http:∥www.informationr.net/ir/8-3/paper152.html,2016-04-20.

[20]Ingwersen P,Jrvelin K.The turn:Integration of information seeking and retrieval in context[M].Springer Science & Business Media,2006.

[21](美)Croft W B,等.搜索引擎-信息檢索实践[M].刘挺,等译.北京:机械工业出版社,2010.

[22]Aslam J A,Yilmaz E,Pavlu V.A geometric interpretation of r-precision and its correlation with average precision[C]∥Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2005:573-574.

(本文责任编辑:郭沫含)

猜你喜欢
信息检索评价指标
旅游产业与文化产业融合理论与实证分析
基于UML的高校思想政治教育工作评价系统的分析与研究
医学期刊编辑中文献信息检索的应用
在网络环境下高职院校开设信息检索课的必要性研究
基于神经网络的个性化信息检索模型研究
地理信息检索中空间相似性度量的一种模糊方法
教学型大学《信息检索》公选课的设计与实施
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例