中国最具影响力的综合搜索引擎比较研究

2018-09-13 11:22蔡润芹
电脑知识与技术 2018年17期
关键词:查准率个性化服务搜索引擎

蔡润芹

摘要:面对浩如烟海的网络信息,选择最合适的搜索引擎快速、准确地找到所需要的信息成为人们在信息检索中最关注的问题。通过实验,从数据库更新、检索功能、响应时间、查准率、个性化服务等五个方面,对中国市场目前最具影响力的三种综合搜索引擎百度、谷歌、360进行比较研究,总结了三种搜索引擎的优势与不足,提出合理选择搜索引擎的策略和提高检索效率的技巧。

关键词:搜索引擎;数据库更新;检索功能;响应时间;查准率;个性化服务

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)17-0211-03

Abstract: How to choose the best search engine and find the information which we need quickly and accurately from the huge volumes of data has become the biggest concern of information retrieval. Based on experiments, the thesis makes a comparative study of the three most influential synthesized search engines in Chinese market, Baidu, Google and 360, from the five perspectives of database update, search function, response time, precision ratio and personalized service, presenting advantages and disadvantages of them. It also puts forward strategies of selecting the most suitable search engine and search tips of information retrieval.

Key words: synthesized search engines; database update; search function; response time; precision; personalized service

在互联网技术普及的今天,人们查阅资料都会选择一种便捷、全面、准确的方式——搜索引擎。现在国内外的搜索引擎五花八门,面对浩如烟海的互联网信息 ,怎样才能使用最合适的搜索引擎方便、快速、准确地找到所需要的信息,这成了人们在信息检索中最关注的问题。关于搜索引擎的评价研究一直是研究热点之一,目前,国内外学者在该领域的研究大多是理论层面的、定性的研究。虽然国内学者也进行了一些定量的评价,但是很少有人從用户的角度考虑,通过实验进行定量分析比较研究。本文以用户快速、准确、方便查找信息为主导方向,通过实验,对中国市场目前最具影响力的三种中文综合搜索引擎:百度、谷歌、360进行比较研究,希望本文的研究能指导用户选择合适的搜索引擎,提高检索效率,并能指导中国搜索引擎的改进和发展。

1 中国市场最具影响力的中文综合搜索引擎基本情况

搜索引擎是一种采用高效的Spider程序进行网络资源的收集、整理与组织,为用户提供查询服务的信息服务系统[1]。常见的搜索引擎有综合搜索引擎和特殊搜索引擎 [2]。从中国用户角度、市场份额及有关媒体统计数据看,目前中国市场上最具影响力的中文综合搜索引擎是百度、谷歌(香港)、360等[3]。

百度搜索引擎是最了解中国文化、更懂中国人的心理、更加贴近中国的生活,它是目前世界上规模最大的中文综合搜索引擎;Google搜索引擎是被公认为全球最大的搜索引擎,在国内外都具有很大的影响力;360搜索引擎是目前中国市场最具影响力的搜索引擎之一,上市几天其综合搜索访问量份额达8.97% ,迅速成为中国第二大搜索引擎[4]。

2 百度、谷歌、360比较研究

本文从三种中文综合搜索引擎影响力特点出发,以用户快速、准确、方便查找信息为主导方向,从数据库更新、检索功能、响应时间、查准率、个性化服务等五个方面进行比较研究。

2.1 方法

分析比较的原始数据通过具体实验获取,实验中采用了“网页快照”、“时间戳”[5]和时间间隔检索方法来获取网页更新的时间变化。实验时间从2017年3月10日至31日,实验在华中师范大学校园网网络环境下,使用360浏览器进行。实验检索课题集是从“百度搜索风云榜”中选择出更贴近用户兴趣和检索需求的五个检索关键词,具体是:KW1:王大治(人物)、KW2:国五条(社会民生)、KW3:欧文退役(体育)、KW4:QQ(科技)、KW5:大众(汽车品牌)。用选择的这五个关键字分别在三种搜索引擎中进行实验,分析统计数据,并结合相关文献得出结果、结论。

2.2 实验结果及分析

2.2.1 数据库更新

为提高查全率,各种搜索引擎都努力扩大数据库,而数据库的更新周期直接影响了查准率。实验中通过“网页快照”“时间戳”和时间间隔检索方式进行实验,记录检索结果总数变化及时间变化并对结果进行分析对比,得到三种搜索引擎的数据库更新情况,如表1。

结果表明,百度在数据库更新方面做得相对好一些;谷歌在数据库更新方面敏感度稍差;而360主要依托百度和谷歌的数据库,它的页面刷新频率更高,能搜索到最新信息。

2.2.2 查询功能

搜索的强度是评估搜索引擎质量的一个重要指标。下面主要从检索方式、布尔检索、限定检索及截词检索四个方面进行实验测试,结果如表2所示。

结果表明:三种搜索引擎检索方式相似,百度还支持二次检索;百度和谷歌都支持布尔检索,而360支持与、或检索符;百度和谷歌都有限定检索功能,谷歌的限定能力最强,而360没有;三种搜索引擎都支持截词检索,但谷歌和360此功能有限。

2.2.3 响应时间

响应时间是指用户通过某个搜索引擎从提交关键词检索式到系统返回检索结果所用的时间,它表明一个搜索引擎的检索速度。速度越快,用户也就越对它有所偏好。用选定的关键字实验测试,结果发现只有谷歌在检索结果中显示检索响应时间。根据实验测试过程中的观察表明,在网络畅通的情况下百度搜索上万网页通常只需零点几秒,是三种搜索引擎响应时间最短的,号称为毫秒级检索响应速度[6]。

2.2.4 精确率[7]

精确率是衡量检索系统信噪比的指标[7],也是用户最关心的问题,查询精确率高可以减少重复检索,节省用户的检索时间。对选定关键字集进行检索得到的原始数据如表3,三种搜索引擎的查准率如表4所示。实验结果主要是作为分析比较的依据,在同等条件下,增大或减小数值不影响分析比对结果,为了方便比对数据,表4中数据均作了消阶处理(即每个数都乘上1000)。

从实验结果来看,360的查准率比其他搜索引擎更胜一筹,百度和谷歌的检索返回结果总数比360大一些,360的查全率要差一些,而谷歌的检索相对更全面一些。

2.2.5 服务个性化 [8]

服务的个性化本质是为不同用户提供个性化的服务内容和活动,尽量满足各种用户的需要[9]。对于搜索引擎而言,个性化服务是影响用户对网站偏好的一个重要指标。下面从功能设置、关键词输入、搜索设置、检索结果等方面对三种搜索引擎的个性化服务进行比较、分析得出:三种搜索引擎在个性化服务方面各具特色。结果如表5所示。

3 结论

通过以上实验并对三种搜索引擎进行了比较、分析研究,得出以下结论:

3.1百度、谷歌、360搜索引擎优劣并存

百度搜索引擎更注重服务的本地化,更多地融入了中文检索的特点,收录的中文信息覆盖面广、数据库更新快、检索速度快,对于中国本土文化的理解和适应能力更強。百度的短处是检索结果排序不合理、精确度不高等,这些都需要进行优化和改进。

比较而言,谷歌的检索功能强大、灵活,支持多种语言检索,谷歌能够对网页的重要性做出客观的评价,结果排序客观公正,收录速度快,以复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。谷歌的缺陷在于“不懂中国”[10],中文数据库更新慢。因此,网络上热传着“内事不解问百度,外事不解问谷歌”之说。

360强调的是人在搜索中的重要性,它采取了机器学习技术和独创的PepoleRank算法,高质量网页的排名靠前可为用户提供更清洁,安全和可靠的搜索结果。360的缺陷是没有完全识别字母组合检索词,没有高级检索功能,信息相关性、复杂性、抓取速度等方面也需加强、改进。

3.2合理选择搜索引擎,充分利用互动问答平台解决问题

用户在进行检索时,要根据具体的检索要求选择合适的搜索引擎,提高检索效率。比如要检索具有中国地域特色的信息、国内热点问题、中国人物等具有中文习惯说法的信息等,用百度搜索引擎效果更好;若要检索国际事件、名词、英文等,特别是要获得非中文信息时,用谷歌搜索引擎查准率更高;如果用户对查全率要求不是太高,用360搜索引擎可以得到比较准确的检索结果。另外,还可以通过百度的“百度知道”、360的“问答”等功能进行提问或检索答案,充分利用互动问答平台解决问题。

3.3掌握检索技巧,提高查询效率

提高查询关键词的选择技巧,有助于提高检索速度、获得准确信息。为了选好关键词,要掌握一些必要的技巧,要避免用含义宽泛的一般性词语作为关键词,如要查某方面的学习信息,选择“英语学习”之类的关键词就比“学习”更准确;当查询结果中有太多不相关的信息时,可以添加关键词滤除不相关结果;将关键词内包含的疑问词、连词、感叹词、辅助词等删除有助于提高查询质量。当然,在查询中,也可以根据一次搜索的结果,不断修正关键词,最终找到想要的信息。

4 结语

搜索引擎中还有许多问题,如信息量不足,查询精确度低;信息刷新速度跟不上,网络上信息的变化无法控制;管理信息内容和多样化的格式很困难;准确性和可靠性差;数据错误、遗漏、过时等等。希望搜索引擎能认清不足,不断改进,加强服务的个性化,提高自动搜索软件的智能化程度,加快信息刷新速度,让用户能够方便、快速、准确地找到所需要的信息。

参考文献:

[1]方志坚,张瑞林,童小素.搜索引擎综合分析[J].计算机工程与设计,2007,28(16):4039.

[2]刘畅.综合搜索引擎与垂直搜索引擎的比较研究[J] .情报科学,2007,25(1):97-98.

[3]2012年12月中国搜索引擎市场份额排行榜[OB/OL].[2013-01-11].

http://www.weste.net/2013/1-11/87960.html.

[4]2012年度中国互联网最具影响力产品——360搜索.[J/OL].[2012-02-03].

http://www.ciweekly.com/article/2012/1228/A20121228558016.shtml.

[5]周辉,曹兰芳.搜索引擎数据库更新策略比较分析[J].图书馆学研究,2012,19:50-55.

[6]什么是个性搜索[OB/OL].[2013-01-28]..http://www.nev.cn/a1article-70883-1.html .

[7]Christopher D.Manning,Prabhakar Raghavan,Hinrich Schutze.信息检索导论[M].北京:人民邮电出版社,2010:105.

[8]李树表,韩忠愿.个性化搜索引擎原理与技术[M].北京:科学出版社,2008:36

[9]吴建军.浅谈百度搜索引擎的功能与服务特点[J].科技情报开发与经济,2007,17(15):216.

[10]Google搜索引擎特点[EB/OL].[2013-01-25].

http://wenku.baidu.com/view/bd2c1d23192e45361066f508.html .

猜你喜欢
查准率个性化服务搜索引擎
基于数据挖掘技术的网络信息过滤系统设计
大数据环境下的文本信息挖掘方法
基于深度特征分析的双线性图像相似度匹配算法
互联网思维下数字图书馆个性化服务建设研究
需求理论在高校图书馆就业服务中的应用研究
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析