对互联网搜索引擎的初步认识

2009-07-02 08:36陈春阳
新媒体研究 2009年10期
关键词:搜索引擎网页全文

陈春阳

中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0520039-01

有人说,会搜索才叫会上网,搜索引擎在我们日常生活中的地位已是举足轻重。互联网是一个纷繁浩帙无边无际的海洋,怎样才能从这无穷的宝藏中去伪存真,找到自己所想要找的东西,那这就得仰仗搜索引擎了。下面是笔记在多年的工作、学习过程中形成的对搜索引擎一些初步认识,不妥之处还望指正。

一、搜索引擎基本工作原理

搜索引擎按其工作方式主要可分为两种,一种是全文搜索引擎,另一种是目录索引类搜索引擎。

(一)全文搜索引擎。全文搜索引擎是名副其实的搜索引擎,是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序,俗称“蜘蛛”程序或“机器人”程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如百度、谷歌等;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如腾讯。

(二)QQ的搜索引擎。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内定期向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法通常根据网页中关键词的匹配程度,出现的位置、频次、链接质量等计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

(三)目录索引。与全文搜索引擎相比,目录索引有许多不同之处。

首先,全文搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

其次,全文搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。此外,在登录全文搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。

最后,全文搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,全文搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如谷歌就借用Open Directory目录提供分类查询。而像雅虎这些老牌目录索引则通过与谷歌等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网

易等;而另外一些则默认的是网页搜索,如雅虎。

二、搜索引擎的常用使用技巧

如果会搜索才叫会上网,那么只会搜索也只是停留在上网的初级阶段,要快速、准确地找到自己想要的信息,还需要掌握一定的技巧。

1.使用逻辑词辅助查找。比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用有:AND(和)、OR(或)、NOT(否,有些是ANDNOT)及NEAR(两个单词的靠近程度),恰当应用它们可以使结果非常精确。

2.使用双引号进行精确查找。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,实现精确搜索,这样得到的结果最少、最精确。例如在搜索引擎的查询框中输入"searchengine",这会比输入searchengine得到更少、更好的结果。如果按上述方法查不到任何结果,可以去掉双引号试试。

3.使用加减号限定查找。很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇,用减号(-)限定搜索结果不能包含的词汇。

4.有针对性地选择搜索引擎。用不同的搜索引擎进行查询得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多的不同,比如:Dejanews是专用于USENET的搜索引擎,而Liszt则是针对邮递列表、IRC等的搜索引擎。

5.根据要求选择查询方法。如果需要快速找到一些相关性比较大的信息,可以使用目录式搜索引擎的查找功能,如使用雅虎。如果想得到某一方面比较系统的资源信息,可以使用目录一级一级地进行查找。

6.使用多元搜索引擎。多元搜索引擎是一种只需输入一次关键词就可以对多个搜索引擎进行查询的搜索代理网站,如全能搜索(http://s.k369.com/)就可以同时对多个搜索引擎进行查询。

7.使用更特定的词汇。比如,不用“服装”,而用“西服”;不用“flower”而用“rose”。但要尽可能删去一些同义词或近义词。

上面所述技巧只是一些常用、通用的技巧,每个搜索引擎都有各自的特点,也有各自的搜索技巧。掌握它们,就需要我们在日常的应用中不断的积累和总结。

三、搜索引擎技术发展趋势

1.个性化。搜索引擎个性化的核心是通过跟踪分析用户的搜索行为,充分地利用这些信息来提高用户的搜索效率。这种搜索行为分析技术是一种正在发展中的很有前途的搜索引擎人机界面技术。

通过搜索行为分析技术提高搜索效率的途径主要有两种:“群体行为分析”(比如“热门关键词”就是这种分析的运用结果)和“个性化搜索”。后者通过积累用户的搜索个性化数据,将使用户的搜索更加精确。

2.智能化。传统的搜索引擎使用方法是被动搜索,将来也可利用智能代理技术进行主动信息检索。研究智能检索系统已为形势所迫而成为众所关注的焦点。其中通过对用户的查询计划、意图、兴趣方向进行推理、预测并为用户提供有效的答案是这种系统的支柱技术。它使用自动获得的知识进行信息搜集过滤,并自动地将用户感兴趣的信息通过电子邮件或其它方式,提交给用户。

自然语言搜索能力也是智能化的一个体现,是目前相对易于开发的技术,这会给搜索引擎增加竞争的砝码。

另外,由于汉语里同义词很多的特性(比如电脑和计算机就是一个同义词),网页检索时要注意这个问题。因此,建立一个同义词词库并应用在关键字搜索中很必要。这也是搜索引擎智能化的一点小小的体现吧。

猜你喜欢
搜索引擎网页全文
Chrome 99 Canary恢复可移除预置搜索引擎选项
世界表情符号日
基于HTML5静态网页设计
搜索引擎怎样对网页排序
青年再造
发现“西方中医”
反腐
来信
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌