网络信息资源检索方法研究

2020-07-04 11:38孟津
科学与财富 2020年15期
关键词:搜索引擎数据库

孟津

摘 要:为了在拥有海量信息的因特网中充分挖掘信息资源,本文介绍了目前比较常用的信息检索手段和方法,阐述了有关隐蔽网络数据资源检索策略。对一些不能被常规检索方法获得的信息进行分析,利用隐蔽网络搜索引擎和专门的隐蔽网络目录等特殊的检索手段对蕴藏在网络中的信息资源进行挖掘,从而达到充分利用网络资源的目的。

关键词:搜索引擎;隐蔽网络目录;数据库

作为知识经济时代不可缺少的工具,因特网将全世界的信息资源带到我们面前,使得人们获取信息资源的渠道得到极大拓展。如何对大量的网络信息进行挖掘、分析、处理,并从中提炼出有价值的内容,成为摆在人们面前亟待解决的问题。目前,搜索引擎被公认为是最好的,也是我们最常用的信息检索方法。不过,单纯利用常规搜索引擎进行信息检索,很多信息无法被命中,资源利用率相对较低。繁杂冗余的内容充斥着网络,难以甄选;而真正有价值的信息资源却蕴藏在网络深处,与我们擦肩而过,无人问津。

1 常见的网络信息检索手段和途径

1.1 利用搜索引擎

目前互联网上主流的搜索引擎有:百度、360搜索、Google等等,人们几乎每天都要用到,利用这些搜索引擎,直接输入检索内容,就可得到与之相关的网址信息,使用起来简单便捷,上手快,不需要任何检索知识也可以轻松找到一些诉求信息。另外,对于学术性较强的检索,可以利用Google Scholar这样的综合性学术搜索引擎,适合专业的研究人员和学者使用,可以从中挖掘出更权威、价值含量更高的信息,但要求使用者具备一定的网络知识和信息检索水平。

1.2 资源分类主体目录

一些网站通过对网络信息进行人工评价、组织整理,形成网络主题指南,实现了资源分类的目的。像雅虎、360等门户网站导航以及Open Directory开放式目录等,分类一目了然,组织有序。用户可以根据信息需求的类目找到相应入口,缩短查找时间,提高检索效率。

1.3 专业性和综合性数据库

有的数据库收录学科比较窄,具有很强的专业性,虽然仅限于某学科专业的信息,但收录该领域的信息比较全面,如美国《化学文摘》、Worldcat联合目录等。像工程索引(EI)收录的学科就比较广泛,涉及信息的种类比较多,属于综合性文摘数据库。

2 查询隐蔽网络数据库的特殊技术手段

在浩瀚的网络资源中,有这样一类网址,它们蕴含着丰富的信息资源,内容也十分有价值,但实际利用率却很低。因为它们并没有被其他的网页链接,这些被称为“未被链接”的网址是无法通過那些常用的方法检索命中的,需要借助一些专门的网站,采用特殊的处理方式来进行查找。据不完全统计,通过搜索引擎和网络目录搜索到的信息大约只占网络信息资源的三成左右,其余的资源对于这些搜索工具是不可见的,成为隐蔽网络。隐蔽网络数据库的查找手段目前主要是利用搜索引擎挖掘和隐蔽网络专门目录。

2.1 利用搜索引擎查询隐蔽网络数据库

查询隐蔽网络数据库主要手段是利用网络搜索引擎,在检索主题词后面加入类似“searchable database”或“interactive tool”等名称,便可以检索到符合以上查询形式的数据库,然后利用数据库本身的检索系统查询具体的内容。数据库经常使用的名称有:database、search engine、searchable database、online collection、catalog、index等。此外,在检索框中输入“search form”能更好地限制检索结果,如“logistics”+“database”+“search form”可以有效地过滤掉那些仅仅含有“database”这个词,但不是数据库形式的信息资源,而找到真正与物流相关的数据库。

此外,还可以利用专门的学术搜索引擎,这些系统都关注隐蔽网络学术信息,通过一般检索手段很难系统全面地搜索到其中的内容。比如:Base是世界级海量内容的搜索引擎之一,专注于学术开放获取网络资源。Vascoda是一个交叉学科门户网站,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。

2.2 利用隐蔽网络专门目录

隐蔽网络专门目录是经过人工挑选,学术资源质量较高,得到学术研究团体广泛认可的搜索工具。例如隐蔽资源平台Complete Planet就是比较大的网络目录之一,它收录了数万个隐蔽数据库,列举了近百个主题,在各个主题下又包括了更细化的分支领域。此外,还有各个行业领域的的专门性目录,这些目录全面地、系统地整理了相关领域的网络资源。

3 网络信息资源检索的发展趋势

3.1 智能化。

智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。近几年来,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展。在Internet技术迅速普及的今天,面向因特网的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,将人工智能技术应用于这一领域是AI走向应用的一种新的契机与突破口。

3.2 多样化。

多样化首先表现在可以检索的信息形态多样化,如文本、声音、图像、动画等。目前网络信息检索的主体仍是文本信息,基于内容的图像检索技术和语音识别技术的发展,将使多媒体信息的检索变得逐渐普遍。图像信息检索的准确率、检全率将进一步提高。多样化的另一个表现就是检索工具向多国化、多语种化方向发展。网络的迅速普及,使得整个世界变成了地球村,世界各地上网人数的不断增多,使得英语已无法满足所有用户的需要,语言障碍越来越明显。以后主流数据库和检索平台必将提供更多语种的版本,或者提供更加智能化的在线翻译服务。

3.3 个性化。

个性化主要指检索平台内容的特色化和服务的定制化。网络资源的指数级膨胀,使得用户在获得自己需要的信息资源时要花费大量的时间和精力,每个人的不同信息需求将凸现于标准化、单一的“大众需求”之上。未来检索平台为了吸引用户眼球,必将着重发展自己的特色主打产品,做到资源内容 “与众不同”。同时,利用大数据分析用户的检索内容和检索习惯,根据其兴趣、爱好、关注方向等因素,主动为其推送合适的资源内容,为其量身打造特色服务,更好地满足用户的信息需求。

4 结语

网络信息资源是无比庞大的,我们只有根据具体的情况,去确定最合适的检索策略,才能事半功倍地获取有价值的信息。常用的搜索引擎可以让我们快捷地查询到工作、学习相关的信息,已经成为我们网络生活中不可缺少的一部分。而那些隐蔽信息更蕴含着检索人员难以置信的财富。遨游“看不见的网站”可获得那些不容易查找的宝贵资源,那种成就就好比在早期地图上发现未被标识的新大陆一样,充满了惊喜和满足。随着互联网技术不断发展,网络资源检索的方法和途径也将与时俱进,推陈出新,更加智能、先进的检索手段必将使我们的信息需求得到更好的满足,帮助我们更好地认识这个信息世界。

参考文献:

[1]熊莹.关于科技文献信息检索方法的研究[J].科技传播,2014,6(21):24-25.

[2]毕欢.网络信息检索及其发展趋势研究[J].电脑知识与技术,2018(10):8-9.

[3]刘兴达.计算机信息检索技术的发展及问题研究[J].科技与创新,2018(02):121-122.

[4]李丹立,周飞.浅析检索数据库的选择[J].现代经济信息,2019(14):432.

[5]赖宏慈.图书馆信息检索途径分析[J].科技资讯,2010(19):254.

[6]周思繁.浅谈网络信息检索方法及技巧[J].科技文献信息管理,2015,29(02):17-19.

猜你喜欢
搜索引擎数据库
数据库
数据库
数据库
数据库
数据库
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
基于Lucene搜索引擎的研究