网络环境下知识组织方式研究

2013-12-07 07:06刘素军
黄河水利职业技术学院学报 2013年2期
关键词:标引搜索引擎网页

刘素军

(黄河水利职业技术学院,河南 开封 475004)

0 引言

知识组织是人们对杂乱缤纷的信息资源进行有序化存储、快速检索并利用的经典方式。 自古至今,分门别类是人们认识事物的有效方式,人们对分门别类的方法不断总结、完善,最后形成了具有一定规则的体系结构,我们称之为信息组织工具。 如中国图书馆分类法[1]、汉语主题词表[2]就是传统信息组织工具的代表。 随着时代的变迁,这些工具自身结构、描述手段发生了变化,而且其被使用的方式、对象也发生了很大的变化,特别是互联网诞生以来,由于网络信息的海量增长,出现了信息收集难、组织难的问题。 网民出于对网络智能化的要求,呼唤一种“理解用户意图”的互联网检索工具出现。这些均对传统的知识组织工具提出了前所未有的挑战。 为了应对这些挑战,许多专家学者对这些工具做了大量的研究和改进。 目前,按照信息组织方式的自动化、智能化程度,信息组织工具可分为人工化、程序化、智能化三种类型。 本文试对这三种类型更替演变过程进行分析、论述,以求理清知识组织工具发展的脉络和趋势。

1 网络信息的人工化知识组织方式

1.1 人工化知识组织方式的工作原理和运用代表

人工化知识组织方式就是依靠工作人员手工操作,并严格按照分类法、主题词表等知识组织工具的结构体系、著录规则对收集来的网络信息资源进行组织,形成主题目录和索引结果的知识组织活动。 这些活动成果是各种网络发布系统制作、运行的基础。 比如,门户网站各级网页的导航目录的设计制作,就是由专门的网站编辑人员和信息分类人员等专业人员,根据一定的规则,花费大量的心血来完成的。 这些规则有成熟的主题词表、分类法或者是两者综合的规则,也有网站制作者或者程序员们自己设计的一套规则。 这样,大多数网站目录都是形成树形结构和星星结构的网站内容地图。 越是大型的网站,其信息资源组织越复杂,耗费的人工越巨大,比如,sohu、sina 等知名网站的导航目录组织过程均是如此。

早期网络搜索引擎也是依靠人工对网络信息进行分类、索引和摘要的,或者是靠信息发布者向搜索引擎进行登记,选择主题分类、提供关键词和摘要,并报告自己信息站点的地址的[3]。早期的雅虎网页目录(Yahoo!Directory)是这方面的典型代表。

在图书馆由手工操作向计算机自动化操作转变阶段,许多图书馆的纸质目录和索引卡片被计算机的电子目录和计算机检索所代替。但是,这些电子目录的形成也是由图书馆的编目人员按照分类法、主题词表在一定的文献管理系统里一条一条地录入的,耗费了图书馆工作人员很大的精力。 这些起初在图书馆内部网上检索的目录随着图书馆接入广域网,也得以在网上发布,使得用户能够在任何地方通过访问互联网,检索图书馆目录。这就是狭义的数字图书馆原型。人工化知识组织原理如图1 所示:

1.2 人工化组织方式的特点

网络信息人工组织方式有如下一些特点:(1) 耗费大量人力,却不能满足网络信息快速增长的需要,有时不得不放弃。 比如Yahoo! directory 最终放弃人工对目录的维护和管理。 (2)对工作人员专业性要求很强,他们必须熟悉分类法、主题词表体系及其相关著录规则,这种条件不是每个人都具备的。(3)人工化组织显示出速度慢、效率低的弊端。(4)人工化知识组织尽管能够对网络信息进行准确标引,但局限于所用的知识组织工具,并不能符合所有用户使用互联网的习惯。

2 网络信息的程序化知识组织方式

面对互联网的迅速发展,特别是由于Web2.0 的技术应用,人人可以参与网络信息的创作,使得网络信息多态化、海量化,进而出现网络信息杂乱缤纷、“信息垃圾”“信息相对匮乏”并存的现象。 人工化组织方式由于自身特点而不能适应网络数字化资源组织的需要。 人们呼吁采用一种既节省人力、效率又高的知识组织方式来整理这些无序而量大的网络信息。 于是,随着全文检索技术的出现,以第二代搜索引擎为代表的网络信息组织检索工具诞生了。

图1 人工化知识组织原理图Fig.1 Principle of artificialization knowledge organization

2.1 搜索引擎定义及工作原理

(网络) 搜索引擎是一种根据一定的策略运用的特定计算机程序。 它自动从互联网上搜集网络信息,对信息进行组织和整理以后,为用户提供检索服务,将用户检索到的信息进行排序、聚合后展示给用户的系统[4]。 搜索引擎的工作原理可以简单地概括为:搜集网站链接、简单分类、形成索引数据库,用户输入检索表达式,系统按照一定算法排序,输出排序结果给用户。

2.2 搜索引擎的组成模块及工作要点

搜索引擎一般由五个模块程序组成,分别是:搜索器、分析器、索引器、检索器和用户接口。 其中由搜索器完成信息采集工作,由分析器和索引器完成索引工作,并形成索引数据库,由用户接口和检索器共同完成搜索工作[5]。

(1)信息采集(Web crawling)。信息采集的工作由搜索器完成。 搜索引擎利用称为网络爬虫(crawlers)、网络蜘蛛(spide r)或者叫做网络机器人(robots)的自动搜索程序来遍历网页上的超级链接。 这些“机器人”从网页初始的网页集合出发,利用超级链接的 “跳跃性”,不断从一个网页转到另一个网页,从一个站点移动到另一个站点,最终“走遍”指定范围内的整个Web 空间,将采集到的网页添加到网页数据库中。 就这样,在一定周期内完成库内网页集合的更新,并追加具有新内容的网页,形成更大的网页集合。

(2)索引(Indexing)。 搜索引擎整理信息的过程称为“建立索引”。 搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。 索引规则是决定搜索引擎组织网络信息资源效率和检全率、检准率的关键因素。 但是这些规则显得过于简单,它们大多是采用后控词表来类分网络信息的,这些词表词汇经过规范化,不仅数量有限,而且词汇之间缺乏有效的关联,面对采集来的海量网络信息,只能是简单地归类保存。 这很容易造成检索不准、不全,不能满足用户日益精准的知识需求。

(3)检索(Searching)。检索是建立索引的逆过程。当用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料时,有的系统在返回结果之前按照网页内容与检索表达的概念的相关度进行了计算和评估,并据此进行排序,将相关度大的放在前面、相关度小的放在后面。 也有的系统在用户查询之前已经计算了各个网页的网页等级(PageRank),返回查询结果时,将网页等级大的放在前面、网页等级小的放在后面。 由于不同搜索引擎有不同的排序规则,因此,会出现在不同的搜索引擎中进行相同关键词搜索、输出结果顺序却不同的现象。 这3 个模块的工作过程如图2 所示。

图2 第二代搜索引擎程序化知识组织方式及检索过程图Fig.2 Programming knowledge organization pattern and retrieval process of 2nd search engine

2.3 搜索引擎工作原理的优缺点分析

搜索引擎采用自动化的程序(Robot 、spider)有效地解决了海量网络信息的收集、存储、组织问题,并采用简单的词汇辅助检索,对检索结果进行排序,适应了信息大众使用自然语言进行信息检索的需求,这是其优点。 其缺点是由于其采用的分类体系包含的受控词汇集合小,且词汇间的关联性不强,这样就造成搜索引擎缺乏对概念和语义的理解,特别是对自然语言处理能力差、对用户检索行为的分析不足、不能提供个性化检索服务等问题。 因此,搜索引擎属于程序化的标引集合和需求集合简单关键词匹配的知识组织和检索工具。

3 网络信息的智能化知识组织方式

人们对第二代搜索引擎的检索效果做出分析后认为:它不能理解用户真正意图的原因,是由搜索引擎的自动化程序生成的索引目录库中没有足够的词汇来与检索表达式中的词汇相匹配,进而造成了缺乏对概念、知识的理解。 那么,只有解决了这个问题,才能提高搜索引擎对用户意图的理解能力、提高检索效率。 如何解决这些问题,成为图书情报界专家思考的问题。

王军教授认为:全面发展网络环境下的知识组织工具和自动组织方法有两条路线:第一,对传统的知识组织工具和方法进行改造,使之适应网络环境下信息资源组织的需要。第二,发展新的知识组织工具和方法,例如大众分类法、本体法(ontology)等[6]。 他在其专著中选择了第一条路线,并进行了试验,取得了很好的效果。

有的学者进一步总结经验,认为未来的知识组织方式要达到下列要求,才能满足用户对网络信息进行组织、存储、检索利用的需求。 (1)知识组织工具数字化,能被计算机理解、交换。 (2)具有大量的、网络资源需要的词汇库和词汇关系库。 (3)能够把产生的新词汇自我丰富到词汇库中。 (4)具有自动搜集、确定信息和知识源并自动标引的功能。

能够同时满足这4 项条件的知识组织工具,就是具有智能的知识组织工具。 借此工具开展的知识组织工作的方式,就是智能化的知识组织方式。

3.1 智能化知识组织方式的技术方法

3.1.1 简约知识组织系统(SKOS)

简约知识组织系统 (Simple Knowledge Organiz ation System,SKOS)是实现知识组织系统(简称KOS)的一种形式化的语义置标语言,这种语言遵守简单资源描述框架(简称RDF)的规则要求。 其中,图书、情报、档案领域的情报检索语言,如叙词表、分类法及术语词典、受控词表等,这些都可以构成SKOS 的置标对象。 由于SKOS 基于RDF,一方面,它为表达这些知识组织系统的结构和内容提供了灵活的框架,提供了整合描述置标对象各种元数据的机制,从而能够实现计算机的有效处理和人对资源的明确理解;另一方面,它也能够使传统知识组织系统运行于语义网环境中,与语义网内的其他资源(如Linked Data)相互链接,从而实现更大范围的语义互操作和数据共享。 简约知识组织系统,称其“简约”,主要是与语义描述和转换机制更为复杂的网络本体语言(简称OWL)等相比较而言的[7]。

SKOS 主要用于简单类型的网络知识系统,它的词汇一般局限于特定领域,如地理信息领域、档案、古籍文献的知识组织。典型的应用有:UKAT(英国档案叙词表),它是专门为英国档案部门编制的叙词表,共包含19698 个词汇,所有词汇被划分8 大类、83 个小类,且UKAT 网站提供免费的下载服务,供各个档案馆下载使用。我国王军教授开发的KVision 知识组织系统是参考了stanford 书目本体、DC 抽象数据模型而形成的,主要功能是为传统书目资源和网络信息资源提供知识组织和知识服务功能。在KVision 网站上,还可以了解到最新的研究进展。

3.1.2 自动标引技术

自动标引 (automatic indexing) 又称计算机辅助标引(Computer Aided Indexing),指利用计算机系统模仿人的标引活动,从拟存储、检索的事实情报或文献(题目、文摘、正文)中自动抽取检索标志并自动生成情报检索所需的索引符号的过程。 1957年,美国IBM 公司的H.P.卢恩发表了基于词频统计的文献自动标引方法的论文,开启了自动标引的研究。 从那时到现在,对自动标引的研究经历了兴起、繁荣、平静、振兴阶段,形成了统计分析法、语言分析法、人工智能法、混合法等几大技术体系[8]。 其工作流程如图3 所示。

图3 自动标引工作图Fig.3 Automatic indexing working process

相对于手工标引,自动标引克服了手工标引难以克服的缺点,具有很大优势。 与熟练标引人员相比,尽管自动标引的准确性不如手工标引,但在其他指标方面,自动标引具有处理能力强、处理速度快、成本低、一致性好,稳定性好、不受人员的情绪和状态影响等无可比拟的优势。

3.2 运用智能化知识组织工具的网路信息系统的代表

运用智能化知识组织工具的网络系统,有代表性的主要有以下两种。

3.2.1 智能搜索引擎

智能搜索引擎是第三代搜索引擎,代表着网络搜索引擎的最高水平。 智能搜索引擎引入了智能化的知识组织工具,能够对其搜集的网络信息资源进行概念、知识层面的自动化组织,然后,在用户检索的时候,又能从概念及其概念关系方面进行恰当的检索,满足用户的真正意图。 智能检索可以从两个层面上进行理解:(1)搜索引擎检索技术的智能化。 智能检索将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解和处理能力,能够运用分词技术、同义词技术、概念搜索、短语识别以及机器翻译等技术。智能搜索引擎具有信息服务智能化、人性化的特征,允许检索者采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。(2)搜索引擎面向检索者的智能化。智能化的搜索引擎应该能够通过分析检索者的检索和浏览行为来学习检索者的需求,利用搜索引擎的现有服务方式,有选择地为检索者提供个性化的检索服务[9]。

3.2.2 数字图书馆

数字图书馆是完全适应于互联网的,即互联网的有价值资源完全是以数字图书馆的形式、技术组织与检索的。 它的资源范围更广、数量更大。 国内外众多的数字图书馆资源库像是镶嵌在纷杂的互联网信息中的璀璨明珠。 数字图书馆之所以大行其道,一是由于其收藏了价值较高的信息资源,二是其资源都是经过整理而有序的,三是它有非常强大的多种途径的跨库检索途径和能力。

利用现代计算机技术构建领域内智能化知识组织工具,数字图书馆进行概念检索、知识利用的关键,是数字图书馆智能化的重要标志。李秀丽,徐跃权构建的数字图书馆知识利用过程模型如图4 所示:

图4 数字图书馆知识组织工作方式图Fig.4 Digital library knowledge organization pattern

这个流程图对当代数字图书馆工作过程进行了准确的描述,其过程包括知识发现、知识评价、知识检索、知识利用和知识的描述与创新等[10]。 其中的知识发现和知识检索是模型的核心部分,这两部分充分体现了知识组织在数字图书馆中的关键作用。

3.3 智能化知识组织工具的不足

由于智能化知识组织工具的构建存在技术复杂、方法多样的问题,且处于起步阶段,因而目前仅能构建某一领域的智能化知识组织工具,这也是其适应面狭窄、概念理解不够的根本原因。 只有创造出具有通用领域概念模型的智能化知识组织工具,才能顺应网路信息的发展趋势,推动网路信息资源组织工作的发展。

4 结语

综上所述,可以认为,在传统知识组织工具在网络信息知识中仍然发挥组织作用的同时,许多学者也在改造传统知识组织工具、 开发新的网络组织工具方面做了大量工作,取得了很多成果。 目前,知识组织工具呈现出一种逐渐摆脱人力向自动化和智能化方向发展的趋势。 先进的计算机技术是构建智能化知识组织工具的基础;人们对网络信息资源服务不断增长的需求是开发知识组织工具的动力。 目前还需要把这些成果系统化,并使之完善,还要为其尽快投入实际应用做大量的研究工作。

[1] 公民何健.语义网[DB/OL].[2013-01-03].http://baike.baidu.com/view/854337htm#5.

[2] 王兰成.数字图书馆技术-信息集成与信息检索[M].北京:国防工业出版社.2007:14.

[3] 走一步算两步. 搜索引擎 [DB/OL].[2012-10-10].http://baike.baidu.com/view/1154.htm#2.

[4] 陈丹,郭伟青.信息搜索引擎综述及系统架构设计[J].商场现代化,2008.01(3):28.

[5] 王军.数字图书馆的知识组织系统——从理论到实践[M].北京:北京大学出版社.2009:2-3.

[6] 段荣婷.基于简约知识组织系统的《中国档案主题词表》语义网络化应用研究[J].档案学通讯,2011(2):72-75.

[7] 余春.自动标引研究进展[J].图书馆学研究,2012(04):18-22.

[8] 傅欣.第三代搜索引擎的智能化趋势研究[J].现代图书情报技术,2002(6):28-30.

[9] 李秀丽,徐跃权.数字图书馆知识利用策略研究[J].图书馆学研究:理论版,2011(3):31-37.

猜你喜欢
标引搜索引擎网页
档案主题标引与分类标引的比较分析
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
本刊对来稿中关键词标引的要求
基于URL和网页类型的网页信息采集研究
本刊对来稿中关键词标引的要求
网页制作在英语教学中的应用
网络搜索引擎亟待规范
基于Nutch的医疗搜索引擎的研究与开发
基于Lucene搜索引擎的研究