张琪玉自然语言检索研究

2021-11-29 12:12王崇良余朝晖
湖北科技学院学报 2021年1期
关键词:检索教授自动

王崇良,余朝晖

(1.湖北科技学院 图书馆,湖北 咸宁 437100;2.湖北科技学院 学报编辑部,湖北 咸宁 437100)

自然语言检索产生于20世纪50年代的情报检索计算机化。从某种意义上说,计算机应用于情报检索是自然语言检索得以实现的前提和基础,如果没有计算机对文献原文的处理,就不可能有自然语言检索的产生。在我国,对于自然语言检索的重视、探索与研究,始发于20世纪80年代初期。张琪玉教授不仅是国内较早关注自然语言检索的主要学者,而且还是国内研究自然语言检索最为全面、系统的专家学者。在他看来,自然语言检索主要是指“在情报检索中,直接利用文献原文中的字词进行标引或检索”[1]的一种检索语言。随着计算机技术、数据库技术和网络信息技术的快速发展,自然语言检索必将成为我国情报检索领域的优先选择和重要发展趋势。因此,张琪玉教授从20世纪90年代开始,就将其研究延伸拓展到自然语言检索领域,重点研究了自然语言检索的应用方式、检索效率、控制措施、发展前途等诸多方面问题,取得了重要理论突破和实质性进展,为我国自然语言检索适应新的检索环境作出了不可磨灭的贡献。

一、张琪玉对自然语言检索研究的立场观点

张琪玉教授是一位信念坚定的辩证思维型学者,特别善于理性思考问题,立场观点明确,有着自己独特的认知和深刻见解。因此,我们回顾他对自然语言检索的治学道路和研究历程,可以用两句话来概况其立场观点,“既肯定又否定,既呼吁又亲自参与研究”。

呼吁:20世纪80年代初期,张琪玉教授在创制情报检索语言时,就关注到自然语言检索问题。他在《论情报检索语言的研究、创制与普及》文章中,呼吁我们在研究情报检索语言过程中,“似乎也应把对自然语言检索法的研究包括进去”[2];20世纪90年代末期,张琪玉在《世纪之交中国情报语言学发展之路》文章中,重点分析研究了论述自然语言检索者的文章,发现大多数文章作者只是将自然语言与人工语言作笼统的比较,没有对自然语言检索性能进行深入分析与探究。于是,他再次向全国情报检索语言理论研究者发出呼吁:“当前亟需从情报语言学角度深入研究自然语言检索方法,把情报语言学的原理和方法引进自然语言检索的研究”[3]。

肯定:自然语言检索方式的产生,使得我国情报检索语言领域发生了重大变革和重大突破。由于自然语言检索在其检索过程、检索方法上的方便快捷以及检索范围和应用领域的不断扩大,越来越多地受到人们的青睐。因此,张琪玉教授对于自然语言检索方式应用于情报检索是持肯定态度的,并在多篇文章中阐明了自己的独特认知和深刻见解。在他看来,自然语言检索方式随着计算机技术和网络通讯技术的快速发展,“具有不可阻挡的发展前途,特别是在互联网络的检索环境中,它将成为一种必然的优先选择。”[4]

否定:自然语言检索方式有其突出的优点,但又有其明显的缺点是个不争事实。然而有些文章作者片面地、言过其实地夸大自然语言的检索功能和检索效率,似乎它能满足人们一切检索需求。对于这些乐观论者所提出的诸多观点(如:“自然语言检索是发展方向,信息检索要走自然语言道路”等),张琪玉教授在深入研读他们所撰写的文章后,发现这些文章作者几乎都不是我国自然语言检索领域的专门探索者和研究者。因此,张琪玉教授对于这些乐观论者的观点,持否定态度,并在与吴建中通讯访谈《情报检索语言的发展趋势——关于图书馆未来的对话之九》文章中,阐明和诠释了其中的根本原因。在他看来,假若“那些论点如果是正确的话,全世界的情报检索早已全面自然语言化了。”[4]

亲自参与研究:从20世纪90年代初期开始,张琪玉教授就将研究重点和重心转向了自然语言检索领域。他在充分利用、借鉴自己在研究情报语言学过程中所取得的理论成果基础上,成功地将情报语言学原理和方法引进运用到自然语言检索研究工作。在他看来,任何一种高质量高要求的情报检索语言,控制是绝对必要的。自然语言的致命弱点就是缺少“控制”,而情报语言学的精髓就是“对检索过程进行控制”。因此,他就如何提高自然语言检索效率问题、控制措施问题和发展前途问题等诸多方面进行了持续研究,使我国自然语言检索效率得到极大的提高,并广泛应用于数据库资源检索和网络信息资源检索等诸多方面。

二、张琪玉对自然语言应用方式研究

20世纪90年代中期和21世纪初,张琪玉教授为了从根本上搞清楚自然语言在情报检索中的应用方式,帮助人们在理论研究层面了解和掌握自然语言应用于情报检索的具体情况,他在《自然语言在情报检索中的应用》和《关于自然语言检索问题》两篇文章中对其进行了专门探索和研究。在他看来,随着网络计算机技术的快速发展,自然语言在情报检索中的应用方式将会越来越宽广,功能和作用将会越来越增强,检索效率将会越来越提高。但问题的关键是,我们如何对自然语言在情报检索中的应用方式作出正确的评判,将会直接影响到自然语言检索应用发展前景。基于此,张琪玉教授在充分考量和深入探究国内外自然语言在情报检索中的应用方式后,于1996年在《自然语言在情报检索中的应用》文章中,阐明和诠释了我国自然语言在情报检索中的应用方式。在他看来,目前主要应用于:“关键词法、文本检索、单汉字检索、自动分类、自由标引”[5]等8个方面。他还特别指出,汉语自动分词(即汉语分词技术)是自然语言在情报检索中应用的特殊问题,其分词原理、技术和方法,不同于英语、法语、德语等西方语种,必须加大力度对汉语分词技术进行专门研究,以期探寻到有效解决汉语分词技术实施方案。在此基础上,张琪玉教授还于2004年在其《关于自然语言检索问题》文章中,进一步阐明和诠释了自然语言应用于情报检索的性能特点、使用范围和方法要领,重点研究了关键词检索、全文检索、搜索引擎、自动甄别以及自动标引和自动分类[6]等方面问题。通过其理论探索和实践研究,张琪玉教授发现,我国目前自然语言应用于情报检索,只在“关键词索引及数据库、全文检索、搜索引擎已经实用……至于自动甄别、自动标引和自动分类,严格地说都还没有走出实验室进入广泛应用。”[7]张琪玉教授的执着与探寻,不仅使人们在理论研究层面上明确了自然语言应用于情报检索的主要方式和今后的主攻研究方向,而且还启迪了人们的研究思维,开阔了人们的研究视野,极大地促进和推动了我国自然语言检索的发展。

三、张琪玉对自然语言检索效率研究

20世纪90年代中期,张琪玉教授在《自然语言检索中各种因素对检索效率的影响》等文章中,对影响自然语言检索效率的各种因素进行了充分考量和深入探究。在他看来,自然语言缺少控制是其影响检索效率的主要因素;自然语言用词不规范性,存在大量同义现象、多义现象和含义模糊现象是其影响检索效率的客观因素;未显示语词(或概念)之间的关系,词汇无语义关联是其影响检索效率的关键因素。因此,张琪玉教授强烈建议,当前我们对于自然语言检索效率的探索与研究,亟需从情报语言学研究的角度,引进其原理和方法,探寻其有效方法和改进途径,消除各种因素对自然语言检索效率的影响。为此,张琪玉教授历经多年的探索与研究,创制了“学科-事物概念组配型”检索语言,较好地解决了上述各种因素对自然语言检索效率的影响,极大地提高了我国自然语言检索效率。在此基础上,张琪玉教授还从自然语言检索的“文本类型、专指度、不同标引方法、词表控制”等6个方面对检索效率的影响进行了比较分析探究,找到了有效提高自然语言检索效率的方法措施和专门对策。在他看来,自然语言检索在其不同的检索环境、不同的检索条件和不同的检索范围内进行检索,都有其特定的检索方法、技巧和措施,我们在实施其检索过程中,一定要针对具体检索课题需要,采用相对应的最佳检索方法、策略和手段,使其获得更好的检索效率。也就是说,我们在进行自然语言检索时,关键是要掌握其规律、策略和要领。如:当我们对文本进行抽词检索时,首先想到的应是抽取专指词,需要扩检时再使用较泛指的词;当我们需要进行组配检索时,最好在句、段范围内检索;当我们需要构造检索表达式时,应该用“逻辑和”将其同义词、近义词、反义词、否定词连接起来包括进去[8]等等。张琪玉教授还特别提醒我们,要想提高自然语言系统检索效率,配备“后控制词表”是其有效措施和关键所在,并就后控制词表的控制机理、编制特点和检索方法等诸多方面问题,阐明和诠释了自己独特认知和深刻见解,为我国自然语言检索效率的提高和实际运用,作出了重要理论贡献。张琪玉教授通过其持续研究与深入探寻,为我们提供的理论方法、控制措施和检索技巧,就是在网络信息技术高度发达的当今时代,对于我们提高自然语言检索效率仍然具有重要的现实指导意义,他的思想智慧是超越我们想象的。

四、张琪玉对自然语言检索评价研究

在张琪玉教授看来,自然语言应用于情报检索是一种必然趋势和发展方向。自然语言检索随着网络计算机技术、数据库资源和网络信息资源检索环境的不断变化,必然会产生新的检索技术和检索方法。因此,我们掌握其措施方法和使用要领,并对其检索性能作出客观评价,特别有助于提高自然语言检索效率。

1.关键词检索评价研究

21世纪初期,张琪玉教授从“关键词索引”应用角度,回顾了我国关键词索引的研究过程和应用历程。在他看来,关键词索引在我国的应用与发展,最开始是“用做检索刊物的临时性索引;后来用于数据库的关键词检索,代替人工标引;再后来关键词则应用于自动主题标引和自动分类研究的前期处理。”[5]张琪玉教授通过其理论探索和应用历程研究,发现关键词目前主要应用于3个方面:一是题录数据库;二是全文数据库;三是自动抽取关键词。在此基础上,张琪玉教授还对“自由标引的关键词与自动抽取的关键词、题名中的关键词与正文中的关键词、关键词与规范词”[5]的检索性能和检索效率进行了比较分析研究,发现它们在检索质量上存在较大差别。为了较好地解决它们之间的检索差别与缺陷,张琪玉教授认为,关键是要找到问题的症结所在、创新的途径和有效的改进方法。基于此,张琪玉教授从两个方面进行了专门研究:

关于“汉语关键词法”研究。在张琪玉教授看来,关键词法是一种“准情报检索语言”。就其实质而言是一种自然语言检索法,主要适用于目录索引编制过程自动化的需要。其优点主要表现在:专指度较高、检索途径比较多、不用人工标引、缩短时差、没有标引失真现象。它可广泛应用于我国“外文文献的标引,中文报刊文献的标引,档案标引”等诸多方面。并用实例对“计算机抽词-人工干预方式”的具体问题用图示法进行了比较分析研究,通过其理论探索和实例分析,张琪玉教授发现计算机抽词-人工干预方式和自动抽词方式实际上都是自动抽词,又都要人工干预。它们之间的区别在于“计算机抽词-人工干预方式”是其初级阶段,人工干预多;而“自动抽词方式”则是其成熟阶段,人工干预少[9]。

关于“题内关键词索引”研究。在张琪玉教授看来,题内关键词索引也称之为上下文关键词索引。它是最早出现的一种利用电子计算机编制的索引,已经实现了索引工作现代化[10]。它能较好地解决自然语言检索中关键词法应用于汉语特殊问题的需要,回避汉语分词难题以及改造题名数据库问题。因而受到张琪玉教授的高度重视和密切关注。他在多篇文章中专门研究了“题内关键词索引”具体编制方法,并且亲自编写应用程序,进行编制试验,取得成功与突破。

20世纪90年代初期,张琪玉教授在《人—机结合的题内关键词索引可回避汉语分词难题》文章中,在我国首次提出了“含糊抽词”可回避汉语分词难题的学术观点。在他看来,这种抽词方法的最大特点就是能分辨出题名中哪个词或词素具有检索意义,帮助我们解决汉语分词难题。基于此,张琪玉教授对这种抽词方法的抽词原理、抽词特征、抽词措施和抽词办法等诸多方面问题进行了专门探索和实例分析研究。发现这种抽词方法,就其本质属性而言,它是“最长抽词”与“词素轮排”两种方法的结合。究其原因,就是它保留了上下文,虽然是“含糊抽词”,但关键词含义的明确性非常好,特别适于浏览[11]。在此基础上,张琪玉教授还提出了8种改进题内关键词索引的方法措施。

20世纪90年代末期,张琪玉教授在《汉语题内关键词索引的一种编制方法》《汉语题内关键词索引的另一种编制方法》和《汉语题内关键词索引的第三种编制方法》3篇文章中,对汉语题内关键词索引的编制原理和编制方法进行了专门探索和编程工作。在第一种编制方法中,张琪玉教授介绍了自己用WPS和dBASE结合使用,编制题内关键词索引的方法和程序[12];在第二种编制方法中,张琪玉教授又介绍了自己用WPS和dBASE结合使用或单独使用dBASE,编制题内关键词索引的方法和程序;在第三种编制方法中,张琪玉教授还介绍了自己专门使用dBASE,编制题内关键词索引的方法和程序。并特别指出,在这3种编制方法中,后2种都是在对前一种编制方法程序加以修改而成的。如果我们将第二种编制方法与第一种编制方法进行比较,就会发现第一种编制方法检索入口位置在“中部”,而第二种编制方法检索入口位置在“左方”,其编制方法更为简易和灵活,并能节省篇幅[13];如果我们将第三种编制方法与第二种编制方法进行比较,就会发现第三种编制方法每条索引款目分为上、中、下三行,检索入口位置在第二行的“左方”,它较之前两种方法可读性好,主要适用于联机检索环境[14]。

21世纪初,张琪玉教授在《改造题名的汉语题内关键词索引数据库》文章中又提出了汉语题内关键词索引第四种编制方法构想。在他看来,就是从改造题名入手,采用情报检索语言的原理和方法加以控制,必然会提高关键词索引数据库的质量[15]。基于此,张琪玉教授从“题名改造内容、编制法要点和检索性能”3个方面对这种编制方法进行了专门探索与研究,发现这种编制方法,它不仅能使题名用词得到规范,而且还可使数据库也得到进一步规范,更加适合于我们在检索中进行浏览。此外,张琪玉教授还专门研究了“孤立关键词与上下文关键词”[16]专指度问题以及“题名关键词与正文关键词”[17]检索性能问题,目的就是要提高关键词在网络信息资源和数据库资源中的检索效率。

2.全文检索评价研究

21世纪初,张琪玉教授在《全文数据库、全文检索与全文标引》和《全文检索与索引》等5篇文章中,对全文检索的检索原理、检索性能、检索系统、检索方法和结构模式等诸多方面问题进行了专门探讨和深入研究。在他看来,全文检索不仅是我国自然语言检索的主要应用领域,而且还是关键词检索技术应用于全文检索的主要途径。基于此,张琪玉教授首先阐明和诠释了全文检索的性能。在他看来,所谓全文检索,“特指对全文数据库中的文本型数据进行关键字词匹配检索”[18]的一种方式,它能极大地提高全文检索效率。但全文检索并不是万能的:从检索效率角度看,有诸多因素(如:多词一义、一词多义、词义含糊、比喻用法、关键字词匹配、表达式构造、布尔逻辑算符等)直接影响检全率和检准率;从检索效果角度看,它与文献类型密切相关,对于传统型参考工具书(如:字典、词典、百科全书等)和古代诗词全文检索效果好,而对于新闻资料全文检索效果不理想。其次,张琪玉教授还专门研究了全文检索与索引之间的根本区别。在他看来,索引有标目(所谓标目,是指对文献整体主题或局部主题或有信息价值的主题因素的确切表达和明确指示),而全文检索则没有标目[19]。并从6个方面阐明和诠释了全文检索适应的检索范围以及全文检索不适应的检索范围,目的就是帮助人们掌握和正确使用全文检索基本方法及其要领。第三,张琪玉教授还专门研究了全文检索的实质内涵。在他看来,全文检索实质内涵就是通过“对文本数据库进行任意字词的遍历式匹配检索,依次找出文本中全部与检索者所输入的关键词或词的片断完全一致的地方。”[19]简单概括地说,就是“关键词检索+计算机辅助文本浏览”。第四,张琪玉教授还专门研究了全文检索系统的检索性能和理想模式等方面问题。在他看来,要想使全文检索系统获得更佳的检索性能和更高的检索效率,必须建立一个性能优良多功能检索系统,“只有集成多种检索方法的检索系统(即目录体系、索引体系、具有多种功能的计算机检索系统),才能较好地满足多样性的检索要求。”[20]在此基础上,张琪玉教授前瞻性地研究了全文检索系统结构模式问题[21]和全文数据库深度检索模式问题[22],创造性地发现了理想的检索系统模式,即为“文本型全文数据库+需要的索引”或“图像型全文数据库+各种需要的索引”[19]。

3.自动抽词与自动分词评价研究

20世纪90年代末期到21世纪初期,张琪玉教授在《自动抽词与自动分词》《缺乏抽词词典是自动抽词标引难以普及的主要原因》等多篇文章中,对自动抽词与自动分词进行了专门探索和持续研究。在他看来,两者既有联系又有区别,自动抽词是用计算机从文献文本中抽出标引用词,而自动分词则是用计算机将一个句子切分成词或词组。基于此,张琪玉教授首先阐明和诠释了自动抽词与自动分词难于实现的原因。在他看来,自动抽词与自动分词之所以在我国难于实现,是因为有其主观原因和客观因素的影响和制约。并在其与吴建中通讯访谈《情报检索语言的发展趋势——关于图书馆未来的对话之九》文章中探明了其中的缘由,关键是要解决两个方面问题:“(1)如何从自然语言文本中抽出最能准确、充分地表达文献有价值内容的词;(2)克服自然语言由于不规范和缺乏语义关联性而对检索不利的问题。”[23]其次,张琪玉教授还专门研究了自动抽词难以普及的原因。在他看来,多年以来,我国的一些专家和学者对于汉语自动抽词技术做了很多研究工作,同时也研究出了多种抽词软件,但实际使用者却不多。究其原因,就是缺乏“抽词词典”。因此 ,张琪玉教授认为:“只有抽词软件而无抽词词典,是不能建立自动抽词标引系统的。”[24]他的独特认知和创造性发现,为我国自动抽词的最终实现找到了问题关键所在,找准了研究目标和发展方向。为此,张琪玉教授强烈建议,目前要想提高自动抽词检索效率,取得突破性研究进展,关键是要重视和加强对下列相关问题进行重点研究:“学科或主题领域特征词”研究;“文献结构、叙述模式和表述主题用词规律”研究;“分类表词表及标引成果和术语整理成果”利用;“主题概念词的同义归并、等级归并和学科归并”研究;“后控制词表”引入;“人机结合措施”采用[25]等。在此基础上,张琪玉教授还剖析了我国目前缺乏抽词词典症结所在:从研究角度看,研究者大多为计算机专业工作者,他们只管抽词软件研制,鉴定通过则认为大功告成,至于编制抽词词典,就非自己能力所及;从参与项目合作研究者角度看,客观地说,图书情报工作者深入参与抽词软件研制项目合作者很少,即使他们全程参与了抽词软件的研制工作,但由于他们自身对抽词原理、抽词词典编制缺少研究,也很少想到自己具有编制抽词词典的能力与智慧。也就是说,抽词软件研制与编制抽词词典之间存在脱节问题。因此,张琪玉教授号召我国图情学界专家学者,应当积极承担这项研究任务,并将与其“建立实际需要的数据库相结合”[24]。

五、张琪玉对自然语言检索控制措施研究

20世纪90年代中期和末期,张琪玉教授在《论后控制词表》《积极为自然语言与情报检索语言的结合创造条件——建议大量编制自然语言词表》等多篇文章中对自然语言检索控制措施进行了专门探索和深入研究,他创造性地发现了“自然语言词表”,不仅是我们对自然语言加以控制的主要形式,而且还是我们弥补自然语言缺陷的重要措施,同时还是我们提高自然语言检索效率的重要手段,从而为我国自然语言检索控制措施的改进与完善作出了重要理论贡献。

1.自然语言接口用对应表研究

在张琪玉教授看来,自然语言接口又可称之为自然语言入口,它是检索系统的前置部分,其功能作用就是将自然语言通过对应表转换成人工语言(情报检索语言)[26]。检索人员(用户)只要使用自然语言表达检索课题(或文献主题、或检索提问)进入系统,就可以通过“对应表”将其自动转换为人工语言的语词在系统中进行实际检索[27,28],十分方便实用,并可普遍采用。在此基础上,张琪玉教授还进一步明确指出,为了使“对应表”一目了然,便于管理和简化转换程序,还可以将词表的“双语种对照索引”也编入对应表。这样一来,在“对应表”中,自然语言与情报检索语言之间就有一对多对应关系,通过人工辅助转换[27,28]。张琪玉教授阐明和诠释的自然语言接口用对应表编制理论与技术方法,被中国图书馆分类法编辑委员会所采纳,广泛应用于《中国图书馆图书分类法第二版索引》和《中国图书馆分类法第4版索引》以及光盘版等编制实践,为我国情报检索语言的自然语言化作出了重要理论贡献。

2.自动赋词赋号用对应表研究

在张琪玉教授看来,各种自然语言词表(如:自动抽词词典、自动分类用对应表、后控制词表和自然语言接口用对应表等)在其检索功能和控制措施等方面,具有其相似性和相互取代性,可以灵活掌握使用。也就是说,我们可以通过对某种词表的改进或扩充,使其具有另一种词表的控制功能和作用。基于此,张琪玉教授对自动赋词赋号用对应表进行了专门探索与研究,发现自动赋词赋号标引系统是对自动抽词标引系统的改进与提高,其功能作用就是使其自动抽出的自然语言语词转换成人工语言语词(检索词或分类号)[27,28]。在此基础上,张琪玉教授还进一步研究了“自动赋词标引系统”和“自动赋号标引系统”的构建问题。在他看来,这两个系统既可单独建立,又可合而为一,关键是要根据实际情况而定,并阐明和诠释了其编制技术与编制方法。张琪玉教授还特别提醒我们,自动赋词赋号标引系统所采用或所编制的词表是其关键所在。在他看来,我们既“可使用现有的词表或分面分类表,也可仿照词表和分类表的编制原理,对自动抽词所抽出的自然语言语词做有限范围的控制。”[27,28]这样一来,当我们的检索人员(用户),应用其检索系统进行检索时,不仅可以使用检索词或分类号检索,而且还可以使用自然语言检索。

3.自动分类用对应表研究

20世纪90年代中期,张琪玉教授在《分类法主题法一体化自动标引系统的基本原理和方法》文章中,对基于以体系分类法为基础的自动分类标引问题进行了专门探索与研究。在他看来,这种以体系分类法为基础的自动分类标引,必须要建立自动分类标引系统,必须要使用自动分类词表,并要遵循自动分类标引规则确定主要分类号。张琪玉教授还特别指出,这种词表不同于“自然语言接口用对应表”“后控制词表”等,它是“一种词与分类号的双向对应表,由分类号-词对应表和词-分类号对应表两个部分组成。”[29]目的就是将《中图法》改造为分类法主题法一体化检索语言。在此基础上,张琪玉教授还阐明和诠释了这种词表的编制原理和编制方法。当我们在编制“分类号-词对应表”时,可先将《中图法》的分类表改造成分面分类表,把词对应到相应的分面中,再赋予《中图法》的分类号,建立分类号索引,提供分类检索途径;当我们在编制“词-分类号对应表”时,可将“分类号-词对应表”的款目倒转过来,然后按照词的字顺排列,建立关键词索引,提供主题检索途径,供自动分类标引用[29]。他的构思和设想,被《中国图书馆图书分类法》编委会所采纳,并于1994年成功编制出版了《中国分类主题词表》[30]。

4.后控制词表研究

20世纪90年代中期,张琪玉教授在《论后控制词表》文章中,对后控制词表的控制机理、编制特点、编制方式、结构模式和检索方法等诸多方面问题进行了专门探索与研究。在他看来,后控制词表功能作用强大,控制机理独特、编制特点突出、编制方式多种多样、结构模式多种方式并存、检索方法多种途径,它不仅是我们提高自然语言检索效率的重要手段和有效措施,而且还在我们实施对自然语言检索过程中,充当着转换工具、扩检工具和选择工具的角色,发挥着至关重要的作用。在此基础上,张琪玉教授还特别提醒我们,后控制词表专用于文献检索而不用于文献标引。因此,其词表编制必须在“检索系统中实有的自然语言检索标识的基础上进行编制,否则将会大大降低其控制功能。”[31]并为我们提供了“分类词表+字顺/轮排表”理想结构模式。张琪玉教授阐述和诠释的后控制理论及其理想结构模式思想,广泛应用于网络信息资源、数据库资源和搜索引擎等诸多方面,为我国自然语言检索功能的增强和检索效率的提高作出了重要理论贡献。

此外,张琪玉教授还对“词素词表”控制措施[27,28]、“词素轮排索引编制法”[32]和“网络信息检索工具”[33,34]等方面问题进行了深入探索和专门研究,目的都是为了加强对自然语言进行控制,找到有效的改进方法和措施,适应不同的检索环境,提高自然语言检索效率。

六、张琪玉对自然语言检索发展前途研究

在我国图书情报学界,张琪玉教授是一位坚定的辩证思维型学者。他一直用发展的观点、辩证思维的观点,密切关注着自然语言和情报检索语言的走向问题,前瞻性地研究和探索着自然语言和情报检索语言的发展前途问题。

首先,张琪玉教授专门探索和研究了自然语言走向问题。在我国图书情报学界,对于自然语言和情报检索语言的走向问题,一直存在着争议和分歧。张琪玉教授为了从根本上帮助人们认识清楚自然语言走向问题,从其检索性能、检索效率、控制措施、网络信息检索工具等诸多方面进行了理论探索和应用研究工作,并在其与张欣毅、张京生通讯访谈《走向自然语言与情报检索语言结合之路——与我国著名情报语言学家张琪玉教授的通讯访谈》文章中,阐明和诠释了自然语言走向问题,独具慧眼地发现了“自然语言的未来与情报检索语言的未来在某种意义上可以说是同一个问题,即为自然语言的情报检索语言化或情报检索语言的自然语言化。”[35]

其次,张琪玉教授还专门探索和研究了自然语言发展趋势问题。在他看来,自然语言和情报检索语言都存在着如何适应网络检索问题。也就是说,自然语言要想适应网络检索需要,必然要走向控制与规范;而情报检索语言要想适应网络检索需要,必然要走向自然语言化。更确切地说,自然语言不可能全面取代情报检索语言,淘汰情报检索语言。“网络信息检索不能唯一地使用自然语言,也必须使用人工语言。”[35]

第三,张琪玉教授还专门探索和研究了检索系统关系问题。在他看来,自然语言检索系统与情报检索语言检索系统并不是绝然对立的,它们“各有长处和短处,可以并行发展,可以互相结合,互相补充。”[4]并对这种新型情报检索语言在其没有完全融合、普及之前并存情况进行了预测:“情报检索语言与自然语言在一个检索系统中并用;情报检索语言增加自然语言成分;自然语言适当引进情报检索语言的原理与方法和增加情报检索语言成分。”[7]他的思想智慧和超前预测,在当今网络信息时代已得到充分印证。

张琪玉教授还特别提醒我们,自然语言检索要想达到较高的检索效率,得到人们的认可和认同,成为一流的语言工具。走向控制与规范是前提;实现与人工语言对应转换是关键;采用后控制词表、自然语言接口等方法措施是基础;突破自动抽词标引瓶颈是重中之重。

七、结语

以上笔者从六个方面对张琪玉教授在自然语言检索领域所取得的学术思想成就进行了较为清晰的揭示和梳理。从中我们不难发现,他之所以能在自然语言检索领域取得成功与突破:首先,张琪玉教授从客观实际的角度,充分考量了我国自然语言研究现状以及人们对自然语言检索性能的片面理解,他站在辩证思维发展的高度,阐明了自己独特的立场观点,目的就是帮助和引导人们正确认知自然语言的本质特性以及改进创新的途径与方法;其次,张琪玉教授还对影响自然语言检索效率的各种因素进行了充分考量与探究,发现了提高自然语言检索效率的有效方法和改进途径,较好地解决了各种因素对自然语言检索效率的影响;第三,张琪玉教授还从理论层面和应用层面,重点探索和专门研究了关键词检索、全文检索以及自动抽词与自动分词等的性能特点和编制技术方法。不仅使人们在理论研究层面上明确了自然语言应用于情报检索的主要方式和今后的主攻研究方向,而且还启迪了人们的研究思维,开阔了人们的研究视野,为我国自然语言检索取得实质性进展做出了卓越贡献;第四,张琪玉教授为了实现自然语言的情报检索语言化,大力加强了对自然语言控制措施与方法的理论探索与研究,创造性地发现了“自然语言词表”是对自然语言加以控制的主要形式,是弥补自然语言缺陷的重要措施,是提高自然语言检索效率的重要手段,为我国自然语言检索控制措施与方法的突破和创新开辟了新路;第五,张琪玉教授还始终用动态发展眼光,前瞻性地研究和探索着自然语言和情报检索语言的发展前途问题(或走向问题),为我国自然语言和情报检索语言适应新的网络检索环境作出了重要理论贡献。

猜你喜欢
检索教授自动
田教授种“田”为啥这么甜
刘排教授简介
CNKI检索模式结合关键词选取在检索中的应用探讨
自动捕盗机
瑞典专利数据库的检索技巧
2019年第4-6期便捷检索目录
英国知识产权局商标数据库信息检索
让小鸭子自动转身
自动摇摆的“跷跷板”
关于自动驾驶