八十老翁平生无悔

2018-03-07 20:12冯志伟

文化学刊 2018年3期

冯志伟

(教育部语言文字应用研究所，北京 100010)

我的名字叫冯志伟，生于1939年4月15日，云南省昆明市人。今年我虚岁满80岁了，应《文化学刊》之约，我在这里把这80年的生活做一个总结，以看到自己的成绩和不足。

我于1945年在昆明东升小学读小学，1951年以第一名的成绩考入昆明一中，1957年考入北京大学地球化学专业本科学习，1959年弃理学文转入北京大学中文系汉语专业本科学习，1964年考入北京大学中文系语言学专业读研究生，1967年毕业，由于文化大革命的影响，改行到昆明五中当物理教员，1978年恢复高考后，由于我的数学、物理基础都很好，于是我干脆弃文学理，考入中国科学技术大学研究生院信息科学系机器翻译专业学习，接着被选派到法国格勒诺布尔理科医科大学应用数学研究所(IMAG)自动翻译中心(CETA)师从法国著名数学家、国际计算语言学委员会主席沃古瓦(B.Vauquois)教授专门研究数理语言学和机器翻译问题。1981年回国，在中国科学技术信息研究所计算中心担任机器翻译研究组组长，由一个语言学家变成了一个软件工程师。1985年国家语言文字工作委员会成立，需要懂得计算机的语言学家，于是我被调入中国社会科学院语言文字应用研究所，担任计算语言学研究室主任，后来语言文字应用研究所改由国家教育部领导，我又成了教育部下属单位的工作人员，担任研究员和博士生导师。在此期间，我于1986～1988年在德国夫琅禾费研究院(FhG)新信息技术与通信系统研究所担任客座研究员，1990～1993年在德国特里尔大学担任客座教授，1996年在德国康斯坦茨高等技术学院国际术语学和应用语言学中心(CiTaL)担任技术顾问。我于1998年5月退休。

退休之后我仍然继续到国外从事语言学和自然语言处理的教学和研究工作。1999年10月～2000年8月再次在德国特里尔大学担任客座教授。2000～2001年担任桑夏自然语言处理研究院高级研究员，2003年在英国伯明翰大学担任高级研究员，2001～2002年以及2003～2004年前后两次担任韩国科学技术院电子工程和计算机科学系访问教授，用英语讲授自然语言处理的博士课程。

除了上述工作之外，我在退休之后的大部分时间用于旅游，“小舟从此逝，江海度余生”，是我近20年退休生活的写照。这20年来，我的退休生活的大部分时间都消磨在国内外湖光山色的美景之中，看门前花开花落，观天空云卷云舒，尽管是虚度年华，但这是我一生中最美好的时光。

当然，虚度年华并不是碌碌无为，作为学者，我有自己的社会责任，我要回报社会。

回顾80年的蹉跎岁月，起伏跌宕，艰辛备尝，可是我始终笑对人生的苦难，努力工作，做到了“平生无悔”。现将我的主要学术成果归纳如下：

1.首次测定汉字熵值。汉字的“熵”(entropy)是汉字所含信息量大小的数学度量。近几十年来，国外学者已陆续测出一些拼音文字字母中的熵，而汉字数量太大，各个汉字的出现概率各不相同，因此，要计算包含在一个汉字中的熵是十分复杂的。在20世纪70年代初期，我提出了“汉字容量极限定律”，用严格的数学方法，证明了当统计样本中汉字的容量不大时，包含在一个汉字中的熵会随着汉字容量的增加而增加，当统计样本中的汉字容量达到12,366字时，包含在一个汉字中的熵就不再增加了，这意味着，在测定汉字的熵的时候，统计样本中汉字的容量是有极限的。这个极限值就是12,366字，超出这个极限值，测出的汉字的熵再也不会增加了。当时我在中学教书，没有条件使用计算机，我只好使用手工来计算，根据汉字容量极限定律，我在包含12,370个不同汉字的统计样本的范围内，初步估测出了在考虑语言符号出现概率差异的情况下，包含在一个汉字中的熵为9.65比特。由此得出结论：从汉语书面语总体来考虑，在全部汉语书面语中，包含在一个汉字中的熵是9.65比特。这是国内外首次测定的汉字熵值。20世纪80年代，国内外学者使用计算机，在大规模汉字文本的基础上测定的汉字熵值，与我使用手工估测的结果大致相同。1995年，我又进一步首次测定了在充分考虑汉字上下文的影响时包含在一个汉字中的熵，这个熵叫做“极限熵”。我测得，汉字的极限熵平均为4.0462比特。我的方法是通过英汉文本字符容量的对比来间接地推算极限熵，避免了复杂的测试和计算。我在研究中还发现，汉语翻译为英语时与英语翻译为汉语时，英汉文本字符容量之比是不一样的，汉译英时，英汉文本的字符容量之比为3.8，英译汉时，英汉文本的字符容量之比为2.7。熵的测定是数理语言学的一项基础研究，由于汉字字符量多，测定汉字的熵和极限熵都是非常困难的工作，我的研究得到了国外的好评。美国宾夕法尼亚大学梅维恒(V. H. Mair)教授曾著文《评冯志伟教授的两本书》(《现代汉字和计算机》《中文信息处理与汉语研究》)，文中写道：“众所周知，词的概念对于有效地进行自然语言处理是十分重要的。可惜的是，汉字连书对于明确地划清词的界限是极为不利的，因而汉字给信息处理专家和计算机技术人员造成了巨大的障碍。在阅读这两本书的时候，我认识了现代标准汉语(MSM)中的一个新词——‘熵’。这个新词是用来翻译英文‘entropy’或‘information content’的(后者也可以译为‘信息量’)。冯志伟计算出：一个汉字的熵为9.65比特，而与其他语言相比，法语一个字母的熵为3.98比特，意大利语一个字母的熵为4.00比特，西班牙语一个字母的熵为4.01比特，英语一个字母的熵为4.03比特，德语一个字母的熵为4.12比特，俄语一个字母的熵为4.35比特，汉字的熵大得惊人。有些赞扬汉字的人宣称，汉字的熵这样大，似乎对于信息处理大有好处。然而，冯志伟却提出了与此完全不同而又令人信服的观点。”梅维恒教授又在文章中高兴地评论说：“如果一个人能够用科技术语和数学方程式来论述他的对于现代标准汉语的观点，那么，这样的论述当然应该是非常雄辩而有说服力的。不过，我却乐于通过直觉和观察的方法来研究，根据我的经验，我曾经断言，汉字的平均笔画数应该是十二画，二十年来对于汉字的这种低效率的性质和特性的直观感觉和细心观察，我的研究现在由冯志伟在他的书中已经证实，简化汉字标准集的平均笔画数与我在过去宣布的结论几乎完全相同，而如果考虑到被简化的繁体字，这个平均笔画数只是比十二画稍微高一些。这样的不谋而合真使我高兴万分。”由此可见，我做的这项极为重要的科学研究，不仅指明了中文信息处理的正确方向，而且对汉字的规范化也很有重要的指导意义。

2.首次把依存语法和配价语法应用于机器翻译中。我在法国留学期间，了解到法国语言学家泰尼埃(L. Tesnière)的依存语法和语法“价”的概念，开始用这种语法来研究汉外机器翻译问题，首次把“价”(valence)的概念引入机器翻译研究中，我把动词和形容词的行动元分为主体者、对象者、受益者三个，把状态元分为时刻、时段、时间起点、时间终点、空间点、空间段、空间起点、空间终点、初态、末态、原因、结果、目的、工具、范围、条件、作用、内容、论题、比较、伴随、程度、判断、陈述、附加、修饰等27个，以此来建立多语言的自动句法分析系统，对于一些表示观念、感情的名词，也分别给出了它们的价。我还把依存语法和短语结构语法结合起来，在表示结构关系的多叉多标记树形图中，明确地指出中心语的位置，并用核心(GOV)、枢轴(PIVOT)等结点来表示中心词。这是我国学者最早利用依存语法和“价”的思想来进行自然语言计算机处理的尝试。

我还根据机器翻译的实践，提出了表示依存语法的依存树(dependence tree)应该满足如下五个条件：(1)单纯结点条件：依存树中，只有终极结点，没有非终极结点，依存树中的所有结点所代表的都是句子中实际出现的具体的单词；(2)单一父结点条件：在依存树中，除了根结点没有父结点之外，所有的结点都只有一个父结点；(3)独根结点条件：一个依存树只能有一个根结点，这个根结点，就是依存树中唯一没有父结点的结点，这个根结点支配着其他的所有的结点；(4)非交条件：依存树中的树枝不能彼此相交；(5)互斥条件：依存树中的结点之间，从上到下的支配关系和从左到右的前于关系之间是互相排斥的，如果两个结点之间存在着支配关系，它们之间就不能存在前于关系。我提出的这五个条件比1970年美国计算语言学家罗宾孙(J. Robinson)提出的依存语法的四条公理更加直观，更加便于在机器翻译中使用。

我还研究了短语结构树(phrase tree，简称P-树)和依存树(dependency tree，简称D-树)之间的等价关系，在计算机上进行P-树到D-树的转换。我在20世纪90年代末期带领一个精干的研究小组，研制出英日机器翻译系统E-to-J，采用短语结构语法进行英语自动分析，产生P-树，然后把P-树转换为等价D-树，然后再根据依存语法，从D-树生成日语，减少了系统的空间复杂度和时间复杂度，使整个系统达到了实用的水平。这个系统已经在1998年11月正式由日本NEC公司在日本市场上推出。

3.研究生成语法的公理化方法。我对于美国语言学家乔姆斯基(N. Chomsky)的形式文法的数学原理有浓厚的兴趣，从公理化方法的角度来研究乔姆斯基的形式文法，我把乔姆斯基的形式文法同数学中的半图厄系统(semi-Thue system)相比较，指出了乔姆斯基的形式文法，不过是数学中的公理系统理论在语言分析中的应用而已，语言就是由文法这一公理系统从初始符号出发推导出的无限句子的集合；文法的规则是有限的，文法中的终极符号和非终极符号的数目也是有限的，可是，由于语言符号具有递归性，文法这一公理系统就能够根据有限的符号，通过有限的重写规则，递归地推导出无限的句子来。我的这项研究从数学的基础理论方面揭示了形式文法的实质。

4.提出多叉多标记树模型，研制了世界上第一个把汉语自动地翻译成多种外语的多语言机器翻译系统。乔姆斯基根据形式语法的原理，提出了用短语结构语法来作为自然语言形式描述的一种手段，这种语法在自然语言处理中得到了广泛的使用。国内外的许多机器翻译系统都采用乔姆斯基的短语结构语法作为系统设计的基本理论依据，根据乔姆斯基的短语结构语法，表示句子结构的树形图中的每一个结点只有一个相应的标记，结点与标记之间的这种关系是一种单值标记函数的关系。这种单值标记函数表示的语言特征是十分有限的，因而在机器翻译的语言分析和生成中，会产生大量的歧义结构，形成大量的不合语法的句子，它的分析能力有限，生成能力过强，这是短语结构语法的一个致命的缺点。我在法国研制开发机器翻译系统的实践中，就敏锐地认识到短语结构语法的这种致命缺点，经过在计算机上编写程序进行潜心钻研和反复试验，我提出了多叉多标记树模型(Multiple-branched and Multiple-labeled Tree Model，简称MMT模型)，在这个模型中，我采用多值标记函数来代替短语结构语法的单值标记函数，使得树形图中的一个结点，不再仅仅对应于一个标记，而是对应于若干个标记，这样便大大地提高了树形图的标记能力，使得树形图的各个结点上，都能记录足够多的语法语义信息，把句子中所蕴含的丰富多彩的信息充分地表示出来。这种多值标记函数的理论，从根本上克服了乔姆斯基的短语结构语法在描述自然语言时的严重缺点，提高了其有限的分析能力，限制了其过强的生成能力。我当时提出的MMT模型是对乔姆斯基短语结构语法的一个带有实质意义的重要改进，提出后立即引起了国际语言学界的重视。在1982年于布拉格召开的国际计算语言学会议(COLING'82)上，在1983年于北京召开的国际中文信息处理会议(ICCIP'83)上，在1984年于香港召开的东南亚电脑会议(SEARCC'84)上，都讨论了MMT模型。就在我提出MMT模型的同时，国外一些计算语言学家也看到了短语结构语法的局限性，分别提出了各种手段来改进它。例如，1983年卡普兰(R. M. Kaplan)和布列斯南(J. Bresnan)提出的“词汇功能语法”、1983年马丁·凯依(Martin Kay)提出的“功能合一语法”、1985年盖兹达(G. Gazdar)等提出的“广义短语结构语法”、1985 年珀拉德(C. Pollard)提出的“中心语驱动的短语结构语法”等，都采用了“复杂特征”来描述自然语言，他们所说的所谓“复杂特征”实际上也就是我提出的“多值标记”，名异而实同。所以，我提出的MMT模型是世界计算语言学者对乔姆斯基的短语结构语法进行改进的一个重要方面和不可分割的组成部分，MMT模型是20世纪80年代较早提出的一个旨在改进短语结构语法的形式化模型，当时我国学者在这方面的研究在国际上是处于前沿地位的。1984年荷兰阿姆斯特丹北荷兰出版社出版的多卷专著《计算机科学基础研究》第9卷《自然语言处理的计算机模型》一书(由意大利米兰大学主编)中，曾详细介绍了我的MMT模型，并评论说：“冯氏关于独立分析-独立生成的主张，关于尽可能地从源语言分析中获取多方面信息的主张，是当前自然语言处理研究中的一个重要进展”。

我还结合汉语的特点需要，研究了采用MMT模型来进行汉语自动分析的各种问题。我指出，在汉语的自动分析中，采用“多值标记”的必要性更加明显。这是因为汉语的句子不能只用词类或词组类型等简单特征来描述，汉语句子各个成分的词类、词组类型、句法功能、语义关系、逻辑关系之间，存在着极为错综复杂的关系，如果只采用简单特征，就无法区分各种歧义现象，达不到汉语自动处理的目的。具体地说，这是由于：(1)汉语句子中的词组类型(或词类)与句法功能之间不存在简单的一一对应关系；(2)汉语句子中词组类型(或词类)和句法功能相同的成分，它们与句子中其他成分的语义关系还可能不同，句法功能和语义关系之间也不是简单地一一对应的；(3)汉语中单词所固有的语法特征和语义特征，对于判别词组结构的性质，往往有很大的参考价值，除了词组类型这样的简单特征之外，再加上单词固有的语法特征和语义特征，采用多值标记来描述，就可以判断词组结构的性质。

我还提出了用于多值标记的汉语“特征/值”系统，特征可分为静态特征和动态特征两大类，建立了汉语自动分析的双态系统(bi-state system)。其中，静态特征有：词类特征、单词的固有语义特征和它的值、词的固有语法特征和它的值；动态特征有：词组类型特征和它的值、句法功能特征、语义关系特征、逻辑关系特征。在自动句法语义分析中，静态特征是计算机进行运算的基础，计算机依赖于这些预先在词典中给出的静态特征，通过有穷步运算，逐渐计算出各种动态特征，从而逐步弄清楚汉语句子中各个语言成分之间的关系，达到句法语义分析的目的。

我使用MMT模型，在格勒诺布尔理科医科大学应用数学研究所的大型计算机上，完成了汉-法/英/日/俄/德多语言机器翻译试验，建立了FAJRA系统(FAJRA分别是法文的法语、英语、日语、俄语和德语的首字母简称)。

当时MMT模型采用的方法，是基于语言规则的理性主义方法。我学会了计算机编程技术，在计算机上编写了汉语分析规则5000条左右，法语、英语、日语、俄语和德语的转换规则和生成规则各3000条左右，一共20,000多条规则。此外，我还编制了若干部机器可读的、代码化的机器翻译词典。这个机器翻译系统涉及到多种语言，问题极为复杂，在研究的时候，似乎是从零数到无限大，越是往前研究，问题就越来越多，就越觉得前面充满了险阻，困难重重，有看不到尽头的感觉。由于问题复杂，工作量极大，我每天工作时间都超过10小时，扎扎实实苦干了三年，于1981年11月在IBM 4341大型计算机上输出了法语、英语、日语、俄语和德语等五种语言的机器翻译译文。这是世界上第一个把汉语自动地翻译成多种外语的机器翻译系统。

在1982年回国之后，我又继续使用MMT模型，于1985年在北京市遥感技术研究所的大型计算机上，进行了德-汉机器翻译试验和法-汉机器翻译试验，建立了GCAT德-汉机器翻译系统和FCAT法-汉机器翻译系统。

5.首次在国内开设数理语言学课程。早在1965年，我就开始关注数学方法在语言学中的应用问题，在中国社会科学院出版的《语言学资料》杂志1965年第2期上，介绍了计量语言学(quantitative linguistics)中著名的福克斯公式。这是50多年前中国学者发表的最早的关于计量语言学研究的文章，开我国计量语言学研究的先河。当时我才26岁。可是不久就发生了文化大革命，我的计量语言学研究之梦就像希望的肥皂泡一样，很快就破灭了，我只好离开了北京大学，改行到边疆教中学。

1982年，我应北京大学的邀请，又重新回到北京大学，在中文系汉语专业开设了“语言学中的数学问题”(即“数理语言学”[mathematic linguistics])的选修课(计量语言学是数理语言学的一个分支)。这是国内首次在高等学校全面地、系统地讲述数理语言学的课程，受到学生们的欢迎。北京大学校长、著名数学家丁石孙教授在他的专著《数学与教育》一书中，对我开设的这门课程作了如下的评价：“1982年，北京大学中文系开设了《语言学中的数学问题》，这是给汉语专业学生开的选修课程，许多同学对这门学科产生了很大的兴趣，经过一个学期的学习，同学们初步认识了现代数学的发展给语言学注入了生机，觉得获益匪浅，对语言学这门古老的学科分支的发展充满了信心，而且，这一举动冲击了相当多的人的旧概念，使闭塞的中国学术界认识到，即使在人文科学教育中，数学也在逐渐起作用。”在丁石孙校长的支持下，我于1991年在湖南教育出版社出版了《数学与语言》一书，系统地用数学方法来研究语言学问题。

6.出版了国内第一本《数理语言学》专著。我于1985年6月在上海知识出版社出版了《数理语言学》，这是国内第一本数理语言学专著。直到1997年国内才出版了第二本数理语言学的英文本专著，比我写的第一本专著晚12年。2012年，商务印书馆出版了《数理语言学》的增订本，全书分“离散数学与语言”“代数语言学”“统计语言学”“应用数理语言学”四部分，全面地介绍了数理语言学的原理和方法，对于我国数理语言学的发展，起了奠基性的作用。

7.从事术语数据库的开发，提出了“术语形成的经济律”。术语是科学知识在自然语言中的结晶，计算机自然语言处理离不开术语研究。我一直关注术语研究，多年从事术语数据库的开发。在术语数据库研制中，我证明了，在一个术语系统中，术语系统的经济指数与术语平均长度的乘积恰恰等于单词的术语构成频度之值，并提出了“FEL公式”来描述这个定律。根据FEL公式可知，在一个术语系统中，提高术语系统经济指数的最好方法是在尽量不过大地改变术语平均长度的前提下，增加单词的术语构成频度。这样，在术语形成的过程中，将会产生大量的词组型术语，使得词组型术语的数量大大地超过单词型术语的数量，而成为术语系统中的大多数。FEL公式从数理语言学的角度，正确地解释了为什么术语系统中词组型术语的数目总是远远大于单词型术语的数目的数学机理，它反映了语言中的省力原则和经济原则，这种原则叫做“术语形成的经济律”。这是我国学者对于数理语言学中齐夫定律(Zipf's law)的新发展，也是我国学者对于现代术语学理论的贡献。

8.提出了“生词增幅递减律”。我通过仔细的观察研究后指出，在一个术语系统中，每个单词的绝对频度是不同的，经常使用的单词是高频词，不经常使用的单词是低频词，随着术语条目的增加，高频词的数目也相应地增加，而生词出现的可能性越来越小，这时，尽管术语的条数还继续增加，生词总数增加的速率却越来越慢，而高频词则反复地出现，生词的增幅有递减的趋势。这个“生词增幅递减律”不仅适用于术语系统，也适用于阅读书面文本的过程。人们在阅读一种用自己不熟悉的语言写的文本时，开始总有大量不认识的生词，随着阅读数量的增加，生词增加的幅度会逐渐减少，如果阅读者能够掌握好已经阅读过的生词，阅读将会变得越来越容易。在生词数W与文本容量T之间存在着如下的函数关系：W=Φ(T)，随着文本容量T的增大，生词数目W的增幅逐渐减少，反映这种函数关系的曲线也就越来越平滑，整个曲线在直角坐标系内呈现上凸的抛物线形状。这条函数曲线也同时反映了阅读书面语时生词增加的过程，它实际上就是人们阅读过程中生词变化规律的数学描述，可以称为“阅读曲线”。

9.提出了“潜在歧义论”(Potential Ambiguity Theory，简称PA论)。我在术语研究中还发现，在中文术语的歧义格式中，包含着歧义性的一面，也包含着非歧义性的一面，因而这样的歧义格式是潜在的，它只是具有歧义的可能性，而并非现实的歧义。潜在的歧义能否转化成现实的歧义，要通过潜在歧义结构的“实例化”(instantiation)过程来实现，“实例化”之后，有的歧义结构会变成真正的歧义结构，有的歧义结构则不然。因此我提出了“潜在歧义论(PA论)”。这一理论是对传统语言学中“类型-实例”(type-token)观念的冲击，深化了对于歧义格式本质的认识。后来，我又把PA论从术语领域推广到日常语言的领域，进行自然语言处理中的歧义消解策略的研究，对于现代汉语中的潜在歧义结构类型进行了深入而系统的研究。

10.提出了汉字结构的括号式表示法，用德文、英文、希腊文向国外介绍汉字的基础知识。我把一个个的汉字按层次分解为树形图结构，再用括号把汉字的结构表示出来，这种汉字结构的括号式表示法便于理解和记忆，在对外汉语教学中受到外国学生的欢迎，我根据这样的方法，用德文写成了《汉字的历史和现状》一书在特里尔科学出版社出版。德国特里尔大学韦荷雅(Dorothea Wippermann)博士1996年在《评冯志伟新著〈汉字的历史和现状〉(德文版)》一文中指出，冯志伟“在汉字研究中引入了现代的成分分析法。对于这种方法，直到现在为止，许多在专家圈子之外的普通人还很不熟悉，所知极少。这种分析法认为，汉字是由不同的图形成分组合而成的一个封闭的集合，其中的每一个较大的成分都可以进一步被拆分为较小的成分，一直被拆分到单独的笔画为止。汉字结构的这种多层次的多分叉的构造图形可以用树形图来表示，这样一来，便为揭示汉字总体结构的研究提供了一种系统性的理论和方法。这种在中文信息处理中行之有效的成分分析法，对于汉字的研究和学习，也提供了一种新的记忆手段。”我用德文写成这本《汉字的历史和现状》在国外受到欢迎，在希腊被雅典大学的克里斯丁娜(A. Christina)教授翻译成希腊文出版。2017年我又用英文写成了《汉字》一书在外语教学与研究出版社出版，同样受到了国内外汉语学习者的好评。这些书籍的出版，对于中华传统文化走出国门，扩大中华传统文化在世界上的影响，起了很好的推动作用。

11.研究现代语言学流派，写出了中国第一本现代语言学流派的专著。我早年师从北京大学岑麒祥教授学习理论语言学，为了阅读外文原著，我学会了英语、法语、德语、俄语、日语等外语，曾经认真地阅读过西方语言学的主要著作的原文本，因此，我在1984年写成了《现代语言学流派》一书，着重介绍了索绪尔的语言学理论、布拉格学派、哥本哈根学派、美国描写语言学、法国功能语言学、英国伦敦学派、转换生成语法、格语法、蒙塔鸠语法、心理语言学、社会语言学、数理语言学等现代语言学中的主要流派和新兴学科。此书于1998年由商务印书馆出修订本，增加了叶斯柏森的语言理论、法兰西学派、配价语法等内容，2013年由商务印书馆出增订本，增加了莫斯科语义学派、语料库语言学、语言类型学、认知语言学、计算语言学等内容。此书对于现代语言学知识的普及和传播起了很好的作用，被多所大学列为语言学博士生入学考试的必读书。

12.建立汉语文本自动切分的形式词理论。汉语书面文本的自动切分研究中，切分单位的确定一直是悬而未决的难点。我系统地研究这个难题，建立了汉语文本自动切分的形式词理论，并提出了操作性很强的鉴别方法。形式词理论深化了现代汉语书面文本的自动切分基础理论的研究。

13.出版了国内第一本《现代术语学引论》专著。我于1997年在语文出版社出版了《现代术语学引论》，这是国内第一本术语学的专著。2011年，商务印书馆出版了《现代术语学引论》的增订本。此书共16章，分别讲述术语学的历史和现状、术语、概念系统和知识本体、定义、术语编纂、术语标准化、术语命名原则、术语数据的存储与交换、中国的术语工作、中文单词型术语、术语形成经济律、潜在歧义论、中文名词词组术语的结构、中文动词词组术语和形容词词组术语的结构、中文名动同形词词组术语的结构、计算术语学等问题。此书把传统术语学中基于概念的术语观推进到了基于知识本体的术语观，把传统术语学中规范性的术语观推进到了描写性的术语观，把传统术语学中共时性的静态术语观推进到了历时性的动态术语观，为我国的现代术语学构建了一个完整的理论框架。

14.建立了汉语的本体知识体系ONTOL-MT。我在研究日汉机器翻译时，根据亚里士多德的范畴分类，建立了一个体现了人文精神的本体知识体系ONTOL-MT。在ONTOL-MT知识本体系统中的概念，实际上也就是单词本身所固有的语义特征，它们是独立于单词的上下文而存在的，因此，可以用这些概念来表示机器翻译词典中单词的固有语义特征。在日汉机器翻译研制中，我利用单词固有的这些语义特征在机器翻译系统中进行日语分析中同形词的判别，效果良好。鲁东大学亢世勇教授主编《新编同义词词林》，请我担任顾问，他们根据我提出的本体知识体系ONTOL-MT，把《新编同义词词林》中的单词分为15个大类、203个中类、1477个小类，对于原来的《同义词词林》的分类进行细化，《新编同义词词林》于2015年在上海辞书出版社出版。

15.出版了大部头专著《自然语言计算机形式分析的理论和方法》。我于2010年在中国科学技术大学出版社出版了《自然语言处理的形式模型》，收入中国科学技术大学校友文库，受到读者的欢迎。后来我在此书的基础上进一步重写，根据学科的最新发展增加了大量的新内容，完成了篇幅为110万字的《自然语言计算机形式分析的理论和方法》一书，于2017年在中国科学技术大学出版社出版，收入当代科学技术基础理论和前沿问题研究丛书，属于“十三五”国家重点图书出版规划项目。全书共18章，对于自然语言处理中的各种理论和方法进行了系统的总结和梳理。首先讨论了自然语言处理的学科定位，接着介绍了语言计算的一些先驱研究，然后以主要的篇幅讨论自然语言计算机形式分析的各种理论和方法，同时还讨论了自然语言处理系统的评测问题，最后从哲学的角度讨论了自然语言处理中的理性主义和经验主义，探索理性主义方法和经验主义方法结合的途径。本书出版后好评如潮，是中国自然语言处理的集大成之作。

16.出版了《自然语言处理简明教程》，推动了国内的计算语言学跨学科教学。我于2012年在上海外语教育出版社出版了《自然语言处理简明教程》，收入现代语言学丛书。此书共18章，分别讲述了自然语言处理与理论语言学、词汇自动处理、形态自动处理、句法自动处理、结构歧义、良构子串表与线图、复杂特征与合一、语义自动处理、马尔可夫链与隐马尔可夫模型、语料库语言学、机器翻译、信息自动检索、信息抽取和自动文摘、文本数据挖掘、自然语言理解、自动问答与人机接口、术语数据库与计算术语学、计算机辅助语言教学和语言测试、语音合成、语音识别和汉字识别等自然语言处理的基础知识和技术。此书成为高等学校的自然语言处理课程教材，促进了语言学和计算机科学的自然语言处理教学。

17.翻译出版了《自然语言处理综论》《统计语言学习》等国外计算语言学名著。我还关注国外计算语言学的发展情况，把国外的计算语言学名著翻译成中文，分别在电子工业出版社和世界图书出版公司出版。《自然语言处理总论》和《统计语言学习》都是国际上公认的计算语言学优秀教材，翻译出版后受到计算语言学师生的欢迎。我还为《自然语言交流的计算机模型》(译自英文)、《普通术语学和术语词典编纂学导论》(译自德文)、《术语学、知识论和知识技术》(译自德文)等国外名著的译文对照原文做审校，提高了这些著作的译文质量。

18.为国外语言学名著写导读。我先后为国外语言学名著《牛津计算语言学手册》《应用语言学中的语料库》《译者的电子工具》《人工智能在第二语言教学中的应用——提高对于偏误的意识》《系统与语料》《语言学中的数学方法》《自然语言生成系统的建造》等写导读。在写导读之前，我要精读原文，找出全书各部分的内在联系，目的在于引导青年语言学者熟悉国外语言学的最近动态，促进我国语言学研究的国际化。

19.为青年作者的专著写序言。为了鼓励青年学者从事创新性的语言学研究，我先后为《汉语计算语言学——汉语形式语法和形式分析》《现代韩国语动词语义组合关系研究》《现代语言学名著导读》《统计自然语言处理》《论汉英平行语料的平行处理》《十三经字频研究》《现代汉语动宾搭配的语义分析和计算》《语料库语言学研究丛书》《基于认知的汉语计算语言学研究》《俄罗斯计算语言学与机器翻译》《基于双语语料库的汉英视点体对比研究》《面向信息检索的汉语同义词自动识别》《句子语义学》《俄语潜在歧义研究》《依存语法的理论与实践》《翻译和本地化工程》《面向大学英语教学的通用计算机作文评分和反馈方法研究》《基于动态流通语料库的新词语监测研究》《英译汉网上自动评测》《语料库语言学与计算语言学丛书》《汉语拼音词汇(专有名词部分)》《面向大数据的高效能垃圾文本分类》《逻辑缀词理论与汉语特殊句式句法结构》《跨学科视域下的翻译研究》《词语认知属性的知识库构建和应用》《术语管理概论》《基于修辞结构树库的篇章衔接标记用法研究》等专著写序言。写每一篇序言之前，我都要仔细阅读全书，深入理解之后才动笔。

20.推动汉语拼音走向世界。为了适应向信息时代的需要，我受国家教育部的委托，参加了国际标准ISO 7098《信息与文献工作—中文罗马字母拼写法》的修订，并被国际标准化组织任命为国际标准ISO 7098的国际修订组组长，先后于2011年5月、2012年5月、2013年6月、2014年5月分别到悉尼、柏林、巴黎、华盛顿参加了ISO/TC 46的国际会议。在修订过程中，我用自己熟悉的英语、德语、法语、日语等外国语，积极地与各国代表和应用部门分别进行沟通与协调，克服多轮投票表决过程中遇到的重重困难和问题，认真应对，智慧处理，圆满完成了这项体现国家语言主权和关系国家利益的重要使命。由我国主导的ISO 7098的修订提案顺利通过了工作组草案、委员会草案、国际标准草案等各阶段投票以及委员会内部最终投票，于2015年用英文成功出版发布。

21.培养了一批计算语言学和数理语言学的研究生。我在中国科学技术信息研究所培养了多名机器翻译专业的理科硕士生，在教育部语言文字应用研究所培养了多名计算语言学的文科硕士研究生，在中国传媒大学培养了多名计算语言学的跨学科博士研究生。这些研究生中的不少人后来成为我国这一领域的带头人，为此我感到无比的欣慰。作为一个研究生导师，我们的责任，就是把我们对于科学和文化的热爱，传授给青年学子，让他们与我们老一代人一起来分享人类知识宝库的知识财富，为这个知识宝库添砖建瓦，做出我们的贡献，并以此来体现我们人生的价值，从中得到最大的愉快。因此，我也为我国的研究生教育工作做出了微薄的贡献。

我现在是教育部(国家语言文字工作委员会)语言文字应用研究所的研究员、学术委员会委员和博士生导师、中国人工智能学会理事、中国语文现代化学会顾问、中国应用语言学会常务理事、北京市语言学会理事、中国术语工作网副秘书长、全国计算机辅助术语工作技术委员会常务副主任、中国外语教学研究中心学术委员会委员、全国术语标准化技术委员会委员、国家自然科学基金委员会信息科学部评审委员、国家社会科学基金语言学科评审委员、北京市自然科学基金评审委员，又是《中文信息学报》顾问，《中国语文》《语言文字应用》《语言科学》等学术刊物的编委，《数学辞海》总编辑委员会委员，《中国大百科全书》的《语言文字卷》编辑委员会成员。我还是北京大学、浙江大学、北京外国语大学、杭州师范大学、华中科技大学、西安交通大学、中国传媒大学的兼职教授，清华大学、大连海事大学的讲座教授。

在国际上，我是跨欧洲语言资源基础建设工程学会(Trans-European Language Resources Infrastructure，简称TELRI)的顾问委员会委员，第一、二、三届语言资源与评测会议(Language Resources and Evaluation Committee，简称LREC)的国际顾问委员会委员，《语料库语言学国际杂志》(International Journal of Corpus Linguistics，简称IJCL)的编委，《中文与计算国际杂志》(International Journal of Chinese and Computing，简称IJCC)的编委，英国Continuum出版公司系列丛书《语料库与话语研究》(Research in Corpus and Discourse)的编委。

我是一个多语者，能用多种语言写作。我是在1998年退休的，仅就中文的写作而言，退休前我写了141篇中文论文，退休后写了248篇中文论文；退休前我写了16本中外文专著，退休后，我写了22本中外文专著。显而易见，在1998年退休之后，我实际上是退而不休，反而成为一个在学术上高产的学者。这是什么原因呢？

我深入地思考过这个问题，我认为，其原因在于我在退休之后摆脱了名和利的干扰。名和利就像一对可恨的影子，时时刻刻跟着我们，无法摆脱。退休之前，评职称、评奖、评基金、评名次、评津贴等与名和利密切相关的杂事总是缠绕着我，我总是受到名和利这一对影子的干扰，做什么事情都摆脱不了名和利，思想受到束缚，写不出很多东西来。退休之后，评职称、评奖、评基金、评名次、评津贴都与我没有关系了，我就像走到了一棵枝叶茂密大树下面，大树的树荫把名和利这一对影子完全遮住了、吞没了，我再也看不到名和利这一对可恨的影子了。由于摆脱了名和利的干扰，我的思想也得到解放，思路更加开阔了，我终于获得了独立的人格、自由的思想，因此，我的成果比退休之前多得多。不知诸位以为然否？

八十老翁，无善可陈，平生无悔，褒贬由之。谨以此文作为我八十虚岁的纪念，恭请大家指正。

本文作者系教育部(国家语言文字工作委员会)语言文字应用研究所的研究员。

八十老翁 平生无悔

八十老翁平生无悔