词汇替换:一种计算机辅助幽默创作方法

2018-01-19 11:35冯洪海李利敏宋舒晗
软件导刊 2018年10期

冯洪海 李利敏 宋舒晗

摘要:为了缓解人们在生活压力下出现的心理亚健康,设计一个通过词汇替换自动生成幽默的方法。该方法将可以互相替换的词汇放在一个词汇集合中,称为语用群。语用群中的词汇需满足以下两个条件:同一个语用群中每个词汇的上位概念(superordinate concept)相同;同一个语用群中每个词汇在语言学中的用途相同。通过替换方法可以生成4种幽默类型:说反话型、答非所問型、明知故犯型、张冠李戴型。结果表明,句子中的某一个位置有细小变动就可能产生幽默效果。

关键词:计算机幽默;语用群;上位概念;词汇替换

DOIDOI:10.11907/rjdk.181180

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2018)010-0041-03

英文摘要Abstract:In order to alleviate the mental sub-health phenomenon that people appear under the pressure of life, this paper designs a method of automatically generating humor through the replacement of vocabulary.In this algorithm,the words that can be replaced by each other are put in a vocabulary collection,which is called pragmatic group.The creation of pragmatic groups needs to satisfy two conditions:the same superordinate concept for each word in the same pragmatic group and each word in the same pragmatic group is used for the same purpose.There are four types of humor that can be generated by the alternative method:talking about the opposite, answering non-question, violate knowingly, confusing each other.To sum up,when there is a small change in the position of a sentence,it is possible to produce a humorous effect.

英文关键词Key Words:computer humor;pragmatic group;superordinate concept;lexicon replacement

0 引言

随着幽默的跨学科研究,计算机幽默也随之出现。Morkes等[1]研究了幽默在涉及HCI和计算机介导沟通(CMC)任务情况中的效果。Hübler等[2]发现了精神幽默模式,并将其应用到大学写作中心邮件列表的修饰中。Taylor[3]提出一个确定短文本是否为笑话的计算机幽默探测器。Friedman等[4]探讨了面向计算机的幽默(COHUM),然后提供了一个框架和一个全面的分类,并将COHUM放置在更广泛的幽默研究中。Nijholt等[5]对人机交互中的幽默进行简短调查,发现计算机幽默在人机交互中还是一个被忽略的研究领域。Ritchie[6]强调基于“不一致”模型实现涉及有限形式的双关语。Binsted等[7]利用计算机设计并实现了一个基于简单双关语谜语的正式语义和语法规则模型。Ritchie等[8]为具有复杂交流需求(CCN)的儿童开发了一个谜语生成器。Valitutti等[9]利用词汇替换实现了成人幽默的自动生成,但用于替换的词汇主要涉及两性、禁忌、侮辱性等语境词汇。国内虽然在情感表达和识别方面有研究,但在计算机幽默创作方面还很少有涉足。严扣凤[10]提出可以通过语言的模糊性创造幽默效果,例如语音、词汇、语义的模糊。

语用群是幽默的典型成分[11]。受语料库启发,本文根据词汇的用法建立了语用群,提出一种新的基于语用群中词汇替换的幽默生成算法,同一个语用群中的词汇不限定于特定语境,只需要满足词汇上位概念相同或在语言学中词语用途相同即可。通过该方法替换后的文本放到原语境中通常可以产生幽默效果。

1 语用群创建

1.1 术语定义

原句:忠实于上下文语义的句子,没有幽默效果,但通过词汇替换后可能产生幽默效果。

替换语句:原句经过词汇替换后具有幽默效果的句子。

原词汇:原句中可以被替换的词汇。

替换词汇:替换原句中词汇的词汇。替换词汇要求与原词汇上位概念相同、在人类语言学中的用途相同。

语用群:根据上位概念相同、用途相同的原则,为其建立替换每个词汇的集合。

1.2 词汇上位概念相同限制

“上位概念”表达抽象事物的特点,反映一组具体形象的共性[12]。词汇上位概念限制要求原词汇与它在语用群中替换词汇的上位概念相同。

为了保证语用群中词汇的上位概念相同,先确定原词汇的上位概念,再根据上位概念找下位概念。所谓“下位概念”,表达具体事物的特点,反映个别对象的个性。例如,“汽车”为“大众”、“奔驰”、“奥迪”的共性,反过来“大众”、“奔驰”、“奥迪”则是“汽车”的个性,所以“大众”、“奔驰”、“奥迪”是“汽车”的下位概念。本文采用两个方式收集上位概念的下位概念:①利用网络资源,在网上收集每个上位概念的下位概念;②利用知网实现词汇的初步筛选,在数据库中根据每个词条的DEF字段对词条进行筛选。其中知网是一个以汉语和英语词语代表概念为描述对象,以揭示概念与概念之间以及概念属性之间的关系为基本内容的常识知识库[13]。通过以上两种方式获取结果并汇总组成语用群。

1.3 词汇用途相同限制

词汇用途相同限制要求语用群中所有词汇在日常用语中的用途相同。通过以下步骤收集:①对原句进行分析确定可以进行替换操作的原词;②确定原词在人类语言学中的用途,并从网络中收集其它具有同样用途的词汇作为替换词汇组成语用群;③对收集到的替换词汇进行人工筛选,筛选出比较常用且便于理解的词汇作为语用群。

本文通過以上两种限制条件共创建了25个语用群,在通过计算机实现词汇替换时,该25个语用群将会成为产生幽默效果的关键因素。

2 上下文限制

在替换词汇与替换语句中,该词前后词汇相连构成短语,只有符合人们的使用习惯才会被认可,所以需在替换过程中编写一个软件用来限制上下文。搜狗知识是一个知识问答网站,其中词语搭配符合人们的语言习惯,所以本文选择该网站作为替换结果的矫正标准。当文本中某一词汇被替换以后,将替换词汇与替换语句中该词前后词汇组成一个词组,然后将该词组作为关键字放到搜狗知识中进行搜索。如果搜索结果至少有一条数据存在于该词组,则该词组符合人们的语言习惯,可将该替换词汇加入到语用群中。

3 算法流程

为了确定原词,本文使用中科院开发的分词精度和速度较好的分词软件ICTCLAS对原句进行分词[14]。利用计算机实现词汇替换产生幽默效果,要经过以下步骤:

(1)人工创建语用群。

(2)在计算机中用文件存储语用群。

(3)在图形界面输入一段需要通过替换产生幽默的短文本(原句)。

(4)程序将原句读取到内存中。

(5)程序对原句进行分词。

(6)程序确定原句中的原词汇。

(7)在原词汇对应的语用群中随机提取一个替换词汇,若不存在该原词汇对应的语用群则返回第(6)步重新选择原词汇。

(8)程序用提取的替换词汇替换原句中的原词汇,生成替换语句。

(9)判断替换词汇与替换词汇前后词汇组成是否符合人们的语言习惯,若符合则输出替换语句,否则返回第(7)步重新提取替换词汇。替换的算法流程见图1。

4 幽默效果分析

本文词汇替换方法可以生成4种类型幽默。

(1)说反话型。例如在以下场景中:课堂上老师要求学生把完成的作品都拿起来展示,当大家拿出作品后,正常情况下老师会说:“来,大家相互鼓励一下。”而经过词汇替换方法处理后句子变为:“来,大家相互嘲笑一下。”将“鼓励”替换成“嘲笑”后,整个句子表达的意思就完全相反,与人们的正常思维方式产生不同,进而引起注意,大家潜意识里会明白这是一个错误语句,而这个错误会产生幽默的效果。

(2)答非所问型。例如在以下场景中:一个人把母亲从乡村接到城市,后来发现近段时间水费猛涨,另一个人问他水费猛涨的原因时,他回答说:“我母亲每天按马桶玩。”经过词汇替换算法处理后可能变成:“我母亲每天按门铃玩。”将“马桶”替换成“门铃”,按多少次门铃与电费有关,并不会使水费增加,而此处应该回答水费增多的原因。处理后的回答与原语境不匹配,出现答非所问现象,也会产生幽默的效果。

(3)明知故犯型。例如在以下场景中:一个人参加节目介绍说自己是东北人,主持人通过提问确定他真的来自东北,最后总结时应该说:“鉴定完毕,他来自东北”,而经过词汇替换方法处理后的回答为:“鉴定完毕,他来自山东。”前面已经明确结果为东北,而本文算法将“东北”替换成“山东”,东北和山东完全是两个地区,属于明知故犯型错误,也会产生幽默的效果。

(4)张冠李戴型。例如在以下场景中:一个人参加节目介绍自己的工作是在山崖上采摘燕窝,主持人对观众解释说:“燕窝懂吗?燕子睡觉的地方。”经过词汇替换算法处理后结果为:“燕窝懂吗?犀牛睡觉的地方。”众所周知,燕窝明明是燕子睡觉的地方,跟犀牛没有任何关系,但燕子和犀牛又同属动物,如果将燕子睡觉的地方套在犀牛身上就会发生张冠李戴的错误,也可以产生幽默的效果。

综上可知,普通文本经过词汇替换方法处理后,将处理后的文本放在原语境中就会产生幽默的效果。

5 结语

本文提出语用群的概念,并且提出通过将文本中的词汇替换成语用群中的其它词汇而使文本在原语境中产生幽默效果的方法。经过词汇替换方法替换后的文本在原语境中会产生4种幽默类型:说反话型;答非所问型;明知故犯型;张冠李戴型。这些幽默可以在日常生活中活跃气氛,舒缓人们在快节奏生活中一直紧绷的神经[15]。当然,本文研究还有一定局限性:语用群的完整性与精确性有待提高;通过替换方法产生幽默的独立性有待提高。随着应用语言学及大数据兴起,语用群可以通过大数据技术进行完善,但如何提高幽默的独立性还是一个巨大挑战。

参考文献:

[1] MORKES J, KERNAL H K, NASS C. Effects of humor in task-oriented human-computer interaction and computer-mediated communication: a direct test of SRCT theory[J]. Humana Computer Interaction,1999,14(4):395-435.

[2] HüBLER M T, BELL D C. Computer-mediated humor and ethos: exploring threads of constitutive laughter in online communities [J]. Computers & Composition,2003,20(3):277-294.

[3] TAYLOR B. Towards informal computer human communication: detecting humor in a restricted domain[D]. Cincinnati:University of Cincinnati,2008.

[4] FRIEDMAN L W, FRIEDMAN H H. A Framework for the study of computer-orientedu humour (cohum)[J]. Ssrn Electronic Journal, 2006,6(12):65-86.

[5] NIJHOLT A, NICULESCU A, VALITUTTI A, et al. Designing humor in human computer interaction (HUMIC 2017)[C]. Bombay, India: Ifip Tc.13 International Conference on Human-Computer Interaction-INTERACT, 2018.

[6] RITCHIE G. Current directions in computational humour[J]. Artificial Intelligence Review, 2001,16(2):119-135.

[7] BINSTED K,RITCHIE G. Computational rules for generating punning riddles[J]. Humor - International Journal of Humor Research, 2009,10(1):25-76.

[8] RITCHIE G, MANURUNG R, PAIN H, et al. A practical application of computational humour[C]. London: Proceedings of the 4th International Joint Workshop on Computational Creativity, 2007.

[9] VALITUTTI A,TOIVONEN H,DOUCET A,et al. Let everything turn well in your wife: generation of adult humor using lexical constraints[C].Sofia: The Meeting of the Association for Computational Linguistics, 2013.

[10] 严扣凤.幽默语言的模糊手段及其运用分析[J].文教资料,2014(17):35-36.

[11] 钱永红,陈新仁.语料库方法在语用学研究中的运用[J].外语教学理论与实践,2014(2):15-22.

[12] 余敏,王震宇,江耀纯.浅析创造性判断中下位概念对上位概念的影响[J].专利代理,2016(4):49-52.

[13] 董振东,董强.知网[EB/OL]. http://www.keenage.com/zhiwang/c_zhiwang.html .2003.

[14] 代建英.漢语自动分词系统的研究与实现[D].重庆:重庆大学,2005.

[15] 闫芳.幽默以及幽默语言学研究综述[J].南北桥,2010(7):40-41.

(责任编辑:何 丽)