人工智能在学术诚信建设中的应用探讨

2020-01-08 02:24李娜娜李银平

天津科技 2020年1期

李娜娜，李爽，李杨，李银平

(1.天津市第一中心医院《实用器官移植电子杂志》编辑部天津 300192；2.天津市天津医院《中华危重病急救医学》杂志社天津 300050)

近年来，学术不端的行为屡见报道，2015年英国出版商现代生物出版集团撤稿生物医学论文 43篇。2017年，施普林格出版集团撤销《肿瘤生物学》期刊论文107篇[1]，此次撤稿事件在学术界引起轩然大波，不仅刷新了全球学术期刊一次性撤稿论文数量的纪录，更是首次将科研诚信问题推至风口浪尖。尤其在我国，科研诚信得到了前所未有的重视，科研诚信危机浮出水面。加强科研诚信建设，提升学术道德水平，已成为我国学术界一项刻不容缓的重要任务。

当前，随着知识大爆炸时代的到来，人工智能(Artificial Intelligence，AI)、“互联网＋”、数据挖掘、深度学习正在融入我们的生活，同时对传统行业提出了挑战。国务院于2017年7月颁布了《新一代人工智能发展规划》的通知，明确指出要全面贯彻、深入学习习近平总书记系列重要讲话精神和治国理政新理念、新思想、新战略，将提升新一代AI科技创新能力作为未来发展的重要战略方针，构建 AI科技与社会和谐发展的创新体系，争取到 2030年，我国的 AI理论、技术与应用总体可以位于世界领先地位[2]。AI是研究、开发用于模拟人的思维过程和行为的学科，该领域的研究包括机器人、音频识别、语言输入及处理等。随着以数据挖掘、深度学习、互联网为基础的 AI时代的到来，人们逐步感受到了其带来的冲击和影响。作为发表重要科技成果、知识与信息传播及引领舆论导向的重要行业[3]，出版业一直是与人们生活密切相关并紧跟科技潮流的行业，尤其是期刊领域，在人工智能不断崛起的背景下，各种智能科技已开始逐步被应用，未来将进入智能出版时代[4]。因此，利用大数据挖掘、机器深度学习、VR/AR、人机交互等工具进行学术不端检测，逐渐成为新的趋势。

目前，学术不端行为检测系统是各出版社甄别学术不端的主要工具。与国内相比，国外的检测系统起步较早，反抄袭技术相对成熟。Turnitin检测软件创建于 1998年，是目前全球最权威、使用最多的英文检测软件[5]，支持中文、意大利文、法文、英文等多种语言。在我国，中国知网在2008年开发的AMLC系统是目前国内期刊出版单位使用最多的检测系统，其优点是检测速度快、准确率高、抗干扰性强，支持的文件格式多样。随后万方数据库和维普资讯也相继推出WFSD系统及WPCS系统，相比AMLC系统，这2个系统都支持个人使用。WFSD的优势为算法精准科学，报告详实全面；WPCS的优势为检测资源丰富，有创新性检测指标。北京智齿数汇科技有限公司针对大部分高校毕业生推出了 PaperPass检测系统，其比对指纹数据库由 9000多万种学术期刊和学位论文、超过10亿的互联网网页数据库组成[6]。

以上4种是目前我国使用比较普遍的检测系统，但仍然存在诸多问题：①各个系统存在检测差异；②数据库中的论文存在滞后性或缺失；③检测算法不够智能；④不能区分合理的自引、他引或抄袭；⑤不能检测论文中的图片、图表抄袭。

这些问题已存在许久，但是随着 AI、“互联网＋”、AR/VR等新兴技术的崛起，信息传播更加智能、精准，智媒时代已经开启[7]，AI与文化产业的交集逐渐扩大，为 AI在学术不端行为检测中的应用提供了可能，其中的跨语言检测技术和语义识别技术可帮助检测软件有效解决“思想抄袭”的问题[6]。

1 建立完善的数据库系统

想在海量的论文中分辨出相似、相近文章以及判断文章的价值，需要一个庞大的数据库系统。因此，未来将利用AI、机器学习、深度学习不断扩大和完善数据库。机器学习指用算法解析数据，通过学习对周围发生的事做出判断、预测；深度学习是实现机器学习的一种技术，利用人工神经网络(Artificial Neural Network，ANN)实现，它的构想源自于大脑的神经元，拥有独立的层、连接以及数据传播方向。每一个神经元会对输入的信息进行权衡，确定权重，搞清它与所执行任务的关系，比如有多正确或多么不正确，最终的结果由所有权重来决定[8]。

数据库系统与AI系统是相辅相成的，AI系统使用大量标准的算法去执行搜索与推理、高效检索访问以及管理海量数据库。数据库技术中引入AI，实现了两者的完美结合：数据库智能化和智能化数据库。数据库智能化，就是将数据库系统作为 AI系统，利用AI技术实现数据库系统的智能表达、推理和查询功能；智能化数据库表现为数据库定时自我更新的功能，使其具备一定的翻译、推理功能，提高系统的智能化程度[9]。目前，国内的 AMLC、WFSD、WPCS、PaperPass等系统均不能达到智能化效果，同时还存在数据库不稳定、更新不及时、缺乏外文以及小语种文献、覆盖范围不全面、缺乏网络或会议发表文章等问题，不能将同一作者、导师、单位进行归类，在文献检测的时候，通常不能排除同一作者的文章。另外，各系统缺乏数据共享平台，不同系统的检测结果无法进行共享对比。出版巨头爱思唯尔诚信部门主管也表示，出版商需要创建一个共享的数据库，以便进行相关检索，查实论文图片重复使用的情况。而 AI不仅能建立完善的数据库系统，甚至构建数据共享平台，为学术不端检测打造扎实的基础。

2 开发高效的图片相似性检测技术

在文章相似性检测中，图片的相似性检测往往是最困难的，因为目前没有任何一个软件或算法能够准确分析2张图片的相似性，尤其是在作者刻意进行修改的前提下。在中国，论文文字查重体系一直到2005年前后才建立。后来，人们又不断优化这个系统，从能识别“复制粘贴型”抄袭，到能识别改变用词和句法的抄袭，但图片重复一直是论文查重的死角[10]。在过去，图片审核的工作往往需要人力完成。Nature杂志会对收到的稿件随机抽样进行检查，并要求作者提供未编辑的图像作参考；《细胞生物学杂志》和《欧洲分子生物学组织杂志》也是对图片进行手工查重。手工查重不仅耗时、耗力，更重要的是效率低，甚至检测不出，以至于多数刊物都没有采用这项流程。

2018年亿欧智库发布的《2017人工智能＋内容生产研究报告》中提到的“图像相似性检测”或许将带来新的希望。近 2年，在 AI芯片和服务器集群逐步完善，算力越发强大的基础上，无监督学习、深度强化学习、迁移学习、生成对抗网络等算法的研究继续深入，在文本处理、音频处理和图像处理方面持续取得突破。将这一技术用于文章相似性检测的想法，很快就实现了。同年，美国纽约雪城大学的研究员丹尼尔·阿库纳等研发出一套算法，可以利用 AI识别学术论文中的图像造假，对论文图片进行查重。他们检测了 76万篇论文，并从中提出有效图片 263万张。其中，约 9%的图像存在高度重复，该团队又在其中选取了约4000张可疑图片进行人工核查。经测算，在所有论文中，约 1.5%存在学术不端的嫌疑，0.6%确认存在图像方面的论文造假。

3 完善智能语义检测技术

现有的检测系统只能粗略检测大段的文字复制，无法对篡改、伪造进行检测，并不能根据语义、语境、同义词、近义词等进行检测。中文博大精深，如果作者刻意对语言文字进行修饰、篡改，现有检测系统是不能及时发现的。自然语言处理(Natural Language Processing，NLP)是利用计算机对人类自然语言信息进行处理和加工，最终实现人机对话的理论和方法[11]。目前，NLP与 ANN技术被应用于学术不端检测，大幅提高了编辑的效率[12]。无论字还是词组，在形式上都可从发散或收敛、分或合，来产生或排除相应的形式歧义，形成涉及形式语义的判定。另外，由于年代、方言和人际的种种复杂因素，其交叉重叠的内容与形式之间增加了无数歧义，很多文章难以判断，而 AI可以很好地解决这一难题。

此外，另一个检测难点为外文翻译，某些作者提交的文章是直接翻译外文文献后拼凑而成，目前各大检测系统尚无法识别这种类型的文章。但是随着 AI的发展，AI翻译也逐渐变得简单、便捷。AI翻译是指通过计算机等芯片软件，基于规则的机器翻译，根据统计规律来进行翻译，这是通过词典和规则库来构成知识源，以一定的规则为基础来进行的翻译。随着AI的发展，基于 ANN的机器翻译诞生，通过深度神经网络，自动地在数据库中学习翻译知识，通过理解源句子，经过复杂的推导运算和学习计算，生成流畅且符合规范的译文。这种基于ANN的机器翻译实现了学习功能，从各个方面使人工智能翻译取得质的飞跃[13]。而文献检测系统可以利用这一技术，检测中文文章与外文文献的相似性，进一步杜绝不劳而获的现象。

总之，学术期刊作为把控学术论文真实性的重要环节之一，深刻影响了国内学术环境的学术诚信。科研人员及科研单位作为源头，更应充分了解国内学术诚信现状和学术态度的影响因素，加强学术诚信建设，以提高论文的质量和可靠性，提高我国学术诚信和国际影响力。在当今人工智能迅速发展的时代，“互联网＋”、AI、数据挖掘等已经为我们的生活带来了许多便利，积极拥抱人工智能带来的变革，探索利用人工智能促进学术诚信建设的新方法，将会为学术期刊发展带来新的动力。