人工智能在学术诚信建设中的应用探讨

2020-01-08 02:24李娜娜李银平
天津科技 2020年1期
关键词:数据库系统相似性诚信

李娜娜,李 爽,李 杨,李银平

(1.天津市第一中心医院 《实用器官移植电子杂志》编辑部 天津 300192;2.天津市天津医院 《中华危重病急救医学》杂志社 天津 300050)

近年来,学术不端的行为屡见报道,2015年英国出版商现代生物出版集团撤稿生物医学论文 43篇。2017年,施普林格出版集团撤销《肿瘤生物学》期刊论文107篇[1],此次撤稿事件在学术界引起轩然大波,不仅刷新了全球学术期刊一次性撤稿论文数量的纪录,更是首次将科研诚信问题推至风口浪尖。尤其在我国,科研诚信得到了前所未有的重视,科研诚信危机浮出水面。加强科研诚信建设,提升学术道德水平,已成为我国学术界一项刻不容缓的重要任务。

当前,随着知识大爆炸时代的到来,人工智能(Artificial Intelligence,AI)、“互联网+”、数据挖掘、深度学习正在融入我们的生活,同时对传统行业提出了挑战。国务院于2017年7月颁布了《新一代人工智能发展规划》的通知,明确指出要全面贯彻、深入学习习近平总书记系列重要讲话精神和治国理政新理念、新思想、新战略,将提升新一代AI科技创新能力作为未来发展的重要战略方针,构建 AI科技与社会和谐发展的创新体系,争取到 2030年,我国的 AI理论、技术与应用总体可以位于世界领先地位[2]。AI是研究、开发用于模拟人的思维过程和行为的学科,该领域的研究包括机器人、音频识别、语言输入及处理等。随着以数据挖掘、深度学习、互联网为基础的 AI时代的到来,人们逐步感受到了其带来的冲击和影响。作为发表重要科技成果、知识与信息传播及引领舆论导向的重要行业[3],出版业一直是与人们生活密切相关并紧跟科技潮流的行业,尤其是期刊领域,在人工智能不断崛起的背景下,各种智能科技已开始逐步被应用,未来将进入智能出版时代[4]。因此,利用大数据挖掘、机器深度学习、VR/AR、人机交互等工具进行学术不端检测,逐渐成为新的趋势。

目前,学术不端行为检测系统是各出版社甄别学术不端的主要工具。与国内相比,国外的检测系统起步较早,反抄袭技术相对成熟。Turnitin检测软件创建于 1998年,是目前全球最权威、使用最多的英文检测软件[5],支持中文、意大利文、法文、英文等多种语言。在我国,中国知网在2008年开发的AMLC系统是目前国内期刊出版单位使用最多的检测系统,其优点是检测速度快、准确率高、抗干扰性强,支持的文件格式多样。随后万方数据库和维普资讯也相继推出WFSD系统及WPCS系统,相比AMLC系统,这2个系统都支持个人使用。WFSD的优势为算法精准科学,报告详实全面;WPCS的优势为检测资源丰富,有创新性检测指标。北京智齿数汇科技有限公司针对大部分高校毕业生推出了 PaperPass检测系统,其比对指纹数据库由 9000多万种学术期刊和学位论文、超过10亿的互联网网页数据库组成[6]。

以上4种是目前我国使用比较普遍的检测系统,但仍然存在诸多问题:①各个系统存在检测差异;②数据库中的论文存在滞后性或缺失;③检测算法不够智能;④不能区分合理的自引、他引或抄袭;⑤不能检测论文中的图片、图表抄袭。

这些问题已存在许久,但是随着 AI、“互联网+”、AR/VR等新兴技术的崛起,信息传播更加智能、精准,智媒时代已经开启[7],AI与文化产业的交集逐渐扩大,为 AI在学术不端行为检测中的应用提供了可能,其中的跨语言检测技术和语义识别技术可帮助检测软件有效解决“思想抄袭”的问题[6]。

1 建立完善的数据库系统

想在海量的论文中分辨出相似、相近文章以及判断文章的价值,需要一个庞大的数据库系统。因此,未来将利用AI、机器学习、深度学习不断扩大和完善数据库。机器学习指用算法解析数据,通过学习对周围发生的事做出判断、预测;深度学习是实现机器学习的一种技术,利用人工神经网络(Artificial Neural Network,ANN)实现,它的构想源自于大脑的神经元,拥有独立的层、连接以及数据传播方向。每一个神经元会对输入的信息进行权衡,确定权重,搞清它与所执行任务的关系,比如有多正确或多么不正确,最终的结果由所有权重来决定[8]。

数据库系统与AI系统是相辅相成的,AI系统使用大量标准的算法去执行搜索与推理、高效检索访问以及管理海量数据库。数据库技术中引入AI,实现了两者的完美结合:数据库智能化和智能化数据库。数据库智能化,就是将数据库系统作为 AI系统,利用AI技术实现数据库系统的智能表达、推理和查询功能;智能化数据库表现为数据库定时自我更新的功能,使其具备一定的翻译、推理功能,提高系统的智能化程度[9]。目前,国内的 AMLC、WFSD、WPCS、PaperPass等系统均不能达到智能化效果,同时还存在数据库不稳定、更新不及时、缺乏外文以及小语种文献、覆盖范围不全面、缺乏网络或会议发表文章等问题,不能将同一作者、导师、单位进行归类,在文献检测的时候,通常不能排除同一作者的文章。另外,各系统缺乏数据共享平台,不同系统的检测结果无法进行共享对比。出版巨头爱思唯尔诚信部门主管也表示,出版商需要创建一个共享的数据库,以便进行相关检索,查实论文图片重复使用的情况。而 AI不仅能建立完善的数据库系统,甚至构建数据共享平台,为学术不端检测打造扎实的基础。

2 开发高效的图片相似性检测技术

在文章相似性检测中,图片的相似性检测往往是最困难的,因为目前没有任何一个软件或算法能够准确分析2张图片的相似性,尤其是在作者刻意进行修改的前提下。在中国,论文文字查重体系一直到2005年前后才建立。后来,人们又不断优化这个系统,从能识别“复制粘贴型”抄袭,到能识别改变用词和句法的抄袭,但图片重复一直是论文查重的死角[10]。在过去,图片审核的工作往往需要人力完成。Nature杂志会对收到的稿件随机抽样进行检查,并要求作者提供未编辑的图像作参考;《细胞生物学杂志》和《欧洲分子生物学组织杂志》也是对图片进行手工查重。手工查重不仅耗时、耗力,更重要的是效率低,甚至检测不出,以至于多数刊物都没有采用这项流程。

2018年亿欧智库发布的《2017人工智能+内容生产研究报告》中提到的“图像相似性检测”或许将带来新的希望。近 2年,在 AI芯片和服务器集群逐步完善,算力越发强大的基础上,无监督学习、深度强化学习、迁移学习、生成对抗网络等算法的研究继续深入,在文本处理、音频处理和图像处理方面持续取得突破。将这一技术用于文章相似性检测的想法,很快就实现了。同年,美国纽约雪城大学的研究员丹尼尔·阿库纳等研发出一套算法,可以利用 AI识别学术论文中的图像造假,对论文图片进行查重。他们检测了 76万篇论文,并从中提出有效图片 263万张。其中,约 9%的图像存在高度重复,该团队又在其中选取了约4000张可疑图片进行人工核查。经测算,在所有论文中,约 1.5%存在学术不端的嫌疑,0.6%确认存在图像方面的论文造假。

3 完善智能语义检测技术

现有的检测系统只能粗略检测大段的文字复制,无法对篡改、伪造进行检测,并不能根据语义、语境、同义词、近义词等进行检测。中文博大精深,如果作者刻意对语言文字进行修饰、篡改,现有检测系统是不能及时发现的。自然语言处理(Natural Language Processing,NLP)是利用计算机对人类自然语言信息进行处理和加工,最终实现人机对话的理论和方法[11]。目前,NLP与 ANN技术被应用于学术不端检测,大幅提高了编辑的效率[12]。无论字还是词组,在形式上都可从发散或收敛、分或合,来产生或排除相应的形式歧义,形成涉及形式语义的判定。另外,由于年代、方言和人际的种种复杂因素,其交叉重叠的内容与形式之间增加了无数歧义,很多文章难以判断,而 AI可以很好地解决这一难题。

此外,另一个检测难点为外文翻译,某些作者提交的文章是直接翻译外文文献后拼凑而成,目前各大检测系统尚无法识别这种类型的文章。但是随着 AI的发展,AI翻译也逐渐变得简单、便捷。AI翻译是指通过计算机等芯片软件,基于规则的机器翻译,根据统计规律来进行翻译,这是通过词典和规则库来构成知识源,以一定的规则为基础来进行的翻译。随着AI的发展,基于 ANN的机器翻译诞生,通过深度神经网络,自动地在数据库中学习翻译知识,通过理解源句子,经过复杂的推导运算和学习计算,生成流畅且符合规范的译文。这种基于ANN的机器翻译实现了学习功能,从各个方面使人工智能翻译取得质的飞跃[13]。而文献检测系统可以利用这一技术,检测中文文章与外文文献的相似性,进一步杜绝不劳而获的现象。

总之,学术期刊作为把控学术论文真实性的重要环节之一,深刻影响了国内学术环境的学术诚信。科研人员及科研单位作为源头,更应充分了解国内学术诚信现状和学术态度的影响因素,加强学术诚信建设,以提高论文的质量和可靠性,提高我国学术诚信和国际影响力。在当今人工智能迅速发展的时代,“互联网+”、AI、数据挖掘等已经为我们的生活带来了许多便利,积极拥抱人工智能带来的变革,探索利用人工智能促进学术诚信建设的新方法,将会为学术期刊发展带来新的动力。

猜你喜欢
数据库系统相似性诚信
一类上三角算子矩阵的相似性与酉相似性
浅析当代中西方绘画的相似性
基于Oracle数据库系统的备份和恢复技术
Oracle数据库系统的性能优化研究
计算机数据库系统在企业管理中的应用
我们和诚信在一起
基于隐喻相似性研究[血]的惯用句
数据库系统在计算机体系结构中的应用
V4国家经济的相似性与差异性
照片之争,诚信之殇