论生成式人工智能学术伦理风险规制
——以ChatGPT 为例

2023-03-15 06:56刘佳丽廖怀高
关键词:学术人工智能人类

刘佳丽,廖怀高

(成都理工大学 马克思主义学院,四川 成都 610059)

党的二十大报告提出“推进教育数字化,建设全民终身学习的学习型社会、学习型大国”[1]。教育数字化重塑与变革教育,教育数字化的风险治理则是顺应时代之变的战略性选择。技术的进化推进了更复杂、创新、先进的数字生成式人工智能,OpenAI 公司于2022 年推出生成式人工智能——ChatGPT,其类人的思维逻辑和对话、写作、翻译等能力技惊四座。比尔·盖茨评价它不亚于重新发明互联网,360 董事长周鸿祎认为其可类比蒸汽机和电力的发明,因而其诞生被视为新一轮科技革命[2]。由于ChatGPT 出色的表现被学生视为做作业、写论文的利器,但与之对应,这意味生成式人工智能技术在现实应用中会滋生新的学术伦理风险。为此,本文基于生成式人工智能这一新的“变量”,剖析所引发的学术风险,尝试为生成式人工智能等技术下学术生态的健康发展提供可行进路,对未来的监管框架作出前瞻性探讨,阻断生成式人工智能技术在发展进程中的负面影响。

一、生成式人工智能的生成逻辑

生成式人工智能,指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。这一技术的产生,实现了从“感知理解世界”到“生产创造世界”的技术范式转变。生成式人工智能的现身不是无源之水、无本之木,而是在历史基础之上得以应运而生,在技术基础上得以日新月异迭代,在现实基础上得以继续蓬勃发展。

1.理论之源:对话式学习的延伸

对话式学习,望文生义,指主体以交谈、互动来获取知识的方式。对话式学习经历了从人-人、人-机,到人-虚拟世界的变革,已成为后现代社会中人们最基本的学习方式之一[3]。从人类教育发展历史看,孔子、苏格拉底的启发式教学,被认为是人-人对话式学习的鼻祖。而人-机对话式学习则可以追溯到1950 年的“图灵测试”,图灵测试采用问与答的模式,测试机器是否具有人类的智能。通过行为主义的观点判断机器是否智能,这一行为的关键就在于人机对话[4]21。此后,美国计算机科学家约瑟夫·韦泽纳于1964~1966 年研制开发了首个能与人交流的聊天机器人(Elisa),其被认为是对话式学习的先驱之一[5]。尽管当时技术受限,所设计的人机互动的程序只能输入一些基本的数字语言以获取机器人的响应,但这一研发使得人机对话由此变成现实。

ChatGPT 的问世,则实现了人机对话的跨越式变迁,为全球人工智能会话系统注入新活力。ChatGPT 具备持续回答且不断修正问题答案的能力,看似是对问题的“跟进”,表面上受制于提问者,实际上所遵循的却是一种“辩证逻辑”的内在引导,在否定中得到肯定答案[6]。对于问题的答案,敢于承认自身不足之处,虚心向提问者学习,引导提问者追问,从而逐步获得启发,顿悟出知识。其“兜圈子”回答问题的方式既能扩充自身语料库、数据库,又恰巧对应人性自身的非理性部分,极大地启发了使用者的学习兴趣,可称为人-机互动模式下苏格拉底“产婆术”,即最初对话式学习的演进与延伸。

2.实践之基:技术进化的内驱力

人类科技史表明,以不断满足人类需求为基础的技术进步动力永不枯竭,技术体系具有“自我创生”的能力:技术的每一次升级会解决一些难题,同时孕育着新问题的种子,进而形成递归循环[7]。为此,生成式人工智能技术体系则有连绵不断的发展势头。纵观技术的嬗变历程,进入21 世纪,随着计算机算力的不断提高和数据规模的不断扩大,人机对话技术得到了飞速发展,继而算法的突破,从简单的感知阶段,到多层神经网络阶段,再到深度学习阶段。自2012 年以来,自然语言处理开始从统计学向端到端的神经网络深度学习方法转变,自然语言处理进入了全新阶段。

在深度学习和神经网络的研究中,却遇到了语言数据资源不足的问题。针对这一问题,学者们提出了“预训练语言模型”。在此基础上,OpenAI 公司开发了基于转换器的生成式预训练模型(GPT)[4]23,GPT 是一项在自然语言处理方面取得突破性进展的研究成果。2022 年,OpenAI 公司正式推出ChatGPT,采用“大数据+大模型+大算法”模型,通过庞大的数据库和强大的算法能力,与信息主体之间形成较为流畅、自然的对话,具备处理人类不同指令的能力。观察GPT 的发展演变,模型能力越来越强,从无监督模型再到人类反馈强化学习,不断迭代升级,实用性显著增强,甚至在一些领域提供了人类层面的表现,成为人类历史上最强人工智能大模型。

3.社会之需:人类发展客观要求

从哲学角度讲,技术由人类创造,有满足人类需要、拓展人类的可能性。从古至今,技术的更新迭代与人类社会发展相辅相成,技术的发展始终在推动人类社会的发展。马克思在《资本论》中提到:机器不创造价值,但可以把自身的价值转移到由它服务所生产的产品上[9]。生成式人工智能技术不息革新,日益成熟,呈现在更多空间场域,围绕生成式人工智能技术相关的领域都有望成为资本市场重点关注的投资赛道。人工智能作为新的生产要素,在具体的生产步骤之中与其他的生产力要素相结合产生新的价值。现今,各国也高度重视人工智能技术的发展,将其视为国家发展的重要竞争力。

马克思的“社会发展是一种自然史的过程”观点,为揭示生成式人工智能的产生与发展规律提供了科学的世界观和方法论。生成式人工智能技术以其特有的特征和方式诠释了它是历史本身的唯物主义的必然环节和逻辑结果,是历史唯物主义的充分传达,也是人类加以改造的历史的自然构成。在大信息时代,人作为一种自然物质和自然物质的矛盾运动导致人的自然力量发生了巨大飞跃,即体力和智力的释放。在以大工业和机器体系为基础的人工智能技术时代,人类的脑力及体力都得到极大的延伸,但是技术的更新繁衍了新的问题,信息时代人脑失去处理庞大信息的能力,便会做出相应的调整来满足人类身体延伸机器所产生的信息处理需要[9],推进了人工智能技术的迭代升级。但生成式人工智能技术的发展,以及它的一切形式都受制于人类,技术的进步代表着人类智慧的发展。

二、生成式人工智能学术伦理风险的表征

风险作为一种不确定的因素,有“损亏”的可能性。生成式人工智能就像“双刃剑”,既打开了数字教育无限可能空间,又带来诸多新的隐患。基于学术生产的步骤划分,可从内容出处、内容生成、成果评价角度对生成式人工智能带来的学术伦理风险的表征形式予以解读。

1.学术权威信任危机:算法模型偏见致使学术权威信任危机

知识的创新、学术的创作是求真求善的过程,是受学术伦理制约和人类价值规范的过程。Chat‐GPT虽然打着“无意识”旗号,但是算法“黑箱”操作和语料库代表性不足问题导致使用者对生成式人工智能体系的认知存在隔阂,对知识权威性秉持怀疑,对生成作品信任度下降,引发学术信任危机。

ChatGPT 体系建立在人类已有的语料库和数据库上进行训练,受训过程蕴含着设计者的思想意识和价值理念,存在文化和价值观念偏差,这使得模型研发者所标榜的模型价值观绝对“客观中立”难以成立。一旦将人类原始的偏见应用到机器学习中,算法运行结果也会继承人类社会的原始偏见,并持续地循环传播[10]。加之,ChatGPT采用“机器学习+人工标注”模式,由于技术的自我强化倾向,在与信息主体对话中,将不断吸纳有用信息来扩充自身语料库、数据库,将更多信息掌控于自身腹囊之中。由于标注环节主体带着自身的偏好进行标注,加倍提升了算法偏见风险,与此同时,生成式人工智能模型的人工标注标签部分采用闭源运行,其标注偏见难以溯源,将进一步影响与其对话的用户,使得偏见进一步得到强化与传播。

OpenAI 公司总部位于美国,ChatGPT 模型虽然包括多国语言数据库,但总体是以英文语料库作为模型支撑,对其他文化的包容性不足,不具备中国特色逻辑结构。即使对于语言的理解,相比它的前辈们已经有了跨越式进步,但对于中文的某些理解仍存在偏颇。中文词组蕴含着丰富内涵,来源于特定历史,具有“实践性”“互文性”和“建构性”等特征,同一个词组或是同一句话在不同语境具有多种含义和不同解释,需要具体的语境来表达背后的思想、观念和情感。生成式人工智能模型对语言的学习、理解能力还无法与人类相媲美,对中文的理解极易出现偏差,甚至提供一些错误解读的回答。

2.学术契约精神分散:知识归属权不清引发契约责任分散

学术契约精神是学术共同体之间建立的统一的、约定俗成的学术道德以及自律精神[11]。知识归属权可以明确作品究竟归属于谁,以及谁可以对所创作的作品享有权利并承担责任[12]。生成式人工智能的出现致使学术生产、评价过程从原来的“人-人”转变为“人-机”互动关系。但ChatGPT 生成知识的归属权尚不明确,难免造成在现实应用中出现问题而互相推诿责任的情况。

生成式人工智能的出现改变了知识的生成、传播方式,使知识变得唾手可得,进而对知识观的概念也需随之改变。ChatGPT 通过用户提示生成文本,从预训练的大量数据库中搜索数据,重组具有一定连贯性的作品,由于所组文本缺乏独创性、创造性,不可被列为原创作品或知识。分析我国现存的知识著作权也发现,著作权以人为主体,对一切成果负责,生成式人工智能作为机器自身也无法承担责任,因此其不具备生成知识的归属权。加之,生成式人工智能技术作为人类自主活动的实践产物,是在人类漫长的进化过程中积累而来的智慧和经验的结晶,其运行规律及算法形式也是模仿人类智慧从而呈现类人的表现。

ChatGPT 在与用户交互过程中不断吸收人类的意见与智慧,说明其接收端有人类的干预、人类思想的介入,这恰好符合人类知识产权的兜底要求。但是即使生成式人工智能生成作品中蕴含人的创作部分,其知识的具体赋权标准尚不清晰。程序的投资者、持有者,技术的研发者、使用者都是最终生成内容的参与者。有人认为,生成式人工智能知识归属权归属于软件开发者,由于创作内容的优劣受开发者对数据的训练、筛选、整合影响,生成物映射开发者的智力劳动。也有人认为,生成物归属于使用者,生成内容需要使用者发起任务,生成过程始终需要主体的介入和指导生成最终成品,生成式人工智能仅仅只能作为辅助工具,并不能在作品中发挥决定性作用[13]。

3.学术公平公正消解:学术评价的不客观性影响公平公正

生成式人工智能技术可以将自身物化到人类身上创作价值,使用主体将人类的意志及智慧通过人工智能技术延展,用工具提高了劳动创造力,获得不正当竞争。此行为将影响学术评价过程的效率及客观性,破坏了学术圈的公平与公正。

在西方,《纽约时报》曾报道,密歇根大学的一位哲学教授安东尼·奥曼在上课时看到一篇“优秀的文章”,这篇文章结构合理,语法完美,文章好到不符合老师对学生的预期。这不得不对应用生成式人工智能发出新的疑问——学生利用生成式人工智能是否为高级剽窃,如何识别文章的来源做到公平公正评价?由于ChatGPT类人的思维逻辑、行文结构,以及有的放矢根据信息主体定制生成内容的能力,加大了文章的辨别难度,使得真正高质量的学术成果和一些伪冒学术混杂一体,难以区分。若将使用生成式人工智能工具而获得不正当竞争的主体与其他主体一同评价将有损他人的“利益”,必然有失偏颇,影响学术评价的客观性。

此外,学术评价需多维度的综合考量,如学术成果的创新、内容质量的高低,学术成果中数据的有效性和可信度等,甚至不同学科成果,需要划分不同评价标准,恪守有效结合定性和定量两个维度的评价原则。虽然ChatGPT 作为生成式人工智能的佼佼者,在处理海量文本数据上可以帮助同行评审评议,提升学术评审的效率,但目前,生成式人工智能还未将专家意见纳入生成模型,难以定性,仅依赖冰冷的数据对论文进行定量评价,如论文被下载量、被引量[14],而往往忽视实质内容。因此,生成式人工智能仅凭单一的评价模式无法公正判断学术成果的真正价值,有失学术评价的公平、公正性。

三、生成式人工智能学术伦理风险的调适进路

技术的“自我创生”能力,致使每一次更新都带来新的问题,规制模式便有了新需求,需要做出调整以适应技术的新变化。ChatGPT 等生成式人工智能,涉猎知识面广泛,分析知识点全面而深刻,“思维”发散,可提供启发性的思路逻辑,避免陷入单方面逻辑的泥沼之中。但相比赋能,面对瞬息万变的人工智能技术所带来的学术伦理风险挑战,积极探赜应对进路是当务之急。

1.化智图“治”:技管结合规避算法偏见建信任

面对算法偏见问题,承认算法并不是万能的,根据生成式人工智能的技术特征来寻求消解算法偏见的解决办法,在算力不足、算法无解和数据缺失的领域做好人力、物力的充分布局[15]。纠正算法偏见既是技术体系自身发展的内在需要,又为生成式人工智能技术嵌入各个领域应用发展提出了新的任务和要求。

第一,优化技术和算法。在数据预训练阶段,广泛收集多国籍和多样化的数据,保持文化的开放性和包容性,提升生成式人工智能理解他国语言的准确性,避免模型实行国家数据“垄断”与“制裁”。厘清数据收集标准,合规合法获取知情同意权的数据才有权被纳入模型,并且保持数据库的常更常新,及时梳理庞大繁杂的数据库。在数据输出阶段,优化输出端,通过指令微调,让系统在许多自动语言处理任务和基准测试上展现出更强大的性能。此外,优化引导模型,将问题具体化、清晰化以便于精炼问题来生成更精准的答案。对于“人工标注”模式引发的算法偏见,运用透明化算法运作过程,优化路径、追踪人工标注偏见的来源和寻求消解偏见的办法。简而言之,即完善与优化整个数据系统形成完整闭环。同时,正确看待我国与西方技术差距,努力填补这块领域的空白,研发独立于西方的生成式人工智能系统,在以我为主、为我所用中深化和推动研发。将更多中华优秀传统文化“投喂”模型,注重培养,不断规训,使其成为真正具有“中国理念”的大模型。

第二,实行多主体的监管模式。在模型正式投入市场应用前执行严格审查,按照相关法律规则将算法程序的编译合法合理化、标准化,优化生成式人工智能算法模拟的学习路径。算法的整个运作过程,在合规合法前提下实行部分多主体合力、全方位监管,防外与规内相结合。建立内部自律,平台内部自觉形成规章制度,系统内部恪守技术“价值观中立论”,避免带有偏见、非道德的内容注入和输出,在道德和伦理问题层面不偏不倚,客观理性回答问题,给予信息主体对策建议。外部管制,对于算法的“暗箱操作”,采用人工智能“监管沙盒”,有效收集监管数据信息,自愿、自觉公开算法程序接受公众监管,帮助外界更好地理解算法运作过程,提升模型公信力。行政法律机关共商共建,建立跨境的法律共同监管体系,制定相应制度规范、法律法规追究问责,以减少技术、伦理失范问题。此外,使用者也应尽监管之责,提高明辨善恶能力,树立正确科技价值观,科学利用技术,善于分析问题,对于应用模型中所发现的偏见问题,敢于提出问题,纠正输出内容的不当之处,以帮助生成物的内容与质量,更好地迎合大众期待。

2.握智提“质”:构建学术责任规范制度担责任

在数智技术飞速发展的今天,由于人工智能的介入,学术成果的产生已经不再单纯地依靠学者们的个人力量。由于生成式人工智能作品归属权尚不清楚,增加了利用过程中剽窃、侵权的可能性及出现问题时互相推诿行为,为此需要健全“人—机协作”关系的学术责任规范体系。

第一,重构生成式人工智能知识产权。生成式人工智能研发者亟须在法律的界定下明确知识著作的归属版权问题,对每一处知识的归属权明确标注,并做出相应的解释说明,防止知识被无意“剽窃”。生成式人工智能作为辅助工具,使用主体需对在技术体系协助下完成的写作、翻译等任务建立高度责任感,明确生成式人工智能的使用界限,承担生成作品的责任,提交作品说明生成式人工智能的参与情况,提供使用标识。与此同时,积极探讨、借鉴国外生成式人工智能的参与问题和责任规范制定的实践范式,为我国提供建设性意见。由于机器学习结合人工标注模式,使得算法程序研发者将自身的意志介入到模型程序编译过程之中,这导致生成式人工智能可以被解释部分的算法,其生成物具有独创性。为此,重塑、构建生成式人工智能可解释部分的知识产权体系,实行普遍性与个别性相结合的管理办法,针对可解释部分内容构建全流程保护、全过程审查,进行有差异化管理,构建专门化管理制度,避免知识产权保护出现漏洞[16]。

第二,完善数智时代相关法律制度。我国当前阶段对人工智能的监管停留在初步框架阶段,生成式人工智能的快速崛起,技术的快速更新与相应法律政策之间的不平衡不充分矛盾逐渐浮出水面,为此应尽快完善数智时代与之对应的法律制度。基于现有的法律基础,形成具有代表性的生成式人工智能综合法。生成式人工智能生成物作为知识产权新的保护客体,对于完善相关的著作权,应保持开放、包容的心态,沉着冷静应对生成式人工智能带来的挑战。生成式人工智能的应用,即使在我国还没有明显出现僭越学术道德行为,由于“回应型治理”方式缺乏前瞻性,成本高昂,预判风险完善顶层设计就显得尤为重要。设置使用的前提条件和制定违反相关规定的惩罚措施,将技术的使用限定在法律框架之中,用硬性制度约束使用者行为,并密切关注人工智能技术的新发展、新需要,与时俱进同步调整相关法律法规。鉴于生成式人工智能技术极强的跨国流动性,应站在全球治理体系角度,构建具有共性的治理框架,完善细化法律规范制度,如生成式人工智能生成作品可解释部分与主体实现责任绑定,构建相关责任法律体系;对于模型数据的输入需征求用户意见问题及人工标注阶段收纳信息主体的智慧相关问题,构建使用目的限制法律体系。

3.用智谋“祉”:强化全方位的学术审查促公平

人类历史上,科学技术的发展往往会给生产力、生产关系和上层建筑带来重大变化,成为划分时代的重要标志,也引发人们对社会伦理的反思。网络的发展推动社会生活的虚拟化,虚拟空间相比现实空间,由于学生的身体不在场,引发了更多的学术伦理问题[17],亟需构建多方合力的审查体系,以及审查、预警、处理一体化的防御机制。

第一,建立健全审查体系。技术开发者应担负责任和义务严格审查自身体系问题,强化输出、输入内容质量与合法合规性,提供数据风险评估机制,对可能发生的风险做出预判及说明,制定合理的使用倡议书,标注知识的出处,提醒使用者使用时应进行合理标注等,减少学术不端的风险出现。生成式人工智能内容逐渐成为趋势,为适应技术变化趋势,学术期刊也应强化责任意识,加大审查力度,将生成式人工智能合理使用范围纳入考核之中,配合问责制度,严格执行审查,层层把关,审查利用人工智能生成内容生成文章的出处、真伪和使用情况。同时,成立专门学术审查委员会审查非法、不合理利用行为,建立规章惩处制度,强化学术不端风险防控,将学术不端成果摒弃在期刊之外。此外,开发完善审查软件体系。由于生成式人工智能技术在行文时似人的行文结构和语言逻辑,加大了人工审查的难度,开发相应审查软件程序可提高审查效率,协助人工快速排查学术不端行为。建立统一标准下的多样化及多层次的审查体系,具体问题具体分析,使不同地区、不同层次的学生享有相对平衡的教育品质,坚持审查包容审慎的原则,倡导循序渐进的审查治理过程,更好地推进技术的有序发展。

第二,学校教师加强审查监督。建设外部审查体系与学校内部审查管理的统一,既要审查过程也要审查结果。学校应制定健全的生成式人工智能体系使用指南、统一化学术诚信守则、学术诚信标准,限定技术在合乎伦理的范围内使用。老师应准确把握生成式人工智能技术对于学生主体的思想、行为的变革,关注学生的现实需求与社会时空发展具体要求,提升数智时代教育、诚信监督的针对性。如引导学生科学利用技术工具,确保学生明晰使用伦理界限;帮助学生有责任、有意识地使用技术工具;建议使用者签定生成式人工智能的学术诚信承诺书及违规同意处置书。此外,设想防止学生应用人工智能生成式内容进行抄袭的多种办法,如更多开展线下闭卷考试,避免布置过于笼统方便搜集的任务,而安排一些具有特定时代、地域文化背景的任务,提交答案时需备注具有逻辑性的解释等,在源头上做切断,做好前置性的预防工作。总之,营造特定宽松的审查监管氛围,避免“一刀切”,实行灵活多变的监管策略,使学生自主探索、充分挖掘生成式人工智能潜力,利用技术工具发散思维,开阔视野。

四、结语

“没有绝对的真理,只有不断变化的概念。”在看待生成式人工智能引发学术伦理这一问题时,需要“跳出问题看问题、立足全局看问题、放眼未来看问题”[18]。跳出问题看问题:不但探讨ChatGPT 在学术生产领域产生的风险,也要正确审视其对教育生态其他方面的冲击和整个生成式人工智能技术体系对人类的冲击;立足全局看问题:跳出自己的“一亩三分地”,站在全局和战略高度看待问题,生成式人工智能赋能教育最终归旨要促进人自由而全面地发展;放眼未来看问题:生成式人工智能涌入时代的潮流不可阻挡,用发展的眼光看待问题,充分释放生成式人工智能潜力与教育教学有效互动。此外,始终坚持以马克思主义理论为指导,坚持人本主义,永葆理性与批判,主动掌控技术,防止对技术的盲目崇拜,警惕掉入技术“异化”陷阱,实现对“纯粹技术化”的超越,让技术的更新迭代服务于人类社会的发展。

猜你喜欢
学术人工智能人类
人类能否一觉到未来?
人类第一杀手
如何理解“Curator”:一个由翻译引发的学术思考
1100亿个人类的清明
对学术造假重拳出击
2019:人工智能
人工智能与就业
数读人工智能
下一幕,人工智能!
人类正在消灭自然