现阶段生成式人工智能在档案开发利用中的应用瓶颈分析
——以ChatGPT类人工智能为例

2024-01-05 15:55
档案与建设 2023年11期
关键词:语料库人工智能内容

王 冠 袁 烨

(马来亚大学人文与社会科学学院,马来西亚吉隆坡,50603)

作为一个里程碑式的人工智能产品,ChatGPT自2022 年11 月30 日发布以来就受到了人们火爆式地关注和应用。国内部分大型科技公司也积极响应,开发出了多款国产的生成式人工智能产品,如百度的文心一言、阿里的通义千问、商汤的商量、科大讯飞的星火认知大模型等。同时,ChatGPT类人工智能凭借其强大功能以及在世界范围内的火爆态势,使得生成式人工智能也成了当前科技界的关注热点。鉴于这一态势,2023 年8 月15 日,由国家互联网信息办公室、国家发展改革委、教育部等七部委联合发布的《生成式人工智能服务管理暂行办法》开始施行。这是我国首个关于生成式人工智能的国家级监管文件,对于规范生成式人工智能的现实应用及行业发展具有重要意义。

但是,在热烈拥抱生成式人工智能的同时,人们对其安全性问题以及在应用过程中产生的伦理问题和潜在风险的认知也越来越深刻。以ChatGPT为例,2023 年3 月29 日,美国的生命未来研究所在其网站上公布了一封公开信,呼吁所有AI实验室立即暂停训练比GPT-4 更强大的AI系统,暂停时间至少应为6 个月,并称其“可能对社会和人类构成深远的风险”[1]。该公开信得到了包括多位科技领袖如埃隆·马斯克、史蒂夫·沃兹尼亚克、杰弗里·辛顿等在内的1000 多位业内人士的支持。2023 年3月31 日,意大利个人数据保护局宣布从即日起禁止使用ChatGPT平台。如果说公开信的公布直白呈现出了科技界的谨慎态度的话,意大利的封禁措施则从现实层面为ChatGPT的应用注入了一针强冷静剂。

当前档案界已有学者就人工智能在档案行业的应用展开了探讨,如贠疆鹏等指出,当前人工智能技术在我国档案管理中还存在应用场景有待拓展和丰富、应用环节有待深化和集成、技术与管理原则有待落地和融合等问题[2];孙琳等指出人工智能技术应用在城建档案管理工作中具有可行性,档案智能检索与利用、档案开放鉴定、档案智慧服务、档案分类整理和档案安全保护是其中可能的应用场景,但也存在着诸多风险。[3]同时,档案领域围绕生成式人工智能的应用问题也已展开探讨,主要围绕ChatGPT展开。其中,周文欢认为ChatGPT在档案领域的应用存在“数据质量问题、语言和文化差异问题、隐私和安全问题、人工智能伦理问题”[4]等挑战和限制。总体而言,当前学者对于ChatGPT在档案领域的应用均持谨慎态度。

目前,生成式人工智能的主要优势在于其内容生成、多模式介质处理以及人机互动等方面具备的强大功能,其在档案数据的智能化采集、组织、分析、检索等工作中均可得到广泛应用。而且,从理想状态来看,生成式人工智能的这三项功能优势在档案开发利用环节最有可能得到较大发挥。但笔者认为,虽然生成式人工智能已然表现出了令人惊叹的强大功能、惊人的更迭速度和广阔的应用前景,但是其本身存在的技术、伦理等方面的问题,短时间内仍无法得到很好解决,再加上档案行业较强的专业性以及档案安全底线的重要性等原因,现阶段将生成式人工智能应用于档案开发利用尚存在诸多瓶颈。

1 数据准备阶段

1.1 数据库层面

大数据是生成式人工智能运行的基础和必要条件。相较于其他人工智能产品,生成式人工智能的核心竞争力就在于其“海量数据”与“海量训练”,也正因如此,生成式人工智能的开发公司对数据库的建设和维护非常重视。以ChatGPT为例,其海量训练是基于一个固定的数据库而展开的。截至目前,OpenAI并未公布模型训练数据集的来源和内容,这也是在应用ChatGPT的过程中产生黑匣子效应的主要原因,而黑匣子效应又会导致侵权、隐私泄露等严重风险。

要想在档案开发利用中应用生成式人工智能,首先需要准备由海量开放性档案数据构成的档案语料。其中的主体应是档案部门提供的档案内容数据、档案实体数据、档案环境数据、其他数据等,还包括由立档单位和个人提供的开源信息、用户在使用过程中输入的个人信息及其获取的输出结果信息等。现阶段,我国档案部门要想使生成式人工智能在档案开发利用中落地,就需要将海量的档案数据尤其是档案内容数据上传至相应公司的数据库。对于国外的生成式人工智能产品而言,这种做法在法律层面是被严格禁止的,在实际操作中也会因为违背国家安全底线而断不可行;国产的ChatGPT类人工智能产品如百度的文心一言、阿里的通义千问等虽然已获得了广泛应用,但相较于ChatGPT而言,其在语料、芯片、算法上都有短板,想要建立我国专用的档案语料库并应用于档案的开发利用也十分困难。此外,虽然当前生成式人工智能业已体现出了明显的插件化发展趋势,已有部分科技公司和人士将其与搜索引擎、微信等连接并得到了成功应用,且未来由我国自主设计研发的ChatGPT类插件产品也可接入全国档案查询利用服务平台、跨区域档案信息资源共享平台、专题档案数据库等,但是目前为止,这一理想前景的实现可能性尚显渺茫。

1.2 数据量层面

生成式人工智能依托海量数据库信息存在,如“OpenAI为了让ChatGPT(指ChatGPT-3)的语言合成结果更自然流畅,用了45TB的数据、近1万亿个单词来训练模型,大概是1351 万本牛津词典”[5]。功能更为强大的ChatGPT-4、ChatGPT-5 则需要更大体量的数据才能满足其训练需求以更加准确地处理和反馈人类设置的生成条件,而若想要达到符合人类常识、认知乃至价值观层面的要求,则需要更大体量数据的训练。

由于档案与档案需求的特殊性和复杂性、档案业务工作的专业性等原因,将ChatGPT类人工智能的通用大模型应用于档案开发利用,若不是量身定制的话,其输出答案的准确性会较差,因此,需要对海量档案语料展开大量训练才能满足专业性、复杂性需求。即便是在应用之后,也须依靠由巨大体量的档案数据,尤其是档案内容数据支撑的档案语料库运行。根据统计,2022 年度我国“馆藏电子档案2372.9TB,其中,数码照片220.0TB,数字录音、数字录像1040.0TB,馆藏档案数字化成果28069.0TB”[6]。而2001 年至2020 年我国综合档案馆的档案平均开放率为21.91%[7],据此测算,理论上我国可纳入档案语料库的电子档案达519.9TB,符合生成式人工智能对数据体量的要求。但是也不难看出,要达到这一要求就需要整合全国范围内的开放性档案数据并建设统一的档案语料库,这在当前的情况下是不可能实现的。而且,即便是建成了档案语料库,在档案部门提供海量开放性档案数据的过程中,档案鉴定工作不充分、对提供数据的范围把握不准确、工作人员误操作或失职等原因均可能造成档案泄密。此外,如果生成式人工智能在采集网络信息的过程中,将未经权利主体授权却受到著作权保护的文本、图片、视频等信息直接复制到档案语料库中,那么,在此基础上修改、拼凑而成的内容就会侵害到他人的著作权。如此巨大的工作量和风险度也是档案部门难以承受的。

2 内容生成阶段

2.1 内容生成机制——关联

生成式人工智能通过所挖掘的单词之间的关联统计关系合成语言答案。如ChatGPT将大数据、大模型和大算力进行工程性结合,不仅使其具备了强大的统计关联能力,而且有助于挖掘海量数据中单词与单词、句子与句子等之间的关联性,并通过机器智能的方式将关联结果呈现出来。关联统计与呈现的生成机制固然有助于深入挖掘档案数据以产出高质量的档案开发产品,但是也会产生严重后果。

生成式人工智能以“共生则关联”为标准训练模型,由于未来建成的档案语料库中的数据来源较为复杂,不仅包括档案部门提供的档案数据,以及立档单位和个人产生和提供的开源信息;还包括用户上传和生成的数据,以及生成式人工智能通过互联网采集的信息。如此一来,生成式人工智能则会因无效关联或虚假关联生成大量不真实,甚至是由违背常识或东拼西凑的信息合成的答案,但其自身却无法明晰判断答案中内容的可信度。这类档案开发产品的大量产出不仅会削弱档案及档案部门的权威性,还有可能会在大规模社会性传播之下动摇基于档案真实性而构建起来的档案价值理念和文化。再加上生成式人工智能对信息、数据来源无法进行事实核查,所以这一问题几乎无法从源头上予以解决。

2.2 内容生成结果——指令

指令对生成式人工智能的内容生成结果有着重要影响。以ChatGPT为例,其底层技术包括Transformer、自监督学习、微调、人类反馈强化学习(RLHF)、AI对齐等。其中,指令微调和人类反馈强化学习是决定内容生成结果质量的重要技术,也是提升指令学习能力和用户意图捕获能力的重要影响因素。值得注意的是,ChatGPT-4 已经在用户意图捕获能力方面有了较大提升,其产生的结果也越来越符合用户需求,并且其还可以通过用户指令赋予独特的“人格”以生成更高质量的内容。

但是,生成式人工智能在内容生成结果层面受主观因素的影响较大。一方面,ChatGPT类模型的能力上限是由奖励模型决定的,该模型需要巨量的语料来拟合真实世界,对标注员的工作量以及综合素质要求较高。在此背景下,档案语料库的建设及其质量保障将面临较大挑战。另一方面,用户设置的生成条件将直接决定生成内容的结果和质量,若在此过程中,用户有意或无意设置了模糊性较,带有偏见或冒犯性,甚至是带有欺诈、违法等意愿的条件,就会产生大量与事实和常识不符、违背伦理和违反法律的毒性信息,这些信息还会被自动纳入档案语料库,进而产生不可预知的严重后果。同时,生成式人工智能还存在主观猜测提问者意图等问题,这无疑会加剧后果的严重性。

3 社会传播阶段

3.1 高并发性

生成式人工智能的一个显著特征是高并发性,主要表现为:一是其可同时生成很多答案内容,包括不实信息和毒性信息,而这些信息又会进入其数据库成为语料来源。如果有不法分子对其进行恶意训练,就会有大量有害信息被源源不断地生产出来,如虚假的政策文件、政府公文、电子邮件等,并可借助多元化的社交媒体广泛传播出去。二是其可同时与很多用户进行交互,若有不法分子将其作为插件与诈骗系统连接,便可同时完成很多诈骗行为,如可同时给很多人打电话,并凭借其优秀的人机交互能力和内容生成能力完成大规模诈骗。

生成式人工智能的这一特征在档案开发利用中将有可能被无限放大。一方面,公文是档案的重要来源,由于生成式人工智能的核心功能之一即是按照用户要求自动模仿有固定模式的文本内容,如此一来,档案部门上传至语料库的大量档案资源将会成为不法分子制造假政策文件、假政府公文等的训练范本。另一方面,社会公众基于档案真实性而对档案和档案部门形成的权威性认知,也会成为不法分子借以实施诈骗行为的一个重要条件,即可能会使社会公众在被诈骗时深信不疑、上当警觉之后质疑档案的真实性和档案部门的公信力。由上分析可知,在档案开发利用中应用生成式人工智能不仅可能会引发社会性违法行为的发生,而且也会给档案部门的公信力造成广泛性损害。

3.2 强破坏性

随着生成式人工智能的迭代升级,其在内容生成方面的功能也更加强大。但与此同时,生成式人工智能生成内容的欺骗性也更强,由此产生的破坏力则更强。以ChatGPT为例,根据《科学报告》发表的一项研究,人类对道德困境的反应可能会受到人工智能对话机器人ChatGPT所写陈述的影响。这表明用户可能低估了自己的道德判断受ChatGPT影响的程度。[8]因此,生成式人工智能可能会产生更深层次的破坏性。

档案开发利用是档案部门传播档案理念和价值观的重要途径,生成式人工智能强大的功能固然有助于生产出高质量的档案产品、增强档案用户的体验等,但同时其产生的虚假信息和毒性信息将更具有隐蔽性和欺骗性,尤其是其对人类道德和价值观产生的深刻影响,可能会削弱档案价值和理念的传播成效,甚至会扭曲正确的档案理念和价值观。《生成式人工智能服务管理暂行办法》中对生成式人工智能服务提出了全方位管理的要求,其中第四条规定:提供和使用生成式人工智能服务,应当遵守法律、行政法规,尊重社会公德和伦理道德,并从五个方面进行了具体规制;第五条规定生成式人工智能服务的提供者应当依法承担网络信息内容生产者责任。[9]由此可知,档案部门在应用生成式人工智能开展档案开发利用的过程中还需要承担起艰巨的法律和道德责任。

4 余 论

生成式人工智能业已展现出了巨大的应用潜力、摹绘出了AI应用的美好图景。[10]我们在热切拥抱它的时候也应该以谨慎的态度视之,尤其是应考虑到其在应用过程中可能带来的巨大风险和伦理问题。在档案开放利用中,我们固然可以合理畅想其可能的应用场景,但是更需要依据谨慎性原则预警风险和化解风险。更何况在生成式人工智能产品的主要核心技术和数据库等多掌握在国外公司的当下,我国档案部门不可能将档案数据的安全命运交给其掌握;同时,生成式人工智能也存在巨大的技术伦理和社会传播风险,因此综合考虑,现阶段在档案开发利用中应用生成式人工智能尚存在一些瓶颈。

值得注意的是,当前我国已有单位和企业尝试将生成式人工智能应用于知识图谱的建构且取得了一定成果[11],但是距离彻底打破上述瓶颈尚有较大差距。主要原因在于:其一,在应用方式方面。生成式人工智能以插件的形式得以与知识图谱软件或平台连接,其尚未经过大体量档案语料库的专门性训练,在构建符合档案专业特点和要求的知识图谱中可能会存在偏差。其二,在应用效果层面。由于当前的知识图谱软件或平台将网络信息也纳入了分析范畴,因此基于其建构出的知识图谱会因为虚假或不实网络信息的污染而导致准确性较差,而生成式人工智能由于其“共生则关联”的内容生成机制则可能会加剧这一后果。

猜你喜欢
语料库人工智能内容
内容回顾温故知新
《语料库翻译文体学》评介
2019:人工智能
人工智能与就业
数读人工智能
下一幕,人工智能!
主要内容
基于JAVAEE的维吾尔中介语语料库开发与实现
语料库语言学未来发展趋势