数字教材人机协同审核工作流研究*

2022-12-12 09:24徐丽芳王洪涛
中国科技期刊研究 2022年22期
关键词:协同数字教材

□文│徐丽芳 邹 青 王洪涛

自进入21世纪以来,我国教育信息化发展迅猛,为大规模推行和使用数字教材提供了沃土。随着“中教云”“粤教祥云”“凤凰数字教材”等大型数字教育资源平台的建成和投放使用,数字教材在课堂教学中的地位不断提升。作为教育现代化的重要抓手之一,大中小学数字教材的核心价值集中体现在落实国家教育战略、促进信息化环境下的教育公平、引领课程教学发展变革3个方面。[1]数字教材在各级各类教育教学中的推广普及,无疑将从根本上影响我国教育现代化战略的实施。2019年2月,中共中央、国务院颁布《中国教育现代化2035》对充分利用现代信息技术,丰富并创新课程教材体系,增强教材的思想性、科学性、民族性、时代性、系统性,建立数字教育资源共建共享机制等提出了要求。2022年4月,国家新闻出版署发布《数字教材术语》等9项行业标准立项计划。[2]这些举措都透露出国家管理层对数字教材审核管理工作的重视。

与纸质教材相比,数字教材的媒体形式与功能更加复杂,需要遵循教育性、科学性、思想政治性、教材出版与技术性等多个维度的标准与规范,审核难度远远超过纸质教材和普通电子出版物。[3]实际操作时,往往需要联合多个领域的专家并借助一定技术手段,以确保教材内容合规无误和教材功能正常运行。近年来,大数据、人工智能、自然语言处理(Natural Language Processing,NLP)等技术的进步催生出一批功能强大的智能机器审核系统,促进了机器内容审核的多模态、智能化和专业化发展。阿里巴巴、腾讯、百度等互联网企业将云计算技术、海量用户与内容数据、机器学习结合起来,为用户提供图文和音视频内容违规检测服务;[4]人民网基于传统媒体把关的丰富经验对外提供人工审核服务,并自主研发了一套企业级内容审核风控系统,现已成为增长最快的业务;[5]出版领域则有方正智能辅助审校系统、黑马校对、凤凰智能校对等审核系统利用大规模语料库和汉字快速高精度切分、敏感词监控等技术,能够校对汉语文本中的拼写错误、成对标点缺失、异形词、专业术语等多类错误和大部分政治性问题。[6]若合理使用,这些系统能大幅缩短数字教材审核时间,将之更快推入消费环节,为广大师生和教育出版企业创造更多价值。

但是,上述基于当前大数据和人工智能技术不同程度应用而开发的机审系统在应用于数字教材时还存在诸多问题:一是学科针对性不足,难以从专业、学科的角度对教材内容进行知识性判断,削弱了审核的精准性;二是教学情境感知与推理能力较弱,比如容易将“法医尸表检验虚拟仿真实验教学”“产科护理综合实训虚拟仿真实验教学”“犯罪现场勘查”等课程中的手术演示、刑侦勘查等教学演示画面、视频判定为血腥暴力或情色画面,出现误报现象,降低了审核的准确性;三是各机审系统功能各有千秋,有些以文字审校见长,有些则更擅长捕捉违规图像,以致审核人员时常需要组合使用不同系统并来回跳转,平添了审核的复杂性和技术学习成本。可以预见,在当前的技术条件下,数字教材的审核工作在相当长的时期内必将采用“软件系统+人工把关”的方式。因此,就数字教材审核而言,今后的发展方向是:①不断吸纳最新技术,优化现有数字出版物审核系统,条件成熟时开发数字教材专用审核系统,以提高机审性能;②明确人工审核在数字教材审核中的地位、标准和手段;③以效率和效度为工作目标,建立和优化数字教材人机协同审核机制,包括审核的工作方式、流程与标准等。纵观国内外教育出版领域,迄今尚未产生成熟的数字教材实践模式,也缺乏足够的理论可资借鉴。因此,本文主要从工作流管理视角,对数字教材人机协同审核机制的核心要素与运行逻辑展开探讨,以期为将来实践和研究提供参考。

一、人机协同审核工作流框架

关于数字教材,迄今国内外还没有准确、权威的定义。为方便论述,本文将纸质教材的数字化版本称为狭义数字教材,这是数字教材的过渡形式;广义数字教材则在狭义数字教材之外,还包含其他图文、音视频、课件等配套数字教学资源,并往往通过APP、网站等平台形式提供使用,如我国由教育部管理、高等教育出版社负责建设和运营的国家虚拟仿真实验教学课程共享平台iLab-X以及人民教育出版社数字教材垂直服务平台、培生SuccessNet平台等。这些平台包含狭义数字教材及其不可或缺的支撑或扩展材料,往往具有资源海量、类型多样、更新动态等特点,离开它们,数字化教育教学活动将无法进行,勉强进行也将是徒有虚名。目前,我国关于数字教材的管理办法尚未出台,但其审核仍应落实《中小学教材管理办法》《职业院校教材管理办法》《普通高等学校教材管理办法》《学校选用境外教材管理办法》等一系列国家教材管理办法的要求,做到“凡编必审”“凡选必审”“管建结合”。具体实践中,狭义数字教材仍可沿用传统出版的“三审三校”制度,实施质量和合规性控制,其审核工作目标、方式、流程相对成熟。但在当前条件下,广义数字教材纯人工审核从所需投入的时间和工作量来看,都是“不可能完成的任务”;而纯机审,目前在审核的精准性上又远远达不到要求。因此,人机协同审核将是未来广义数字教材审核的主流工作模式;而新型人机协同审核的实施,面临的关键问题之一是构建科学、合理的工作流。

工作流(Workflow,也译作工作流程)概念源自生产组织和办公自动化领域,工作流联盟(Workflow Management Coalition,WFMC)将之定义为“一类能够全自动或半自动化执行的业务过程”。对工作流的管理必须依靠人与计算机共同组成的一整套计算系统(Computing System)来完成与工作相关的感知、推理和决策活动;二者的互动与协同则要借助经过设计的人机交互界面(Interface)来实现。[7]就数字教材协同审核而言,人机交互界面具体可特指某个审核软件的用户操作界面和定制化应用程序编程接口(Application Programming Interface,API),广义上还可以指人工审核和机审两个子系统之间的交接点,它涉及审核主体、模式和状态的转换。因此,它们一端连接着能够模拟专家审核行为,协助专家进行审核决策的机器系统;另一端连接着数字教材编辑审核人员、一线教师、科研人员、教育行政管理部门等掌握具体审核标准和要求的相关群体。数字教材人机协同审核系统的核心构件包括:含有教材审核相关概念、事实和状态的数据库;包含教材审核规则、指令等因果或函数关系集合的规则库;集中实现教材审核推理的算法引擎等;涵盖教材审核任务分解、评价、搜索等过程和步骤集合的方法库;[8]以及适当的人工介入机制,如允许人为调整审核系统参数、结束后复核机审结果等。这些构件均构筑在一定的软件、硬件及人的互动基础之上,其研发、部署、使用和维护都是数字教材审核需要考虑的事项。在这些构件之间,数字教材审核的相关数据、文档、信息和任务按照一定规则流动,以便协调系统成员之间的工作。[9]

一般来说,工作流管理系统的实现包含“组织”和“任务”两层逻辑:[10]组织逻辑优先基于生产组织结构和关系考虑角色分工与权限问题。以数字教材出版为例,我国教材出版单位普遍实行的三审制便是一种按编辑职级由低到高依次推进的审核流程,各级教材编辑的能力、任务和握有的审核权限各不相同。任务逻辑主要基于工作性质与内容考虑审核任务的顺序和因果关系、权重和优先级等问题。尽管人脑赖以处理信息和解决问题的神经网络及其工作机制比计算机系统复杂得多,可胜任的推理类型也更丰富,但是,二者从事数字教材审核的工作原理大致相同,都是根据教材审核标准,基于过去积累的教材审核经验和知识,按照教材审核任务的特定要求和流程方法,对接收到的教材文件进行内容识别和推理分析,判断是否存在错误违规情况,进而决定教材是否通过审核,并以审核报告、待修订数字教材文件等形式输出工作成果。因此,二者的审核活动都可沿“确定审核目标→分配审核任务→目标内容识别→审核推理与分析→审核决策和成果输出”的主干展开。

那么,机审和人审这两条工作流分支又如何相互协同呢?机审系统由于有限性能的特点,必须要接受适当的人工介入。首先,机审要鉴别的目标教材内容和所依循的鉴别标准、规范需要人工确定和输入。常用教材审核标准与规范中存在许多概括和抽象的表述,如《网络视听内容审核标准细则》规定不能出现“调侃、讽刺、反对、谩骂中国特色社会主义道路、理论、制度和文化以及国家既定重大方针政策”“涉及领土和历史事件的描写不符合国家定论的”内容,[11]就需要人工“转译”成可操作性更强的规范,再转换成机器程序语言,从而使机审在大方向上与相关教材标准与规范保持一致。此外,机审实施和结果输出都需要人为选择和设置相关参数,并需要人工复核与采用反馈,方能持续提升机审系统教材审核的适用性(见图1)。因此,人机协同审核最终的决策权仍旧掌握在人手中。而当下的数字教材人工审核无疑也离不开机审的帮助,以更快识别潜在问题,或为审核决策提供更多依据。因此,架构和利用数字教材人机协同审核系统的关键在于,把握好人审和机审各自的长处和短处,在特定技术环境和数字教材审核情境的规定下,通过科学合理的角色分工和流程部署将两者有机结合起来。

图1 数字教材人机协同审核系统工作流框架

二、协同审核角色分工机制

狭义数字教材的审核仍可沿用“三审三校”等出版社内审校程序,并落实国家、地方、机构等各级各类教材管理办法关于教材审核的要求;角色分工也可以效仿传统纸质教材出版审核的做法。而广义数字教材人机协同审核无疑需要建立新型的角色系统和分工机制。

1.协同审核核心业务活动

数字教材审核可分为教材内容、呈现形式与功能审核3个部分。教材内容审核是重中之重,须从教材内容的思想政治性、教育性、科学性、合规性等维度全面把关,确保教材能够体现国家意志和主流社会价值观,遵循教育教学规律和学生认知水平,符合客观事实和科学规范,遵守数字教材出版与管理的相关政策与法规。[12]形式审核指对教材版式、目录、图表、题注、引文等要素展开审核,确保教材内容呈现的完整性、准确性和规范性。功能审核指对数字教材的搜索、标注等使用功能进行技术测试,确保在主流操作系统和网络环境下能够顺利运行。

对上述教材审核业务,机审的优势在于能够记忆大量的教材审核数据、知识和规则,按照预先设置的词表与图像库快速识别和统计敏感字词、商标水印、图文乱码、失效超链接等内容并进行一定的规则推理,且执行速度快、执行过程的持续性和耐久性较强,不存在因生理疲劳降低工作效率的问题。人工审核的优势在于,合格的审核人员具备审核工作需要而机器尚未能完全模拟和拥有的逻辑与形象思考、教学情境感知、情感分析与价值判断等高阶能力,更多体现在制定审核规则和标准、流程和方案,判断和干预机审结果等创造性活动中。

基于此,教材的教育性和科学性仍旧要聘用或委托学科专家进行重点把关,而随着机审系统广泛、深入的应用,教材内容的正误与合规性审核、教材的形式与功能审核等则将越来越多地交给机器承担(见图2)。不同机审系统在不同审核项目上有着各自的长处和短处。比如,阿里云媒体AI系统能够精准识别教学视频与课件中的政治人物、血腥画面、商品广告和商标等敏感内容,却容易遗漏PPT课件中的大面积空白、图文遮挡、图片序号错误等问题;方正智能审校、黑马校对更擅长文字审核。对此解决办法有两个:一是组合使用多个机审系统,充分发挥各机审系统的长处;二是加强人工复审,通常以教材内容与形式审核为主,同时不排除在教材数量少、功能较为简单的情况下以人工操作检测教材功能的可能。

图2 数字教材协同审核的核心业务

2.协同审核分工及权限设定

广义数字教材人机协同审核的参与者众多。教材出版单位作为最主要的执行者,在整个审核工作组织中发挥着枢纽和协调作用;教育、出版等有关行政管理部门和行业组织通过制定和实施一系列政策法规来为教材审核管理指明方向,规定必要的审核标准和流程,在审核中发挥指导者和监督者的作用;学术/教学单位从学科发展、教学实践和教材使用需求的角度提供专业意见;机审服务商则整合前述相关机构和人员的要求开发和优化审核系统,通过可视化操作界面支持教材内容批量上传和部分技术参数定制化配置,以实现大规模数字教育内容资源的高效审核。

角色分工方面,机审的采用催生出机审系统操作员这一新角色,职责是在机审系统研发和维护人员的支持下,执行机审系统操作步骤、调试机审参数以及对机审结果进行技术性解读。内容审核员的工作亦随之分化出两个部分:一是机审结果人工复核;二是实施机器无法进行的内容审核项,如一些极为考验专业功底的术语和知识审核。鉴于教材审核对教材内容的思想政治性、教育性和科学性要求十分特殊与严格,可分别设立思政审核专员和学科审核专员进行专项审核。对一些专业性较强的教材审核业务,如教材版权审核、地图内容审核,也可设立专员审核。余者如字词、语法表述、标点符号等狭义内容审核和教材形式审核,则交由普通内容审核员通过抽检、复核机审结果加以完成。此外,还可设立教材审核执行主管(以下简称“执行主管”)的角色,主要负责调控审核进度、沟通审核情况、向上级汇报等工作。

为了更好地组织和协调教材审核活动,参与机构(尤其是教材审核责任单位)可指派代表组成教材审核领导小组(以下简称“领导小组”),结合审核任务需求和现实条件部署审核团队的角色分工,再由参与机构选派人员承担相应角色。其中,执行主管作为连接领导小组和教材审核团队的关键角色,通常由教材出版单位职级较高的编辑部门管理人员担任。机审系统操作员主要来自教材出版单位的技术部门或者教材编辑;机审服务商一般只提供机审系统软件和技术咨询、培训、维修等服务。内容审核专员由学科专家和具有对应职称的教材编辑承担。

在确定了角色部署及承担者之后,领导小组或执行主管依据各人能力分派审核任务,赋予相应的组织协作和机审系统权限(见图3)。此二者作为审核工作的领导者,需要掌握和利用好两类权限:一是教材审核组织的人事管理权,包括增加/剔除成员、绩效审计等;二是教材审核工作流的控制权,包括发起/分配/终止审核任务、限定任务时间、验收审核成果、修改审核状态和终审权等。而它分配给内容审核员的权限主要包括登录数字教材平台、查询/浏览/检索数字教材内容、录入和提交审核结果、机审软件使用权限等。机审系统操作员的权限则包括机审系统界面操作和API调用权限,如设置教材审核范围和类型、获取教材审核任务编号、创建媒体机审列表等。[13]对第三方审核团队的授权可以以角色组和权限组的形式进行,在保证领导小组核心控制和满足工作保密性要求的前提下,允许其自行部署角色和赋予权限。

图3 数字教材协同审核角色分工

三、 协同审核工作流部署

数字教材人机协同审核须依次经历教材审核方案制定、教材审核任务执行、教材审核决策与教材审核结果输出4个阶段;同时,须跨越教材出版行政管理部门、教材出版单位、审核技术服务提供商等多个角色或职能部门,因此需要完善的部署方案来优化协同审核流程。

1.制定审核方案

无论审核技术如何发展,内容审核始终是数字教材审核的第一要义,是审核方案最重要的主体部分,主要涉及6个方面:①内容安全,包括政治和意识形态、暴力与恐怖主义、情色、吸毒、赌博、民族宗教、社会伦理和道德等问题;②语言文字,包括错字语病、禁用语、标点符号缺误以及专业术语、专有名词、中外翻译及其他规范用语问题等;③版式和内容可读性,包括内容缺失与空白、显示清晰度低、图文遮挡、乱码、目录/序号/题注错误等问题;④版权问题,包括确保以合法手段获得数字教材网络传播等使用授权,检查教材对他人成果的引用是否符合《中华人民共和国著作权法》关于合理引用的规定,注意防范教辅和用户上传资源背后潜藏的侵权风险等;[15]⑤商业广告,包括教材正文、配图、课件、水印、二维码、链接等所有教材内容中潜藏的商品宣传信息和购买链接;⑥地图,包括地图的科学性、规范性和政治性审核。除了内容审核,教材审核工作有时还会包含技术方面的审核,主要是对教材资源的可获取性和功能有效性进行测试,如教材内容在线浏览、下载、交互和页面跳转等功能是否正常以及链接的有效性等。除了内容审核外,数字教材协同审核方案还需包括对审核软件系统操作和审核流程实施的具体说明。

2.机审系统原理和实施

随着大数据、云计算和人工智能等技术的发展,针对数字内容的机审系统取得了长足发展。按照硬件与网络部署方式,这些系统一般可分为两类:一是本地审核系统,其安装和使用不依赖互联网,但是可通过内部联网实现协同审核,联网用户可以实现共同维护和同步使用自定义词库等功能;二是云审核系统,即在高性能云服务器上完成审核推理和计算、审核数据传输和存储,能够更好地支持移动和异地协同审核,但是有一定的教材文件和审核数据泄露风险。

机审软件系统一般采用如下功能架构:最底层为实施机审所需要的计算、存储、网络与数据库资源等基础设施层;第二层是面向审核工作目标的多模态信息识别、自然语言处理(Natural Language Processing,NLP)引擎、图像分类、人脸识别和场景识别等核心技术层;第三层是图文、音视频审核应用管理与服务管理层,涉及用户管理、任务管理、交易服务和API调用等多方面后台管理功能;最上层是直接面向审核工作的机审系统客户端。客户端目前有两种主流形式:一是审核插件,可直接在Word、Acrobat PDF等常用字处理或编排软件用户界面上操作,方便用户快速定位与修改;二是机审平台客户端,无需安装多个插件且能同时执行多项教材审核任务。平台型客户端既可能是直接下载至本地运行的客户端,如黑马校对单机/多机版;[16]也可能是无需额外下载的网络审核平台,如方正智能辅助审校系统,阿里云媒体AI、腾讯安全天御等;将来也可能无需借助第三方系统而是直接在数字教材出版平台上实施机审(见图4)。[17]

图4 机审系统通用技术架构

对数字教材而言,若只是少量纸质教材的数字化版本审核工作,尚能以使用插件为主加以完成;若广义数字教材,审核任务量一般较大,因此一般更适合在平台客户端上集中处理。具体审核工作要经过“注册/登录审核平台账号→部署审核任务→上传教材文件→运行机审程序→查询机审结果”等操作步骤。一些审核系统还包含任务量估算和计费环节。

3.人工干预与审核结果输出

在正式开始机审前,要先对数字教材文件进行格式转化和文件编码,尤其是将之与机审ID对应起来,使其能够被机器读取和准确识别,同时便于内部统计与管理。当审核任务较为复杂,如待审教材数量较多、结构较复杂和审核项较多时,可采取预审核测试的方法,对经过预处理的数字教材文件进行适量与合理的抽样,按照初步定下的方案对教材样本进行审核;对审核工具的适用性、个体成员的工作效率、团队协作方式等要素进行评估,将发现的问题进行汇总,据此对审核方案进行调整,直到能够达到较满意的审核效果。

机审任务的人工部署有两种方式:一是较为简单的可视化面板部署。以方正智慧出版云服务平台为例,教材编辑选择字词符号、敏感内容、上下文查重、文章逻辑检查、参考文献格式检查和纪年、引文、地名、标准和法规等知识性检查项;相应地设置最少查重字数、参考文献格式标准和敏感词检查严格程度等参数后,上传符合格式要求的教材文件,启动审核任务;最后可下载单独的教材审核报告文件。[18]二是需要专业技术人员操作的API/SDK部署。以阿里云媒体AI为例,技术人员提交教材审核作业时,需要 在 OpenAPI Explorer中 运 行SubmitMediaCensorJob接口,依次设置待审教材文件运营支撑系统(Operation Support System,OSS)地址、用于绑定消息通知的管道ID和并发数、视频审核配置(包括截图输出OSS地址、输出模式、审核模板、检测场景等)、视频URL链接、异步通知消息等参数。[19]

机审实施过程中,与人工活动存在“串联”和“并联”两种流程部署逻辑。“串联”指对机器能够完成的审核任务优先安排机审,再由内容审核员进行复核。这样既可对机器报误做进一步评判;保险起见,也可对机器未曾报误或报误较少的教材进行抽审。“并联”指机审运行时可同时进行非机审项的审核工作。其中,对机审的人工干预主要是在机审程序运行结束后,审核小组对机审运行效率和机审结果的适用性进行评估,以确认是否还要实施新一轮机审;若需要,则进一步确认待机审数字文件目录,并对机审参数进行一定调整。如果机审已经达到工作预期或可操作性范围内的功能极限,则终止机审工作。

最后,待所有人机协同审核活动结束后进行审核成果输出,包括撰写审核报告、汇报审核成果和更新教材审核自定义词库、图像库与规则等(见图5)。

图5 数字教材协同审核流程部署机制

四、小结与展望

审核对数字教材的质量和合规性保障都至关重要。对于传统纸质教材的简单数字化版本,审核工作可以沿用传统教材审核的方式、方法,在原来的业务和管理流程基础上做少量调整即可。对于广义数字教材,则必须采用机器加人工协同审核的方式,以提升工作效率和质量。其中数字教材的机审工作通用机审软件系统通常能解决大部分问题,但审核水平和质量都有待提高。一种可能的发展路径是,有实力的教育出版企业利用深谙教材审核工作内在逻辑与要点的优势,通过自建数字教育资源平台或第三方教育平台搜集教育内容与用户数据,用于研发和训练自己的教材审核算法,构建自己的智能教材审核系统。如同人民网立足于传统媒体把关的专业优势寻求技术与服务创新,这些教育出版企业也可以将智能审核系统打造成为新的核心竞争力和盈利增长点。另一种可能的发展路径,则是通用机审系统吸纳教材出版企业的专业经验和特殊需求,研发面向数字教材和数字教育内容资源审核的算法,形成价值共生与互惠的关系。

此外,用户甚至大众参与也将是数字教材审核的一大趋势。首先,面对水涨船高的审核工作量和难度系数,教材出版能够且愈发需要利用Web 2.0技术将审核任务进行众包(Crowdsourcing)。这方面中外已积累了一定的实践经验,尤以开放教材和开放教育领域居多,如维基教科书(Wikibooks)、全球教科书计划(Global Textbook Project)等教材项目都通过网络招募教材审核员,对教材内容进行层层把关;“美乐”(MERLOT)、“英属哥伦比亚省校园”(BCcampus)等教材平台向用户开放教材评价和纠错功能,[20]大幅提升了数字教材的审核效率。其次,机器学习作为智能审核的内核,在很多情况下都需要借助人工标注以使教材文本能够更好地为机器识别和理解。其中,小范围的专家标注虽然完成质量较高,但是效率上有所欠缺,且许多标注任务实际上并不需要深厚的学科知识和经验功底,如简单的概念和图像识别等,完全可交由更多经过一定培训的普通人完成。届时,数字教材审核将需要更多的机器辅助和人机协同,审核分工和工作流无疑也将变得更为复杂。因此,成熟的人机协同审核机制将成为数字教育出版的必要条件,为相关技术研发和业务实施提供行动框架与准则。本文抛砖引玉,期待未来有更多研究人员和实践工作者对相关问题做出深入探讨。

猜你喜欢
协同数字教材
家校社协同育人 共赢美好未来
教材精读
教材精读
教材精读
蜀道难:车与路的协同进化
教材精读
“四化”协同才有出路
答数字
三医联动 协同创新
数字看G20