多模态学习分析:走向计算教育时代的学习分析学

2020-12-28 02:38张琪李福华孙基男
中国电化教育 2020年9期
关键词:学习分析多模态

张琪 李福华 孙基男

摘要:利用跨数据源分析教与学规律的研究已成为教育技术学演进的重要力量。基于对多模态学习分析本质的理解,构建冰山隐喻分析模型,以阐释多模态数据流、数据建模与学习状态输出之间的关系,进而构造循环推理框架。该框架以环状流动表征了多模态学习分析的流程,流程起始于涵盖学习行为的输入空间,通过数据空间的分配标注,并在同步空间进行时空匹配使数据得以对齐,进而在融合空间中实现对“数字一推理”区域的构造,最终实现反馈输出以及对学习行为进行引导与千预的目的。多模态学习分析的研究需要继续加强复杂计算模型构建,建立学术研究共同体与开源生物数据库,扩展当前的互操作性标准,加强共同学习的模态互补研究,并将伦理价值和准则内嵌于框架设计之中,从而支撑计算教育学的建立与下一代互联网教育创新。

关键词:多模态;学习分析;计算教育学;数据映射;研究框架

中图分类号:G434

文献标识码:A

一、引言

计算教育时代,复杂学习问题的数据分析需求日益增加,由此产生的“数据驱动”研究范式,超越了从“基本原理视角构建模型”的一般方法,相关研究陆续涌现已成为不争的事实。基于跨学科视角分析多种情境中的有效学习是教育技术学演进的重要力量。在学习分析领域,对学习者全维数据的需求不断增长,结合来自多个来源的数据已经成为教育研究的必要条件。2020年地平线报告归纳了学习分析领域的实践,认为当前教育机构评价与细粒度数据的补充支撑了对学习者成功的分析(AnalyticsforStudentSuccess),强调学习分析的跨功能数据联合与协调应用趋势B。多模态学习分析(MultimodalLearningAnalytics,MLA)为立体化地理解“互联网+教学”的规律奠定了基础。在多模态学习分析领域,教育的跨模态数据是研究的对象与起点,数据的分析与建模是主要研究方法,建筑在信息科学基础上的教与学问题研究赋予该领域独有的印记,其结果是建立解决复杂教育问题的数据模型与解释模型,指向智能教育的创新实践,为构筑新时代中国气派的教育学理论体系提供了支撑。

二、多模态与多模态学习分析

多模态(Multimodal)属于被广泛应用的概念,已在很多领域尤其在传播学与功能语言学领域得到了深人的应用。在传播学领域,多模态是指信息交流依赖的渠道和媒介,不同符号以交互方式传递信息与意义,每种模态可以通过一种或多种媒体进行表征。例如,言语可以被数字化记录在计算机中,也可以被编码为韵律指数或者震动产生压力所导致的分贝值变化。在功能语言学领域,从20世纪90年代开始,研究人员认识到话语分析除了言语之外,表情、手势、肢体语言等也是意义生成的有效模态,开辟了多模态话语分析的新领域。

学习者伴随时间分辨率的情感和认知状态与积极的学习成果有关。多模态术语指的是使用先进的传感器技术和机器学习建立和处理过程性学习数据的信息模型8),以研究复杂情景中的学习,在学习行为和学习理论之间建立桥梁!。多模态学习分析的萌芽是对“麦格克效应”(McGurkEffect)的阐释,结果产生了视听语音识别领域(AVSR);其成熟源于机器学习模型精度的改进,即纳入更多的数据特征维度并提升算法的表现。进人21世纪以来,表情识别、语义分析、情感计算、人因工程等领域的蓬勃发展,极大释放了多模态学习分析的潜能,多种模态建模会改善大部分研究的模型精度已成为学术界的共识。

从早期的语音识别(VR)研究到近期对自然语言处理(NLP)与视觉模型(VFM)的关注,多模态学习分析已成为一个充满朝气的研究领域。下一代的教育服务,将是多感官的",多模态学习分析专注于学习过程中各相关模态相互作用的痕迹,将真实的教育问题置于数据驱动范式中重新审视,可以為学习空间创设和任务设计提供新思路。此外,在人工智能领域,实现计算机对真实世界的理解、解释和推理!"2依然是一个巨大挑战。现有人工智能还不存在类似人脑多通道协同运作的体系。多模态学习分析的跨模态感知与推理有助于建立语义空间的联结,纳入结构化知识来帮助计算机深度认知,由此产生的“多模态智能”将成为人工智能未来的发展方向。

三、数据映射“冰山”模型

多模态学习分析研究是一种数据驱动型科学,计算教育学是一门“教育数据地质学”,两者具备共同的研究趋向。多模态学习分析给研究者带来了一些独特的挑战,这些挑战是由多模态数据的复杂和多种形式所造成的,其中关键的问题在于模态数据与学习状态对应关系的合理解读。尽管传感器提供了对肢体动作、面部表情、眼球运动等模态信号的记录与测量,但学习者潜在的特征很难进行界定。尤其当大量有意义的变量被纳人于研究者视线范围之内,如何处理好教育与信息两个层面价值的关系,建立模态数据与学习过程之间的映射关系至关重要。

为了清晰地说明多模态学习分析的数据流程,研究构建了数据映射分析模型,如图1所示。从最初可以被观测和记录的数模转换开始,即采集学习者的行为和学习情景数据,由传感器自动捕获形成多模态数据流,经历“数据建模”,生成学习状态的输出标签。在图1中,“观察一数字”线以下是不可观测区域,包括“观察一数字”至“数字一推理”之间的建模区域,以及“数字一推理”以下的表征区域。利用“冰山”隐喻可以明确地说明可见与不可见区域之间的关系:多模态数据流、数据建模与学习状态属于同一冰山的不同方面,水平面以上的属性是显性的,容易被记录与存储;“水平面之下”部分需要多层次的解释,越往下的部分越难以描述,解释程度取决于水平面之下的深度。

具体来看,“数据建模”中首要的是定义表征学习状态的组件,这取决于多模态数据的类型、算法选择以及需要输出的学习结果。其次需要对多模态数据流进行预处理,包括结构化、数据清洗,之后基于特征描述建立机器学习模型。常用的特征描述包括视觉目标检测的梯度方向直方图(HOG),以此来计算局部图像梯度的方向信息的统计值,描述人体的姿态运动数据的欧拉角(EAs),描述音频言语特征的梅尔频率倒谱系数(MFCC)。这些低阶特征数据被动态建模,利用联合隐藏条件随机场(JHCRF)、支持向量机(SVM)、隐马尔可夫模型(HMM)等算法实现中阶数据的训练和识别。

学习状态区域对应投入度、情感、认知、注意力等表征学习水平的“指标”。在这个层面,应用最成熟的是情绪识别。情绪被认为是生理变化的重要指数,在学习中起着重要作用”4。根据“体细胞标记假说”,前额叶在决策及情绪加工中的重要作用,尤其是颞上沟和杏仁核决策情绪的表达,以面部状态的变化表现出来1,因此,对面部特征的提取以及前额叶控制的眼动指标被广泛应用在情绪的建模。从更广的视角,生物系统学认为内环境的稳态(自稳态)是人体维系正常生理功能的必要条件,其中一个重要的指标是唤醒度。作为引起学习者生理反应程度的指标,高唤醒表明积极或反应模式支持学习。“神经内脏整合模型”(NeurovisceralIntegrationModel)进一步揭示了人体如何作为一个复杂的互联系统协调工作。根据该理论,中枢自主网络(CAN)调控内脏活动、神经内分泌与行为反应间的关系叨,学习状态是学习者根据所接受的刺激和意图调整其功能,为目标定向准备充分的能源,以适应不断变化的外部环境需求而做的反应。

学习状态的“指标”数量和类型取决于三个方面。一是研究者的整体设计方案,包括被试样本数、传感器选择、时间与精力投入、技术权衡等。二是学习指标是否有充分的教与学理论做支撑,能否有效干预。尤其是数据作为输出使用时,该指标必须让学习者明确如何才能提升该水平,具备一定的可操作性。此外,“偏差一方差权衡”(Bias-VarianceTradeof)思想对于判读学习状态的表征输出至关重要。偏差是指机器学习希望输出值与真实结果的偏离程度,是算法拟合能力的表征;方差是指度量训练数据集的波动引起的错误,即相同样本数训练集的变动所导致的学习性能的变化。在机器学习领域,增大偏差会导致方差减小,增大方差将减小偏差。根据该思想,表征学习状态指标的数量与其描述能力成正比,但它与其泛化性成反比。例如,支持向量机(SVM)算法通常拥有低偏差和高方差,但通过调整高斯核(GaussianKermel)参数Gamma值可以影响训练数据中允许违反边界的点的数目,会使偏差增大、方差减小。

通过上述建模输出,向学习者提供干预或提示反馈,激发学习者对状态的反思,以支持“学会学习”的能力,从而形成一个闭环控制系统。多模态学习分析的意义在于建立新的感觉运动环路,即以目标定向、学习责任和元认知水平调整为导向,借助反馈机制促使学习过程上升至良性发展的状态。

四、循环推理框架

基于上述分析,构造循环推理框架,以更为细致地解析多模态数据映射关系,并讨论分层分析的思想。如图2所示,粗实线与虚线分别为“观察一数字”分割线以及“数字一推理”分割线,循环推理框架以环状流动为运作形式,起始于涵盖学习行为的输入空间,在数据空间进行分配标注实现数据表征,在同步空间中进行时空匹配使数据得以对齐融合,进而在融合空间中将各模型映射到同一个向量维度,实现对“数字一推理”区域的构造。最终对模型进行调参以及反馈输出,实现对学习行为的引导与干预,如此往复,进人下一轮循环。

(一)输入空间

动态、持续多模态数据源的汇聚是是科学量化教育问题的起点。输入空间是研究者定义的“观察一数字”线以上的区域。学习者在完成学习任务时,很自然地整合了各感觉器官的信息。根据“认知频谱”(BandsofCognition)的界定,生物频带集中在微秒的时间尺度上,该范畴行为由自主神经系统通过交感神经和副交感神经的相互协调,共同调节四肢、面部、心跳、内脏、腺体和血管壁压力,这种行为属于无意识的、非理性事件,从数据获取的角度位于连续区间。而由躯体神经系统控制的行为受学习者主观意识支配,可被视为理性事件,该类行为状态不具备连续性。“认知频谱”框架还阐释了“分解理论”(DecompositionThesis)与“关联理论”(RelevanceThesis)的概念。基于该理论,具备短时间、连续事件特征的非理性行为对于表征认知过程具有重要价值,是多模态数据的重要来源。

诚然,连续行为与非连续行为事件并非如此边界分明,应以更广的视角看待微观成分。当融合不同的数据流时,重要的考虑因素是正在使用以及所呈现结果的时间尺度。当前,输入空间还鲜有区分情景的研究。不同的学习场景,例如教师指导下的学习、自我报告、协作学习在行为与生理模式方面有着较大的差异。在面对面交流和社交互动中,非言语表达被认为占到九成以上的表达意义叫。根据具身认知理论,肢体语言和肢体的运动学被认为在学习期间具有重要作用,学习者经常通过整合动作实现对事物的理解以及强化词语的含义2。因此,教育场景计算应面向不同场景“时间分辨率”中人与人、人与内容、人与情景的交互行为,建立全维感知能力与情景要素匹配的策略,研究场景解析模型与分析模型,進而实现场景计算的智能化。

根据学习行为的生理模式、运动方式,结合教育领域的常用传感器,从文本、语言、姿态、面部表情、眼动与生理标志物6个方面介绍常用的多模态数据源。

1.文本

文本数据在自然语言处理领域的应用已有数十年的历史。“互联网+”时代,文本信息可以轻松地从论坛、文档、测试、考试等途径收集,是极有价值的分析方式,其实践有可能会加速话语分析的研究。在学习科学领域,包含大量文本分析的研究,包括对文本内容的分类与编码分析,或者利用主题建模和聚类技术研究学习者的思维与直觉。文本的另一种形式是手写与勾勒,这种自然交互方式可以利用数字笔捕获,以量化不同表面上完成的笔划的位置、持续时间和压力。结合计算机视觉、多个摄像头可以分析写作速度、节奏和压力水平,区分不同写作模式从而量化学习者的知识贡献,识别群体中的专家。

2.语音

跟文本分析类似,语音数据允许学生在更自然的环境中流畅的表达,开辟了转录话语的可能性。在多模态学习分析领域,语音分析包括两个方面,一是语音识别,指提取语音的实际内容。分析的结果可以进一步利用自然语言处理工具分析转录本,以确定主题与谈论的内容。二是韵律特征分析,通过提取语音、语调、副语言等寻找更深层次的语义意义,以分析学习者的问题解决能力4、师生互动水平以及学习动机。

3.姿态

躯干位移、手势以及上肢动作是多模态学习分析的常用数据源。例如,教师指白板的姿态,学生面对困难的问题时抬起肩膀、头部的倾斜以及手腕的运动。这种连续行为通常是无意识的结果,揭示了学习者的内在状态。此类数据可以由摄像头获取,或由Kinect为每个捕获帧建深度图像与人体骨骼点。也有研究使用肌电传感器(EMG)获取该类数据,以提供低成本的替代方案。Ochoa等根据PPT授课中演讲者姿态评估演讲技巧,图3给出了Kinect数据中捕获的23种姿态,被聚类为放下手臂、合掌(解释)、单手(指点)、双臂分开(解释)、单臂向上(解释)、双臂(指点)6种类型(以不同的颜色和形状标识),研究发现手臂移动的平滑度对预测演讲技能具有重要价值。

4.面部表情

与肢体语言高度相关的是面部表情数据的采集。人脸可以通过相对简单的动作传达复杂的心理状态,对面部表情的分析在计算机视觉领域、情感计算中得到了充分的研究,并已广泛用于多模态人机交互实验。教育领域的面部识别研究表明,学习过程中的情感更多的集中在迷惑、无聊、中性、好奇、喜悦、焦虑和沮丧,困惑的表达是学习过程成功的一个很好的指标,情感识别可以持续进行以探索影响学习者理解的因素。

5.眼动

严格来讲,眼动是面部信息的一部分。鉴于注意力是学习的前提,学习者注视方向是注意力的重要指标”,眼动数据成为多模态学习分析的常用数据源。其获取通常采用摄像机或眼动仪,后者可以提供更为精细的眼动指标。对眼跳路径、眼跳次数的整合分析可以从一定程度表征学习者信息整合能力,被应用在量化认知过程和学习结果之间的关系。在小组学习场景中,学习者共同的理解依赖于彼此认知上的努力(合作伙伴建模)。在过去的二十年里,研究者开始利用眼动仪获取联合视觉注意(JVA)数据,分析交叉递归图(Cross-recurrenceGraphs),以判断协作质量的水平。联合视觉注意是指学习伙伴倾向集中于共同的参考点,使得个体同时聚焦同一事物的趋势,该现象已在计算机支持的协作学习和学习科学领域进行了广泛的研究,成为表征协作问题解决能力的重要指标。

6.生理标志物

来自大脑、皮肤与心脏的信息是生理标志物的重要来源,对应脑电图(EEG)、心电图(ECG)、心率变异性(HRV)、电流皮肤反应(GSR)、皮肤电活动(EDA)、血容量脉搏(BVP)等。此外,心率与皮肤电指标因获取方便,且已经证明与情绪、幸福感、心流体验、生理唤醒程度6相关,从而得到广泛关注。近年来高精度便携式脑电系统以及神经影像学技术增加了对研究者大脑机制的理解,这类超微解析大脑的模态数据有助于学习者内隐状态的精准化计算,更为深人地揭示人机协同环境中的学习机制与学习者成长规律。

(二)数据空间

机器学习中“特征”(Feature)和“表征”(Representation)具有相似的含义,前者强调实体的向量或张量表示(VectororTensor),后者多指算法模型的确立。深度学习出现之前,数据的特征提取是建模的基础。随着深度学习的应用,上述特征处理大都被数据驱动的描述方式所取代。例如,卷积神经网络(CNN)以及深度置信网络(DBN)组成的神经架构,深度自动编码器(DAE)、深度神经网络(DNN)和用于语言分析的递归神经网络(RNN)等。上述深度结构网络模型可以将人工规则转变为对特征的学习,能够更加有效地揭示数据之间隐藏的复杂内部结构,获得更为符合的特征。

数据表征通过特定时间间隔的标注完成。标注的本质是将学习指标重复分配给多模态数据的不同区间,一般时间间隔以秒为单位,采用专家或学习者提供数值评判来完成,以训练学习模型并测试获得值与真值之间的符合程度。标注的数量取决于学习指标的数量、细粒程度以及算法模型的适配性。对学习指标的描述,输出值可以为多元分类变量。例如,高投入、中投入与低投入;也可以作为离散变量呈现,即交流、困惑与中性等分布特征。标注一般会伴随巨大的工作量,也有研究采用半自动标志技术以及迁移学习技术,以最大限度地减少标签的问题。数据空间还包括数据预处理和选择模型。如何组合来自异构来源的数据,处理不同程度的噪音以及处理缺失的数据对于建立良好表征能力的机器学习模型至关重要。

(三)同步空间

数据同步的意义在于建立统同一实例在不同模态信息中组建的对应关系。这个关系既可以是时间维度,例如姿态与眼动的对齐,也可以是是空间维度,例如图像的语义分割。早期的研究多以无监督的方式对齐多模态序列。其方法源于测量不同模态中组件的相似性,这些相似性可以利用手动定义或者模版伸缩方式实现。其中,动态时间规整(DTW)属于无监督对齐方式,该方法基于对两个序列之间相似性的测量,并通过时间扭曲(插入帧)找到它们之间的最佳匹配,已被广泛用于对齐多视图时间序列。与无监督方法不同,基于深度学习的方法属于显式对齐,此类模型没有明确的对齐数据,也不依赖于有监督的对齐示例,而是通过数据训练潜在的对齐数据。例如,利用卷积神经网络对关键点提取和输出,基于对齐矩阵将多数据源对齐至同一角度和方向。近年来的研究集中在注意机制的“编码一解码”模型,以此实现跨模态的对齐,并在段落文本、图像与视频的跨模态检索中获得了更好的性能。

(四)融合空間

融合是整合各模态模型以带来更稳健预测的方法。融合最直接的方法是将不同规则提取的特征向量拼接为高维特征向量,采用降维操作将原始高维组合特征向量投射至低维空间,进而得到新的低维数据表达。为充分利用各模态的数据信息,基于多核学习的融合方法也被相继提出。多核学习方法为每一种不同的信息模态分配不同的核,对应相应的核函数,通过对每种核函数权值的组合提取出的相应的特征表达,使其能够兼顾各模型内部的特征。

多模态数据的特征与决策级融合均属多核融合方法,前者属于早期融合方式,即提取后立即对特征进行整合。相比之下,决策级融合利用贝叶斯准则、模糊集理论、神经网络、卡尔曼滤波法等方式,对单模态模型进行后期的平均、加权、投票、方差等,从而提供更大的灵活性。在这方面,团队联合“数字学习与教育公共服务教育部工程研究中心”做了一些探索,建立了生物数据信号与面部视觉情感表现序列映射的多模态学习分析图谱,如图4所示。多模态分析图谱基于面部SIFT特征、脑电EEG信号的近似熵、能量与偏度特征以及心跳各峰值之间的时间差(心电Q、R、P、S、T等间隔提取)、心跳变异率的数据特征,通过隐马尔可夫模型(HMM)时间归一化进行配准,采用多核学习和交叉验证方法,使用循环神经网络(RNN)和长短期记忆网络(LSTM),针对不同模态特征选择核函数和最优权值参数。未来的研究目标是构建高级融合框架,即尝试从原始低级数据中提取语义信息,将看似相似的模态正确的分类,使模型能更真实的表征全局特征。

(五)调节空间

多模态学习分析的最终阶段是建立稳连续的数据输出。其中,调参的作用在于避免模型训练错误以及提高训练准确度。利用学习曲线、网格搜索与随机搜索等方法,结合研究者的经验以及对评估指标的理解,可以探索到调参边缘。对于非常复杂计算模型,贝叶斯超参优化是常用的调参方式,由于充分考虑了先前的参数信息,该方法在进行高迭代次数建模时能起到较好的效果。

数据输出的目的一方面是为教育研究者提供个性化指导的参考,提醒教师及时干预与监控。另一方面则是将反馈的数据提供给学习者,增强自我调节的能力与意识,引导学习者设定更为合理的学习路径。从闭环控制的角度看,输出的数据是否能够影响学习者行为变化取决于学习者对数据意义的理解。当反馈数据能真实反映学习过程的状态,并与学习相关目标和记录的过程相联系时,有意义的环路得以被创建,有效的反馈需要通过精心迭代设计来完成。

五、讨论

智能时代,为了在变化的虚实融合世界中取得成功,学习者不仅要在科学、数学、阅读等领域拥有良好的能力,而且还必须精熟21世纪技能、设计思维、计算思维,具备较好的心理韧性与自主学习能力。这些能力已被证明可以改善学习投人,并被迅速纳入各类智能分析系统。多空间融合的学习环境正成为上述能力培养的重要场域阴,分析这些维度不仅需要跟踪认知过程,还需要跟踪各类非认知行为。多模态学习分析提供了让学生接触真实任务的机会,并允许他们在自然情况下与学习内容进行互动。联合特征学习和跨模态关系建模,可以有效地利用不同模态内容的相关性,为学习者提供更具适应性的反馈模型,并促使其更为积极的行为改变。

多模态学习分析是位于教育学、学习科学、机器学习、信息科学等不同学科交叉点的领域,上述的分析框架可以作为推断复杂结构的一般流程。从实现角度,这是一个颇有难度的挑战。一方面,多模态数据的原始时间序列通常没有直接的语义含义,并且可能无法被解读。如前所述,多模态数据可能由日志文件、音频、视觉数据组成,如果没有复杂的计算模型,则无法分析有意义的信息,当前的分层数据推理方法还不能有效弥合原始低级数据与高级构造测量之间的差距。从数据建模的角度,对来自多个噪声数据源的信息进行融合是一个重要的技术挑战。另一方面,构建用于检测和识别原始数据中序列和组合模式的识别方法不容易获得的足够的训练数据。不同模态的意义解释可能包含不同级别的语义含义,这些信息可能很难在评分模型中组合。评测指标与教育场景的结合度不够,会导致建模的教育学意义不明。此外,虽然多模态学习分析的干预措施與单模态分析类似,但前者的实施会带来额外的复杂性。在实际应用中,基于LMS行为数据的仪表盘比教室配备摄像头等外设系统更容易被师生接受。

多模态学习分析的实践需要对行为的时间序列进行归类,结合随机事件以及学习者特征、群体水平之间进行仔细权衡。亟待建立学术研究共同体、开源生物数据库,分析不同学习情境与数据分析规则的映射关系,以精准量化学习者经历不同学习时空的学习状态。需要扩展当前操作性的标准(如xApi、LMS与NGDLE),建立统一聚合和存储标准,以防止浅表层重复劳动。从而尽快形成跨学科深度融合,涵盖支撑理论突破、关键技术攻关与常态化应用的协同创新体系。使用多数据源的意义在于对学习过程提供更有价值的见解以及产生更多积极的影响,但是当前还鲜有涉及多模态分析模型如何用于提供可操作性反馈与或干预的研究。需要更多的研究者聚焦该领域,鼓励学术界与人因工程、神经科学、行为学专家进一步合作,不仅从行为学的角度探索反馈的方式、速度、动机关联性以及可量性等,更从神经科学的视角,围绕多巴胺对个体行为的促进反馈机制展开,关注学习者信息触发的生理指标,深人探寻何种反馈对学习者有价值,以及是否能够达成良性循环,建立延迟反馈、循环递进、多维映射的有效干预机制。在真实教学场景中,某个模态数据缺失、噪音因素以及注释数量不足或不可靠均属于常态因素,如何互补其他模态的信息以实现共同学习至关重要,该类的研究还相当稀少。人工智能顶级国际期刊(IEEETPAMI)提出了并行、非并行和混合的共同学习概念以解决此类问题。其中,并行学习的模态来自同一数据集,实例之间存在直接对应关系;非平行学习模态来自异种数据集,期间没有重叠的实例;混合学习模态数据由第三模态或数据集桥接,这些数据保持原先的状态,利用枢轴模态以及神经网络桥接相关的数据集,实现信息的协调交换。共同学习是多模态学习分析领域极具潜力的发展方向。

计算教育时代,基于数据密集型研究范式分析复杂教育问题已成为新教育生态构建的重要支撑。多模态学习分析学习过程的全维表征为研究取向,综合采集学习情景数据、行为数据、时序数据以及模态传感器事件,将其映射到大数据,结合数据驱动范式的需求,形成一整套理论体系与教学方法,从而实现赋能学习者深度理解与个性化供给服务的智能教育新形态。从建模方法上看,改善不同时间尺度上的建模表现,提升“学生画像”的精准度是多模态学习分析的追求目标,其实现源于对“机制分析一数据建模一范式建构”的逻辑递进关系展开深入研究。多模态学习分析从跨领域视角,评估教育教学问题中不同层级的变量对学习绩效的直接和间接效应,以揭示教育技术本身蕴含的“常量”,回应“学科原理性问题缺乏有效数据模型支撑”这一追问,孕育了教育技术学科的新生长点。

从未来发展的视角,多模态学习分析无论是广度还是深度方面都体现出兼容开放的成长态势。但作为技术之于教育的研究领域,其实践必然遵循一定的伦理规范。如今算法种类是如此之多,确定其潜在和实际的伦理影响极其困难,数据之间的统计学关联可能隐藏着人类的过失、偏见和歧视,这些情况构成了“责任鸿沟”4。识别人类主观性在算法设计和配置中的影响,需要长期与多用户的设计研究。在相当长的一段时期内,应将模型的可解释、可千预、可信任作为多模态学习分析的首要任务,必须将育人价值作为模型价值判断的金标准。从系统设计的角度,需要通过嵌入设计,将伦理价值和准则整合到分析框架设计之中,以确保“有意义地人类控制”(MeaningfulHumanControl,MH)f2),需要将教育领域的公正、多元、包容等标准,还原为标记歧视、隐私保护、数据审查、可追溯架构等技术要求,以诠释技术“向善”。

六、结语

近年来,“多模态分析”在国家自然科学基金委员会(NSFC)“教育信息科学与技术”方向以及各级别人文社会科学研究教育学立项中频频出现,掌握“数据标注、特征提炼、方案设计、调参分析”的技术人才被纳入人工智能训练师新职业范畴43),国内也相继成立了相关国家级、区域级研究机构,多模态学习分析已被定位为理解和优化学习过程和学习情境,支撑教育智能与下一代互联网教育创新的重要领域。多模态学习分析既确认了计算教育学的研究边界,又体现学科的“特殊性”,同时也清楚地展现出独有研究视角与价值。正如前述的“冰山隐喻”,不断演进的学习分析学正像一座冰山,隐藏在水面之下的才是关键的部分,包括对学习过程的假设,伦理、技术与人文关系的平衡,多领域的合作,数据标注共享等,清晰地认识和阐释上述关系是我国新时代教育技术研究应对挑战的必然选择。

参考文献:

【1】王晶莹,杨伊等.从大数据到计算教育学:概念、动因和出路【J】.中国电化教育,2020,(1):85-92.

【2】任友群,顾小清.教育技术学:学科发展之问与答【J】.教育研究,2019,40(1):141-152.

[3] Malcolm B.2020 EDUCAUSE Horizon ReportM TeachingandLearningEdition[DB/0l_.https://library.educause.edu/resources/2020/3/2020-educause-horizon-report-teaching-and-learning-edition,2020-03-02.

【4】张琪,王红梅.学习投人的多模态数据表征:支撑理论、研究框架与关键技术【】.电化教育研究,2019,40(12):21-28.

【5】张琪,武法提等.多模态数据支持的学习投人评测:现状、启示与研究趋向【】.远程教育杂志,2020,38(1):76-86.

[6] Kress G,van Leeuwen TReading and writing with images:a reviewof four texts.Reading Images:The Grammar of Visual Design [J].Computers and Composition,2001,1(18):85-87.

[7] Whitehill J, Serpell Z,Lin Y C,etal.The faces of engagement:Automaticrecognition of student engagement from facial expressions [J.IEEETransactions on Affective Computing,2014,5(1):86-98.

[8] Amer M R,Siddiquie B,Khan S,et alMultimodal fusion using dynamichybrid models [A].IEEE Winter Conference on Applications ofComputer Vision [C]Spring:IEEE Computer Society,2014.556-563.[9] Ochoa X,Worsley M,Weibel Net al.Multimodal learming analyticsdata challenges [A].Dragan Gasevie,Grace LProceedings of the SixthIntermational Conference on Leaning Anlytics & Knowledge [C].NewYork:Association for Computing Machinery,2016.498-499.

[10] Worsley M,Blikstein P.Deciphering the practices and affordancesof different reasoning strategies through multimodal learninganalytics [A].0choa X,MLA'14:Worsley M,Proceedings of the2014 ACM workshop on Multimodal Learning Analytics Workshopand Grand Challenge [C].New York:Association for ComputingMachinery,2014.21-27.

[11] Kukulska-Hulme A,Beirne E,Conole G,et al.lnnovating Pedagogy2020:0pen University Innovation Report 8[R].Milton Keynes:Instituteof Educational Technology,The Open University,2020.

【12】李政濤,文娟.计算教育学:是否可能,如何可能?【J】.远程教育杂志,2019,37(6):12-18.

【13】贾佳亚人工智能多模态的未来BEB::- tp://loud.tecent.com/developer/news/409943,2019-07-16.

[14] Boekaerts M.The crucial role of motivation and emotion in classroomlearning [M]-Paris:OECDPublishing,2010.91-111.

[15] Nummenmaa L,Calder A J.Neural mechanisms of social attention [J]-Trends in cognitive sciences,2009,13(3):135-143.

[16] Pijeira-Diaz H J,Drachsler H,Jarvela s,et al.Sympatheticarousal commonalities and arousal contagion during collaborativelearning:How attuned are triad members? [J].Computers in HumanBehavior,2019.92(3):188-197.

[17]ThayerJFLane R D.Claude Berarar and heheat- brainconmectionFurtherelaboration of a model of neurovisceral integration [J.Neuroscience &Bioenhrioa ervs.20332-81-88

[18] Thayer J FHansen A LSaus-Rose E,et al.Heart rate variability,prefrontalneural function,and cognitive performance:the neurovisceral integrationperspective on self-regulation,adaptation,and health [J]-Annals ofBehavioral Medicine,2009,37(2):141-153.

[19] Anderson J R.Spanning seven orders of magnitude:A challenge forcognitive modeling [J].Cognitive Science,2002,26(1):85-112.

[20] Sinatra G M,Heddy B C,Lombardi D.The challenges of definingand measuring student engagement in science [J].EducationalPsychologist,2015,50(1):1-13.

[21] Mehrabian,A.Nonverbal betrayal of feeling [J.Journal of ExperimentalResearchin Personality,1971,5(1):64-73.

[22] Leong C W, Chen L,Feng G,et alUtilizing depth sensors for analyzingmutimodal presentations:Hardware,software and toolkits [A].Zhang ZCohen PProceedings of the 2015 ACM on International Conferenceon Multimodal Interaction [C].New York:Association for ComputingMachinery,2015.547-556.

[23] Zhou J,Hang K,Oviatt S,et al.Combining empirical and machinelearning techniques to predict math expertise using pen signalfeatures [A].Ochoa X,Worsley M,MLA‘14:Proceedings of the2014 ACM workshop on Multimodal Learming Analytics Workshopand Grand Challenge [C].New York:Association for ComputingMachinery,2014.29-36.

[24] Luzardo G,Guam6n,Bruno,Chiluiza K,et al.Estimation ofPresentations Skills Based on Slides and Audio Features [A].OchoaX,Worsley M,MLA 14:Proceedings of the 2014 ACM workshop onMultimodal Learning Analytics Workshop and Grand Challenge [C].New York:Association for Computing Machinery,2014.37-44

[25] Lubold N, Pon-Barry H,Walker E.Naturalness and rapport in a pitchadaptive learning companion [A].2015 EEE Workshop on AutomaticSpeech Recognition and Understanding (ASRU [C].Sottsdale:IEEESina PorossisgngSciety,2015103-110.

[26] Echeverria V,Avendaio A,Chiluiza K,et al.Presentation skillsestimation based on video and kinect data analysis [A].Ochoax,Worsley M,MLA'14:Proceedings of the 2014 ACM workshop onMultimodal Learning Analytics Workshop and Grand Challenge [C]New York:Association for Computing Machinery,2014.53-60.

[27] Kolog E A,Devine S N O,Ansong-Gyimah K,et al.Fine-grainedaffectdetection in learners'generated content using machine learning [J].Education and Information Tecnologies,2019,24(6):3767-3783.[28] Kolog E A,Montero C S.Towards automated e-counselling systembased on counsellos emotion perception [JEducation and informationtenologiese2018.232)-911-933

[29] Worsley M,Blikstein PLeveraging multimodal learning analytics todifferentiate student learming strategies [A].Baron J,Lynch G,MaziarzN,LAK '15:Proceedings of the Fifth International Conference onLearning Analytics And Knowledge [C]-New York:Association forComputing Machinery,2015.360-367.

[30] Yun S,Choi J,Yoo Y,et alAction-driven visual object tracking withdeep reinforcement learning [J]-IEEE transactions on neural networksand learming systems,2018,29(6):2239-2252.

[31] Frischen A,Bayliss A P,Tipper S P.Gaze cueing ofattention:visualattention,social cognition,and individual differences [J.Psychologicalbulletin,2007,133(4):694-724

【32】張琪,杨玲玉.e-Learning环境学习测量研究进展与趋势一基于眼动应用视角【】中国电化教育,2016,(11):68-73.

[33] Dillenbourg P,Lemaignan S,Sangin M,et al.The symmetry ofpartner modelling [J].Intermational Jounal of Computer-SupportedCollaborative Learning,2016,11(2):227-253.

[34] Schneider B,Sharma K,Cuendet S,et al.Leveraging mobile eye-trackers to capture joint visual attention in co-located collaborativelearning groups [J].International Journal of Computer-SupportedCollaborative Leamning,2018,13(3):241-261.

[35] Bandara D,Song S,Hirshfield L,Velipasalar.A More CompletePicture of Emotion Using Electrocardiogram and ElectrodermalActivity to Complement Cognitive Data [A]Schmorrow D,FidopiastisC.10th International Conference on Foundations of AugmentedCognition:Neuroergonomics and Operational Neuroscience [C].NewYork:Springer-Verlag,2016.287-298.

[36] Mitri D D,Scheffel M,Drachsler H,et al.Leaming pulse:a machinelearning approach for predicting performance in self-regulatedlearning using multimodal data [A].Wise A,Winne PH,LynchC.Proceedings of the Seventh Intermational Learning Analytics &Knowledge Conference(LAK'17) [C].New York:Association forComputing Machinery,2017.188-197.

[37] Xiong C,Merity S,Socher R.Dynamic memory networks for visual andtextual question answering [A]Langford JIntemational conference onmachine learning [C].New York:arXiv e-prints,2016.2397-2406.[38] Fukui A,Park D H,Yang D,et al.Multimodal compact bilinear poolingfor visual question answering and visual grounding [EBO-https://arivor/pdf/1606.01847.2016-06-06.

【39】田阳,万青青等.多空间融合视域下学习环境及学习情境探究【J】.中国电化教育,2020,(3):123-130.

[40] BaltruSaitis T,Ahuja C,Moreney L PMultimodal machine learning:Asurvey and taxonomy [J]-lEEE transactions on pattern analysis andmachine intelligence,2018,41(2):423-443.

[41] Mathias A.The responsibility gap:Ascribing responsibilityfor the actions of learning automata [J].Ethics and informationtechnology,2004,6(3):175-183.

【42】于雪,段伟文.人工智能的伦理建构【J】.理论探索,2019,(6):43-49.【43】中华人民共和国人力资源和社会生活保障部.人力资源社会保障部、市场监管总局、国家统计局联合发布智能制造工程技术人员等16个新职业[EB/OL】http://www.mohrss.gov.cn/SYrlzyhshbzb/dongtaixinwen/buneiyaowen/202003/t20200302_361093.html,2020-03-02.

作者简介:

张琪:副教授,博士,硕士生导师,研究方向为学习分析、教育智能(zqzqhata@sina.com)o

李福华:教授,博士,博士生导师,研究方向为教师教育、高等教育理论(fuhual@126.com)。

孙基男:研究员,博士,研究方向为教育智能、教育大数据(jn@pku.edu.cn)。

收稿日期:2020年3月31日

责任编辑:赵云建

猜你喜欢
学习分析多模态
大数据思维下教学过程数据分析及应用研究
在线学习过程管理大数据的建设与应用
简析小学劳动与技术教育的有效合作学习
多模态话语中的詹姆斯·卡梅隆电影
网络环境下大学英语多模态交互式阅读教学模式研究
多模态理论视角下大学英语课堂的构建
浅析大数据在教育中的应用
新媒体环境下多模态商务英语课堂教师角色定位
学习分析系统在高校课程中的实践研究
论学习分析技术在社区教育中的应用