基于多智能体建模的在线学习交互形式化

2021-04-20 02:23常松丽陈立潮潘理虎

电子技术与软件工程 2021年2期

关键词：学习效果学习者智能

常松丽陈立潮潘理虎

（1.山西开放大学山西省太原市 030027 2.太原科技大学计算机科学与技术学院山西省太原市 030024）

1 引言

“互联网+”环境下，“人人皆学、处处能学、时时可学” 的终身学习理念已得到社会广泛认同，学习型社会渐渐形成，在线学习成为搭建服务终身学习“立交桥”。把握在线学习特点，实现高水平的在线学习交互，提升教育教学质量，是人们关注的热点。

实现高水平的在线学习交互，需要对学习交互策略进行精心筛选，设计恰当的学习交互活动，并对活动进行管理和组织，目的是增强学习效果和提高学习质量。采用多智能体建模，以实现更高效的在线学习交互，是研究的方向和目标。

2 在线学习的重要意义及在线学习交互分析

由现代电子技术的巨大变革引起的信息革命，以互联网全球化普及为重要标志，深刻影响着各行各业的发展。“互联网+教育”是互联网科技与教育领域相结合的一种新的教育形式。云计算、大数据等为在线学习提供了技术支撑，信息时代的发展，终身学习理念也为在线学习奠定了思想基础。因此，在线学习研究具有重要意义。

2.1 在线学习是新的教育模式和学习途径

2.1.1 在线学习的技术背景

随着云计算、大数据、人工智能、移动互联网、物联网等新一代信息技术的普及应用，免费、开放的慕课学习风靡全球，新技术的发展成为强大助推器，“互联网+教育”对教育产生了巨大、深刻影响。

2.1.2 在线学习的时代背景

在线学习适应现代人们快节奏、碎片化的学习模式，“停课不停教、停课不停学”指导意见下，在线学习这种学习形式跨越时空，成为人们不可或缺的学习环境。

2.1.3 在线学习的思想基础

终身学习的理念深刻影响着人们的生活。终身学习是要主动学习，主动进行自我更新，终身学习具有灵活性，表现在任何需要学习的人，可以随时随地接受任何形式的教育，在线学习是实现终身学习的途径之一。

2.2 在线学习的特点

通过网络传播实现的在线学习，“人人皆学、处处能学、时时可学”主要优势体现在：

（1）不受时间空间限制，具有很强的灵活性，包括时间灵活性和空间灵活性，可以实现随时、随地进行学习；

（2）在线学习具有重复再现性，即在线学习可以实现多次的“回看”、“重播”功能，学习者可以根据自身学习需要，对于重难点学习内容反复重学，避免线下学习过程出现的“学过就忘”的问题；

（3）在线学习具有丰富的交互性和协作性，在线学习可以非常便捷的实现学习者之间的相互交流和协作，在集思广益中提供更多、更好的解决思路和方案。

同线下学习相比，在线学习存在不容忽视的弊端。正由于在线学习能够随时、随地且重复学习的特点，使之缺乏线下学习组织过程中呈现出的仪式感，若在线学习者注意力不集中，求知欲不强，学习过程中参与的积极互动性不强，就会导致学习效率降低。因此，在线学习对学习者的自觉性、学习能力要求更高，在线学习交互研究很有必要。

2.3 在线学习交互分析

关于远程学习交互研究，国内具有代表意义的是陈丽教授提出的远程教育教学交互层次塔，包括三层：最底层是界面交互，即为操作交互，是学习者与操作媒体界面的交互；中间层是信息交互，涵盖了学习者与教学组织者的交互，学习者与学习者的交互，学习者与学习内容之间的交互；最高层也是抽象层面的交互，即为概念交互，即学习者自身新旧概念之间的交互。以上三层教学交互是本质的在线学习交互。

通过对参与在线学习的成人、中小学生、低龄幼儿及高校教师等的学习者，以及在线学习服务提供者的访谈、调研，目前各类在线学习系统或在线学习平台APP，主要包括学习功能模块和检验学习效果功能模块。表现形式有：学习过程与检验学习效果过程相对独立而存在，还有学习过程与学习效果检验过程交替进行。

根据网络交互工具所呈现的学习者学习过程中交互的时效性，可分为同步学习交互和异步学习交互。同步学习交互的表现形式有直播等方式。与异步学习相比较，同步学习交互更接近线下学习的学习交互模式。在时空分离状态下的异步学习交互，受教学内容影响较大，同时各种各类异步学习交互工具又具有不同的特点，在线学习者的参与形式和参与程度对学习交互影响重大，如在客观层面，学习者对计算机的操作熟练程度可对学习交互效果产生直接影响，主观层面上，学习者的积极主动性也会对学习交互效果产生影响。

（1）根据学习者的年龄结构及对计算机操作熟练程度来分析：有部分学习者因对计算机操作不够熟练，需要有可以熟练操作的人员来帮忙辅助进行学习。如：年龄较小学习者，对学习平台操作生疏，对学习内容没有概念，需要家长陪同来进行学习，比如儿童美术、音乐等操作型在线学习类课程，需要在学习过程中通过“暂停”等操作来辅助此类学习者完成学习任务；还有老年学习者在学习过程中对操作不熟悉需要能熟练操作的人员指导。调研发现，大部分成人特别是青少年学习者，能熟练掌握学习系统或学习平台的操作流程，在参与在线学习时可以熟练完成学习过程中的操作交互，即使遇到操作问题也能够通过学习平台或系统热线服务、热线电话等沟通途径解决。

（2）根据学习者的积极主动性来分析：参与学习的主体可以分为积极学习者、观望者以及不参加的“逃避者”，对于最后一种交互为零、学习效果极差的学习者，本文不做讨论。

对观望者我们认为在学习动机、兴趣等方面和积极学习者相似，对学习内容比较感兴趣，都是会紧跟学习节奏认真完成学习任务，但在观察积极学习者的学习交互行为后，认为与积极学习者交互行为相似，或是太简单，而不屑于交互，或者因太难，产生畏难情绪，而拒绝参与交互。因此，观望者是“潜在”的积极学习者，一旦交互环境、交互条件具备，观望者会转化为积极学习者，实现更好的学习效果。如图1所示。

综上所述，要实现提高学习交互质量的目标，就需要提升操作不熟练学习者的操作技能，需要将更多的将观望者转化为积极学习者。

3 多智能体（Mutil-Agent）交互形式化描述

Agent 智能体是在特定环境下的智能系统，通过自身对所处环境的感知学习，同时还要完成与其他Agent 之间的沟通协作，自主实现所处环境下特定的目标。Agent 具有如下特点：

（1）Agent 具有独立自主性。每一个Agent 能够独立思考，可以实现对自身状态行为的控制。

（2）Agent 具有社会交互性。和人类相似，每一个Agent 能够与其他的Agent 之间进行信息交互并相互协作，具有通信功能。

（3）Agent 具有感知能动性。每一个Agent 能够根据对环境的感知做出相应行为动作和相关决策。

多智能体是由多个Agent 组成的松散耦合集合，多个Agent 之间通过相互之间的交互、沟通与协作，共同完成相应的工作任务。

3.1 在线学习交互分析

根据2.2 分析，按照学习者的年龄结构和对计算机操作熟练程度，可将在线学习Agent 智能体设定为能熟练操作经验丰富的学习者Agent 和无经验需要提升操作经验值的学习者Agent；按照学习者的积极主动性，可将在线学习Agent 智能体设定为积极参与学习交互的学习者Agent 和观望者Agent。

如图2所示，第四象限是学习交互条件最差的状态，而第二、第三象限是学习交互条件较差的状态，第一象限是最好的学习交互条件。提高交互条件要提升在线学习效果的有效方法之一。也就是说，通过对相应学习环境的构建和处理，使更多的无经验需要提升操作经验值Agent 转变为能熟练操作经验丰富Agent，促成更多的观望者Agent 转变为能积极参与学习交互的学习者Agent，以此来增强学习效果。

3.2 多智能体强化学习交互形式化

强化学习（reinforcementlearning），能够契合人类经验学习形式和决策思维过程，可解决协同与交互的资源分配、行为协调等问题。即Agent 与环境之间通过交互行为，确定最大化的回报目标，然后对下一步的行动进行选择，此时单Agent 系统实现多个决策者交互困难，采用多Agent 来进行实现。

3.2.1 Q 学习

采用Q 学习经典强化学习算法,将Agent 在其相应的状态下所做的操作或动作的Q 值存储在Q_table 中，经过不断的更新，接近目标函数Q*，即完成工作任务。Q 学习算法流程，如图3所示。

其中，Q 值更新描述如下公式（1）：

a’∈A

在公式（1）中，

r 表示状态s 下选择操作a 时所得到的结果或效果；

A 表示Agent 的动作集合；

α 表示学习率，用来体现Q 值的更新程度；

γ 表示折扣因子，γ 越小则越注重当前的结果。

然而，Q 学习为单Agent 强化学习方法，为实现多智能体强化学习，我们设计多智能体强化学习模型。

3.2.2 多智能体强化学习交互模型

多智能体强化学习模型包括多个Agent、学习环境、状态、操作或动作、学习效果即学习完成结果，此外，还需要有激励策略。激励函数的功能用来指导观望者Agent 完成学习任务，或用来提升无经验或需要提升操作经验值的学习者Agent 的操作经验。

多智能体强化学习交互模型如图4所示，多个Agent 与学习环境进行交互，且每个Agent 之间相互作用，通过获得的状态和学习完成结果来优化自己的学习策略。

图1：观望者与积极学习者

图2：在线学习者Agent 四象限图

图3：Q 学习流程图

图4：多智能体学习交互模型

和单Agent 强化学习一样，多智能体强化学习过程以马尔可夫决策过程为基础，在决策过程中执行策略和动作，同时对策略和动作的价值进行评价。其元组为,n 为多Agent 的数量，Ri是每个Agent 的激励函数，P 为状态转移函数。

由单Agent 扩展为多Agent，Agent 之间可以通过通信交互以此来实现Agent 之间的相互协作，以其他Agent 的信息为输入，为该Agent 的决策提供参考。

4 结语

在线学习已成为新的教育模式和学习途径，对在线学习交互的研究具有很强的现实和实践意义。要实现高水平的在线学习交互，需要对学习交互策略进行精心筛选，需要设计恰当的学习交互活动，并对交互活动进行管理和组织，目的增强学习效果和提高学习质量。本文分析在线学习特点，深入剖析在线学习交互特征，对于需提升操作经验的学习者和观望的学习者采用Agent 建模，引入Q 学习，设计多智能体强化学习模型，对在线学习交互进行形式化描述，为下一步建模仿真实验做基础。引入多智能体进行在线学习研究，采用基于Agent 建模仿真平台进行模拟实现，以产生“溢出效应”，提升在线学习效果，助力在线高效学习。