作为一种适应“互联网 ”时代特征和知识特征的新型学习方式,联通主义学习日益受到国内外研究者和实践者的关注。联通主义学习理论提供了一种解释学习的新视角,将学习看作通过持续交互,与有价值的人或资源建立连接和形成网络的过程(siemens, 2005)。也正因如此,交互成为联通主义学习的核心和取得成功的关键。对联通主义学习情境下交互理论的探索、交互水平的评估和交互规律的挖掘也成为该领域研究的重点。
但当前联通主义学习交互水平的评估多为非自动化方法,多依赖内容分析、人工编码或学习者自我评估的方式,使得交互水平评估具有时间滞后性特征,耗时耗力,难以实时反映参与者交互水平,并且人工编码方式难以避免地存在大规模实施不便等问题。人工智能技术的发展为提升交互分析的自动化水平和发展原有教学交互规律研究提供了可能。因此,本研究以我国首门联通型慕课(cmooc)“互联网 教育:理论与实践的对话ⅱ”为案例,旨在采用人工智能领域中深度学习方法构建cmooc参与者交互水平自动评估模型,主要解决两个研究问题:1)如何利用深度学习算法实现cmooc参与者交互水平自动化评估?2)cmooc参与者交互水平表现出怎样的特征?一方面,本研究能够实现联通主义交互水平的自动化评估,为联通主义学习评价和课程评价提供工具支撑,探索人工智能技术在改进教育研究和实践方面的价值和可能性;另一方面,本研究发现的交互规律能够与先前的研究形成双向检验,进一步发展原有联通主义教学交互规律。
交互是联通主义学习的核心和取得成功的关键。依据交互对象的不同,远程教育中的教学交互可以划分为操作交互、信息交互和概念交互三类(陈丽, 2004),其中信息交互(师生交互和生生交互)是当前联通主义交互水平研究的核心关注点,本研究构建的交互水平自动评估模型也主要适用于信息交互。
当前国内外联通主义交互水平研究主要分为三大类:交互模型建构,影响因素与相关性分析,差异性分析。
交互模型建构类研究提供了交互水平评估的理论依据,以王志军和陈丽(2015)构建的基于认知参与度的联通主义教学交互分层模型(简称“cie模型”)为代表。cie模型将联通主义学习中的教学交互按照认知参与度由低到高划分为操作交互层、寻径交互层、意会交互层和创生交互层,并详细列举了各层的交互行为,为依据交互行为评估交互水平提供了明确的、可操作的编码参照。正因如此,cie模型成为后续交互水平评估研究的重要理论基础。例如,duan等人(2019)依据cie模型将认知水平划分为五级水平;徐亚倩和陈丽(2019)在cie模型基础上将认知参与度划分为八个层级,用于评估概念网络生成特征;黄洛颖等(2020)将cie模型作为滞后序列分析的编码框架。由于该模型可操作性强,并在联通主义交互水平评估研究中认可度较高,本研究也将cie模型作为构建cmooc参与者交互水平自动评估模型的理论基础。
第二类和第三类研究能够为认识和促进联通主义学习、改进课程设计提供支撑。第二类研究集中于探讨影响交互水平或与交互水平相关的因素分析,如平台使用与发帖者角色(曹传东 & 赵华新, 2016)、虚拟社区伦理(胡凡刚 等, 2017)、个体网络地位(徐亚倩 & 陈丽, 2019)、学习成绩(duan, et al., 2019)、学习动机强度(谢雷 & 陈丽, 2020)、知识流动特征(田浩 等, 2020)等。第三类研究主要关注不同类型学习者的交互水平差异。例如,王慧敏和陈丽(2019)基于该模型比较了核心联通者、半边缘联通者和边缘联通者三类群体的交互水平;duan等人(2019)发现高绩效学习者往往表现出更深层次的知识互动和社交交流。
值得注意的是,交互水平影响因素与相关性分析和差异性分析研究多采用内容分析和人工编码的方式,在联通主义学习中交互数量庞大,人工编码费时费力且信度难以保证,尽管发现了交互水平对教与学的影响,但由于人工评估的时间滞后性特征,无法实时反馈交互水平,导致在实际应用时难以有效发挥其对教与学的支持作用。随着人工智能技术的发展,基于深度学习的文本分类方法已成为主流,它可以较好地捕捉连续词序列的语义和句法信息(申艳光 & 贾耀清, 2021)。甄圆宜和郑兰琴(2020)采用深度学习算法中的卷积神经网络(cnn)和长短时记忆(bi-lstm)等算法构建协作学习交互文本的分类模型,研究发现该模型在交互文本分类方面具有较高应用价值。这为实现交互水平评估的自动化提供了可能,因此,本研究将运用深度学习算法实现对联通主义学习中交互水平的自动化评估。
(一)学习者交互水平评估维度确定
由于cie模型在当前联通主义研究中认可度较高,且提供了较为明确、全面的交互水平编码框架,因此,本研究将其作为构建cmooc参与者交互水平自动评估模型的理论依据。如表1所示,该模型基于认知参与度水平将交互层次由浅至深划分为操作交互、寻径交互、意会交互和创生交互四层,同时明确了各层次的具体交互行为。
(二)cmooc参与者交互水平自动评估模型构建
cmooc参与者交互水平自动评估模型构建主要分为数据采集、数据预处理、文本交互类型分类和学习者交互水平等级评估四部分,具体框架设计如图1所示。首先是数据采集部分,主要是获取课程参与者的交互文本数据,这是开展交互水平自动化评估工作的首要环节;然后,根据评估需要对采集的数据进行预处理,便于后期自动评估的顺利开展;接着,分别采用文本循环神经网络(textrnn)算法和文本卷积神经网络(textcnn)算法对预处理分类后的长文本和短文本进行交互类型分类,计算出每条文本的交互类别和概率值,为参与者的交互水平等级评估提供判断依据;最后,将得出的文本交互类别概率值形成序列数据,利用长短时记忆(lstm)时序模型学习表征参与者交互水平的特征,输出对应的交互水平等级,实现对参与者交互水平的自动评估。
1. 数据采集及预处理
实现参与者交互水平自动评估的首要步骤是获取交互数据,本研究以cmooc“互联网 教育:理论与实践的对话ⅱ”为案例,从cmooc平台(http://cmooc.bnu.edu.cn)获取评论文本、博客文本、跟帖文本和话题文本四类交互数据,用于后续的交互水平自动评估模型构建。由于从平台上获取的原始数据包含一些广告等噪音数据,需要对数据进行预处理以得到干净的文本数据。清洗文本数据后,采用人工编码的方式对每条交互文本依据cie模型(如表1所示)进行标注,操作交互、寻径交互、意会交互和创生交互分别对应数字0~3(计算机每次识别都是从数字0开始)。为了提高后续模型的训练效果,将标注好的文本根据字数长短划分成长文本和短文本(规定字数超过50字为长文本,反之则为短文本),便于后期对长文本和短文本采用不同的算法进行分类训练。
2. 文本交互类型分类
交互水平的等级评估依赖于对交互内容的分析和分类,因此,需要利用文本分类算法对标注好的文本数据进行训练,进而实现对每条文本交互类型的自动分类,具体流程如图2所示。经过预处理后长文本和短文本中的各类标签数据分布不均衡,其中意会交互和寻径交互数据量远高于操作交互和创生交互这两类数据。为了防止模型训练过程中出现过拟合现象,需要在数据输入之前采用数据增强的方式提高模型的泛化能力。本文主要是采用easy data augmentation for text classification tasks(简称“eda”)(wei & zou, 2019)中的同义词替换、随机插入、随机交换和随机删除四种方法对各类标签数据进行比例增强,使得四类数据在数量上分布均衡。
文本长短不同,包含的信息量也不相同,因此需要采用不同的算法对长短不一的文本进行分类。经数据增强后的长文本采用基于深度学习的textrnn算法进行分类,textrnn擅长捕获长序列文本的信息,能够更好地表达长文本中的信息特征,该算法主要包括词向量层、bi-lstm层、全连接层和softmax归一化等步骤。长文本输入后,首先经过词向量层加载预训练词向量后得到每个词固定维度的向量表示,其次将词向量输入到bi-lstm层,经过“遗忘门”“输入门”“输出门”的独特结构更新得到包含所有时刻的交互隐层状态信息,然后将前向交互信息隐层状态向量和后向交互信息隐层状态向量拼接在一起,取出最后时刻的交互信息隐层向量值输入到全连接层,得到包含不同值的交互类型预测类别数,最后经过softmax进行归一化操作,将预测的最大数对应的交互类型作为算法最终预测的类别,输出每条长文本的交互类别和概率值。
本研究采用textcnn算法对短文本的交互水平进行评估,cnn配合最大池化会直接过滤掉不重要的特征,在运行速度快的前提下也保证了短文本分类效果,主要包括卷积层、池化层和全连接层等部分。在对短文本进行交互类型分类计算时输入的是定长文本序列。首先,需要通过分析语料集样本长度以指定一个输入序列的长度l,对长度小于l的文本序列进行填充,长于l的文本序列则需要截取,输入层最终的输入是各个字对应的字向量;其次,经过卷积层多个不同尺寸卷积核的滑动学习到交互文本序列中每个字的特征,卷积核的宽度与字向量的维度等宽,高度一般选取2~8之间的值;接着,进入到池化层,使用最大值池化(maxpool)提取交互文本特征,保证在不定长的卷积层的输出上获得一个定长的全连接层输入;最后,经过全连接层的分类作用,将卷积层和池化层提取的特征输入到分类器中进行分类,进而得到每条短文本的交互类别和概率值。
3. 参与者交互水平等级评估
参与者的交互水平取决于其在整个课程中的综合表现,单条文本的交互类型无法完全表征参与者的交互水平,随着课程的持续深入开展,参与者的交互方式将会变得多种多样。因此,为了实现对参与者交互水平的自动评估,需要获得参与者所有文本的交互类型和概率值,从而全面表征出参与者的交互水平,具体流程如图3所示。
本研究主要通过时序模型lstm实现对参与者交互水平的自动评估。首先,将前期通过文本分类得到的每条文本的交互类型以及对应的概率值按照每个参与者的id形成时间序列数据id(x1n,x2n,…),其中n∈n ,m∈n ,idn表示第n个参与者,xmn表示第n个参与者的第m个文本交互类别对应的概率值。其次,将它们输入到lstm层中进行训练,lstm的“细胞状态”能够让文本交互信息在序列中传递下去,即使是较早时间的交互信息也能携带到较后时间步长的“细胞”中,文本交互信息的添加和移除可以通过“遗忘门”“输入门”“输出门”三类门结构实现。因此,lstm层可以存储参与者交互文本中更多的特征信息,更好地控制模型保存参与者在整个cmooc开展过程中进行的有效交互文本记忆信息,学习到文本交互类型的特征向量。接着将交互文本的特征向量输入到全连接层。通过softmax归一化操作,最终得到每位参与者的交互水平等级。
本研究依托北京师范大学开设的cmooc“互联网 教育:理论与实践的对话ii”,应用并检验基于深度学习的cmooc参与者交互水平自动评估模型的有效性和可靠性。
(一)数据集构建
cmooc“互联网 教育:理论与实践的对话ⅱ”由北京师范大学陈丽教授团队设计运营,2019年3月20日开课,运行12周。课程参与者身份多样,主要以高校在读大学生和一线教师为主,同时还包括教育管理者、高校研究者和互联网教育企业从业人员等。课程活跃学习者人数162名(活跃学习者指在cmooc平台中留有交互数据的学习者),依据课程证书获得情况,将其划分为五类学习者——创新型联通主义学习者(a类,10人)、反思型联通主义学习者(b类,9人)、分享型联通主义学习者(c类,9人)、合格学习者(d类,41人)和未获得证书的学习者(e类,93人),其中训练集130人,测试集32人。课程证书颁发情况在一定程度上反映了不同学习者的学习成效,为检验模型在评估参与者交互等级水平方面的有效性提供了标准。
为训练并验证模型性能,本研究获取的文本数据是来自学习者在平台上发布的评论文本、博客文本(包括学习者发布的博客、分享的案例和资源)、跟帖文本和话题文本,共计3,172条文本数据。对源数据进行预处理和数据增强后,形成长文本数据集合和短文本数据集合,再将集合分别按照深度学习模型训练中常用的数据集划分原则,以6∶2∶2的比例划分成训练集、验证集和测试集。训练集用于交互水平自动评估模型的训练和拟合,验证集用于调整模型的超参数和对模型能力的初步评估,测试集用于评估最终模型的泛化能力(如表2所示)。
(二)模型评价指标
为了验证本研究提出的cmooc参与者交互水平自动评估模型的可靠性,选用深度学习中常用的p值(准确率或查准率)、r值(召回率或查全率)和f值作为评价指标,具体计算公式为:
式中:yp是被模型预测为正的正样本,fp是被模型预测为正的负样本,fn是被模型预测为负的正样本。
(三)检验结果
为了验证参与者交互水平评估结果的可靠性,采用准确率指标对模型各部分和最终结果进行评估。其中,长文本分类的准确率达到92.4%,短文本分类的准确率达到86.2%,这说明模型对参与者发表文本的交互类型判断具有较高的准确率,为后期对参与者交互水平等级的综合评估提供了有利条件。如表3所示,最终学习者交互水平等级评估的平均准确率为83.9%,证明模型分类结果具有一定的有效性,可见cmooc参与者交互水平自动评估模型能有效评估联通主义学习中参与者的交互水平等级。
注:等级a对应创新型联通主义学习者,等级b对应反思型联通主义学习者,等级c对应分享型联通主义学习者,等级d对应合格学习者,等级e对应未获得证书的学习者。
为了进一步验证参与者交互水平评估模型的有效性,将参与者交互水平评估模型对每类交互水平等级的p值、r值和f值分别计算出来(如表3所示)。该模型的值、值和值的平均值分别为83.9%、84.0%和83.9%,整体而言,cmooc参与者交互水平评估效果较好,cmooc参与者交互水平自动评估模型具有较高的可靠性。
由表3可知,等级a、等级b、等级c和等级e的值分别是85.7%、82.3%、88.8%和87.9%,这说明参与者交互水平自动评估模型对创新型联通主义学习者、反思型联通主义学习者、分享型联通主义学习者和未获得证书的学习者的整体分类性能相对较好。参与者的交互水平的判定与参与者在平台上发表的文本交互类别相关,即与交互文本属于操作交互、寻径交互、意会交互和创生交互类别相关联,文本类别分界越清晰,参与者的交互等级评估就越准确。上述四类交互水平等级之间分类特征差异明显,因而模型对它们的评估效果较佳。
等级d的值、值和值分别为74.0%、71.4%和76.9%,模型对合格学习者的分类效果较差,合格学习者的交互水平分类处于分享型联通主义学习者等级和未获得证书的学习者等级之间的模糊地带,属于获得证书的及格线处,分类特征并不明显,模型可能因为参与者交互内容的数量和质量差异产生误差,并且每类交互水平等级的参与者数据分布不均衡,d类数据的增强效果可能不明显,因而造成模型对该类交互水平评估效果不佳。
在验证了模型的有效性后,本研究以cmooc参与者交互水平自动评估模型为工具,结合每位参与者的交互水平时间序列数据,从参与者身份和交互类型等方面挖掘学习者的交互规律。
(一)学习者成为交互主体,多元主体驱动课程交互
cmooc“互联网 教育:理论与实践的对话ⅱ”的参与者类型多样,包括课程促进者和学习者,其中学习者又包括一线教师、学生、产业从业者、教育管理者等。本研究将不同身份参与者的交互类别和频次进行了统计分析(如表4所示),该课程活跃参与者中包括课程促进者7人、一线教师37人、学生91人、产业从业者8人和教育管理者16人。通过促进者和学习者的交互类别和交互频次对比可知,在联通主义学习中学习者的交互类别比促进者更为丰富,交互频次也远多于促进者,可见cmooc中学习者在交互过程中的主体性作用更加突出。进一步分析不同类型的学习者交互情况,课程中交互的发生不限于教师这一主体,学生、产业从业人员和教育管理人员等其他类型的学习者也纷纷参与到课程交互中,可见cmooc交互发生呈现多元主体驱动的特点。总之,在课程交互过程中学习者成为交互主体,多元主体驱动课程交互。
(二)意会和寻径是决定联通主义学习成效的关键
乔治·西蒙斯(2011)在其博士论文中指出,寻径和意会是学习者在复杂的分布式网络学习环境中凝聚信息的手段和核心,强调了寻径和意会在联通主义学习过程中的重要性。cmooc中学习者的交互文本次数不等,交互类型也不尽相同。为从交互水平视角挖掘联通主义学习成效的关键,本研究依据课程证书颁发情况,统计了四类证书获得者和未获得证书的学习者在各个交互类别频次的平均值(如表5所示)。四类证书获得者是在联通主义学习中表现较佳的学习者,其交互行为均以意会交互和寻径交互为主,这在一定程度上证明了联通主义学习成效不以创生交互为唯一目标,寻径和意会是决定联通主义学习成效的关键。从这一点出发,我们应当正视cie模型在应用于联通主义学习评价时的局限性,以创生交互为价值导向的cie模型适用于从知识创生角度评估联通主义学习或课程,但在评估联通主义学习成效时不应将创生交互作为唯一价值取向。未获得证书的学习者的寻径交互、意会交互和创生交互的均值均小于获得证书的学习者,可见未获得证书的学习者在寻径、意会和创生方面的交互稍弱,即高层次交互发生的频次少,但在四类交互中仍以寻径交互和意会交互为主。总之,在cmooc课程交互过程中,意会交互和寻径交互是决定联通主义学习成效的关键。
本研究通过模型构建、模型检验和模型应用三个阶段,运用深度学习算法实现了cmooc参与者交互水平的自动化评估。一方面,本研究构建的cmooc参与者交互水平自动化评估模型能够有效应用于cmooc实践,实时评估反馈学习者的交互水平,为课程促进者实时监控课程交互水平、调整课程设计、促进课程评价的自动化评估以及优化学习支持服务提供了有力支撑;另一方面,本研究也是人工智能技术应用于教育研究与实践的成功尝试,发挥了人工智能技术在释放人力物力、减轻教师负担、优化教与学、挖掘深层次规律方面的作用,突出了新一代信息技术在破解教育问题方面的应用前景,能够为破解教育难题提供新的思路和支撑。但本研究也存在一定的局限性,如模型构建主要基于后台的可采集数据,未来将继续挖掘行为数据、隐性数据等进行模型优化。此外,本研究的交互评估分成了文本交互类型评估和时序模型评估两部分,后续将尝试端到端的评估方式,避免评估过程中因分步造成的特征信息丢失,提高模型自动评估的准确度。
本研究通过分析交互水平自动化评估结果,进一步验证了原有联通主义交互特征与规律,如学习者是交互的主体和课程的主要贡献者,在联通主义学习中多元主体的积极参与和思维碰撞是新型的知识生产方式等。除此之外,本研究的研究结果也促使我们正视cie模型应用于联通主义学习分析和成效评估的价值和局限性,cie模型可以有效支撑以知识创生为研究取向的联通主义学习分析,但联通主义学习成效不能以创生交互作为唯一标准,寻径和意会成为联通主义学习成效的决定因素。