基于元数据技术的教育资源共享平台研究*

2014-07-31 21:03王秀慧王丽珍殷旭彪
中国教育信息化·高教职教 2014年5期
关键词:元数据共享平台教育资源

王秀慧+王丽珍+殷旭彪

摘 要:针对目前教育资源多源异构、共享程度低、互操作性差的问题,基于元数据技术研发了教育资源共享服务平台。同时,针对教育资源元数据库信息量大,导致检索速度慢,无法为学习者提供有效性服务的问题,基于FTC聚类算法实现了教育资源元数据的聚类。通过实践证明,该平台极大的提高了教育资源的共享程度,且性能稳定,服务上乘,通过聚类算法的嵌入使得用户能够快速定位所需资源,为学习者提供了一个良好的学习环境。

关键词:教育资源;共享平台;元数据;聚类

中图分类号:G40-057 文献标志码:A 文章编号:1673-8454(2014)09-0033-04

一、引言

目前,无论是在国家层面还是在各个院校、教育、培训等部门都意识到了教育资源在全社会范围内共享的重要性。教育资源共建共享的理念正逐步深入人心。实现教育资源的共建共享,对于推动全社会教育公平,促进教育平衡发展,提高国家教育质量,推进全国教育与社会发展具有重大现实意义。[1]基于这样的背景,本研究开展了晋北地区教育资源共享服务平台的构建工程。从2010年初至今,已经收集了来自晋北地区各个学校或培训机构的数千条具有重要教学价值的教育资源。为了建构合理的教育资源库,针对教育资源具有跨学科、多源异构、异质等特点,提出了基于元数据技术进行教育资源整合的方案,并在资源整合的基础上开发了教育资源元数据共享服务平台,为实现教育资源在全社会范围内的共建共享提供途径。同时针对教育资源元数据库信息量大、检索速度慢、无法为用户提供有效服务的问题,提出基于FTC实现教育资源元数据的有效聚类。

二、教育资源元数据标准

教育资源往往具有多种表现形式,比如说文档、网页、图片、视频等。这些教育资源大多以非结构化形式存在,影响了数据的存储,进而导致教育资源的共享难以实现,不同的教育部门或机构之间的沟通也无法得到保障。而建设教育资源数据共享工程、构建教育资源数据共享服务体系,必须要保证对教育资源数据共享技术体系架构有统一的标准。通过元数据标准来定义一致的数据资源描述框架,是使得教育资源在数据共享层面能纳入统一框架的一种有效手段。

所谓元数据标准,指的是描述某类资源的具体对象时所有规则的集合。这里所指的资源就是教育教学资源。实现教育资源元数据的标准化,一方面能够为资源提供方提供一个标准著录格式,以便于其对所拥有的数据资源进行恰当描述。另一方面,有助于实现对教育资源的高效组织和管理,并帮助学习者快速的定位所需信息。再者,教育资源元数据标准的制定为实现不同教学系统间元数据的互操作提供技术支持。

目前,国际上常用的教育资源元数据标准主要有三类:IEEELOM、DC-Education和ADL/SCORM。其中,IEEELOM是学习对象元数据标准,目的是完成学习对象的描述和管理。DC-Education又称为都伯林核心教育元数据,是在DC的基础上增加了一些新的元素并复用到DC-Education。ADL/SCORM称为可共享内容对象参考模型,目的是实现教育资源的可重用性。[2,3]

结合我国各类教育资源的特点,本文以DC-Education作为元数据标准的基础,并根据实际情况对其进行了部分调整。元数据是对原始数据结构特征的描述,学习者浏览元数据的最终目的是为了访问原始数据资源。原始数据资源可能以文件形式提供,也可能以HTTP或FTP方式提供。为了便于学习者根据元数据定位到原始数据资源,本研究对DC-Education增加了文件服务、HTTP服务和FTP服务三个字段。这样用户在浏览元数据的时候,如果想对该教育资源有更进一步的了解,可以通过共享平台提供的文件服务进行相关文件的下载,或者可以通过HTTP服务和FTP服务进行在线资源的跳转访问。

教育资源具有跨学科、多源异构、异质的特性,导致无法采用统一的数据结构进行有效存储,阻碍了教育资源共享平台的建设。而以上元数据标准的制定使得各种不同的教育资源都能够用相同的模式去表示,对于建设教育资源共享平台、实现教育资源的互操作都有极大的推动作用。

三、教育资源共享平台架构设计

1.以元数据技术为核心的体系结构

一个服务上乘的教育资源共享服务平台,不仅能够通过元数据为学习者提供数据资源的发现、查询、数据导航等功能,而且还要为资源提供方提供元数据的汇交、上传和注册等服务。可以说,作为数据共享中心的一个透明的中间层,元数据发挥着“一站式”服务的核心功能。以元数据为中心,结合教育资源数据共享的特点,本文把教育资源共享服务平台的基本功能划分为四大模块,即教育资源的浏览和查询、教育资源的发布、教育资源的访问和在线分析服务。这些基本功能将在元数据的统一调度下完成教育资源的汇交、共享、查询、浏览、下载和分析等数据服务。

(1)教育资源浏览和查询。教育资源共享平台依托主体元数据库分类体系,为学习者提供元数据目录,以此作为数据浏览的依据。为了更好服务用户,提供了元数据查询接口。查询方式分简单查询和高级查询。简单查询要求用户键入感兴趣的关键词。高级查询指用户可以按学科、资源类型、资源发布者、时间等检索项进行查询。当然,在对用户兴趣点进行分析以后,平台还可以根据用户偏好为其提供个性化信息服务。

(2)教育资源发布。共享平台为教育资源的发布提供两种方式。其一:直接把元数据信息从已经收集到的原始数据资源中提取出来,并注册到共享平台的数据目录服务中,保证学习者能够浏览和查询该数据资源;其二:资源提供者通过共享平台提供的元数据汇交接口把数据资源提交到数据库中心。汇交内容不但包括描述教育资源的元数据,同时也包括教育资源原始数据,在汇交的同时完成数据的注册。数据提供者一旦把数据发布在教育资源共享服务平台中,经管理员审核通过后,全球用户都可以通过网络发现和访问这些数据资源。

(3)教育资源访问。教育资源访问通过两种模式实现,一种是通过元数据浏览或查询接口获取相应的数据资源,如可以直接链接到数据,可以下载数据,还可以预订数据。另一种是对平台功能进行扩展,为用户提供元数据接口调度信息服务功能,以此达到元数据浏览、分析和操作的目的。

(4)教育资源在线分析。为了更好的服务用户,平台提供数据分析功能。一方面,对所有用户访问信息进行统计分析,找出用户感兴趣的教育资源,对此类数据资源要加强更新,以满足用户连续性学习的要求。另一方面,对独立用户进行知识偏好统计,通过显示的询问方式或隐式的跟踪用户行为方式,分析其学习兴趣所在,在此基础上为其提供个性化信息服务。

围绕上述功能,网络平台的结构框架如图1所示。从总体结构上可分为五层,自底向上分为网络平台层、资源管理层、核心服务层、共享业务层、平台门户层。[4]每个层次各司其职,分别完成不同的任务。为了便于平台实施开发,依据平台的层次结构,把功能细分为13个相对独立但彼此联系的子系统。分别为平台门户和功能入口子系统、元数据汇交子系统、数据资源下载子系统、数据资源浏览查询子系统、数据资源审查发布子系统、数据安全服务、元数据服务、数据分析服务、日志服务、备份管理、原始资源管理、元数据管理、用户信息管理,如图1所示。

2.教育资源元数据汇交及审核发布

建好一个教育资源平台,只有少数人能用,只有少数人参与建设,那不叫共建共享。资源建设中只有做到全员参与,全员使用,所创建的资源库才能做到动态更新,才能成为活的资源库,才能充分发挥所建资源库或资源平台的作用。为了实现真正意义上的共建共享,教育资源共享平台为广大用户提供了元数据汇交接口,通过系统提供的元数据汇交界面,注册用户就可以方便的向共享平台提交自己的数据资源。所以元数据汇交是该平台的一个核心模块。

endprint

用户提交的数据资源有可能涉及非法言论,在正式发布之前需进行必要的审核。审核任务由系统管理员经平台所提供的元数据管理模块完成。

元数据汇交及审核发布系统为教育资源的共建共享提供技术支撑,保障了共建共享机制的完美实现。元数据汇交由注册用户完成,其流程如图2所示,元数据审核发布由系统管理员完成,其流程图如图3所示。

四、基于改进FTC的教育资源元数据聚类

教育资源共享平台的开发要坚持以人为本、以学习者为中心,强调为学习者提供高效的资源获取途径。[5]随着教育资源共享服务平台的不断完善以及用户群的不断扩展,教育资源信息量将会越来越大。当信息量超过一定的限度时,将导致检索周期长、检索速度慢的问题,学习者在检索到的海量信息面前很难定位真正需要的教育资源。为了提高学习者检索效率并帮助用户快速定位所需资源,本文把数据挖掘中的聚类思想用于教育资源元数据的合理组织。把教育资源按某种聚类算法进行处理以后,学习者就能够依据聚类结果,快速定位自己所需要的教育资源,这样不仅大大提高了学习者信息的查准率,为学习者提供了一个良好的学习环境,也有利于对教育资源的充分利用,有效提高了教育资源在全社会范围内的共享程度。

聚类是数据挖掘中一项重要的技术。传统聚类算法像基于层次的CURE或基于划分的K-MEANS都可以实现数据聚类,但是这些算法大多采用向量空间模型表示数据,容易产生“高维效应”,直接聚类效率及准确度。针对这样的问题,Bei和Xu在文献[6]中提出了一种基于频繁项集的数据聚类方法FTC(Frequent Term-based Clustering)。FTC算法对高维度数据聚类具有较强的处理能力,可伸缩性良好。该算法产生的簇标签可以为用户浏览或检索数据资源提供方便。但是FTC会把一条元数据硬性的划分到唯一结果簇中,而未考虑教育资源多主题性的自然属性,因此不能获取最优聚类结果。针对FTC算法在实现教育资源元数据聚类中存在的不足,本文进行了有效改进,定义了簇间相似度度量公式,以决定簇间是否应该存在重叠,合理实现了对候选簇的软分离,保证了聚类结果全局最优。

1.FTC算法介绍

FTC算法的基本思路是:首先从元数据集合中把所有满足最小支持度的频繁项集全部找出,同时把包含相同频繁项集的元数据集合作为一个候选簇,然后通过一种贪心算法,循环选择与其他候选簇重叠度最小的作为结果簇,当结果簇集合覆盖到所有元数据,则算法为止。

假定元数据集合D由D1,D2…Dm等m条教育资源元数据所组成,并用包含在元数据中的关键词集合Ti来表示元数据Di,则有关键词集T={T1,T2,…,Tm }。在T上挖掘出满足最小支持度的所有频繁项集,得到频繁项集集合F={F1,F2,…,Fm}。对于其中任一个Fi,若其又k个频繁词组成,则把该Fi称为频繁k项集,对应的簇叫做k阶簇。由于这k个频繁词存在于该簇的所有元数据内,能够表达该元数据集的共同属性,因此可以把Fi作为该簇的类别标签使用。

考虑到一条元数据通常包含多个频繁项集,因此它可能分属于不同的候选簇,即簇间重叠现象比较严重。特定义了熵重叠度(entropy overlap)EO(Ci),以作为衡量Ci与其它候选簇的重叠情况的标准,如公式(1)所示。

EO(Ci)=-•1n()(1)

所包含的频繁项集个数用fj表示。

熵重叠度能够表达簇Ci所支持的频繁项集在其它候选簇中的分布情况。从公式(1)可以看出,EO(Ci)值越大,Ci与其它候选簇的重叠越严重。特别的,值等于0时,所支持的元数据都不包含其它频繁项集,表示Ci与其它候选簇之间不存在重叠。

输入:元数据数据库D的关键词集T={T1,T2,…,Tm}。

输出:结果簇集合C

(1)从元数据关键词集T中把满足最小支持度的频繁项集F={F1,F2,…,Fm}挖掘出来, 令Fi所支持的元数据集合组成了候选簇Ci。

(2)置聚类结果簇集C为空。

(3)计算所有Ci的熵重叠度。

(4)找出熵重叠度最小的簇Ci,并将之并入结果簇集C中。

(5)对于任一Dj∈Ci,若Dj同时也属于其它簇Cj,则从Cj中直接删除Dj。

(6)把Ci从候选簇集中删掉。

(7)判断结果簇C是否能够包含所有元数据,若不能,则返回(3)重复执行,否则算法结束。

经过聚类处理以后,教育资源元数据可划分为若干簇。每一个簇中所包含的关键词可以作为类簇标签使用,给用户检索数据提供方便。考虑到具有多主题性是教育资源的一个自然属性,例如一条关于用户聚类实现学习者个性化学习的教育资源,就应该归入数据挖掘和教育技术两个学科中。据FTC聚类算法的结果可知,该算法把每条元数据唯一的划分到一个簇中,即只把该元数据划分到一个学科中,是一种硬聚类,体现不出教育资源的多主题性。针对此点不足,本文对FTC进行了必要改进,如下文所示。

2.FTC算法改进

为了确定是否应该把一条教育资源元数据归属到不同的簇中,定义衡量簇间相似度的计算公式:

sim(Ci,Cj)=*(2)

其中,Fi是表达簇Ci的频繁项集所包含的关键词集合,Ci对应的元数据集用doc(Ci)表示。从该式可以看出,sim(Ci、Cj)的取值范围为[0,1],且取值越大,两簇间相似程度会越高,特别的, 等于1时,表示两簇完全相同。

如前所示,在FTC实现聚类的第(5)步骤中,如果把Ci作为结果簇,则支持Ci的一条元数据Di,若同时也存在于其它候选簇Cj中,将会直接从Cj中把Di删掉,而未考虑教育资源元数据多主题性的特点。为了避免FTC算法的此点缺陷,首先依据公式(2)计算出簇间相似度sim(Ci,Cj),若sim(Ci,Cj)小于实现确定的阈值ɑ,则表明两簇的主题差异较大,Cj中的元数据Di应予以保留;如果sim(Ci,Cj)大于ɑ,表名两簇主题相似程度很高,此时应把Cj中的元数据Di删掉,采用这种方法合理的实现了软聚类。

3.聚类结果评估

为了评估聚类结果的有效性,本文以晋北地区教育资源共享平台为依托,分析对比了聚类前和聚类后的检索效率,如图4所示。

从图4可以看出,随着数据量的逐渐增大,聚类前和聚类后的平均检索时间都逐渐增大,但聚类前的平均检索时间增大的更快一些,表明本文提出的基于FTC的教育资源元数据聚类策略,能够在相当程度上提高学习者的检索效率,减少了学习者不必要的等待时间。

五、总结

教育资源跨学科、多源异构、异质的特性导致了教育资源共享程度低、互操作性差的问题,阻碍了教育资源在全社会范围内的共建共享。为了有效的利用教育资源,提出了采用元数据技术对其进行合理描述的方案,这种结构化的描述方式大大提高了教育资源的共享和集成程度。同时,为了提高学习者检索效率、帮助学习者在海量信息面前快速定位到所需的资源,把基于频繁项集的FTC聚类算法应用于教育资源的有效组织。实践证明,这种组织方法大大提高其检索速度,且算法生成的簇标签非常便于学习者按类别浏览元数据,为学习者提供了良好的学习环境。

参考文献:

[1]张再富.教育资源共建共享建设的几点思考[J].中国教育信息化,2012(22):81-85.

[2]郑雯译,吴开华,赵阳.国外教育资源元数据标准比较研究[J].图书情报工作,2005,49(1):107-111.

[3]王昉,张晓林.面向教育资源的元数据[J].2002(7):37-39.

[4]张彦军.基于云计算的华文教育资源平台设计.现代教育技术,2012,22(10):11-113.

[5]孙守义.基于聚类的教育资源个性化信息服务[D].南京:南京师范大学,2008.

[6]Beil F,Ester M,Xu X.Frequent term-based text clustering[C]. New York: Proceeding KDD'02 Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, 2002.

(编辑:王晓明)

endprint

用户提交的数据资源有可能涉及非法言论,在正式发布之前需进行必要的审核。审核任务由系统管理员经平台所提供的元数据管理模块完成。

元数据汇交及审核发布系统为教育资源的共建共享提供技术支撑,保障了共建共享机制的完美实现。元数据汇交由注册用户完成,其流程如图2所示,元数据审核发布由系统管理员完成,其流程图如图3所示。

四、基于改进FTC的教育资源元数据聚类

教育资源共享平台的开发要坚持以人为本、以学习者为中心,强调为学习者提供高效的资源获取途径。[5]随着教育资源共享服务平台的不断完善以及用户群的不断扩展,教育资源信息量将会越来越大。当信息量超过一定的限度时,将导致检索周期长、检索速度慢的问题,学习者在检索到的海量信息面前很难定位真正需要的教育资源。为了提高学习者检索效率并帮助用户快速定位所需资源,本文把数据挖掘中的聚类思想用于教育资源元数据的合理组织。把教育资源按某种聚类算法进行处理以后,学习者就能够依据聚类结果,快速定位自己所需要的教育资源,这样不仅大大提高了学习者信息的查准率,为学习者提供了一个良好的学习环境,也有利于对教育资源的充分利用,有效提高了教育资源在全社会范围内的共享程度。

聚类是数据挖掘中一项重要的技术。传统聚类算法像基于层次的CURE或基于划分的K-MEANS都可以实现数据聚类,但是这些算法大多采用向量空间模型表示数据,容易产生“高维效应”,直接聚类效率及准确度。针对这样的问题,Bei和Xu在文献[6]中提出了一种基于频繁项集的数据聚类方法FTC(Frequent Term-based Clustering)。FTC算法对高维度数据聚类具有较强的处理能力,可伸缩性良好。该算法产生的簇标签可以为用户浏览或检索数据资源提供方便。但是FTC会把一条元数据硬性的划分到唯一结果簇中,而未考虑教育资源多主题性的自然属性,因此不能获取最优聚类结果。针对FTC算法在实现教育资源元数据聚类中存在的不足,本文进行了有效改进,定义了簇间相似度度量公式,以决定簇间是否应该存在重叠,合理实现了对候选簇的软分离,保证了聚类结果全局最优。

1.FTC算法介绍

FTC算法的基本思路是:首先从元数据集合中把所有满足最小支持度的频繁项集全部找出,同时把包含相同频繁项集的元数据集合作为一个候选簇,然后通过一种贪心算法,循环选择与其他候选簇重叠度最小的作为结果簇,当结果簇集合覆盖到所有元数据,则算法为止。

假定元数据集合D由D1,D2…Dm等m条教育资源元数据所组成,并用包含在元数据中的关键词集合Ti来表示元数据Di,则有关键词集T={T1,T2,…,Tm }。在T上挖掘出满足最小支持度的所有频繁项集,得到频繁项集集合F={F1,F2,…,Fm}。对于其中任一个Fi,若其又k个频繁词组成,则把该Fi称为频繁k项集,对应的簇叫做k阶簇。由于这k个频繁词存在于该簇的所有元数据内,能够表达该元数据集的共同属性,因此可以把Fi作为该簇的类别标签使用。

考虑到一条元数据通常包含多个频繁项集,因此它可能分属于不同的候选簇,即簇间重叠现象比较严重。特定义了熵重叠度(entropy overlap)EO(Ci),以作为衡量Ci与其它候选簇的重叠情况的标准,如公式(1)所示。

EO(Ci)=-•1n()(1)

所包含的频繁项集个数用fj表示。

熵重叠度能够表达簇Ci所支持的频繁项集在其它候选簇中的分布情况。从公式(1)可以看出,EO(Ci)值越大,Ci与其它候选簇的重叠越严重。特别的,值等于0时,所支持的元数据都不包含其它频繁项集,表示Ci与其它候选簇之间不存在重叠。

输入:元数据数据库D的关键词集T={T1,T2,…,Tm}。

输出:结果簇集合C

(1)从元数据关键词集T中把满足最小支持度的频繁项集F={F1,F2,…,Fm}挖掘出来, 令Fi所支持的元数据集合组成了候选簇Ci。

(2)置聚类结果簇集C为空。

(3)计算所有Ci的熵重叠度。

(4)找出熵重叠度最小的簇Ci,并将之并入结果簇集C中。

(5)对于任一Dj∈Ci,若Dj同时也属于其它簇Cj,则从Cj中直接删除Dj。

(6)把Ci从候选簇集中删掉。

(7)判断结果簇C是否能够包含所有元数据,若不能,则返回(3)重复执行,否则算法结束。

经过聚类处理以后,教育资源元数据可划分为若干簇。每一个簇中所包含的关键词可以作为类簇标签使用,给用户检索数据提供方便。考虑到具有多主题性是教育资源的一个自然属性,例如一条关于用户聚类实现学习者个性化学习的教育资源,就应该归入数据挖掘和教育技术两个学科中。据FTC聚类算法的结果可知,该算法把每条元数据唯一的划分到一个簇中,即只把该元数据划分到一个学科中,是一种硬聚类,体现不出教育资源的多主题性。针对此点不足,本文对FTC进行了必要改进,如下文所示。

2.FTC算法改进

为了确定是否应该把一条教育资源元数据归属到不同的簇中,定义衡量簇间相似度的计算公式:

sim(Ci,Cj)=*(2)

其中,Fi是表达簇Ci的频繁项集所包含的关键词集合,Ci对应的元数据集用doc(Ci)表示。从该式可以看出,sim(Ci、Cj)的取值范围为[0,1],且取值越大,两簇间相似程度会越高,特别的, 等于1时,表示两簇完全相同。

如前所示,在FTC实现聚类的第(5)步骤中,如果把Ci作为结果簇,则支持Ci的一条元数据Di,若同时也存在于其它候选簇Cj中,将会直接从Cj中把Di删掉,而未考虑教育资源元数据多主题性的特点。为了避免FTC算法的此点缺陷,首先依据公式(2)计算出簇间相似度sim(Ci,Cj),若sim(Ci,Cj)小于实现确定的阈值ɑ,则表明两簇的主题差异较大,Cj中的元数据Di应予以保留;如果sim(Ci,Cj)大于ɑ,表名两簇主题相似程度很高,此时应把Cj中的元数据Di删掉,采用这种方法合理的实现了软聚类。

3.聚类结果评估

为了评估聚类结果的有效性,本文以晋北地区教育资源共享平台为依托,分析对比了聚类前和聚类后的检索效率,如图4所示。

从图4可以看出,随着数据量的逐渐增大,聚类前和聚类后的平均检索时间都逐渐增大,但聚类前的平均检索时间增大的更快一些,表明本文提出的基于FTC的教育资源元数据聚类策略,能够在相当程度上提高学习者的检索效率,减少了学习者不必要的等待时间。

五、总结

教育资源跨学科、多源异构、异质的特性导致了教育资源共享程度低、互操作性差的问题,阻碍了教育资源在全社会范围内的共建共享。为了有效的利用教育资源,提出了采用元数据技术对其进行合理描述的方案,这种结构化的描述方式大大提高了教育资源的共享和集成程度。同时,为了提高学习者检索效率、帮助学习者在海量信息面前快速定位到所需的资源,把基于频繁项集的FTC聚类算法应用于教育资源的有效组织。实践证明,这种组织方法大大提高其检索速度,且算法生成的簇标签非常便于学习者按类别浏览元数据,为学习者提供了良好的学习环境。

参考文献:

[1]张再富.教育资源共建共享建设的几点思考[J].中国教育信息化,2012(22):81-85.

[2]郑雯译,吴开华,赵阳.国外教育资源元数据标准比较研究[J].图书情报工作,2005,49(1):107-111.

[3]王昉,张晓林.面向教育资源的元数据[J].2002(7):37-39.

[4]张彦军.基于云计算的华文教育资源平台设计.现代教育技术,2012,22(10):11-113.

[5]孙守义.基于聚类的教育资源个性化信息服务[D].南京:南京师范大学,2008.

[6]Beil F,Ester M,Xu X.Frequent term-based text clustering[C]. New York: Proceeding KDD'02 Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, 2002.

(编辑:王晓明)

endprint

用户提交的数据资源有可能涉及非法言论,在正式发布之前需进行必要的审核。审核任务由系统管理员经平台所提供的元数据管理模块完成。

元数据汇交及审核发布系统为教育资源的共建共享提供技术支撑,保障了共建共享机制的完美实现。元数据汇交由注册用户完成,其流程如图2所示,元数据审核发布由系统管理员完成,其流程图如图3所示。

四、基于改进FTC的教育资源元数据聚类

教育资源共享平台的开发要坚持以人为本、以学习者为中心,强调为学习者提供高效的资源获取途径。[5]随着教育资源共享服务平台的不断完善以及用户群的不断扩展,教育资源信息量将会越来越大。当信息量超过一定的限度时,将导致检索周期长、检索速度慢的问题,学习者在检索到的海量信息面前很难定位真正需要的教育资源。为了提高学习者检索效率并帮助用户快速定位所需资源,本文把数据挖掘中的聚类思想用于教育资源元数据的合理组织。把教育资源按某种聚类算法进行处理以后,学习者就能够依据聚类结果,快速定位自己所需要的教育资源,这样不仅大大提高了学习者信息的查准率,为学习者提供了一个良好的学习环境,也有利于对教育资源的充分利用,有效提高了教育资源在全社会范围内的共享程度。

聚类是数据挖掘中一项重要的技术。传统聚类算法像基于层次的CURE或基于划分的K-MEANS都可以实现数据聚类,但是这些算法大多采用向量空间模型表示数据,容易产生“高维效应”,直接聚类效率及准确度。针对这样的问题,Bei和Xu在文献[6]中提出了一种基于频繁项集的数据聚类方法FTC(Frequent Term-based Clustering)。FTC算法对高维度数据聚类具有较强的处理能力,可伸缩性良好。该算法产生的簇标签可以为用户浏览或检索数据资源提供方便。但是FTC会把一条元数据硬性的划分到唯一结果簇中,而未考虑教育资源多主题性的自然属性,因此不能获取最优聚类结果。针对FTC算法在实现教育资源元数据聚类中存在的不足,本文进行了有效改进,定义了簇间相似度度量公式,以决定簇间是否应该存在重叠,合理实现了对候选簇的软分离,保证了聚类结果全局最优。

1.FTC算法介绍

FTC算法的基本思路是:首先从元数据集合中把所有满足最小支持度的频繁项集全部找出,同时把包含相同频繁项集的元数据集合作为一个候选簇,然后通过一种贪心算法,循环选择与其他候选簇重叠度最小的作为结果簇,当结果簇集合覆盖到所有元数据,则算法为止。

假定元数据集合D由D1,D2…Dm等m条教育资源元数据所组成,并用包含在元数据中的关键词集合Ti来表示元数据Di,则有关键词集T={T1,T2,…,Tm }。在T上挖掘出满足最小支持度的所有频繁项集,得到频繁项集集合F={F1,F2,…,Fm}。对于其中任一个Fi,若其又k个频繁词组成,则把该Fi称为频繁k项集,对应的簇叫做k阶簇。由于这k个频繁词存在于该簇的所有元数据内,能够表达该元数据集的共同属性,因此可以把Fi作为该簇的类别标签使用。

考虑到一条元数据通常包含多个频繁项集,因此它可能分属于不同的候选簇,即簇间重叠现象比较严重。特定义了熵重叠度(entropy overlap)EO(Ci),以作为衡量Ci与其它候选簇的重叠情况的标准,如公式(1)所示。

EO(Ci)=-•1n()(1)

所包含的频繁项集个数用fj表示。

熵重叠度能够表达簇Ci所支持的频繁项集在其它候选簇中的分布情况。从公式(1)可以看出,EO(Ci)值越大,Ci与其它候选簇的重叠越严重。特别的,值等于0时,所支持的元数据都不包含其它频繁项集,表示Ci与其它候选簇之间不存在重叠。

输入:元数据数据库D的关键词集T={T1,T2,…,Tm}。

输出:结果簇集合C

(1)从元数据关键词集T中把满足最小支持度的频繁项集F={F1,F2,…,Fm}挖掘出来, 令Fi所支持的元数据集合组成了候选簇Ci。

(2)置聚类结果簇集C为空。

(3)计算所有Ci的熵重叠度。

(4)找出熵重叠度最小的簇Ci,并将之并入结果簇集C中。

(5)对于任一Dj∈Ci,若Dj同时也属于其它簇Cj,则从Cj中直接删除Dj。

(6)把Ci从候选簇集中删掉。

(7)判断结果簇C是否能够包含所有元数据,若不能,则返回(3)重复执行,否则算法结束。

经过聚类处理以后,教育资源元数据可划分为若干簇。每一个簇中所包含的关键词可以作为类簇标签使用,给用户检索数据提供方便。考虑到具有多主题性是教育资源的一个自然属性,例如一条关于用户聚类实现学习者个性化学习的教育资源,就应该归入数据挖掘和教育技术两个学科中。据FTC聚类算法的结果可知,该算法把每条元数据唯一的划分到一个簇中,即只把该元数据划分到一个学科中,是一种硬聚类,体现不出教育资源的多主题性。针对此点不足,本文对FTC进行了必要改进,如下文所示。

2.FTC算法改进

为了确定是否应该把一条教育资源元数据归属到不同的簇中,定义衡量簇间相似度的计算公式:

sim(Ci,Cj)=*(2)

其中,Fi是表达簇Ci的频繁项集所包含的关键词集合,Ci对应的元数据集用doc(Ci)表示。从该式可以看出,sim(Ci、Cj)的取值范围为[0,1],且取值越大,两簇间相似程度会越高,特别的, 等于1时,表示两簇完全相同。

如前所示,在FTC实现聚类的第(5)步骤中,如果把Ci作为结果簇,则支持Ci的一条元数据Di,若同时也存在于其它候选簇Cj中,将会直接从Cj中把Di删掉,而未考虑教育资源元数据多主题性的特点。为了避免FTC算法的此点缺陷,首先依据公式(2)计算出簇间相似度sim(Ci,Cj),若sim(Ci,Cj)小于实现确定的阈值ɑ,则表明两簇的主题差异较大,Cj中的元数据Di应予以保留;如果sim(Ci,Cj)大于ɑ,表名两簇主题相似程度很高,此时应把Cj中的元数据Di删掉,采用这种方法合理的实现了软聚类。

3.聚类结果评估

为了评估聚类结果的有效性,本文以晋北地区教育资源共享平台为依托,分析对比了聚类前和聚类后的检索效率,如图4所示。

从图4可以看出,随着数据量的逐渐增大,聚类前和聚类后的平均检索时间都逐渐增大,但聚类前的平均检索时间增大的更快一些,表明本文提出的基于FTC的教育资源元数据聚类策略,能够在相当程度上提高学习者的检索效率,减少了学习者不必要的等待时间。

五、总结

教育资源跨学科、多源异构、异质的特性导致了教育资源共享程度低、互操作性差的问题,阻碍了教育资源在全社会范围内的共建共享。为了有效的利用教育资源,提出了采用元数据技术对其进行合理描述的方案,这种结构化的描述方式大大提高了教育资源的共享和集成程度。同时,为了提高学习者检索效率、帮助学习者在海量信息面前快速定位到所需的资源,把基于频繁项集的FTC聚类算法应用于教育资源的有效组织。实践证明,这种组织方法大大提高其检索速度,且算法生成的簇标签非常便于学习者按类别浏览元数据,为学习者提供了良好的学习环境。

参考文献:

[1]张再富.教育资源共建共享建设的几点思考[J].中国教育信息化,2012(22):81-85.

[2]郑雯译,吴开华,赵阳.国外教育资源元数据标准比较研究[J].图书情报工作,2005,49(1):107-111.

[3]王昉,张晓林.面向教育资源的元数据[J].2002(7):37-39.

[4]张彦军.基于云计算的华文教育资源平台设计.现代教育技术,2012,22(10):11-113.

[5]孙守义.基于聚类的教育资源个性化信息服务[D].南京:南京师范大学,2008.

[6]Beil F,Ester M,Xu X.Frequent term-based text clustering[C]. New York: Proceeding KDD'02 Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, 2002.

(编辑:王晓明)

endprint

猜你喜欢
元数据共享平台教育资源
中企搭乘“共享平台”好出海
高校大型仪器设备共享平台构建与运行管理探讨
面向数字化教育资源的Flash到HTML5转换研究
自主学习视角下的开放教育资源文献综述(上)
“五老”是金钱买不到的优质教育资源