网络环境与机房环境下电子作业反抄袭策略

2013-07-19 09:31谢本贵
实验室研究与探索 2013年4期
关键词:字符相似性文档

付 兵,谢本贵

(长江大学a.文理学院;b.计算机科学学院,湖北 荆州434023)

0 引 言

教育信息化是国家信息化的重要组成部分,对提高教育质量和效益,培养创新人才具有深远意义,是实现教育跨越式发展的必然选择。“国家中长期教育改革和发展规划纲要(2010-2020 年)”强调要加快教育信息化建设[1]。教育信息化首先是教学信息化,教学信息化的重头戏在作业环节的信息化。电子作业反抄袭技术,对于减轻老师工作量、提高学生作业质量具有积极意义。

1 电子作业抄袭现状

校园网已经普及,WiFi 热点也覆盖了90%的大学校园,基于固定和移动网络的作业发布与提交方式已逐渐在大学教育中得以广泛采用。教师通过网络发布作业,其实时、便捷性等方面具有传统纸质作业所无法比拟的优势。但随之而来的是电子作业抄袭现象严重。我们就湖北省部分高校的电子作业,走访听取一线教师的意见,就电子作业环节中的抄袭现象进行调查。经两学年收集了12768 份电子作业样本,抄袭分①网络抄袭、②同学间抄袭或③其他抄袭,根据机器分析和人工核对,确定部分抄袭甚至完全拷贝的电子作业样本656 份,涉嫌抄袭比例为5.1%。其中网络抄袭、同学间抄袭及其它抄袭的比例如表1 所示。

表1 不同抄袭方式所占比例

学生抄袭作业的行为主要发生在两种环境下:

(1)机房环境下完成老师布置的电子作业,学生之间电子文档相互拷贝抄袭;

(2)网络环境下,在家、在寝室或移动设备通过Internet 搜索网络文档,片段拷贝。

针对这两种典型环境我们提出了反抄袭的不同策略。

2 机房环境下反抄袭方法

计算机房是高校计算机普及教育的实验场所,教师、实验师针对机房的管理、提高学习效率进行了很多研究[2-4],但目前就机房环境下反抄袭研究还没涉及。典型的机房环境是指在计算机房进行实践教学时,老师布置的实时任务,如“计算机基础”OFFICE 办公系列的文字输入、编辑排版练习等,本身电子作业的文字内容就完全一样,这类情况采用比较文本相似度的方法是无法达到甄别抄袭作业的目的。基于信息隐藏技术的电子作业反抄袭策略能较好解决此类问题。信息隐藏技术在数字图像版权保护方面的应用较为成熟[5-7],数字水印的设计已进入大学的实验室教学[8-9],但电子作业防拷贝抄袭的水印嵌入的要求不同于隐蔽通信和版权保护,对信息隐藏量和鲁棒性要求较高[10],其所用的水印算法要求不易察觉且兼顾大的信息嵌入量,在格式字符中嵌入机器编号、学号及时间等原创信息。

2.1 原创信息加密

单纯的文本信息隐藏对嵌入信息进行加密是为了提高信息的安全性,在电子作业文本格式中嵌入个人信息除考虑信息的安全性外还应兼顾个人隐私及人权保障等因素。我们在嵌入信息前对待嵌入信息进行加密与置乱[11]。

首先生成混沌数据,利用公式1 采用Logistic Map方法生成混沌数据:

设x0=0.1(0 <x0<1),得到实数系列:

将实数序列(2)经归一化处理,得到二值序列函数T(x):

利用二值函数(3)得到混沌二值序列

得到的混沌二值序列(4)是原创者信息置乱,将要嵌入的的汉字和外文字符通过Unicode 和十六进制变换生成二进制数字序列:

用混沌序列(4)与二进制序列(5)进行模2 加,得到需要的新序列,即已加密二进制系列。

系列(6)即为要嵌入的秘密信息。

2.2 秘密信息嵌入算法

原创者的秘密信息嵌入算法根据作业内容的不同有多种选择,如果电子作业是全中文可以采用“改变汉字西文字体的方法”实现信息的隐藏。将需嵌入的信息比特流每字节逐个隐藏,再根据每字节比特位的“1”和“0”的情况,分别将Word 文档中汉字的西文字体依次相应设置成“Times New Roman”或“BasemicTimes”,每个字符隐藏1Bit 位,实现秘密信息比特流的嵌入。汉字西文字体的变化,在显示上字体特征不发生任何变化,对嵌入的原创信息抄袭者是察觉不到的。嵌入算法还可以采用字移编码、行移编码、字号大小编码、等传统的格式化文本隐藏信息的方法[12]。

如果是中英混排的电子作业,改变汉字西文字体的方法就无能为力了,同样对于图多字符少的电子作业,如电子实验报告,由于上述算法每个字符只能隐藏1Bit 的秘密信息,存在信息隐藏率低的问题,针对电子作业的特殊性,提出了针对性的“高嵌入率水印算法”。

高嵌入率水印算法同时利用字体RGB 颜色低位和下划线RGB 颜色的部分字节来嵌入秘密信息,达到每1 个字符隐藏12 bit 秘密信息。根据人眼视锥细胞对颜色敏感度理论,人眼对蓝色最不敏感,置换字符RGB 值的低位,如图1 所示是一个字符RGB 值蓝色分量的最后两位B1、B0,绿色分量的最后一位G0、红色分量的最后一位R0 用来嵌入原创信息,这一步每一字符实现4 bit 的嵌入量。

第二步将同一字符下划线颜色值中的蓝色分量的后4 位,下划线颜色值中绿色分量的后2 位,下划线颜色值中红色分量的后2 位,用来嵌入秘密原创信息,如图2 所示,在下划线颜色分量中每一字符实现8 bit 的嵌入量。

图1 嵌入秘密原创信息的字符RGB 分量

图2 嵌入秘密原创信息的字符下划线RGB 分量

因为一般电子作业字符显示下划线的几率较少,也不引人注意,我们利用下划线颜色值嵌入更多的秘密信息,使秘密信息嵌入率达到每1 字符12 bit。

2.3 实现过程

机房环境反抄袭设计实现分:嵌入原创秘密信息和提取抄袭秘密信息两部分。

嵌入原创秘密信息的过程是当学生完成电子作业,点击“保存”、“另存为”和“退出”都会触发office中VBA 的Autoclose 过程。这一过程的自动运行调用了嵌入原创秘密信息的函数HideOriginalInformation(),该函数具有在全文循环嵌入原创秘密信息的功能。

提取秘密信息的过程是当学生的电子作业被批阅时,首先就进行自动检查字符格式的变化,是否含有他人的原创信息。本设计利用了打开文档时自动运行的Autoopen 过程,核心设计室该过程中调用了中英文字符格式检测函数DetectCharacterFormat()和提取秘密信息的函数GetOriginalInformation()。

3 网络环境下反抄袭方法

由于网络环境抄袭的来源甚广,加之抄袭程度的不同,一篇作业可能抄袭自不同来源的多篇网络文本,且从抄袭短句到抄袭整篇都有可能。另外网络上与作业内容相关的网页总是处于不断更新、增加中。因此准确的检测抄袭与否及抄袭程度、抄袭来源等比较困难,理想的方法是使用基于搜索引擎的技术,但是基于搜索引擎的技术需要投入的太多,对于检测作业抄袭这种情况是得不偿失的。因此采用折中方法,建立一个数据库,存储和课程相关的电子文档,最典型的就是与课程内容相关的各种文献,同时包含历届学生的所有作业以及当前要检测的所有作业,每次检测新的作业时可以自动将其加入到数据库中。

一般来说电子作业还有以下两个特点:①相对于学术论文等长篇文字来说,学生作业一般字数不多;②学生作业具有较高的相似性。作业的题目是教师拟定的,因此作业内容主题相对固定。对于概念性原理性的问题,学生多会照抄教科书或参考书上的原话。作业字数不多且内容高度相似的特性,在利用程序自动检测抄袭的过程中很容易引起对作业抄袭与否的误判。而实践中对作业抄袭的检测往往是检测整篇复制或者大段复制的情况,这种情况正好对应于相似性指数非常高的情形。更细力度的抄袭检测(比如单句话的抄袭)是没有必要的。网络环境下,反抄袭的策略主要是基于文本相似性检测的。判断文本内容相似性的方法有很多种,鉴于各种方法都有其优劣性。针对电子作业的特点,在本研究中我们尝试将向量空间法和编辑距离法两种方法相结合来进行作业抄袭检测,取得了良好的效果。

向量空间法的原理是将文档映射为向量,通过计算向量夹角的余弦即得到两个文档的相似性指数[13-14],向量空间法实现步骤如下:

(1) 对要比较的电子作业进行分词。在对电子作业进行分词时,我们首先采用MMSEG 算法进行中文分词。如果作业中含有英文,MMSEG 算法也会将英文单词分出但不会进行词干提取,对于英文单词,继续用Porter2 算法提取词干。最后剔除中英文的停止词(stop words),合并MMSEG 分出的中文词和Porter2 处理过的英文词,得到单篇文档的分词词集。合并所有作业的分词词集,得到构建向量空间的词集W。为提高分词准确性,可以在MMSEG 算法所使用的词典中导入专业词汇。

(2) 生成各作业的向量。上一步中得到的词集W的元素数n 即为我们所要构建的向量空间的维数。对于每个要比较的文档k,构建一个n 维向量Vk=(wk1,wk2,…,wkn)。如果词集W 的第i 个元素Wi也出现在文档k 的分词词集中,则wki=1,否则wki=0。

(3) 计算两个向量V1、V2夹角θ 的余弦。以此数值作为文档相似性指数SI1。

编辑距离法是基于编辑距离计算的。所谓编辑距离是指一个字符串转变成另一个字符串所需要的最小编辑操作次数。这些编辑操作包括插入、删除、替换、颠换。当编辑操作只包括前三种时,称为Levenshtein距离,如果四种编辑操作都包括,则称为Damerau-Levenshtein 距离[15]。编辑距离法很适合检测作业抄袭,由编辑距离法计算两个文档相似性指数SI2的公式为:式中:tl 为两个文档总长;d 为编辑距离。

最后,通过对作业计算相似性指数SI1、SI2,当对比文档的两种相似性指数达到指定阀值时,则判定为疑似抄袭。

4 实验结果

基于网络环境反抄袭策略中提出的方法,对作业样本进行了抄袭检测。实验结果表明,如果将相似性指数的临界值设为0.91,则程序能正确判别出所有严重抄袭样本。根据每次作业的不同情况,相应调整相似性指数临界值,能得到更好的判别结果。检测时也可限定只检测本次作业中的样本,这样可以判断本次作业中学生间相互抄袭的程度。对于疑似抄袭的作业,通过查找共同字符串及用加亮显示等方式可进一步人工可视化判读抄袭程度,如图3 所示,程序截图后对学生姓名做了马赛克处理。

图3 加亮显示的抄袭检测结果

5 结 语

本研究的特点在于将电子作业反抄袭分为网络环境抄袭和机房环境抄袭,采用不同的反抄袭策略进行处理:针对机房环境下的直接部分甚至全部拷贝抄袭,采用了信息隐藏技术,创新点有:①将原创信息进行了加密,保护了同学隐私;②针对电子作业的特点设计了高嵌入率、不易察觉的信息隐藏算法;网络环境下的反抄袭设计特点是根据电子作业的特点综合应用向量空间法和编辑距离法对同学之间的电子作业的相似度及网络相关主题文档相似度进行判断,降低了误判率。

电子作业反抄袭研究是2011 年湖北省高等学校省级教学研究项目“计算机基础教学融合专业应用的研究”(2011468)成果之一,在计算机基础教学立体网络平台的电子作业收集、批改部分发挥了重要作用,有效杜绝了学生电子作业的多种抄袭方式。

[1] 国家中长期教育改革和发展规划纲要(2010-2020)[M]. 北京:人民出版社,2010.

[2] 林先津. 机房实验教学管理系统学生状态监控的设计与实现[J]. 实验技术与管理,2011,28(10):96-99.

[3] 王 强,张江露,何才辉.整合资源,构建高效的开放计算机实验室[J]. 实验技术与管理,2011,28(4):163-166.

[4] 何 俊. 计算机公共机房管理资源整合[J]. 实验室研究与探索. 2010,29(2):65-67.

[5] Fu Bing,Zhou xianshan. Information Hiding Technique in Most Significant Bit of Still Image[C] // 2009 International Conference on Image Analysis and Signal Processing. USA: Institute of Electrical and Electronics Engineers. 2009:74-76.

[6] 周清雷,黄明磊. JPEG 图像的信息隐藏方法[J]. 计算机工程与设计,2010,31(19):4178-4180

[7] 张 民,郭玉彬,张德伟. 基于小波系数块能量和HVS 的FCM水印算法[J]. 微电子学与计算机,2010,27(05):139-142.

[8] 向德生,彭献武,梁 伟. 数字水印实验系统的设计与实现[J].实验室研究与探索,2009,28(10):51-53.

[9] 石红芹,吕方亮,刘遵雄. 彩色图像的数字水印系统设计[J]. 实验室研究与探索,2011,30(5):9-12.

[10] Fu Bing. Research on the Model of Similar Electronic Coursework Detection[C] // Third International Conference on Genetic and Evolutionary Computing. USA:Institute of Electrical and Electronics Engineers,2009:814-817.

[11] 王海春,邱寄帆,邱敦国. 一种基于Word 文档的数字密写设计与实现[J]. 微计算机信息,2006,22(10):47-48.

[12] 付兵. 基于Word 字符RGB 值的信息隐藏技术[J],电脑知识与技术,2007(2):78-80.

[13] Peter D. Turney ,Patrick Pantel,From frequency to meaning:vector space models of semantics [J]. Journal of Artificial Intelligence Research,2010(37):141-188.

[14] 樊旭琴;张永奎,基于词对向量空间模型的新事件检测方法[J]. 计算机工程与应用,2010,46(12):123-125.

[15] T. Batu,F. Ergun,J. Kilian,A. Magen,S. Raskhodnikova,R.Rubinfeld,Rahul Sami. A sublinear algorithm for weakly approximating edit distance[C] // Proceedings of the Thirty-Fifth Annual ACM Symposium on the Theory of Computing. USA:Association for Computing Machinery,2003:316-324.

猜你喜欢
字符相似性文档
一类上三角算子矩阵的相似性与酉相似性
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
浅析当代中西方绘画的相似性
字符代表几
一种USB接口字符液晶控制器设计
HBM电子称与西门子S7-200系列PLC自由口通讯
消失的殖民村庄和神秘字符
基于RI码计算的Word复制文档鉴别
低渗透黏土中氯离子弥散作用离心模拟相似性