基于智慧实验室的安全事故分析与预测

2018-05-28 01:24楚丹琪李睿智高洪皓
计算机技术与发展 2018年5期
关键词:上海大学聚类定义

楚丹琪,李睿智,高洪皓,张 康

(1.上海大学 实验设备处,上海 200444; 2.上海大学 计算机学院,上海 200444; 3.上海大学 计算中心,上海 200444)

1 概 述

1.1 实验室现状及问题

实验室是科技的摇篮,安全、健康、环保、节能是实验室的基本要素[1-3]。实验室安全教育是安全管理的重要内容之一,充实的安全教育可以提高人们的认识和安全素质,也是保障实验人员安全的第一道也是最重要的屏障。为了防患于未然,全方位保护实验人员和实验设备的安全十分必要。智慧实验室是以“互联网+”为基础,采用先进的信息化技术手段和软硬件设备,实现对实验教学、科研和管理等实验室信息的收集、处理、监管、存储、传输和调用[4-5],使实验室资源得以充分优化利用。

高校实验室的信息化存在以下亟待解决的问题:

(1)设备管理非自动化。教学仪器和设备分布离散、管理难度大、无专人管理和保养等;信息获取被动,存在空间障碍,对设备数量和种类繁多的实验室,管理人员难以准确快速定位、跟踪设备使用和维护。

(2)安全管理非智能化。实验室安全管理难以形成稳固的体系,对各类潜在危险的警告系统尚不完善[6],只能依赖于管理人员的责任心。随着大量开放式实验教学的开展,对人员的智能监控要求越来越高。

(3)环境管理非低碳化。机房的温湿度、粉尘、噪声等指标未实现统一监控和管理;实验室照明、设备供电、机器用电难以实现自动化调节,造成资源浪费。

(4)资源管理非共享化。不同院系实验室之间资源利用和分配不协调,资源共享难以实现,存在“信息孤岛”现象。

1.2 实验室安全预防策略现状

目前,国内高校实验室安全工作多数由多个部门共同负责,相关处室工作侧重点不同。在这种不同职能处室分块管理的管理体制下,容易出现部分管理职责交叉重复的现象,导致管理效率不高[7-8]。同时,每个实验室面对的用户群体不同,使用的仪器设备不同,如果全都进行相同的实验室安全教育,会浪费大量的人力、物力和财力,并达不到相应的教育和预防效果。

在信息化不断发展的时代,良好、真实的数据统计与挖掘可以为政策的制定提供有力的支持[9-10]。上海大学思安网是上海大学针对实验室安全和保护展开的全方位平台。上海大学思安网不仅整合了上海大学用户信息、在线学习、在线考试、上课考勤,而且记录分析用户的操作习惯和事故记录。借助以上真实的数据,文中提出安全信用的模型,通过这个模型可以将用户的安全知识和安全技能的掌握情况进行量化,从而为每个实验室具有针对性的安全事故预测奠定了基础。

2 安全信用分析模型

安全信用,是上海大学思安网运用大数据分析技术客观呈现个人的安全信用状况。安全信用的评测通过对海量信息数据的综合处理和评估,主要包含了用户特质、行为偏好、学习能力、考试成绩、课程考勤和事故历史六个维度。最后,通过归一化处理综合计算得出用户的安全信用分数。

2.1 评价维度

安全信用主要包含用户特质、行为偏好、学习能力、考试成绩、课程考勤、事故记录六个维度,分别从用户的各个方面反映其安全意识和安全行为。单维度评价方式中每一维度的最高分为100分,最低分0分。

用户特质主要从用户身份、用户背景综合分析。用户身份主要分为本科生、硕士生和博士生;相较于本科生而言,硕士生和博士生在安全信用方面具有知识积累的优势;用户背景主要考察用户的学院和专业背景,尤其对于文科专业会有一定的背景优势;同时,不同的专业年级对安全知识积累沉淀也会有所不同[11]。

定义1:用户特质S1。

S1=α×(Pe+Pg)+β×(Pm+Pr)

(1)

其中,α表示学历层次和专业年级在评价中所占权重,β表示专业性质在评价中所占权重,并且满足条件α+β=1;Pe,Pg,Pm,Pr表示学历、年级、专业和高危专业的权重。

行为偏好主要从用户的操作行为进行分析,用户的操作习惯往往可以反映用户现实生活中的习惯,比如:用户是否具有良好的登录和注销的习惯,用户学习和考试是否存在作弊现象。

定义2:行为偏好S2。

S2=∑α×Nc-∑β×Ne

(2)

其中,α和β分别表示某类良好习惯和不良习惯发生的权重;Nc和Ne表示某类良好习惯和不良习惯发生的次数。

学习能力主要从用户在线学习进行分析,人的注意力集中的时间跟年龄、学习时间和学习难度有联系。用户的年龄直接影响用户学习的注意力,为了方便计算,针对年龄采用线性变换。

定义3:年龄S3。

S3=100-Ua

(3)

其中,Ua表示用户的年龄。

用户每天平均学习时间的长短、学习时间段均是影响用户学习程度的因素,下面给出学习时间的定义。

定义4:学习时间S4。

(4)

其中,T表示正常学习时间中间值,按照正常学习时间范围40~60 min之间,故T应该取值50;η表示不同时间段的权重系数,将24小时划分为4部分:深夜、上午、下午、夜晚,每部分的权重系数分别为0.1、0.8、0.6、0.5。

上海大学思安网针对每类资源均定义了学习难度,学习的内容难度越大,表示用户的学习能力越高,于是下面给出了学习难度的定义。

定义5:学习难度S5。

(5)

其中,N表示学习资源总数;σi表示第i个资源的难度系数。

所有用户的学习能力可以看作是符合正态分布,同时根据定义3~5,给出学习能力的定义。

定义6:用户学习能力S6。

(6)

其中,c1,c2,c3表示用户年龄、学习时间、学习难度的权重系数;α表示整体权重系数;μ表示正态分布的位置参数,μ=75。

考试成绩主要从用户参加考试的考试结果进行分析,用户的考试成绩越高,其安全知识掌握程度越高。

定义7:考试成绩S7。

(7)

其中,N表示用户参加的考试数目;Score(i)表示用户参加的第i个安全考试的考试成绩。

课程考勤主要从用户上课考勤情况进行分析,上课情况可以从侧面反映出用户的学习态度。

定义8:课程考勤S8:

(8)

其中,n表示出勤次数;N表示应该出勤次数;T表示课程总数。

信用历史主要从用户过去发生过的安全事故和安全预防的事件进行计算,这是最客观反映用户安全信用的方式。文中信用历史采用指数函数表示,以提高初始的变化率。

定义9:信用历史S9。

S9=-e-(α×Np-β×Na)+100

(9)

其中,α,β分别表示预防事故的权重和安全事故发生的权重,α+β=1;Np,Na分别表示预防事故的数量和安全事故发生的数量。

2.2 安全信用归一化

文中的安全信用评价方式主要是通过对每一个维度分别进行评价,最后综合计算得出用户的安全信用分数。安全信用分数的高低可以反映出用户的安全知识和安全技术的掌握情况。那么,如何将六个维度归一化成安全信用,文中采用六个维度来计算安全信用,并将这六个维度放置到一个六维坐标系中。安全信用值的计算如下所示:

(10)

3 安全事故分析与预测算法

实验室事故预测主要是基于用户安全信用的六个维度来进行。首先根据用户六个维度,将用户聚集为三类:高危人群、潜在危险人群、安全人群,下面会详细介绍用户的分类方法;接着根据实验室面对的人群重点分析高危人群和潜在问题人群,从学习内容和考试成绩中重点分析知识漏洞,从而预测安全事故。

3.1 用户聚类

根据安全信用公式计算出用户的安全信用后,根据用户安全信用进行第一次聚类[12-13],这次聚类主要分为两类人群:安全人群和危险人群。聚类原则如下:

(1)安全人群应该满足安全信用分大于等于220分,安全信用分达到这个层次可以表明用户的六个维度的平均分不低于90分,用户具有良好的安全知识和安全技术的积累。

(2)危险人群满足安全信用分数低于220分,这部分用户在安全意识方面还有一定的欠缺。

根据第一次用户聚类方式可以区分安全人群和危险人群,但是在危险人群中,并非每一个用户需要进行关注。那么,文中采用K-means算法对第一次聚类中的危险人群进行了第二次聚类[14],这次聚类主要分为:高危人群和潜在问题人群。聚类算法如下:

(1)首先根据用户信用分与阈值220分做比较,如果大于等于220分则将该用户划分至安全人群中,如果低于220分则划分至危险人群中;

(2)确定用户行为向量,经过实际分析,公式为:

V={a1,a2,…,a6}

(11)

其中,a1,a2,…,a6分别为某个用户的六个维度。

(3)随机选择k个初始聚类中心:

Centerk={C1k,C2k,…,C6k}

(12)

其中,k应满足k=2。

(4)s∈S,其中S为样本集合,根据欧几里得公式计算S距离所有聚类中心的距离,将s划分到距离最近的中心Center的集合内。

(5)重新计算聚类Center的中心,使用各个点的坐标的平均值来求点群新的中心点。若产生新的中心点,执行第3步;若中心点不再发生改变,执行第5步。

(6)使用欧几里得公式计算2个聚类中心距离原点的距离,聚类中心距离原点更近的聚类簇为高危人群,距离较远的聚类簇为潜在问题人群。

聚类算法如下:

算法1:用户聚类算法。

输入:用户安全信用的六个维度信息及S1,S2,S6,S7,S8,S9评价分S

输出:安全人群Groupsafe、高危人群Groupdanger和潜在问题人群Grouppotential

BEGIN

n=0

FOR EACHi=1 TOm

IFSi≥220 THEN

Groupsafe=Groupsafe∪i

ELSE

vi={a1,a2,a6,a7,a8,a9}

n=n+1

ENDIF

ENDFROEACH

FOR EACHi=1 TO 2

Random(Centeri)

ENDFROEACH

Group1={}

Group2={}

WHILE (Center is not change)

FOR EACHiINn

IFDisCenter1≥DisCenter2THEN

Group1=Group1∪i

ELSE

Group2=Group2∪i

ENDIF

ENDFOREACH

FOR EACHi=1 TO 2

Update(Centeri)

ENDIF

ENDWHILE

IFDisO&Center1≥DisO&Center2THEN

Grouppotential=Group1

Groupdanger=Group2

ELSE

Groupdanger=Group1

Grouppotential=Group2

ENDIF

END

3.2 安全事故预测

根据3.1节,将用户聚类为高危人群、潜在危险人群、安全人群三类,本节的安全事故预测算法将重点关注高危人群和潜在危险人群。将安全事故定义为五类:火或水灾性事故、毒害性事故、爆炸性事故、机械性事故和电气性事故;上海大学思安网中的安全知识学习和考试也分为六类:通识类、化学类、辐射类、医学生物类、电气类和机械类。定义的对应关系如表1所示。

表1 安全事故、学习和考试分类对应关系

在现实生活中每一个实验室或高危场所都面对一些固定的用户群,根据3.1节可以将固定的用户群进行用户类型划分,从而抽取高危人群和潜在危险人群的数据进行分析。每一类事故发生的概率取决于两类人群发生事故的概率,于是得到每一类事故发生的概率公式:

Pc=α×Pd+β×Pp

(13)

其中,Pd和Pp表示高危人群和潜在危险人群在该类事故中发生的概率;α和β表示权重系数。

那么,某类人群发生某类安全事故的概率,则可以直接由这类人群学习情况和考试情况来进行反映,于是可以得到如下公式:

(14)

(15)

其中,Learni表示第i个用户学习某类资源的数量;Total表示某类学习资源的总量;Examij表示第i个用户参加某类第j次考试的成绩;N表示该用户参加考试的总数;group表示人群总数。

可得到某类人群发生某类安全事故的概率公式:

Pgroup=η×PL+σ×PE

(16)

其中,η,σ表示权重系数,并且满足η+σ=1。

4 实验分析

文中的安全信用评价体系和实验室安全事故预测算法均在上海大学思安网中实现,实际运行过程中分析相关数据量可以参考表2(截止2016年7月25日星期一)。算法中相关权重系数对的参数初始化可以参考表3。

表2 算法分析相关数据量

通过对上海大学所有用户进行安全信用评价,并且针对5个实验室进行安全事故预测来验证算法的合理性。上海大学思安网自动根据用户的相关数据进行六个维度的评价(相关维度定义参考2.1节),最终给出用户的安全信用维度评价,可以参考图1。

表3 相关权重系数对的参数初始化

图1 用户的安全信用维度示意图

上海大学思安网在完成维度评价后,根据2.2节进行归一化处理。系统默认展示用户近半年的安全信用变化情况,可以参考表4。

表4 安全信用变化情况(学生14721185)

安全事故预测的重点是根据用户群的知识漏洞来预测实验室事故。表5展示的是4个实验室安全事故预测统计情况,标注了事故类型和事故发生的概率。

表5 实验室安全事故预测统计情况 %

5 结束语

上海大学实验室安全教育综合管理平台是针对高校实验室安全的问题提出的一种新型教育模式;同时在智慧实验的背景下,提出了安全信用的概念,将用户的安全知识和安全技能的掌握情况进行量化,形成一套完整的评价体系。根据用户的安全信用,将用户进行分类,找出危险用户和知识漏洞,从而预测实验室安全事故。在后续的工作中将把安全信用评价应用到更加广泛的实验室预约等功能中,为更安全、更便捷的实验室管理提供保障。

参考文献:

[1] MASSIE D L,CAMPBELL K L,WILLIAMS A F.Traffic accident involvement rates by driver age and gender[J].Accident Analysis and Prevention,1995,27(1):73-87.

[2] KOO J,KIM S,KIM H,et al.A systematic approach towards accident analysis and prevention[J].Drug Discovery Today,2015,20(7):856-862.

[3] WU Lirong,JIANG Zhongan,CHENG Weimin,et al.Major accident analysis and prevention of coal mines in China from the year of 1949 to 2009[J].Mining Science & Technology,2011,21(5):693-699.

[4] AKYUZ E,CELIK M,AKYUZ E,et al.Utilisation of cognitive map in modelling human error in marine accident analysis and prevention[J].Safety Science,2014,70:19-28.

[5] 郑 禄,常 佳.基于Arduino与Python的实验室联动门禁报警系统设计[J].软件导刊,2017,16(1):76-77.

[6] 张 博.基于GA-BP神经网络的高校实验室安全评价研究[J].微处理机,2016,37(2):51-55.

[7] MARSAGLIA G.Evaluating the normal distribution[J].Journal of Statistical Software,2004,11(5):1-11.

[8] RANI A J M,PARTHIPAN L.Clustering analysis by improved particle swarm optimization and K-means algorithm[C]//IET Chennai 3rd international conference on sustainable energy and intelligent systems.[s.l.]:[s.n.],2012:83-88.

[9] 王国强,吴 敏.实验室安全防范智能化系统的组成与应用[J].实验技术与管理,2008,25(4):151-155.

[10] 吴文华,马升灯,沈水富.提高安全意识,预防高校实验室安全事故发生[J].科技风,2015(23):189.

[11] 丁智斌,袁 方,董贺伟.数据挖掘在高校学生学习成绩分析中的应用[J].计算机工程与设计,2006,27(4):590-592.

[12] 马 闯,吴 涛,段梦雅.基于K近邻隶属度的聚类算法研究[J].计算机工程与应用,2016,52(10):55-58.

[13] 徐向平,鲁海燕,徐 迅.基于环形邻域的混沌粒子群聚类算法[J].计算机工程与应用,2016,52(2):54-60.

[14] HAMIDA E B,JAVED M A.Channel-aware ECDSA signature verification of basic safety messages with K-Means clustering in VANETs[C]//International conference on advanced information networking and applications.Crans-Montana,Switzerland:IEEE,2016:603-610.

猜你喜欢
上海大学聚类定义
上海大学学报(自然科学版)征稿简则
《上海大学学报(自然科学版)》征稿简则
数种基于SPSS统计工具的聚类算法效率对比
面向WSN的聚类头选举与维护协议的研究综述
改进K均值聚类算法
谢文利作品
基于Spark平台的K-means聚类算法改进及并行化实现
成功的定义
修辞学的重大定义
山的定义