基于AHP的大数据可用性及挖掘方案模型研究

2018-05-25 08:50李铁冰高提雷
计算机技术与发展 2018年5期
关键词:可用性一致性数据挖掘

杨 明,李铁冰,姜 茸,高提雷,王 佳

(云南财经大学 信息学院,云南 昆明 650221)

0 引 言

2015年国内印发了《促进大数据发展行动纲要》,提出要全面推进大数据的发展和应用,将中国建设成为数据强国。然而,大数据规模庞大(volume)、类型多样(variety)、生成迅速(velocity)和价值密度低(value)的特征[1]给数据的运用和分析带来了阻碍。在没有理论体系的支撑下,面对海量的数据时更是难以判断其可用性,也就无法有效地进行数据价值的提取。此时,所面对的将不再是大数据,而是“一堆数据”[2],就好比坐拥金山却不知,失去了大数据的原有意义。

大数据的诸多特征使其难以琢磨,对此李建中[3-4]等指出,一个正确的大数据集合至少应该满足5个性质:精准性、实效性、完整性、实体同一性和一致性,并在此基础上提出了大数据可用性研究的方向和问题。诸如:大数据可用性的描述、影响因素的分析、可用性的量化评估、挖掘模型的评价研究等。围绕这些关键问题,文中结合AHP方法建立大数据可用性及挖掘方案的评估模型,通过定量的比较分析讨论大数据的可用性及其有效挖掘方案。

1 大数据可用性影响因素分析

建立系统的大数据可用性指标体系,首先需要梳理其影响因素。围绕大数据的4V特征,通过参阅文献[5-10],结合数据挖掘的目的,梳理得到以下可用性影响因素:

(1)相关性。指数据是否满足用户的需求,包括用户的预期、感兴趣度和决策目标等。满足用户需求是决定大数据可用性的重要因素,数据挖掘的目的正是为了缩小挖掘结果和用户预期之间的差距。迈尔-舍恩伯格[11]教授在其书中也曾提到,在面对纷繁复杂的数据时,更应侧重于事物之间的相关关系,而不是其因果关系。

(2)准确性。其含义包括数据的客观性、公正性、真实性、精确性等,指数据是否能够客观反映事物的本质,并对事物进行准确的描述。在数据挖掘的过程中精确性必不可少,而决定挖掘结果是否可用、是否正确的关键就在于所处理的数据是否正确;相反,一个不准确的数据经过处理所得到的结果,将会对决策造成较大的影响。

(3)完整性。指数据是否完整,是否包含了对事物的所有信息。大数据的挖掘目标旨在将全体数据资源化,保留数据的最大价值。完整的数据,能够为数据的挖掘提供多角度、多层次的事实,从而保证大数据的质量。而数据的不完整则会由于其片面性,造成数据价值的丢失,影响数据的可用性,甚至导致决策的错误。

(4)一致性。指相关数据对于事物本身是否存在不一致的判定,一致性的数据要求在空间、时间、因果等关系上都是保存一致的。例如用1组数据描述客户{年龄=“30”,职业=“工人”,所属地区:“重庆”,所属省份:“四川”},其中就存在空间和时间上的冲突(因为1997年后重庆便不再隶属于四川省)。可见,一致性的问题也会影响到数据的运用和分析。

(5)时效性。指数据的时间段是否满足当前的业务需求,是否存在由于时间长远而失效的数据。“生成迅速”是大数据的主要特征之一,大数据的质量需求除了数据的规模外,同时也要求数据的实时性。只有及时掌握了数据的最新变化,才能指引未来决策的方向。过时的数据不仅存在信息落后的弊病,甚至还可能由于未及时更新而出现错误的问题。

(6)同一性。不同于一致性,同一性是指多源数据对同一实体的描述是否一致。假如同一实体在不同的数据集中存在不同的描述,或是存在表达模糊、描述差异等问题,这就会造成决策模凌两可的局面。另外。同一实体的多种描述,也会造成数据源中信息重复或冗余的问题。类型多样是大数据的另一特征,正因如此,在大数据分析的过程中同一性就显得额外重要。

(7)扩展性。传统的数据注重数据的一致性,便于数据的挖掘分析。但是在面对大数据规模庞大的特征时,针对具体问题还需考虑数据的扩展性。虽然从数据源中获得的数据是零散的,但是这些数据如果能够通过有效的组合满足业务的需求,或是扩大数据的描述范围,对于提升数据的质量将起到重要的作用,因为数据在经过不同的组合后也会产生新的价值。

上述内容从不同角度论述了大数据可用性的影响因素,结合这些因素,利用AHP方法展开进一步的评估研究。

2 基于AHP的大数据可用性评估

2.1 AHP在大数据可用性研究中的应用

AHP(层次分析法)是一种定性和定量相结合的评价决策方法,适用于多目标、多要素、多层次的问题求解[12-13]。它能够通过定量的比较为决策提出合适的解决方案。在评估大数据的可用性时,拟解决的关键问题是保证评价的客观性。在处理该类问题上,AHP方法通常是对两两因素进行比较,进而通过判断矩阵实现对整体的评价。该方法能够有效地减小评估过程中人为主观因素的影响。

2.2 大数据可用性研究结构模型

鉴于此,将AHP融入到大数据的可用性研究中,建立其研究结构模型,如图1所示。

图1 基于AHP的大数据可用性研究结构模型

(1)目标层(可用性研究目标层)。

目标层是整个AHP框架的核心,是研究的主题。大数据可用性研究的核心目的旨在提升大数据的质量,通过合理的方法保证其可用性,得到最优的数据处理方案。

(2)准则层(可用性评估指标层)。

准则层描述的是达成目标需要考虑的因素集。在大数据的可用性评估中,则是指影响大数据可用性的相关因素。对此前文已经论述了7个因素,用集合C={C1,C2,C3,C4,C5,C6,C7}表示。

(3)方案层(大数据挖掘方案层)。

方案层指综合考虑第2层中提出的影响指标拟采纳的解决方案,也就是面向大数据可用性的数据挖掘方案。

3 面向可用性的数据挖掘方案

3.1 拟定挖掘方案

在图1模型的基础上,拟定3种不同的挖掘方案进行比较,它们分别侧重于“整体价值”、“挖掘速度”和“挖掘精度”3个不同的点,用P={P1,P2,P3}表示。

方案1:尽可能保证数据的整体价值。该方案对于数据挖掘的速度要求较低,要求从最大程度上保留数据的整体价值。

方案2:以最快速度从数据中获取价值,尽快提出决策。该方案侧重于价值的快速提取,对其他方面要求一般。

方案3:保证数据的挖掘精度及挖掘结果的准确性。该方案的特征在于保证数据的精确性,但势必会在一定程度上影响挖掘的速度。

3.2 构造判断矩阵

在拟定挖掘方案后,则是构造各层的判断矩阵。

(1)准则层(可用性指标判断矩阵)。

首先是准则层的判断矩阵。采用表1中的对比标准,针对某公司的大数据研究项目,综合12名专家的评估意见,将C={C1,C2,C3,C4,C5,C6,C7}进行比较,得到的判断矩阵如表2所示。

表1 两两指标对比标准

表2 大数据可用性指标判断矩阵

(2)方案层(挖掘方案判断矩阵)。

同理,比较得到3类挖掘方案相对于各指标的判断矩阵,如图2所示,其中Pij表示相对于某指标,方案i与方案j在权重上的比较。

图2 各挖掘方案判断矩阵

例如,其中相对于时效性C2,P2方案比P1方案对时效性的要求更高;而相对于完整性C4,P1方案则比其他方案对完整性的要求都高。

3.3 计算过程

步骤1:用和积法[14-15]计算得到可行性指标矩阵的最大特征向量ω以及特征根λmax:

ω=(ω1,ω2,ω3,ω4,ω5,ω6,ω7)T=

(0.156,0.096,0.362,0.106,0.207,0.049,0.024)T

(1)

λmax=7.611

(2)

步骤2:将上述特征根代入到一致性指标检验公式中。

(3)

计算得到CI=0.102,CR=0.077。其中,CI为一致性指标,其值越大矩阵的不一致程度越高;n为判断矩阵的阶数;RI为随机一致性指标,是经过1 000次正反矩阵计算得到的平均随机一致性指标,如表3所示;CR为一致性比率。当C<0.1时,说明该判断矩阵的不一致性程度在容许范围内,即说明对于大数据各可用性指标的权重比较属于合理范围。

表3 矩阵平均随机一致性指标

步骤3:同理,用和积法求出方案层对目标的最大特征向量,分别为:

(ω11,ω21,ω31)=(0.260,0.106,0.633)

(ω12,ω22,ω32)=(0.118,0.681,0.201)

(ω13,ω23,ω33)=(0.539,0.297,0.164)

(ω14,ω24,ω34)=(0.653,0.096,0.251)

(ω15,ω25,ω35)=(0.260,0.106,0.633)

(ω16,ω26,ω36)=(0.334,0.098,0.568)

(ω17,ω27,ω37)=(0.600,0.200,0.200)

(4)

得到结果为{ω(P1),ω(P2),ω(P3)}={0.401,0.231,0.368},ω(Pj)的值越大说明该方案j对于提高大数据可用性的权重越大,其可行性更高。

3.4 研究结果对比

研究结果对比如表4和表5所示。

表4 指标对比

表5 方案对比

(1)通过结果比较可以看出,该项目大数据的可用性对时效性C2、同一性C6以及数据扩展性C7的要求较低,而以相关性C3最高,说明决定该项目大数据可用性最重要指标是“数据的相关性”,它将决定该项目大数据所产生的价值,同时也说明数据源中数据的时间变化以及冗余性等并不会较大地影响其决策。

(2)从方案对比可以看出P1>P3>P2。说明要实现该项目价值的最大化,提高数据的可用性,所采用的挖掘方案应该首先要注重的是保留数据的完整性,从整体上对数据进行分析;其次在处理的过程中尽量保证数据的准确性等,而不宜过于追求挖掘的速度,否则将会影响到最终结果的可用性。

以上结论与迈尔-舍恩伯格在文献[11]中所提出的观点一致,说明大数据的可用性重在其关联性,在分析过程中需要对全体数据进行分析而不是抽样分析,同时需要保证数据的准确性,不能一味地追求速度,只有在这样的条件下才能尽可能满足用户需求,缩小挖掘结果与用户预期之间的差距,将数据进行有效的价值转化。

4 结束语

围绕大数据的特征,通过参阅文献梳理得到大数据可用性的因素集,提出了基于AHP方法的大数据可用性及挖掘方案模型研究。用数学的方法描述了大数据的可用性,并在该模型基础上结合数学的方法针对有利于提高大数据可用性的挖掘方案展开了定量的对比研究,为大数据的可用性评价以及挖掘方案研究提出了一种可行方法。

整个模型的建立科学合理,采用定性和定量相结合的方法,有效减少了评价过程中人为主观因素的影响,对于大数据的可用性研究具有一定的参考价值。然而,大数据的可用性研究并非是一项简单的任务,在今后的研究中还有许多需要完善的地方,包括可用性因素集的完善、提高大数据可用性的方案研究等。总之,只有在遇到新问题时,针对具体问题具体分析,不断总结,才能逐渐完善大数据的可用性研究理论。

参考文献:

[1] GANTZ J,REINSEL D.Extracting value from chaos[EB/OL].(2011)[2017-07-05].https://russia.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-

ar.pdf.

[2] 张 引,陈 敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50:216-233.

[3] 李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.

[4] 李建中,王宏志,高 宏.大数据可用性的研究进展[J].软件学报,2016,27(7):1605-1625.

[5] MILLER D W,YEAST J D,EVANS R L.Missing prenatal records at a birth center:a communication problem quantified[C]//Proceedings of AMIA annual fall symposium.Maryland:American Medical Informatics Association,2005:535-539.

[6] SWARTZ N.Gartner warns firms of ‘dirty data’[J].Information Management Journal,2007,41(3):6-12.

[7] KORN F,MUTHUKRISHNAN S,ZHU Y.Checks and balances:monitoring data quality problems in network traffic databases[C]//Proceedings of the 29th international conference on very large data bases.[s.l.]:[s.n.],2003:536-547.

[8] XIONG Hui,PANDEY G,STEINBACH M,et al.Enhancing data analysis with noise removal[J].IEEE Transactions on Knowledge & Data Engineering,2006,18(3):304-319.

[9] 李聪颖,王瑞刚,于金良.大数据分布式全文检索系统的设计与实现[J].计算机与数字工程,2016,44(12):2426-2430.

[10] 李卫榜,李战怀,陈 群,等.分布式大数据不一致性检测?[J].软件学报,2016,27(8):2068-2085.

[11] 维克托·迈尔-舍恩伯格,肯尼斯·库克耶.大数据时代[M].杭州:浙江人民出版社,2013.

[12] 曹黎侠,冯孝周.新的改进AHP算法研究及应用[J].计算机技术与发展,2010,20(12):115-117.

[13] 王 磊,黄梦醒.云计算环境下基于灰色AHP的供应商信任评估研究[J].计算机应用研究,2013,30(3):742-744.

[14] 赵焕臣,许树柏,和金生.层次分析法[M].北京:科学出版社,1986:22-26.

[15] 魏翠萍.层次分析法中和积法的最优化理论基础及性质[J].系统工程理论与实践,1999,19(9):113-115.

猜你喜欢
可用性一致性数据挖掘
注重整体设计 凸显数与运算的一致性
改进支持向量机在特征数据挖掘中的智能应用
核电站DCS可用性测试应用研究
商用车CCC认证一致性控制计划应用
注重教、学、评一致性 提高一轮复习效率
探讨人工智能与数据挖掘发展趋势
机构知识库网站可用性评价指标的计量学分析
基于事故数据挖掘的AEB路口测试场景
云科学工作流中任务可完成性预测方法
软件工程领域中的异常数据挖掘算法