基于辐射关系的数据行为响应机制研究

2016-02-27 03:52李春生李少龙邸京华张可佳
计算机技术与发展 2016年6期
关键词:辐射源数据模型代价

李春生,李少龙,邸京华,张可佳

(东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318)

基于辐射关系的数据行为响应机制研究

李春生,李少龙,邸京华,张可佳

(东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318)

在数据集成应用于构建智能化平台过程中,随着规模的不断扩大,大量数据的高频变更行为带来的联动影响导致平台工作稳定性及效率出现瓶颈。为了提高平台处理数据联动变更业务的准确性和高效性,文中提出数据辐射模型概念,借鉴分类分析方法描述辐射行为,针对其复杂程度与辐射范围制定出完整的行为响应规则。同时为进一步优化行为反馈效率,缩短处理时间,设计出基于时间代价优化的RD-TCO模型用于处理数据辐射行为,并完成基于辐射关系的数据行为响应机制(RDBR),以达到增加数据处理准确度、提高数据集成平台工作效率的目的。最后结合大庆油田某采油厂三次采油跟踪运行数据管理平台的实际使用情况,利用RDBR机制实现对平台中数据集成系统的设计与改进。

数据辐射;行为响应;时间代价优化;RD-TCO模型

0 引 言

数据集成技术经过数十年的发展,已经广泛应用于工业生产及工程施工各领域中,并发挥着举足轻重的作用[1]。由于数据规模的扩大和开发时效性的增强,对相关生产数据准确性与高效性的需求与日俱增,于是探究数据内部联动关系,制定迅捷有效的数据行为响应机制成为提高集成平台工作效率的关键[2-4]。辐射关系的提出将数据联动影响规则化,降低了大量数据行为变化过程中来源缺失、关系变更等现象带来的负面影响,解决了数据集成平台工作过程中由于数据联动关系带来的冗余与模糊[5]。

集成平台对数据动态的分析与管理为企业提供了实时的数据视图与灵活的查询服务[6]。虽然通过制定基于标准的元数据模型实现了数据变更的协同性,但由于集成数据频繁的行为变更与复杂的关系网络而依旧存在以下不足:

(1)由于工程需求的多变性,导致部分数据缺失状况严重或使用价值较小,造成数据来源定义模糊,数据获取方式混乱[2,7]。

(2)部分有动态化需求的数据由于关联数据从属关系的变更,计量单位、语义属性、计算方式等因素的改变,极大程度地降低了数据的准确度。

(3)当多个数据变更行为发生时,彼此之间涉及的数据模型可能存在错综复杂的获取顺序问题,导致集成平台工作效率的低下[8]。

针对上述问题,设计基于辐射关系的数据行为响应机制,提出数据辐射模型表示发生行为变化数据的关系属性及逻辑结构。通过分类分析的方法构建数据行为响应规则,设计RD-TCO模型,实现对多行为并发响应顺序的优化,达到提高数据联动变更准确率与多变更行为处理效率的目的。

1 引入数据辐射模型

数据辐射概念源于数据集成平台工作中频发的数据变更过程所产生的联动影响,现将其定义为由于部分数据模型发生逻辑属性、计算方式、数值内容等数据行为变化造成关联数据模型属性与功能的变更[9-10]。

在数据集成平台中,当部分数据发生行为变化时,称该数据为辐射源数据Ds。Ds是造成数据辐射的主要原因。将受Ds影响发生改变的数据集合称为辐射域β,β内具体受影响的数据元素称为辐射域影响因子φ。

数据辐射模型可描述为一个五元组[11](触发标识γ,辐射元素Rdf,业务属性Buf,辐射域β,辐射关系α)。

触发标识γ作为检测数据是否发生变更行为的触发器,默认未发生变更时状态为0,发生变更时置为1。辐射元素Rdf是模型中发生变化的数据元素集合,具体表示形式为:

业务属性Buf用以描述Rdf中数据元素在实际项目中代表的含义以及计量单位等具体功能。辐射域β表示受Rdf辐射的数据模型的集合矩阵,具体表示形式如下:

辐射关系α包含了辐射数据Rdf与辐射域β中对应数据元素的获取方式。因此一个基于辐射关系的源数据模型可直接表示为:

2 辐射关系的分类

辐射关系分为数值行为辐射与关系行为辐射[12]。其中数值行为辐射较为简单,只需考虑数值变化时对辐射数据的影响,具体包括:

数值变更。源数据模型中只有数据元素的数值发生变化,其一般表述形式为:

业务属性变更。在项目中表达的含义发生变化,如月度数据更改为旬度数据、计量单位的变化等,可能会造成数值的连带变更,其一般表述形式为:

关系行为辐射因源数据与辐射数据对应关系发生变化需要考虑因素众多,较为复杂,具体包括如下两种情况。

(1)辐射关系变更。源数据模型获得辐射数据时对应的计算方式发生变化,其一般表述形式为:

(2)辐射源变更。辐射源的变更分为新增、删除与替换每项变更在发生时都有可能造成对应关系的变化,其一般表述形式为:

在分析辐射源变更情况时,首先对源数据与辐射数据的对应关系进行分类。

当且仅当e→en时总有:

则认为M1和M2存在SCI型关系。

当e→en时总有:

则认为M1和M2,M3,…,Mk存在SCS型关系。

rv=linkp(e1,e2,…,et);{e1∈Rd1∈M1,e2∈Rd2∈M2,…,et∈Rdt∈Mt}

当e1→en1,e2→en2,…,et→ent时总有:

rvn=linkp(en1,en2,…,ent)

则认为M1,M2,…,Mt和Mv存在MCN型关系。由于辐射数据模型中不同数据元素可以受多个辐射源影响,所以辐射源与辐射数据的对应关系可以是三种关系的交集。

行为响应规则的制定如下所述:

针对数值行为和关系行为具体分类情况,研究辐射数据在受到数据行为影响后的变化规律,提出如下响应规则:

Rule1:当发生辐射行为时,将触发标识γ置为1,并判断辐射行为如果是数值行为则进行Rule2,否则进行Rule3。

Rule2:当发生数值变更行为时,依据原有辐射关系搜索辐射域影响数据元素和业务属性进行修改。

Rule3:判断关系变更行为类型,如果是辐射关系的变更则进行Rule4,否则进行Rule5。

Rule4:当发生辐射关系变更时,修改辐射关系,将新的辐射关系αn赋予源数据模型。

Rule5:当变更行为是辐射源的增加时,建立新的辐射关系。如果变更行为是辐射源的删除且关系不为MCN型,则将辐射域β内所有辐射数据元素Rdf删除,否则判断其他n-1个辐射源是否发生辐射关系之内的替换行为,发生则对源数据模型的辐射域和辐射关系进行修改,不发生则直接进行删除。

当变更行为是辐射源的替换时,将原有辐射关系α从旧辐射源中剔除,如果是SCI型、SCS型,则关系α赋予新辐射源,否则建立新辐射关系。

Rule6:在Rule2、Rule4、Rule5完成之后将辐射数据模型标记为新的辐射源模型,重新进行Rule1直至触发标识为0。

3 基于RD-TCO模型的响应执行过程

通过对辐射关系的分类以及针对性的行为响应规则设计,对数据辐射行为有了基本的处理方法。但当多个辐射行为发生时,数据模型通常会处于一个较为复杂的关系网之中,因此设计一套高效有序的响应执行模型变得至关重要[13]。将辐射关系简化为一个执行顺序有向图G,D表示辐射关系中所有涉及的数据模型集合,F表示执行辐射响应所需时间代价的集合,因此行为响应模型的实际功能转化为图的路径搜索优化问题。涉及路径问题常使用的几种算法其时间代价相对固定,且不能直观地反映各顶点之间路径序列的先后关系[14]。所以,为了提高效率,减少无谓的重复比较计算,文中提出了基于数据行为响应顺序的时间代价优化算法。

第三步,若T(k+1)=T(k),得到最优执行顺序,算法终止,否则返回第二步。

RD-TCO模型的引入如下所示。

应用时间代价优化算法进行RD-TCO模型的构建。对图1所示的执行顺序有向图G1进行执行顺序求解。

图1 执行顺序有向图G1

针对数值行为和关系行为具体分类情况,构建初始状态矩阵T(0)和关系矩阵R(0):

对关系矩阵R(0):

此时将节点V2加入路径,即V1到V3的路径需经过V2。

插入节点V2加入路径:

将方法推广至T(1)和R(1)中所有元素,得到时间代价矩阵T(1)和关系矩阵R(1):

显然有T(1)≠T(0),需要继续执行顺序优化,利用上述方法得到时间代价矩阵T(2)和关系矩阵R(2):

其中,p表示图的稀疏程度。

时间T可以表示为:

表1 RD-TCO模型与一般传统方法性能比较表

由此可见,基于时间代价优化的RD-TCO模型在复杂行为关系执行顺序的问题上具有高效紧凑的优势[15]。

4 设计实例

以RD-TCO模型为基础,设计数据辐射行为响应机制,对油田施工中的生产数据及相关作业历史数据的联动变更进行更新与修改,应用在大庆油田某采油厂地质大队、作业大队等相关单位。选择较为有代表性的采油区块月度注入数据进行说明,如表2所示。

表2 采油区块月度注入动态数据表

表2选取了区块月度注入动态数据模型中若干数据元素,既包括受多个辐射源影响的视吸水指数、注采比,还有模型内部辐射的开井率等,因此极具代表性。为了提高效果的直观性,选取6个变更样本,如表3所示。

根据辐射类型将样本进行分类,可知1、2号样本属于数值变更,5号属于业务属性变更,3号属于辐射关系变更。4、5号分别属于MCN型、SCI型辐射源变更。

分析6个样本的辐射关系和涉及数据元素估算具体行为执行时间代价,根据RD-TCO模型计算出最优化执行顺序为:

V1→V2

V1→V4→V3

V1→V4

V1→V4→V3→V5

经过上述分析计算可知,当辐射行为的并行发生量增至1 000条时,传统方法较基于辐射关系的行为响应机制语句执行频度高出约56%,所以该机制对于数据执行效率具有较为明显的提升。

表3 数据行为变更样本表

将上述样本实验应用于另外20余个辐射关系模型,其中17个模型在实际运行过程中未出现系统崩溃和数据错误问题,2个模型运行过程中出现系统崩溃,经工作人员排查,系计算机硬件问题,1个模型发生数据错误问题,属于人工录入错误。由此可见基于辐射关系的行为响应机制可以应用于数据集成平台等领域。

根据基于辐射关系的行为响应机制开发的数据管理平台已经正常工作,凭借对联动数据变更高效而准确的处理受到了应用单位的较好评价。

5 结束语

文中提出了基于辐射关系的数据行为响应机制,定义了数据辐射基本概念,对辐射关系中数据元素进行结构化的描述,采用分类分析的方法对数据行为进行了分类并设计了针对分类情况的响应规则,同时根据多辐射关系特征引入基于时间代价优化算法的RD-TCO模型完成了行为响应机制并节约了响应的时间成本,实现了提高集成数据联动反应准确度与效率的目的。

[1]MezniH,ChainbiW,GhediraK.AWS-Policy:anextensionforautonomicwebservicedescription[J].ProcediaComputerScience,2002,10:915-920.

[2] 刘 威,杨 丹.基于虚拟视图的异构数据库集成平台的研究[J].计算机技术与发展,2009,19(6):91-94.

[3] 宋洪涛.基于SDO的异构数据集成系统的设计与实现[D].北京:北京邮电大学,2009.

[4] 丰江帆,李林,杨富平,武志涛,袁正午.基于ServiceGIS的震害应急数据集成方法研究与应用[J].重庆邮电大学学报:自然科学版,2011,23(1):111-114.

[5] 徐俊刚,裴 莹.数据ETL研究综述[J].计算机科学,2011,38(4):15-20.

[6] 丁卫亮.基于本体异构数据集成方法的研究[D].杭州:浙江工业大学,2009.

[7] 徐 晶,许 炜.消息中间件综述[J].计算机工程,2005,31(16):73-76.

[8] 曹洋洋.空间数据库增量联动更新办法研究[D].杭州:浙江大学,2014.

[9] 林 源,陈志泊.分布式异构数据库同步系统的研究与应用[J].计算机工程与设计,2010,31(24):5278-5281.

[10] 黄建平.基于SQLServer数据库日志的信息源监测方法的研究与实现[D].广州:暨南大学,2007.

[11] 高雅田,李春生,富 宇.基于关系数据分析的知识服务模型[J].计算机工程,2011,37(5):56-58.

[12] 张 锋,张莉莉.触发器在数据处理过程中的应用研究[J].计算机工程与科学,2008,30(5):156-158.

[13]HuJ,KhalilI,HanS,etal.SeamlessintegrationofdependabilityandsecurityconceptsinSOA:afeedbackcontrolsystembasedframeworkandtaxonomy[J].JournalofNetworkandComputerApplications,2011,34:1150-1159.

[14] 徐小玲,彭 京,石葆梅,等.一种基于边序列的任意两点间最短路径算法[J].计算机工程与应用,2005,41(29):88-90.

[15] 袁鼎荣,张师超,朱晓峰,等.基于相对等待时间的代价敏感决策树[J].计算机科学与探索,2007(3):314-324.

Research on Response Mechanism of Data Behavior Based on Radiation Relationship

LI Chun-sheng,LI Shao-long,DI Jing-hua,ZHANG Ke-jia

(College of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China)

In the process of applying data integration in building an intelligent platform,with the continuous expansion of scale,the high frequency change of large amounts of data has caused a bottleneck in the work stability and efficiency of the platform.In order to improve accuracy and effectiveness in data linkage model,a radiation relationship is proposed and referring to classification analysis method,rules of behavior response for different situations is formulated,drawing up a complete response rule based on its complexity and radiation range.At the same time,the RD-TCO model is designed to optimize the feedback efficiency and shorten time cost of response,finishing the response mechanism of data behavior based on radiation relationship.To achieve the purpose that increase the accuracy of data and improve the efficiency of the data integration platform.Finally,in combination with the three oil recovery operation platform of a production plant in Daqing Oilfield,the design of data integration system in the platform via RDBR mechanism is implemented.

data radiation;behavioral response;optimization of time cost;RD-TCO model

2015-09-11

2015-12-11

时间:2016-05-25

黑龙江省科学基金项目(F2015020)

李春生(1960-),男,博士,教授,博士生导师,研究方向为人工智能及其应用、模式识别与人工智能;李少龙(1990-),男,硕士研究生,通讯作者,研究方向为人工智能与信息处理技术。

http://www.cnki.net/kcms/detail/61.1450.TP.20160525.1706.032.html

TP312

A

1673-629X(2016)06-0146-05

10.3969/j.issn.1673-629X.2016.06.032

猜你喜欢
辐射源数据模型代价
基于博弈论的GRA-TOPSIS辐射源威胁评估方法
数字电视外辐射源雷达多旋翼无人机微多普勒效应实验研究
面板数据模型截面相关检验方法综述
外辐射源雷达直升机旋翼参数估计方法
爱的代价
分布式数字广播电视外辐射源雷达系统同步设计与测试
代价
财政支出效率与产业结构:要素积累与流动——基于DEA 和省级面板数据模型的实证研究
成熟的代价
基于分位数回归的电力负荷特性预测面板数据模型