基于隐私度量的数据定价模型

2019-10-08 07:45彭慧波周亚建
软件 2019年1期
关键词:计算机应用技术信息熵

彭慧波 周亚建

摘  要: 有价值的数据资源充分流动,可以实现大数据产业的长期,稳定和可持续发展。本文讨论了通过构建以合理定价为中心的数据交易机制来利用经济杠杆来激励数据流的想法。首先,本文结合信息熵,提出了一种基于分级的交易数据集隐私度量方法;其次,基于数据集中的隐私含量和数据引用指数提出了一种数据定价模型对待交易数据元组进行定价;最后,结合一个实际的交易数据集验证了模型的正确性、合理性、有效性。

关键词: 计算机应用技术;数据定价;隐私度量;信息熵;隐私分级

中图分类号: TP399    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2019.01.012

【Abstract】: With valuable data resources flowing fully, the long-term, stable and sustainable development of the big data industry be realized. The idea of using economic levers to motivate data flow through the construction of a data transaction mechanism centered on reasonable pricing has been discussed in this paper. Firstly, this paper proposes a classification-based transaction data set privacy measurement method based on information entropy. Secondly, based on the privacy content and data index of the data set, a data pricing model is proposed to price the transaction data tuple. Finally, a specific example has been used to verify the correctness, rationality and effectiveness of the pricing model.

【Key words】: Computer application technology; Data pricing; Privacy measurement; Information entropy; Privacy rating

0  引言

随着信息技术的快速发展,时刻都有海量数据的产生,但是这些数据都是停止不动的,形成了一个个信息孤岛。数据作为一种在一定程度上不可共享的资源,逐渐演变成为一种可进行交易的商品,数据资源成为人类社会一种必不可少的生产要素与战略资产[1]。为了促进数据的流动这就需要数据交易的支持。但是,由于缺乏规范的交易渠道和统一的交易规范,现在并没有统一的数据交易平台。而数据交易的平稳、健康发展又离不開数据定价方法的支持。目前仍未能在全球领域内形成对数据定价方法的统一认识。因此,如何实现数据定价理论中定价机制的公开化、数据价格的透明化,一直是困扰国内外科研人员以及大数据从业者的重大问题。

要解决这个问题,隐私风险分析及评估不失为一种可行解决方案。但隐私风险分析及评估,尤其是量化隐私风险,势必会涉及隐私度量问题。从这些分析来看,隐私度量的研究具有十分重要的理论意义和应用价值。目前对于隐私度量的研究主要是基于 Shannon信息论的通信框架,提出了几种隐私保护信息熵模型,以解决隐私保护系统的相关度量问题。信息熵作为信息度量的有效工具,在通信领域已展现出其重要的贡献。为此,不少学者或多或少进行了探索,提出了比如事件熵、匿名集合熵、条件熵形式化分析和分布概率数学理论等在内的相关理论[2]。然而这些方法在实际应用中并不能达到理论上所提到的隐私保护的效果,并且存在不同程度的不足或缺陷。此外,目前关于隐私度量的研究还较为零散,更多地是针对某一特定领域,如位置隐私保护,目前还尚未形成统一的模型及体系。其应用范围也受到限制,特别是隐私是具有时空性的,与人的主观感受也有关系,不同的人对同一隐私的认同可能不同。然而在数据交易的过程中,隐私含量作为一个影响数据定价的重要特征,如何衡量数据集中隐私含量就显得尤为重要。目前尚没有一种针对待交易数据集中隐私含量的度量方式[3]。

在研究过程中本文的研究对象主要是待交易数据集中的各个元组。此外,本文做出以下假设:(1)数据拥有者和数据购买者对数据和其中包含的敏感信息都十分关注,出于法律等因素的约束,可信第三方不会主动泄露数据中的敏感信息;(2)数据拥有者和数据购买者都是理性的,是否出售和购买数据都是通过合理分析得出,包括成本、收益、风险在内的所有因素都可以用价格进行衡量;(3)本文从数据交易平台的角度出发,结合数据本身特性分析交易数据集的价格,得出的结果均不考虑除数据本身之外其它因素对价格所带来的影响;(4)本文所设定的模型不考虑套利和整体折扣的情况。

基于以上论述,本文提出一种基于信息熵的隐私度量方法,并在此基础上建立基于隐私度量的数据定价模型。

1  相关工作

包括微软、亚马逊、贵州大数据交易所、上海大数据交易中心在内的国内外数据交易平台结合多年来的实践经验,提出了包括基于次数定价、基于固定费用定价(只与使用时间有关)、双方税率定价(先收取基本费用,每次使用收取固定费用)、免费增值定价(使用开放数据免费,使用额外服务收取一定费用)在内的不同数据定价方法。

参考文献

[1] Gkatzelis V, Aperjis C, Huberman B A. Pricing private data[J]. Electronic Markets, 2012, 25(2): 1-15.

[2] 彭长根, 丁红发, 朱义杰, 等. 隐私保护的信息熵模型及其度量方法[J]. 软件学报, 2016, 27(8): 1891-1903.

[3] 连玉明. 重新定义大数据[M]. 北京:机械工业出版社, 2017: 164-175.

[4] 张晓玉. 基于讨价还价博弈的大数据商品交易价格研究[D]. 辽宁科技大学, 2016.

[5] Riederer C, Erramilli V, Chaintreau A, et al. For sale: your data: by: you[C]//ACM Workshop on Hot Topics in Networks. ACM, 2011: 13.

[6] Niyato D, Alsheikh M A, Wang P, et al. Market model and optimal pricing scheme of big data and Internet of Things (IoT)[C]//IEEE International Conference on Communications. IEEE, 2016.

[7] Balazinska M, Howe B, Koutris P, et al. A Discussion on Pricing Relational Data[M]//In Search of Elegance in the Theory and Practice of Computation. Springer Berlin Heidelberg, 2013: 167-173.

[8] Shen Y, Guo B, Shen Y, et al. A Pricing Model for Big Personal Data[J]. 清华大学学报: 自然科学英文版, 2016, 21(5): 482-490.

[9] 陈筱贞. 大数据交易定价模式的选择[J]. 港澳经济, 2016(18): 3-4.

[10] 刘朝阳. 大数据定价问题分析[J]. 图书情报知识, 2016(1): 57-64.

[11] Moiso C, Minerva R. Towards a user-centric personal data ecosystem The role of the bank of individuals' data[C]// International Conference on Intelligence in Next Generation Networks. IEEE, 2012: 202-209.

Muschalle A, Stahl F, L?ser A, et al. Pricing Approaches for Data Markets[C]//Workshop Business Intelligence for the Real Time Enterprise. 2012: 129-144.

赵子瑞. 浅析国内大数据交易定价[J]. 信息安全与通信保密, 2017(5): 61-67.

干春晖, 钮继新. 网络信息产品市场的定价模式[J]. 中国工业经济, 2003(5): 34-41.

Tsai Y C, Cheng Y D, Wu C W, et al. Time-Dependent Smart Data Pricing Based on Machine Learning[M]// Advances in Artificial Intelligence. 2017: 103-108.

熊金波, 王敏燊, 田有亮, 等. 面向云数据的隐私度量研究进展, 软件学报, 2017, DOI:  10.13328/j.cnki.jos.005363.

Balazinska M, Howe B, Dan S. Data Markets in the Cloud: An Opportunity for the Database Community[J]. Proc of the Vldb Endowment, 2011, 4: 1482-1485.

王文平. 大數据交易定价策略研究[J]. 软件, 2016, 37(10): 94-97.

Li C, Li D Y, Miklau G, et al. A Theory of Pricing Private Data[J]. ACM Transactions on Database Systems (TODS), 2014, 39(4): 34.

Koutris P, Upadhyaya P, Balazinska M, et al. Query-based data pricing[C]//Symposium on Principles of Database Systems. ACM, 2012: 167-178.

Tang R, Wu H, Bao Z, et al. The Price Is Right[C]// International Conference on Database and Expert Systems Applications. Springer Berlin Heidelberg, 2013: 380-394.

[22] 彭云聪, 任心晴, 石浩森. 基于核加权KNN和多目标优化的众包平台定价系统设计[J]. 软件, 2018, 39(6): 150-154.

猜你喜欢
计算机应用技术信息熵
基于信息熵可信度的测试点选择方法研究
基于小波奇异信息熵的10kV供电系统故障选线研究与仿真
基于信息熵的实验教学量化研究
一种基于信息熵的雷达动态自适应选择跟踪方法
计算机应用技术对企业信息化的影响
计算机应用技术学科建设实践与发展探讨
计算机应用技术专业应用现代信息技术组织教学的工作综述
计算机应用技术与企业信息化建设
基于信息熵的IITFN多属性决策方法
泊松分布信息熵的性质和数值计算