数据挖掘在“拍照赚钱”任务定价中的应用

2018-08-18 08:23程子庚赵珂瑶李倩李艺璇
数字技术与应用 2018年4期
关键词:数据挖掘

程子庚 赵珂瑶 李倩 李艺璇

摘要:“拍照赚钱”是移动互联网下的一个自助式服务模式。APP用户会员通过完成需要拍照的任务,赚取对任务所标定的酬金。因此,任务定价是该平台运行的核心要素。本文利用数据挖掘的手段探索位置、任务、会员等相关因素与任务定价乃至任务认领完成情况的量化关系,实现统计建模,并优化了任务定价分配方案。

关键词:统计建模;任务定价;数据挖掘

中图分类号:TP391;F274 文献标识码:A 文章编号:1007-9416(2018)04-0114-02

1 问题分析

1.1 模型背景

“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务,赚取APP对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。因此APP成为该平台运行的核心,而APP中的任务定价又是其核心要素。如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。

1.2 模型假设

(1)本文所提供的数据均真实可靠;(2)题目中位置均忽略高度属性,即位置之间的距离均采用二维平面距离进行计算;(3)针对短时间同一个模型,认为其社会环境系统是不变的;(4)针对短时间内的会员信息数据,认为会员的数量、地理位置、信誉值等相关属性均保持不变;(5)忽略行业内部不正当竞争对模型产生的畸形影响;(6)每一个位置视为一个质点,且不考虑道路阻塞的情况。

1.3 模型分析

此题本质上是一个基于人机交互系统的计算任务定价的数据建模问题。用户首先注册成为会员,并上传自己的GPS经纬度信息,获取初始信誉值。会员根据个人情况,从数据库发布的任务信息中预订并完成任务来赚取酬金。系统则根据累计的交易情况、会员的反馈不断更新数据库信息,并以此不断地调整任务价格以及适当地采取任务联合打包的方式提高会员完成任务率。

2 模型建立与求解

2.1 任务定价规律的研究

2.1.1 模型的建立

本文以经度和纬度以及其相应的任务标价的观测数据为出发点,通过对这种数据结构的分析研究,寻找变量之间的依赖关系。按回归模型类型可以将其划分为线性回归分析和非线性回归分析。为将问题简化,即认为该问题是一个二元线性回归问题,并主要采用二元线性回归分析的方法来初步研究项目的任务定价规律。

设因变量定价Y与2个解释变量经纬度x1和x2之间具有线性相关关系,则有(2-1):

其中,是残差。

2.1.2 模型的求解

利用计算机求解该模型,得到模型的回归系数估计值及其置信区间(置信水平)、检验统计量R2,F,p,s2的结果如表1。

得到线性回归关系的表达式为(2-2):

(2-2)

2.1.3 结果分析

表1顯示,R2=0.0148指因变量y的1.48%可由模型确定,F值并没有远远超出临界值,s2作为方差也相对较大,所以该线性回归并不合理。

一般在生产实践和科学研究中,人们得到了参数x=(x1,…,xn)和因变量y的数据,需要求出关系式y=f(x),这时就可以用到回归分析的方法。进行线性回归时,有三个基本假定:(1)待定参数是线性关系;(2)残差是独立的;(3)残差满足标准正态分布。

因变量Y的值是随每组观察值(x1,x2)而变化的,可以看出,并非所有残差都在0点附近均匀分布,即存在较多高杠杆点,故数据中存在强影响点、异常观测点。根据以上分析得出使用线性回归来描述标价与任务位置之间的关系并不合理,于是采取数据建模的方法,直接对不同价格的位置进行聚类来分析标价与任务位置的关系。在具体求解过程中采用了K-Means方法。通过对标价的数值大小将其聚类为4类。标价与位置并未呈现一个均匀的、有规律性的线性分布。因此,使用简单的线性回归对任务标价进行研究是不可行的。

2.2 任务未完成原因的分析

任务完成情况与任务位置和任务标价有着显著的关系。结合实际情况分析得出如下结论:

(1)未完成的任务在地理位置上呈集中分布,所以任务的完成率跟地理位置有明显的相关关系。未完成的任务主要分布在中心点分别为(22.60,114.00)、(23.18,113.11)、(23.05,113.10),半径分别为0.2、0.1、0.05的邻域中;(2)已完成任务的定价分布跨度较大,在45和90之间都有很显著的分布倾向,期望Ex位于70的右侧;未完成的任务定价,期望Ex位于70的左侧。所以任务的完成率与任务的定价有关;(3)任务未完成,一部分原因是任务点在较偏远区域,另一部分原因是虽然任务点在中心区域,但任务量多,标价较低,对会员的吸引力不足;(4)任务未完成还可能与会员所在地区有关。定义一个比值即任务数与会员数的比例来衡量该地区任务的拥挤程度:比值越大,任务越拥挤,完成情况越不理想;反之则完成情况理想。

3 模型优化

3.1 打包优化指标的提出

配额ReLU(修正线性单元)系数:会员信誉值与会员的任务预订限额并非简单的线性关系,由相关背景知识可得,新用户只能预定一个任务,预定的数量随信誉的提高而增长,因此,这里引入配额ReLU系数,由式(3-1)分段表示: (3-1)

邻域内会员活跃度:第j个会员在点a的领域内配额数与该邻域任务总数量的比值。

预订限额与会员的信誉有关,原则上,会员的信誉越高,获得的参与任务的机会也就越高,信誉高的会员可以拿到更多的酬金。即任务标价、会员活跃度和任务完成率是一个三维闭循环关系。

邻域内任务密度:范围内的任务总和形成的密度值

3.2 贪心算法分配打包任务

改进后的定价方案可以提升任务执行的成功率,但是部分任务分布不均匀,任务附近会员人数、会员预定任务限额和信誉度都相差较大,导致部分区域的任务因分配方式不合理而无法成功完成,部分任务被附近较多的会员争相选择。本文考虑将任务联合在一起打包发布,如图1红色表示被纳入到已打包集合内的任务点,蓝色表示距离该集合最近的任务点。采用贪心算法,每一步都计算得到当前最优解纳入集合,从而解决问题。

为了降低公司成本,本文设计了打包后价格调整方案,考虑适当降低打包后的任务标价:

其中,fnew为调整后的任务标价,Cl为会员预定的从小到大重新排列后的第l个任务的标价,Limit为会员预定任务的限额。

3.2.1 目标函数和约束条件的确定

该模型是一个双目标模型,以距离最近为第一优化目标,将距离最近的5个任务打包联合发布,目标函数为(3-6);分析上述指标的含义并结合模型一与问题二的结论,以定价最低为第二优化目标,目标函数为(3-7)。

根据以上目标建立优化模型,在题目给定的可行域中寻求最优解。

约束条件(3-8):公司提供酬金的最高预算为budget;

约束条件(3-9):打包后的会员活跃度不能低于当前活跃度;

约束条件(3-10):打包后的完成率期望不能低于当前期望。

3.2.2 打包模型的求解

根据上述模型,利用计算机求解。得到打包之前,任务未完成区域大致为3类,打包之后未完成任务的数量明显减少,减少了39.94%,聚簇程度明显降低,且仅聚为2类。

参考文献

[1]杜剑平,韩中庚.“互联网+”时代的出租车资源配置模型[J].数学建模及其应用,2015,4(4):40-49+85.

[2]张媛.大众参与众包的行为影响因素研究[D].东北财经大学,2011.

[3]姜启源.多属性决策中几种主要方法的比较[J].数学建模及其应用,2012,1(3):16-28.

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议