基于Graph Embedding的话单分析∗

2020-05-15 05:19韩文轻彭艳兵

计算机与数字工程 2020年2期

韩文轻彭艳兵

（1.南京烽火天地通信科技有限公司南京 210019）（2.武汉邮电科学研究院武汉 430074）

1 引言

由于话单分析在犯罪侦查中的作用越来越大，关于话单分析的方法也层出不穷。话单数据中包含着很多隐藏的信息，合理利用话单数据进行分析，可以辅助犯罪侦查工作，大大提高侦查效率。

目前关于话单分析的研究，大多基于社交网络进行分析。如根据通联次数和通联时间分析通连方与嫌疑人是何种关系［1～2］。一般同事主要在工作时间联系，工作之外基本不联系；朋友在吃饭时间联系的较多；情人在私密的时间联系的次数较多，时长较长；行贿的一般在节假日前后联系较多［3～4］。通过话单中的基站区码标识和小区标识判断嫌疑人通话时所在位置，分析嫌疑人的活动轨迹［5～6］。还可以判断嫌疑人的作案地与居住地，根据嫌疑人的通话时间与基站位置，判断嫌疑人的居住地与作案地［7～9］。通过分析嫌疑人亲密联系的人找出逃逸嫌疑人更换的手机号码［10～12］。这个可以根据该嫌疑人换手机号之前的话单分析，找出联系密切的几个人，分析这几个人在嫌疑人换号码前后新增的号码，从中找出共同联系人，从而发现嫌疑人使用的新号码［13～15］等。

根据社交网络关系分析的方法，虽然简洁便利，但是不能用机器学习算法进行话单分析。机器学习是现在的热门算法之一，如果能将机器学习算法用于话单分析，通过提取数据的特征，抽象出数据的模型，应用模型进行预测与分析，那么以后再遇到类似的问题，就可以直接将数据用模型分析。

2 特征设计

提取数据特征，是进行机器学习算法的第一步。本文提取话单数据中的用户号码、对方号码、通话时长、主被叫标志，然后进行特征设计。

在进行特征设计之前，先定义一些基本概念。

令Ω表示已知重点对象集合。

ck=s，t为一条由 s主叫 t的通联关系。为总体样本通联关系集合，其中n为通话记录总数。

I(x)为对象x的重要性指标，这个指标是根据已知对象的涉案程度来定义的，不同案件定义不同。s为主叫方，t为被叫方，那么I(s)和I(t)分别为主叫方s和被叫方t的重要性指标。

1A(x)为指示函数。

T(ck)为通话记录ck的通话时长。

定义了这些基本概念，接下来定义六个影响对象重要性的指标。

2.1 拨出重要性

Outs，＜s，ti＞表示在通话记录＜ s，ti＞中 s的拨出重要性。也就是说，若s与ti存在通联关系，且ti在已知重点集合内，那么s的拨出重要性就是通联双方s和ti的重要性指标的均值。在整个通话网络C中，s的拨出重要性累计为

2.2 接听重要性

In＜si，t＞，t表示在通话记录＜ si，t＞中 t的接听重要性。也就是说，若si与t存在通联关系，且si在已知重点集合内，那么t的接听重要性就是通联双方si和t的重要性指标的均值。在整个通话网络ℂ中，t的接听重要性累计为

2.3 拨出时长重要性

Du_outs，＜s，ti＞表示在通话记录＜s，ti＞中 s的拨出时长重要性。这里定义s的拨出时长重要性为s的拨出重要性与通话时长T(ck)的乘积以10为基的对数。后续会解释这么做的原因。那么在整个通话网络ℂ中，s的拨出时长重要性累计为

2.4 接听时长重要性

Du_in＜si，t＞，t表示在通话记录＜ si，t＞中 t的接听时长重要性。这里定义t的接听时长重要性为t的接听重要性与通话时长T(ck)的乘积以10为基的对数。那么在整个通话网络ℂ中，t的接听时长重要性累计为i

2.5 拨出广度

Ex_outs表示在通话记录＜s，ti＞中 s的拨出广度。这里s的拨出广度为ti在已知重点集合内的个数。

2.6 接听广度

Ex_int表示在通话记录＜si，t＞中 t的接听广度。这里t的接听广度为si在已知重点集合内的个数。

3 推荐模型

提取数据特征之后，要抽象出数据的模型。在建模之前，要先分析上述六个影响对象重要性指标的影响程度。

结合以往的案例分析，发现通联广度（即拨出广度与接听广度）对对象的影响力最大，通话（即拨出电话与接听电话）影响力次之，通话时长（即拨出时长与接听时长）对对象的影响力最小。

但是，从数据来看，对于对象影响力最小的通话时长的数值往往是最大的，我们把这种现象定义为外部极化现象。同时，通话时长的方差也是数据中最大的，我们把这种现象定义为内部极化现象。

在统计分析中，极化问题越严重，代表对于维度对数据集内部结构的解释就越大。这里用到的原理是主成分分析原理。

在数据挖掘中，极化问题往往导致模型偏向解释极化问题最严重的维度，从而弱化其他维度的影响力。

而在话单分析的问题中，我们希望提高通联广度和通话这两个影响因素对数据集的解释作用，降低通话时长的解释力。

为了解决上述问题，我们必须对数据进行无量纲和平滑处理。

而对于外部极化现象，我们采用离差标准化进行无量纲处理。

离差标准化函数为

在话单分析问题中，我们选择只对通联广度和通话影响力进行无量纲处理，也就是说不对通话时长的外部极化问题进行处理。

最后我们将对象的影响力（嫌疑度）定义为

也就是说，IC越大，其影响力（嫌疑度）越大。在实际应用中，对IC进行排序，选出IC较大的作为推荐对象。

4 实验与结果

4.1 实验数据源

数据源来自某案例的话单数据。话单数据中包含的信息非常多，但是根据我们的推荐模型，只需其中的部分数据。对原始数据进行预处理，提取我们所需的数据部分，处理后的结果部分如表1所示（部分数据做了匿名化处理）。

表1 处理后的数据

4.2 实验过程

根据第2节所给出的向量表示，我们先对数据质量、结构和分布进行探索。

由于特征向量包含六个影响力指标，属于多维问题。首先利用t-sne（t student stochastic neibor⁃hood estimation）对数据进行降维，然后在二维空间进行可视化，对数据处理后的结果如图1所示。

图1 降维后的结果图

可以发现上述数据集是一个可分集合，并且已知重点人具有明显的聚集情况。其中有一些较为离散的点是因为嫌疑人经常换手机，该手机号的话单数量较少，最终导致离群的现象。

接下来，采用k-Means聚类算法（center=5）对上述数据进行聚类，然后进行降维来实现可视化，得到的结果如图2所示。

图2 降维可视化效果图

由图可以看出聚类得到的类别划分较为显著，重点人都在同一簇内。这一现象再次说明我们的特征模型是合理的。

4.3 实验结果

对数据进行处理后，使用推荐模型进行计算IC，对IC进行排序，选出IC较大的作为推荐对象，处理得到的结果如图3所示。

图3 推荐结果图

图中xx标注的点即为模型推荐的排名前50的对象。可以看出它们聚集现象明显。

推荐的结果中，已知重点对象基本都在名单里面。而通过后期调查，发现未知人员大部分都是涉案人员。这个结果说明我们的推荐模型是可靠的。

推荐结果部分如表2所示（部分数据做了匿名化处理）。

表2 推荐结果

5 结语

本文用图嵌入的方法研究话单，图嵌入把图中的节点进行嵌入变成可计算的点，也就是把节点向量化。相较于以往的基于社交网络的方法，图嵌入的方法可以对向量化的数据进行建模分析。相对于以往的点和线的关系，图嵌入的方法更加具体化，更能表达点与线的关系。

通过将通话网络中的点和关系向量化，从而让将机器学习算法用于话单分析成为了可能。