基于文本挖掘的高速公路不合格绿通车致因机理建模

2023-11-22 05:54陈娇娜陶伟俊靳引利
交通科技与经济 2023年6期
关键词:子群词频通车

陈娇娜, 陶伟俊 , 靳引利

(1.西安石油大学 电子工程学院,西安 710065;2.长安大学 电子与控制工程学院, 西安 710061)

近年来,鲜活农产品的运输需求、通行量、运输范围不断扩大,高速公路鲜活农产品免费政策自执行以来对降低农产品物流成本、推动区域经济发展发挥了重要作用。高速公路绿通车的检查策略是“宽进严出”,绿通车在收费站出口检查通过即可免缴通行费。随着信息化水平的不断提升,使得收费站稽查业务数据采集更加便捷,同时稽查业务的流程记录更加细致。绿通车涉及减免的车次以及金额数量巨大,是高速公路收费稽查不容忽视的重要环节,如何将庞杂的业务数据转化为业务知识是高速公路运营管理部门亟待解决的问题。

高速公路绿通车过站检查时会形成电子运单数据和检测设备采集图像数据,一些学者针对这些数据源构建了假冒绿通车识别模型:陈浩泰[1]利用陕西省10 146条样本建立针对家禽肉运输的逻辑回归(LR)模型;申长春[2]利用装袋算法(BA)将多个基分类器集成为强神经网络分类器,提升假冒绿通车判断的有效率;张凡等[3]采用SMOTE过采样算法构建基于Logistic回归的非绿通车预警模型,准确性和特异性均超过0.89;王萍等[4]提出绿通车运载货物放射源图像六分类识别模型;刘昱岗等[5]利用决策树建立假冒绿通车预测模型,提出的预测模型准确率高于逻辑回归模型和随机森林模型;孔令帅等[6]利用社会网络分析法研究绿通车生鲜农产品区域时空流通模式。通过以上文献研究和实际调研可知,目前对高速公路绿通车查验方面的研究内容还不够丰富,数据集主要针对稽查业务数据和联网收费数据中的结构化属性字段,尚未涉及业务数据中文本记录信息。现有理论模型多为绿通车是否合格的概率研判,并未对查验不合格车辆的致因机理深入讨论。

现阶段,社会公众对绿通车政策的关注逐渐增加,同时,货车司机对查验效率、业务过程体验的要求不断提升。由于对政策不熟悉或其他外部原因会出现车辆驾驶员意外违规。据统计,在不合格绿通车中故意违规的占比较小,绝大多数为意外违规。对查验不合格车辆的文本信息进行挖掘,有利于识别且及时更新易混淆农产品目录、典型逃费作弊手段等项目,而且对鲜活农产品运输从业人员装载指导、收费稽查人员业务培训均有实际意义和价值。Diaz等[7]开展关联规则在文本社交媒体的应用;Hong等[8]采用关联规则挖掘算法研究高速公路危险品运输事故;Zheng[9]介绍网页文本的挖掘方法;Wang等[10]提出电力设备运行维护中的短文本挖掘框架;Halim等[11]和Liu等[12]利用自然语言处理分别建立管道事故的因果模型;吴伋等[13]利用文本挖掘分析内河船舶碰撞事故致因的重要因素;李珏等[14]和薛楠楠等[15]分别提取建筑施工安全事故的致因集合和关键因素;陈农田等[16]基于民航文本信息提出进近着陆致险因素重要度分析方法;Wang等[17]构建基于历史缺陷文本的电力设备缺陷分析模型;Li等[18]和Qiu等[19]分别提出文本挖掘的煤矿安全风险因素识别方法。还有一些学者[20-22]开展了文本信息中的风险因素识别研究,这些研究为高速公路不合格绿通车文本信息挖掘提供了技术基础。

综上所述,以高速公路绿通车查验业务数据中自然语言描述的文本信息为研究对象,探讨不合格绿通车致因机理;运用文本挖掘、社会网络分析和关联规则算法,确定致因要素之间的耦合关系以及层次结构;通过分析查验不合格致因关键因素,挖掘绿通车查验业务规律,可以为绿通车数据治理、数据资源化提供技术支持,对提高收费站通行效率、服务水平以及服务质量具有积极意义。

1 数据来源与预处理

1.1 数据来源

以2020年1月至2022年6月陕西省高速公路绿通车查验业务数据为基础数据源,业务数据中记录了查验时间、判别结果、出口收费站、车辆重量等属性字段,同时,对于查验结果为不合格的记录会对原因进行文本描述。不合格样本量为26 099条,其中具有文本信息记录样本14 811条。文本记录示例如表1所示,当一条样本中存在多个不合格原因时分别计数。样本数据查验不合格类型分布如表2 所示。由表2可知,“未达核定载质量和车厢容积80%以上”“货物非《目录》内”“混装非鲜活农产品”依次为比例最高的不合格类型,利用数据集进行文本挖掘对业务知识发现具有实际意义。

表1 文本记录示例

表2 样本数据查验不合格类型统计

1.2 文本信息预处理

文本信息是一种非结构化数据,需要经过预处理转化为结构化数据。文本数据预处理主要包括自定义词典、分词、去停用词、词组合并。

1)自定义词典。建立绿通车业务词典,包括专有名词、交通术语、农产品目类、业务缩略词等。例如,电子不停车收费(ETC)、高速公路复合通行卡(CPC)、绿通、稽查、圣女果、小西红柿、黑布林、百香果、牛油果、车厘子、娃娃菜等。

2)分词。结合分词词典和自定义词典,采用Jieba算法中的精确模式对文本进行分词。

3)去除停用词。剔除标点符号、数字、语气词及与挖掘主题无关的词,例如,这、该、此、车辆、车厢、该车等。

4)词组合并。由于不同业务人员表述习惯不同,会出现语义相同但表述不同的词组,对该类词组进行归并。例如{圣女果,小西红柿,小番茄}{混装,混杂,夹杂,混杂}{司机,驾驶员}等。

根据预处理结果动态调整以上步骤,重复多次分词直至符合挖掘要求。

1.3 统计性描述

采用词袋模型表示原始文本特征项,即忽略语法和语序的影响,认为每个词汇都是独立的,统计每个词汇的出现次数。文本信息经过预处理后得到4 144个独立词汇,词频的描述性统计如表3所示。由表3可知,词频分布方差较大,且大部分词汇出现频率极低。通过高频词汇提取关键词可实现文本数据的降维。

表3 词频描述性统计

2 基于文本挖掘的致因机理建模

2.1 模型架构

基于文本挖掘的高速公路不合格绿通车致因机理建模过程如图1所示。预处理后的词袋模型具有高维稀疏的特点,需要降维以减小计算复杂度。建立降维后的关键词共现矩阵,运用社会网络模型分析每个独立词汇在致因网络中的重要程度。同时,利用聚类算法量化独立词汇之间的耦合关系和关联规则。最后,对分析结果进行业务知识解释,以实现绿通车业务数据资源化。

图1 不合格绿通车致因机理建模过程

2.2 关键词提取

由表3可知词频的平均值为11.16,且偏度大于0,说明词频分布呈偏态。综合考虑词频的统计特征,选取12作为频数指标阈值,即将词频大于12的词汇作为关键词。此时文本特征项数量为327,小于10%×4 144=414.4,说明文本特征项共现矩阵维度由4 144×4 144下降为327×327。对词频进行直方图统计,不同频数阈值的累计百分比如图2所示。由图2可得,频数大于12的词汇累计占比为92.7%,此时涵盖了绝大多数的文本信息。可见,关键词提取阈值选取恰当。按照词频从大到小对文本特征项进行编号,部分关键词如表4所示。绘制关键词的词云图(见图3),图中字的大小与该特征项频数成正比。

图2 不同频数阈值的累计百分比

图3 关键词词云

表4 关键词提取示例

2.3 共现矩阵

表5 共现矩阵

2.4 社会网络分析

采用社会网络分析方法,以文本特征项Di为网络节点i,共现性程度xij为节点间的该网络边联系强度,量化分析网络中群体间以及个体间的层级特征和关联关系。通过网络密度和度中心度分析某个特征项Di(节点)在网络中的重要程度,构建基于文本特征项的不合格绿通车致因网络模型,该网络为无向图。

步骤1:计算绝对点度中心度Ci,也称绝对中心度,表示节点i与其他n-1个节点的直接联系总数,如式(1)所示。

(1)

式中:Ci为绝对点度中心度;xij为共现性程度;n为网络节点个数,n=327。

(2)

步骤3:计算点度中心度占比Pi,表示节点i在整个网络中的占比,如式(3)所示。

(3)

式中:Pi为点度中心度占比。

步骤4:计算网络密度T,算式如式(4)所示。

(4)

式中:T为网络密度;L为实际网络联系数。

2.5 凝聚子群分析

凝聚子群指在集合中具有直接、紧密或者积极关系的子集合。分析网络中的凝聚子群个数以及每个凝聚子群包含的成员,可以刻画凝聚子群间关系及联接方式,揭示群体内部子群结构状态。

文中采用迭代相关收敛法(CONCOR)和层次聚类法分别对共现矩阵进行凝聚子群分析,标记凝聚子群成员。

2.5.1 迭代相关收敛法(CONCOR)

步骤1:采用皮尔逊积距系数计算共现矩阵X各行与各列之间的相关系数,得到相关系数矩阵A1。

步骤2:将矩阵A1作为输入,继续计算各行与各列之间的相关系数,得到新的相关系数矩阵A2。

步骤3:重复步骤2进行迭代计算,当得到一个仅由1和-1组成的相关系数矩阵Ak时停止迭代。

步骤4:对矩阵Ak的各个行和列同时进行置换,以实现将所对应的特征项Di分区。分区越细致,各个区中的特征项就越少,每个区中的特征项Di数量至少大于3。

步骤5:绘制树形图表示各个分区之间的结构对等性程度,并标记出各分区的网络成员。当树形图中存在孤立点时,则凝聚子群具有稳定性,当不存在孤立点时则不稳定。

步骤6:以分区中特征项最小数目为分割度,计算不同分割度条件下的决定系数R2。凝聚子群稳定条件下决定系数最高对应的分割度即为最优分割度,以最优分割度生成的凝聚子群即为最优凝聚子群,计算此时各个凝聚子群的网络密度。

2.5.2 层次聚类

采用层次聚类由下向上对小的类别进行聚合,分析特征项之间的关联规则。相异性系数计算时选取Jaccard距离。

3 实例分析

对数据集的文本特征项共现矩阵进行网络结构和层级结构分析,验证模型超参数调优方法的有效性,并对分析结果进行业务知识解释。

3.1 社会网络中心性分析

表6 特征等级阈值标准

根据特征等级阈值标准对文本特征项进行等级划分,结果如表7所示。由表7可知,{CPC,未预约,混装}是导致不合格的关键特征,{货物,容积,司机,重量,ETC}是不合格致因的重要特征。{免费,非,农产品,质量,政策}是不合格致因的次要特征。可见,混装、容积/重量、免费/非/农产品等影响因素是不合格绿通车的显著致因,说明目前不合格绿通车中大多数来源于司机对农产品装载要求未达到免费标准。针对这类非主观性违规致因,可以通过加强政策宣传、政策解释、共享经验等方式改善司机对绿通车免费标准的熟悉程度。同时,需要进一步对特征项进行层级结构分析,深入挖掘显著致因的关联因素和规律。

表7 特征等级分析结果

3.2 CONCOR凝聚子群分析

按照CONCOR迭代相关收敛法分析步骤,绘制不同分割度的树形图以判断稳定性,并计算相应的决定系数,凝聚子群结果如表8所示。由表8可知,分割度为3时网络结构稳定,且决定系数较高,此时凝聚子群效果最优,相应的子群数量为8。

表8 不同分割度的凝聚子群结果分析

计算8个子群的网络密度,结果如图4所示。由图4可知,密度较大的子群为第1和第2子群,这两个子群在整个群体中贡献度较大,其对应的关键词分别为{CPC,未预约,补费,观赏鱼,鱼苗,不新鲜,发硬,红葱,落果,ETC,水箱,足额,不符,免征,发芽,菌,不享受,仔猪,正常}{称重,吨,未达标,不达标,未达,未达到,达标,均达,不足,不够,免费标准,标准,质量,重量,体积,容积,吨位,荷载,车货,超限,芹菜,鲜奶}。对第1子群分析可知,运输货物为观赏鱼、鱼苗、落果、菌类、仔猪时与补缴通行费关联性较强,即此时不符合免费标准。同时,稽查人员业务培训中需要包含观赏鱼或鱼苗辨别、水果是否为落果等知识内容,这对稽查效率具有实际指导意义。对第2子群分析可知,芹菜或鲜奶与容积或重量不合格关联性较高。当运输货物含有芹菜或鲜奶时,查验人员应优先查验容积或重量是否符合要求。综上可知,通过凝聚子群分析能够将非结构化的文本记录转化成结构化的业务规律,帮助查验人员提高稽查效率。同时,可以归纳稽查业务培训需涵盖的业务知识和业务技巧,促进查验业务培训的有效性和针对性,具有实际应用价值。

图4 凝聚子群网络密度

3.3 层次聚类

以杰卡德(Jaccard)系数为相异性系数,对高速公路不合格绿通车致因的特征项进行层次聚类。通过分析不同Jaccard距离下的凝聚簇个数变化来确定最佳簇数。凝聚簇个数变化曲线中显著拐点即为最佳簇数,此时簇间距离的变化较大。令Jaccard系数以0.25为间隔,在凝聚簇个数范围[1,327]内,绘制凝聚簇个数和Jaccard系数变化曲线,如图5所示。由图5可知,Jaccard系数为1.0时曲线具有显著拐点,此时凝聚簇个数为137,即为最佳簇数。最佳簇数下文本特征项的聚类结果(前20凝聚子群)如表9所示。

图5 不同Jaccard系数的凝聚簇个数

表9 层次聚类结果(前20条示例)

由表9可知,显著的不合格致因包括司机不配合、容积未达标、大件运输车辆、未提供行驶证原件等。在文本特征项的凝聚簇基础上,可实现不合格绿通车致因机理解析和业务知识发现。在查验业务中需要重点关注的问题:空箱子、空框子;猪肉是否混装板油、内脏、猪蹄等;区分死鱼、活鱼、冻鱼;花生和大枣是否新鲜。同时,通过层次聚类结果能够建立易混淆目录。

1)同类农产品不同状态下的易混淆目录,例如{豆腐,豆腐干}、{大蒜,干蒜,剥皮}等。其中,大蒜属于免费目录,但是干蒜不属于“鲜活”,剥皮属于“深加工”,均不属于免费标准。

2)同类目鲜活农产品的易混淆目录,例如{樱桃,车厘子}{旱黄瓜,黄瓜,乳瓜}等。

3)不在《鲜活农产品品种目录》内的鲜活农产品,例如{榴莲,蓝莓,山竹,火龙果,菠萝蜜,牛油果}等。

利用绿通车查验业务数据资源化,能够揭示不合格绿通车致因规律,可以指导绿通车司机避免非主观查验不合格,同时有利于收费站稽查人员储备业务知识、提高工作效率。

4 结 语

1)利用高速公路绿通车稽查记录的业务数据,提出基于文本挖掘的不合格绿通车致因机理建模方法,利用社会网络分析建立不合格致因网络,揭示不合格致因文本特征项的网络结构和关联规则,提出并验证了模型超参数寻优方法的有效性。

2)提出一种以非结构化文本记录提取结构化业务经验知识的技术路线,能够实现不合格致因规律和关联规则的挖掘,为高速公路绿通车数据资源化和数据治理提供技术支持。

3)由于自然语言处理技术的不断深入,利用预训练模型和深度学习模型进行文本信息挖掘是后续进一步研究的重要方向。

猜你喜欢
子群词频通车
江北东高速公路建成通车
超聚焦子群是16阶初等交换群的块
通车!
基于词频分析法的社区公园归属感营建要素研究
子群的核平凡或正规闭包极大的有限p群
石泸高速公路(红河段)正式通车
成宜高速预计明年建成通车
词频,一部隐秘的历史
恰有11个极大子群的有限幂零群
云存储中支持词频和用户喜好的密文模糊检索