构建大数据分析模型助力公安采购项目审计监督

2023-09-28 03:01梁伟
中国内部审计 2023年9期
关键词:内部审计大数据模型

梁伟

[摘要]本文将大数据技术与审计业务有机结合,深度探讨了大数据在公安采购项目审计监督中的应用,通过案例,构建“三维一体”大数据分析模型对电子投标文件进行全面解析,从投标文件之间的整体相似度、重复的文本内容和雷同的图像信息三个维度为审计人员发现围标串标线索提供综合性参考和重要证据支撑。

[关键词]内部审计   大数据   模型   公安采购项目   围标串标

2015年10月,在党的十八届五中全会提出实

施国家大数据战略,大数据技术在各行各业得到广泛应用,有力推动了经济发展、促进社会治理完善、助力提升政府服务和监管能力。公安机关内部审计面对海量的业务数据和日益繁重的审计任务,传统审计模式已经无法满足新时代公安发展的需求。公安机关建设项目数量多、警用物资和装备采购频繁、合同金额巨大,风险隐患与日俱增,对采购项目的监督更是摆在所有审计人员面前的一道难题。内部审计作为新时代公安特色大监督格局的重要组成部分,要严格落实审计专门监督职责和发挥“治已病、防未病”的作用,就必须将大数据技术与公安审计业务深度融合,进一步提升精准监督效能,以有力有效的审计监督服务助力公安事业高质量发展。

一、公安采购项目审计监督存在的问题与机遇

(一)当前存在的问题

1.采购任务重周期长,过程复杂专业性强。公安机关每年的物资采购和项目建设任务繁重,以重庆市公安局九龙坡区公安分局为例,平均每年分局审计部门需参与监督的采购项目有上百个,每个采购项目的完成要历经立项、审批、预算、采购、合同、验收和付款等多个阶段,可以说周期长环节多,审计部门疲于应付,监督效果欠佳。杨荣机等(2022)认为,公安审计人员不再是单一的财务监督人员,不仅要有审计和财务基础知识,还要掌握工程造价、项目管理和招投标等相关专业知识。当前大多数公安审计人员仅仅停留在采购项目的程序性监督上,受限于时间精力和专业性的知识背景,审计监督难以深入。

2.审计人员力量单薄,信息化应用水平低。目前全国各地公安机关内部审计普遍面临人员少和审计任务重的问题。以江苏为例,全省公安机关审计人员不足300人,每年经济责任审计项目数量却多达上千个,如果加上专项审计和其他审计调查任务,审计人员的任务更加艰巨。且公安审计队伍中信息化专业人才少,信息化应用整体水平偏低,大部分人员只能勉强使用一些简单的财会软件。例如,重庆市公安局于2019年组建了公安审计人才库,共有122名入库人员,其中审计类和财务类人员分别为72名和32名,而信息化人员14名,占比仅为11.5%,且实际从事公安审计岗位的信息化专业人员更少。

3.规章制度日趋完善,违规行为更加隐蔽。随着巡视巡察、审计监督和各类财务交叉检查的深入推进,各级部门的规章制度日益完善,采购程序逐渐规范。采购项目管理和采购程序的规范并不意味着违规行为的消失,反而会使违规行为更加隐蔽。尤其在当前经济下行压力下,供应商为获得业务订单铤而走险时将更加谨慎,这给审计人员发现问题增加了难度。

4.應急采购时有发生,监督能力明显不足。部分公安机关的应急物资采购和保障机制存在许多短板和漏洞,面临较大考验。每次应急采购的需求和情形都不一样,审计监督的重点、内容和方法也都不同,因此每次应急采购对审计监督都是一次全新的考验,传统公安审计模式已无法适应,迫使公安审计部门创新工作方法,提高审计效能。例如,2020年新冠疫情发生后,国家和各地方政府先后出台了关于开通紧急采购防疫物资绿色通道的相关文件,这些文件的出台对审计监督提出了更高要求,既要保障防疫物资按时采购到位,又要保证财政资金安全。

(二)新的发展机遇

1.审计委员会陆续成立,组织保障更加有力。2022年4月重庆市公安局党委成立了审计委员会,随后全市各区县公安机关审计委员会或审计工作领导小组也陆续成立。公安机关审计委员会的成立进一步优化了公安审计职责,将纪检监察、组织人事、督察法制、警务保障等“大监督”格局相关部门的监督力量整合起来,壮大了审计力量,保障了审计部门依法独立行使监督权,有助于解决原有审计监督覆盖范围过窄、监督独立性和权威性不强、体制机制不畅等突出问题。

2.科技强警持续深入,大数据赋能成效初显。在公安改革创新和大数据赋能警务的不断推进下,公安机关自身业务产生了大量数据,并且从社会单位采集了海量数据用于公安业务工作。目前,重庆市公安局已打造警务云支撑平台,整合全局应用系统改造上云,全局民警可按权限使用;同时积极开展数据汇聚治理共享工作,在汇聚不同行业的数据后按照统一标准进行数据治理,数据建模平台上已开发数十个模型算子。2021年12月,重庆市公安局在全国公安审计队伍中率先举办了公安审计大数据比武,进一步提升了审计人员的大数据运用水平,扩展了审计思维。

3.网上采购更加便捷,智慧监督提质增效。自重庆市财政局开通“采购云”和“行采家”平台以来,各级部门可以直接登录系统在网上实施采购,极大提升了采购效率。例如,九龙坡公安分局2022年在网上平台完成了42个采购项目,占全年采购项目数量的40.38%,节约财政资金170.93万元。在网上平台完成的采购项目均有完整的电子数据,包括需求文件、响应文件、电子合同等重要信息,这为大数据审计提供了重要的数据基础。采购行为已经逐步从线下向线上转移,审计监督也应当紧跟采购方式的转移步伐,通过大数据建模对网上采购信息数据进行分析,提升公安采购项目审计监督质效。

二、大数据审计在采购项目监督中的应用探讨

(一)大数据审计的原理

1.大数据技术的内涵。大数据在互联网上被定义为无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据具有4V特点:大量(Volume)、快速(Velocity)、多样性(Variety)、真实性(Veracity)。邬贺铨(2013)认为大数据带来的挑战体现在对数据的收集、存储、处理及结果的可视化,因此,大数据技术就是具有更强决策力、洞察发现力和流程优化能力,对海量、高增长率和多样化的信息资产的新型处理模式方法的统称。

2.大数据审计的特征。大数据审计就是将大数据技术应用于审计业务,对被审计单位的所有电子数据进行采集、挖掘和分析,大数据审计是审计信息化发展到一定阶段的产物。孙梦蝶(2018)从数据层面、技术层面和应用层面对大数据审计进行了研究,认为大数据审计可以处理多种类型数据、跨越不同行业、应用于不同领域,并助推审计全覆盖的实现。

(二)在采购项目审计监督中的应用探讨

公安机关建设项目数量多、增速快、金额大,特别是信息化项目投资金额逐年倍增,隐性风险持续增长;在基建设施、警务保障、装备采购、信息化项目招投标过程中,围标串标的现象仍有发生。审计部门应根据工作实际,突出重点、选准靶标、精准施策,在采购项目领域结合大数据审计方法重点开展以下四个方面的应用。

1.在供货商资质及股权关系监督方面。为验明供货商资质真伪及投标人之间、法人和股东的关联线索,需要获取供应商的工商信息。在审计实践中,审计人员通常在网上进行手工查询或亲自到工商部门查询,工作效率较低。利用大数据技术,通过网络爬虫可以快速便捷地在互联网上采集工商信息和资质信用信息,将供货商法人和股东信息与公安户籍人口数据关联起来,分析是否存在亲属关系以及股权勾连的情况。

2.在商品采购价格监督方面。商品采购容易产生以次充好、低配高价和竞争不充分等问题,商品采购价格是否合理是审计的重要内容。公安机关每年采购的商品品种多、数量大,审计人员同样可以通过网络爬虫技术,定期抓取国内主流电商常用商品的价格数据,建立内部动态价格库,定期对价格数据进行更新,对相应时期价格异常和价格虚高的采购实行重点监督。

3.在采购商品入库监督方面。采购的商品是否入库并纳入固定资产管理,是验证采购行为真实性和完整性的重要依据。按照相关规定,金额较大的商品或者批量采购的非易耗品应当及时入库,审计人员可以将审计期间符合入库要求的采购商品清单与固定资产台账,通过商品名称和商品型号进行关联,如果有未能匹配的数据,则说明存在未入库的情况,涉嫌虚报采购数量,应当重点关注。

4.在验收和付款审计监督方面。首先批量提取合同开始时间、履约周期和结束时间,利用EXCEL、SQL查询等工具分析出是否存在履约超期和验收滞后的问题。针对付款环节,批量提取合同金额,结合OCR技术智能识别发票内容,可以分析发票真伪,同时比对合同金额与发票金额是否一致,可以查证是否存在虚开发票、未足额付款或者超额支付等问题。

(三)采购项目审计监督平台的设计

要解决当前采购项目审计监督中存在的问题,应当对现有的审计监督业务进行重构,打通各个监督环节的信息通道,破除数据壁垒,畅通消息共享机制。在大数据环境下,采购项目的审计监督应该坚持“以数据为基础、以大数据技术为手段、以采购业务逻辑为核心、以审计应用为最终目标”的原则。因此,可以将审计监督平台构建为由数据层、技术层、数据治理层、业务层和应用层组成的智能监督体系,具体如图1所示。

1.数据层。数据层包含了审计监督平台所需的数据信息,是整个系统的基础。各部门应当根据实际情况,从工商企业数据、国家信用数据、第三方数据以及本单位内部的采购数据和业务数据中获取数据集,为大数据分析做准备。数据层提供了审计所需各类数据的访问接口,可以将孤立数据整合在一起。

2.技术层。运用大数据技术手段,与底层数据集进行连接,获取审计监督系统所需数据,打通数据访问通道。现在常用的大数据技术手段包括网络爬虫、图像识别、OCR技术、语音识别以及数据挖掘和文本分析等。技术层也可以为应用层提供支撑,例如,通过机器学习和专家系统进行数据建模,能够有效地分析业务数据的发展趋势。

3.数据治理层。数据治理是大数据发展最重要的工作之一。现阶段获取的大量数据存在很多非结构化数据,这样的数据不能直接使用,而数据治理层就是要解决数据生产和数据使用之间不匹配的矛盾,是对数据的再整理和再加工的过程。可以通过数据清洗、转换、筛选、关联、比对等方法生成结构化数据,并存入审计关系型数据库中,治理后的数据可以直接用于业务逻辑需求和应用分析。

4.业务层。立足于项目采购的业务逻辑,全面梳理各个采购流程,将立项、招投标、采购、合同、履约、入库验收及付款等环节全部纳入监督系统,形成审计监督闭环,从根本上解决各环节之间信息不通和反馈滞后的问题,将事前控制、事中跟踪和事后审计有机结合起来。随着采购进度的推进,每个采购项目自身会产生许多业务数据,这些业务数据将和数据治理后的数据一起供应用层分析使用。

5.应用层。根据不同的审计事项和目标,通过与技术层连接构建不同的大数据模型,为审计人员进行全方位的风险预警,如价格异常预警、围标串标预警、采购舞弊预警等。同时大数据模型还可以进行综合分析、趋势分析、绩效分析等,从多个维度和多个视角对数据进行全面分析,再通过图像、表格和文字等方式综合呈现分析结果,为审计人员提供清晰易懂、智能高效的决策参考。

三、大数据审计在采购项目监督中的应用案例

(一)案例背景

某地一工程建设项目进行公开招标,共有4家建筑公司前来投标,分别为A、B、C和D。4家公司均提供了电子投标文件,现要求进一步審查4家公司投标文件的实质性内容,探究是否存在围标串标的嫌疑。

(二)“三维一体”智能分析模型

投标文件是供应商响应招标文件内容和要求的重要信息载体,深入分析投标文件的内容能够发现其背后隐藏的“秘密”。针对案例中的审计需要,审计人员通过大数据技术从文本、表格和图片3个方面对投标文件进行全面分析,构建“三维一体”智能分析模型,辅助审计人员快速发现围标串标线索。

1.文本分析。文本分析的目的是挖掘出投标文件中文本内容之间的关联性,本案例通过余弦相似度算法来计算投标文件之间内容的整体相似度,通过N-Gram算法计算出投标文件之间内容重复的字符串。将余弦相似度算法结合N-Gram算法,可以快速分析出投标文件的整体相似度以及重复的内容。

①余弦相似度。对文本A和文本B进行分析时,分别将A和B文本内容进行分词并组成一个集合,然后依次统计各个分词出现的频率,再将分词和词频组成一个向量,两个文本的相似度则可以通过文本向量之间夹角的余弦值来表示,余弦值越大则相似度越高,如果余弦值为1则表明两个文本完全相似。

②N-Gram算法。分别将A和B两个文本的内容以N字符为长度进行切割并分别组成切割好的字符串集合,再将两个集合中的字符串遍历比较,能够快速找出内容一致的字符串,最后将这些字符串去重,便能得到连续重复N个字符以上的内容。当通过N-Gram算法对投标文件分析时,不管将文件中的段落和语句内容如何调整顺序,都不会影响分析结果。

2.图像识别。运用图像识别技术可以计算出投标文件之间有无高度相似或雷同的图片。本文利用OpenCV模塊库功能进行图像的感知哈希值计算,比对图像之间的相似度,当计算出来的汉明距离越小,图像的相似度越大。在图像识别领域,一般认为当汉明距离小于5时,两张图片高度相似。如果不同的标书存在雷同的图片,则围标串标的可能性很大。

3.模型实现。本模型利用计算机语言Python编程实现。首先读取投标文件,将每个投标文件分别解析为文本信息、表格信息和图像信息3个部分。然后将文本信息和表格信息连接起来,经过数据清洗后形成新的文本信息集合存入内存。再次将文本信息集合分别进行分词处理,通过余弦相似度算法计算出文本内容的整体相似度,通过N-Gram算法进行文本N元切割计算出文本中连续重复的内容。最后,依次将标书之间的图片逐个比较,智能识别出高度相似的图片。智能分析模型运行流程如图2所示。

(三)模型运行结果

审计人员节选了4家公司技术标书中的《安全文明施工措施》章节的全部内容进行分析。4家公司关于该章节内容的字数均在2万至4万之间,倘若通过传统的人工作业方式进行线索甄别是非常困难的,但通过“三维一体”智能分析模型仅需数分钟即可完成。模型运行综合结果如表1所示(N设为20时)。

1.整体相似度。从4份标书整体相似度的比较结果柱形图(见图3)中可以清楚地看出,A公司同BCD3家公司之间的整体相似度明显低于BCD3家公司之间的整体相似度。同时,B和C标书之间以及C和D标书之间的整体相似度较高,均超过了48%。

2.重复内容的字符数。4家公司之间标书内容的重复字符数柱形图如图4所示,从图中可以清楚地看出B和C之间、C和D之间的重复字符数特别多,而其他公司的标书之间只有少量的重复内容。经审计人员查看重复的内容并结合标书发现,B和C的投标文件在“文明施工措施”部分内容完全重复;C和D的投标文件在“施工现场安全技术措施”“施工机械安全技术措施”“触电事故应急救援”和“经济处罚措施”等多处内容存在重复,尤其是在“经济处罚金额的设置”中的条款规定和“架驶室”等处出现的错别字均完全相同。

3.雷同图片数。B和C两公司的投标文件中各有4张图片分别相似,经人工甄别,上述图片内容雷同。这4张图片分别是“安全管理体系结构图”“安全生产管理组织机构图”“应急救援领导小组结构图”和“文明施工保障体系图”。

综合以上模型运行结果,公司C和D的标书之间存在诸多相同或相似文本内容,公司B和C的标书之间存在较多重复内容且存在多张雷同图片,并且公司B、C、D三者标书之间的内容整体相似度很高。结合本次分析结果,根据《中华人民共和国招标投标法实施条例》第四十条关于围标串标情形的认定中第(四)项“不同投标人的投标文件异常一致”的相关规定,公司B、C、D涉嫌围标串标,需进一步重点监督。

(作者单位:重庆市公安局九龙坡区分局审计室,邮政编码:400039,电子邮件:810235281@qq.com)

猜你喜欢
内部审计大数据模型
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
3D打印中的模型分割与打包
浅析SAP系统在石化企业内部审计中的运用
新常态下集团公司内部审计工作研究
图书馆内部控制建设的深度思考
基于大数据背景下的智慧城市建设研究
FLUKA几何模型到CAD几何模型转换方法初步研究