大数据背景下Python技术在审计工作中的应用

2021-02-21 08:26陈倩倩彭甜典张琦
中国集体经济 2021年4期
关键词:大数据

陈倩倩 彭甜典 张琦

摘要:大数据时代下,云审计、区块链审计、联网审计等各种新型审计方式充斥着我们审计的工作,传统审计方式受到挑战。在审计工作中,快速获得充分、适当的数据信息是提高审计效率和效果的重要保证。文章基于近年来兴起的Python技术,研究其在审计数据搜集与分析中的应用,为大数据审计技术的发展提供支持。

关键词:Python;大数据;分析数据

一、引言

目前,无论是在外部审计还是内部审计中,传统的审计工作方法是我们称之为“七大武器”的观察、检查、询问、分析程序、重新执行、重新计算、函证。审计人员结合自身经验对这七种武器进行巧妙组合,可以很大程度上实现“提供合理保证”这一目标,然而,道高一尺,魔高一丈,随着大数据的发展,审计的对象渐趋复杂,目前,传统审计在数据采集与分析过程中主要存在以下缺陷:传统审计标准难以适用于大数据审计方法的开展;传统审计方法效率和效果难以保证;传统审计方法难以发现系统中存在的漏洞,大数据时代,很多财务舞弊、内控失效都是由于信息系统的缺陷而引发的;大数据背景下,人们不在追求数据的精确度,而是追求数据获取与利用的效率。

二、Python技术的工作原理

(一)Python技术介绍

人们经常把Python和网络爬虫联系在一起,那么什么是网络爬虫?他们之间的关系是什么?如果把互联网比作是由一个个站点和网络设备组成的庞大网络,如果把这张网比作是蜘蛛网,那么在这张网络上,数据便是存放在各个网络上的节点,而爬虫就是一只只小蜘蛛,它们沿着网络路线来获取“数据”猎物。爬虫一般是指网络资源的抓取,因为python的脚本特性,python易于配置,对字符的处理也非常灵活,加上python有丰富的网络抓取模块,所以两者经常联系在一起。

(二)Python技术运行原理

Python技术又称网络机器人、网路蜘蛛,是一种按照规则自动抓取信息的程序或者脚本,当脚本启动后, 爬虫可自动从互联网上标准资源的地址中下载网页内容,随后以匹配的方法从网页中对感兴趣的信息进行抓取,与此同时,爬虫会持续不断地获取新的资源。最终让用户能够获取自己想要的信息。我们以Python爬虫在网页挖掘信息的过程为例。

一个完整的爬虫流程包含三个模块:爬取-解析-存储。

爬取流程控制模块,内容分析提取模块以及网络请求模块。首先在待抓取队列当中放入经过筛选的种子URL,抓取URL后爬取对应的网页,通过 http 向目标站点发出相关的请求,发出的请求未被服务器及时响应,则会获得图片、视频、音频 html 等形式的答复。之后通过数据解析模块对 html 数据进行解析,对网页数据进行分析,提取需要的数据,再将数据传给清洗模块,随后将URL传给调度模块,相关数据会被存储到数据库当中。按照需求,从数据库中对爬虫结果进行读取,通过文字或是图形进行展示。

以上步骤我们可以发现爬虫在获取网页信息数据上功能的强大,若将此利用于被审计单位的数据库,通过爬虫提取发票、原始凭证、合同等信息,可以保证公司各项财务会计数据的真实性。也能够对公司自身数据以及行业相关企业数据进行相应审计对比,对数据真实性 判断提出合理性建议。

(三)Python技术的优点

相对于其它网络爬虫技术,Python的网络爬虫技术具有以下优点。

除了Python和R,还有各种各样非常强大的商业数据分析软件。但是,与这些商业产品相比,Python具有以下优势。

1. Python的开源许可证(与GPL兼容,但是您可以发布修改后的版本而无需将更改设为开源)意味着可以免费使用它。Python语法简单清晰,容易学习掌握。另一方面,商业软件包带有许可限制,并且相关的成本因素通常会限制组织中少数员工的可用性。

2. 与许多商业数据分析软件不同,Python甚至可以在低规格的台式计算机上使用,使其适用于大规模部署,而无需在硬件上进行额外投资。用本机Python编写的数据分析代码也可以用于支持Python的多个计算平台和操作系统(例如Windows,Linux和MacOS)。

3. 大多数(如果不是全部的话)商业数据分析软件都是为交互使用而设计的,通常使它们不适合实施完全自动化和可重用的数据分析解决方案。另一方面,Python代码可用于完全自动化整个数据分析过程,并且还可以不受限制地进行分发和重用。

4. 世界范围内的Python社区正在不断为其丰富的功能集添加新的软件包和功能。由于社区支持的规模,来自学术界和研究机构的新数据分析技术也比免费提供的Python版本更快地免费提供。

5. 有许多专门讨论Python知识共享的在线讨论论坛。 PyData会议还提供了宝贵的渠道,用于交换有关数据管理,处理,分析和可视化的新方法和新兴开源技术的信息。 PyData会议记录的录像在YouTube上免费提供。

三、Python技术应用案例

案例一:以德勤会计师事务所为例:2018年,作为四大会计师事务所之一的德勤会计师事务所在审计一家银行时,利用网络爬虫Python技术对该银行近2万个对公贷款客户进行数据搜集,获取了包括工商、司法、舆情、征信、税务在内的17类专项数据。传统审计方法一般只能通过一些数据查询网站(比如:天眼查、企业查查等)进行数据查询与搜集。但在该案例中,需要对近20万个客户展开调查,需要花费审计人员大量的时间和精力,如何批量查询相关数据成为困扰审计人员的问题。网络爬虫可以在短时间内通过铺设路径和逻辑,快速进行网络抓取。

在分析数据时,德勤事务所将搜集到的数据与行内客户历史交易、业务办理信息等内部数据系统打通整合,最终形成了客户关联关系、资金往来关系、业务办理信息、外部风险信息4大维度的客户全景画像。德勤风险咨询将这2万个对公客户的信贷申请资料与其全景画像执行关联分析、交叉检验等验证,最终发现了36个客户涉及虚报财务信息、刻意隐瞒负面信息等虚假行为。借助网络爬虫技术,不仅在数据获取上提高了审计的效率,更在审计上提高了完整性。

案例二:A市X会计师事务所在审计一家主营话费充值业务的企业时。其收入来源为每一笔手机充值业务提取的服务费。其客户就是每一个手机号码的个体,面对海量的客户,甚至传统意义上客商的概念都没有了。其中审计工作的一部分就是核查手机用户的真实性。需要在联通、电信、移动的官网上进行号码查询、验证其真实性。在这种情况下,审计师无法利用传统的询证法发函证,也无法取得客户真实性的信息。于是X会计师事务所借助网络爬虫技术,快速获取到了客户的全部信息。

案例三:2018年B市审计局派出审计小组对某预算执行审计项目进行审计。为充分了解某片区住房的空置率问题,审计人员从自来水公司采集了相关片区房屋的年度用水情况数据。针对审计数据中存在的水费数据零散、傳统方法不便汇总的问题,审计组积极探索新技术、新手段,特邀请计算机审计科的技术人员协助解决。相关技术人员在认真分析数据特征和审计业务要求后,利用Python开发语言开发了“水费数据分析小程序”,实现快速进行数据汇总,并生成审计疑点数据,由审计组有针对性地进行现场核实,大大提高了审计的工作效率。

四、结语

大数据的运用是未来趋势。与以往的审计模式不同,Python技术大大提高了数据搜集的效率和完整性。将验证性分析变为了挖掘性分析,弥补了审计抽样无法搜集全部数据的缺陷。并将审计方式从事后补救转向全过程防御,尤其关注事前防御,有助于在风险发生之前就做好预测与判断。但Python在运行过程中也存在编写复杂、代码不能加密、执行速度不够快等缺点。

参考文献:

[1]李玉香,王孟玉,涂宇晰.基于python的网络爬虫技术研究[J].信息技术与信息化,2019(12):143-145.

[2]谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017(09):44-45.

[3]陈伟.大数据环境下基于模糊匹配的审计方法[J].中国注册会计师,2016(11):84-88+3.

(作者单位:南京理工大学泰州科技学院)

猜你喜欢
大数据
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索