谁窃走了你的“金融画像”?

2019-11-11 15:50何治民
南风窗 2019年23期
关键词:百行金融信息爬虫

何治民

近日,51信用卡有限公司被杭州警方突然调查,让非法爬取个人隐私数据用于暴力催收的行业做法,浮出水面。

“别人在用(个人敏感数据),你不用就是落后。”事实上,受业务竞争的驱动,个人敏感数据的使用一直游走在灰色地带。2017年开始,《网络安全法》等法规都对非法爬虫等数据收集和使用行为早有规范,但一直屡禁不止。

直到《个人金融信息(数据)保护试行办法(初稿)》(下称《试行办法》)出台,规范个人金融信息的收集与使用,非法爬虫一时间成众矢之的,各大数据公司因爬虫业务被查的消息也随之传来。自今年9月以来,北京、杭州等地先后有10余家大数据公司被警方调查,其中不乏头部平台和国企,大数据行业风声鹤唳。

个人金融信息被滥用到了该管管的时候了。

谁是非法爬虫?

移动互联网时代,数据是一种资产已成为各方共识。截至2019年6月,我国已有8.54亿网民,当网民在各大互联网电商平台、社交平台等产生的行为数据,与在运营商里的身份数据,金融機构里产生的信用数据,以及电子政府系统中产生的政务数据,汇聚在一起,通过大数据技术分析,可以形成用户画像,具有极高的商业价值。

个人金融信息是决定用户画像是否精准的重要一环。个人金融信息的概念是从隐私权衍生而来,2011年,央行将个人金融信息保护范围具体划定为身份信息、财产信息、账户信息、信用信息、金融交易信息、衍生信息及其他信息七类。

与其他个人信息不同,作为个人隐私信息最重要部分,个人金融信息具有财产权益的特性,通过它可以窥探用户的财力,还可以助力放贷业务风控。科技的介入,极大挖掘了个人数据的价值,用户在享受个性化、贴心服务的同时,个人隐私安全也随之袭来。

“太疯狂了,不管什么数据都拿出来卖。”大数据行业从业人员朱伟对《南风窗》记者说,行业对个人敏感数据的使用一直处于灰色地带,之前没人管,大家都能相安无事。近几年,各地因暴力催收引发贷款人自杀的事故屡次发生,引发监管关注。10月21日,《关于办理利用信息网络实施黑恶势力犯罪刑事案件若干问题的意见》出台,暴力催收行为的认定和定罪才有依据。

暴力催收的源头就在于个人数据的违规收集,行业普遍采用的数据收集手段是网络爬虫。

爬虫技术爬取个人数据主要有司法信息、电商信息、银行卡信息、运营商信息、社交信息、开放数据等。一般来说,爬虫抓取公开网络的信息,是安全的;但如果抓取的是未公开、未授权的个人敏感信息,就涉嫌违法,违反的是2017年6月1日实施的 《网络安全法》以及“两高”相关司法解释。

爬虫技术本身是中性,关键在于如何使用。今年5月,国家网信办发布《数据安全管理办法(征求意见稿)》,在细化个人信息保护规定的同时,首次划定了网络爬虫技术的法律红线,“如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化收集时,应当停止”。

在《数据安全管理办法(征求意见稿)》发布后,包括头部平台同盾科技、51信用卡,国企平台天翼征信在内的10余家大数据公司接二连三被查,被查的原因大多与公司的爬虫业务,涉及违规抓取个人数据、贩卖个人隐私数据、助力暴力催收等有关。

有业内人士透露,在爬虫爬取的这些数据中,受欢迎的往往是那些覆盖度高、标准化程度高的数据,“非法爬取大部分集中在运营商数据以及类似个税、社保、信用卡数据等敏感数据”。

于是,爬虫的违规抓取中,首当其冲的是个人金融数据。10月,《试行办法》发布,其中一条规定,“(金融机构)不得从非法从事个人征信业务活动的第三方获取个人金融信息。”将此波大数据行业的整顿蔓延到行业上游—与之合作的金融机构。

之前没人管,大家都能相安无事。近几年,各地因暴力催收引发贷款人自杀的事故屡次发生,引发监管关注。

10月24日,央行发文紧急调研银行与第三方数据公司合作情况,要求银行上报第三方公司的名称、股东背景、是否涉及爬虫、数据来源是否合法合规或者有相关授权等。“我们也接到银行的问询函了,应该各家(数据公司)都会接到。”朱伟说。

据接近监管层的知情人士向媒体透露,网安部门联合多个部门,针对大数据行业的乱象展开了整治行动,已有几十家大数据公司进入了调查名单。“这次整顿对数据行业影响非常大,感觉又回到了之前的状态”,不少银行已经暂停和大数据公司的合作,而一些对外部数据和风控依赖比较大的网贷平台直接停摆。

现在,之前与大数据公司合作的甲方金融机构都在观望,这些甲方机构甚至找到大数据公司,要求它们签署“免责条款”或者“承诺书”,试图隔离风险。

产业链和利益链

个人金融数据的商用始于2013年,网贷、消费金融等互联网金融发展的井喷期。互联网长尾人群是这些平台的主要客群,他们几乎没有征信记录,俗称“金融白板用户”。金融是对风险定价的业务,风险的价格即为利率,而利率的高低往往取决于用户的信用状况,对白板用户的金融业务催生了平台对个人金融数据的需求,一时间,数据产业风云鹊起。

“如果用自有的数据,能满足80%的风控需求。”某持牌消费金融公司管理人员李振华告诉《南风窗》记者,但能否在竞争中控制好不良率,那20%的风控才是关键,于是,不少持牌消金公司甚至银行都会接入外部数据,来补足风控能力,而一些网贷平台或小贷公司,则主要依靠第三方的数据。

有需求就有市场。据《21世纪经济报道》,中国已初步形成较为清晰的数据行业市场格局,包括中国人民银行征信中心和百行征信为代表的全面征信机构、八家专业征信信息提供商,以及5000~6000家从事大数据分析的企业。

一般而言,这些大数据公司对数据治理包括采集、分析、应用三大环节。个人数据业务的乱象主要体现在,个人敏感数据的违规收集和滥用。如何定义违规收集?现在很多APP或平台,都会有用户授权的弹窗提醒,是不是就意味着,有了用户授权程序,个人信息就安全了呢?

答案显然是否定的。实际上,在授权后,用户只知道自己提供了账号和密码,但平台在实际操作中采集了哪些信息成了“黑盒”。“大部分公司都涉及未授权获取信息、超采、强制授权等诸多问题。”

个人信息的存储和使用环节往往才是风险的集中点。一般来说,任何数据的采集和使用都遵循一次性原则,也就是说,这项服务结束后,数据方应该立即删除因此次业务需要采集到的信息,不能留存。但行业不少人的做法是,将大部分金融数据留存下来,甚至利用用户数据二次开发和销售,现实中,暴力催收就是对用户通讯录信息的循环利用。

南方某报记者曾暗访体验,仅花700元就能买到银行记录、驾驶证记录、开房记录等11个项目在内的个人信息。个人金融数据业务已经形成清晰的产业链:第三方大数据公司,通过爬虫获取个人非公开的敏感数据,将其打包给网贷平台、消费金融等金融機构,这些金融机构用来补充自身数据库,用于对用户信息的交叉验证,助力信贷业务的风险控制。同时,个人的运营商数据,即通讯录数据又会用于催收环节,为风控兜底,形成风控的闭环。

个人金融数据是个人隐私的一部分,何以成为一门火爆的生意?最直接的原因莫过于,中国目前仍没有出台《个人信息保护法》,对个人金融信息的保护散落在《商业银行法》《网络安全法》等相关法律中,个人金融信息保护应遵循的基本原则、程序和制度没有统一的规范,长此以往,个人金融信息监管缺乏明确要求,为个人数据产业乱象提供了土壤。

如果追溯大数据业务需求的起点,个人金融数据灰色产业猖獗,归根结底是因为中国征信不够发达,中国目前官方许可的征信机构只有央行征信和百行征信,个人信用产品缺乏,与美国等发达国家丰富多样的信用分产品相比,仍有差距。

截至2019年6月,央行征信系统覆盖9.9亿用户,相比以前,覆盖人群有增加,但新问题是,央行征信记录缺失个人互联网借贷记录,很难准确描绘征信用户多头借债的情况,这也是这几年银行信用卡不良率上升的原因之一。

百行征信是央行去年8月批准设立的国内首家个人征信机构,由中国互联网金融协会与芝麻信用、腾讯征信、前海征信等8家市场征信机构共同组建,试图建立统一的个人征信系统。但如今覆盖人群有限,据《财新》报道,“目前包括百行征信诸多股东在内的市场主要参与者,并不与百行征信分享数据。”

“正规军”入场

“部分机构存在收集信息范围过大、未经消费者授权收集其个人金融信息、业务系统存储不规范等情形。”这是今年5月,央行办公厅下发的一份检查通报,指出的金融消费权益保护的重点问题。事实上,从2018年开始,央行就不断要求各机构开展金融消费权益的自查和整改,但依旧没有阻挡暴力催收的恶性事件发生。

现在很多APP或平台,都会有用户授权的弹窗提醒,是不是就意味着,有了用户授权程序,个人信息就安全了呢?答案显然是否定的。

远水救不了近火。征信系统的完善并非一蹴而就的事情,当下能做的就是加强监管,提高非法收集和滥用个人数据的违法成本,《数据安全管理办法(征求意见稿)》《个人金融信息(数据)保护试行办法》等法规应运而生。

《试行办法》中,讨论最多的是第十二条:“(金融机构)不得从非法从事个人征信业务活动的第三方获取个人金融信息。” 这条规定有两层意思,其一,银行等金融机构合作的第三方将有严格要求,如前文提到,监管已经开始盘查与银行合作的数据服务商。其二,除了央行和百行征信两家持牌的征信机构,任何机构,都不得采集个人金融信息。这就意味着,个人金融数据采集权,全部收归官方征信机构。

个人金融数据在使用和共享环节,其价值发挥和安全保护是一对矛盾体。按照监管的逻辑,百行征信作为个人征信数据“大本营”,各大金融机构和互联网平台将用户数据与百行征信对接,百行征信对个人金融数据进行统一的标准化处理后,对外输出标准化的征信报告和征信分等产品,但现实的尴尬是,百行征信内部股东都没有实现数据的充分共享,其他机构共享数据的积极性也大打折扣,目前征信数据的汇聚情况并不理想,信用报告的适用性存疑。

“现在个人金融数据没法融通后,就意味着平台只能靠自己积累的数据和流量来做特定场景或特定领域的业务。”朱伟担心,长期以往,用户享受的个性化服务也将受影响。

上海金融与法律研究院研究员傅蔚冈也撰文称,个人信息(隐私)保护的本质是一种资源再分配,应该以市场作为配置主体。个人信息(隐私)保护政策要有弹性,且要把追求社会福利的最大化作为隐私保护的目标,保护隐私的同时也要允许合法的个人数据交换。

基于当下的现实,在征信尚未完善的情况下,如何用好市场和监管“两只手”,平衡个人金融信息的价值发挥和安全保护是监管必须考虑的问题。

(文中部分人名为化名)

猜你喜欢
百行金融信息爬虫
动态信任视角下消费金融信息产品设计与评价
利用网络爬虫技术验证房地产灰犀牛之说
十四亿人奔富强
基于Python的网络爬虫和反爬虫技术研究
深藏不露
《百行章》德育思想在《道德与法治》中的研究
百行征信上市面临的机遇和挑战
利用爬虫技术的Geo-Gnutel la VANET流量采集
大数据环境下基于python的网络爬虫技术
媒体融合时代金融信息服务业如何转型升级