新西蘭
繁體中文(台灣)
分享

数据荒来袭:头部公司陷两难困境,“无感数据源”狂欢

转载作者: 36氪的朋友们
数据荒来袭:头部公司陷两难困境,“无感数据源”狂欢
摘要编者按:本文来自微信公众号“零壹财经”(ID:Finance_01),作者温泉,经授权发布……

爬虫排查的影响可能正在超出市场的预想。

原本不少第三方大数据风控公司的爬虫服务被查,媒体公开报道和市场的理解是监管层出于整治“超利贷”和“套路贷”的目的。

可是现在,据零壹财经了解,风控领域几乎所有的爬虫都停止了运转。这其中

爬虫停止运转之后,其影响已经超出了“超利贷”和“套路贷”的范围,这导致市场上许多正常运营的无场景现金贷类贷款产品也在大规模缩量。

而且,一些头部公司的爬虫团队停止运转之后,现金贷类贷款产品的规模缩减大大加剧。此前,零壹财经曾报道,行业主要第三方大数据风控公司的爬虫服务停止之后,不少网贷平台的贷款产品下线,许多贷款超市都在大批量下架产品,有的在三分之一,有的在一半以上。

一位资深业内人士告诉零壹财经,当时停掉的都是一些较小的贷款公司的产品,这些产品种类多数量多,但是实际上总的市场份额并不大。目前许多头部公司的爬虫停止运转,这些公司贷款产品所占的市场份额才是巨大的。

而在数据市场,由于爬虫停止运转,数据的价格正在被急剧抬升。这使得风控成本迅速上升,众多放贷机构对此并没有充分的准备,由于替代方案的不成熟以及对新风控措施的观望,部分贷款产品的坏账率飙升。

停掉爬虫

数据荒是从10月21日开始进一步蔓延的。

10月21日上午,51信用卡位于杭州西溪谷的办公地点被杭州警方突击调查。由于51信用卡是港股上市公司,这则消息迅速引发市场广泛关注。

这则消息也吓坏了其他的网贷平台。“不少平台以为51信用卡被查是因为爬虫。”一名网贷平台工作人员回忆。

紧接着,当天下午,北京市金融局窗口指导摸排区内所有大数据企业是否存在违规爬虫业务。如果没有要求企业出承诺函;如果存在违规爬虫业务,要上报并尽快整改。这则消息10月22日被财新报出,但是有业内人透露,其实10月21日下午,通知已经下发。

北京市网贷平台的自建爬虫应声下线。一位网贷平台内部人士诉苦:“要做互联网金融业务,除了个别BATJ级别的数据巨头,都需要爬虫来爬数据。现在上来就让上报‘违规爬虫’,谁也不知道什么样的爬虫是违规的、什么样的爬虫是合规的,实际上法律也没有明确规定。这个时候,谁敢上报?收到通知以后,我们唯一的选择就是停止用爬虫,贷款产品大面积下线。”

当晚,不少网贷平台连夜调整参数、改产品。一位网贷平台风控人士告诉零壹财经,

不过随后,51信用卡被查的事件迅速平息。10月21日晚,杭州公安官博于23:14发布消息称,本次行动系对51信用卡委托外包催收公司涉嫌寻衅滋事等犯罪行为开展调查。“51信用卡”委托外包催收公司冒充国家机关,采取恐吓、滋扰等软暴力手段催收债务的行为,涉嫌寻衅滋事等犯罪。目前,案件还在进一步侦办中。

10月22日早上06:02,51信用卡CEO孙海涛在微博发布致歉信,称对昨日公司配合调查一事给社会舆论带来不好影响表示自责,代表公司全体管理层对大家致歉。目前51的核心管理层全部在岗在位,旗下51信用卡管家、51人品等核心业务均运转正常。

可是,北京市停掉自建爬虫的公司,谁也不敢再次上线爬虫。上述人士透露,现在很多网贷平台开始了“佛系风控”。他举例,比如原来40%的客户可以借到款,现在这个比例就降到了30%,原来可以借10000的,现在砍到8000,还要看情况再调整,如果这样放款逾期率还高的话,就得进一步降。

事情没有就此结束,影响继续蔓延,其他地区的网贷平台也有的停止了爬虫。北京市的网贷平台在全国举足轻重。目前全国还在运营的网贷平台仅400多家,前十大平台当中的八家都在北京。其他地区的网贷平台开始效仿北京,停掉爬虫。“这个就是一家看一家,大家相互对比着看。看到和自己差不多的公司停掉爬虫,就会因为害怕也停掉。”一位网贷平台内部人士坦言。

多位业内人士告诉零壹财经,经过大量调研核实,零壹财经了解到,北京上海的大部分网贷平台都已经停掉爬虫。据零壹智库数据监测,10月21日之后,确实有北京市、浙江省网贷平台交易量明显大幅跳水。但是由于需要的核实量太大,无法一一全部确认。此外,有部分消费金融公司的自建爬虫团队、甚至巨头级别的金融科技公司的自建爬虫团队都停止了爬数据。

市场产品的缩量,从一个指标可以看出来,那就是流量价格。上述人士透露,相关产品的流量单价从之前的17—18元,直接下降到几块钱,下降幅度超出50%。

最敏感的是逾期率数据。上述人士非常担忧,如果风险控制不好,一两个月以后这些平台的逾期率数据将非常难看。目前的风控难度确实很大,他回忆,51信用卡被查的消息出来半小时以后,“撸口子”的人就活跃起来了。另有资深风控人士透露,现在已经有平台的逾期率飙升。

影响波及银行

事情还没有结束。

隔了一天,中国人民银行摸排各银行和企业征信机构爬虫使用情况的两则通知再度让空气紧张起来。

10月24日下午,网络流传多个版本的截图,称人行紧急调研,要求银行填报是否与第三方数据公司开展合作。排查的合作内容主要涉及数据采集、信用欺诈、信用评分、风控建模等方面。人行要求上报第三方公司的名字、股东背景、是否涉及爬虫。

同时,截图显示,企业征信机构也接到通知,需要梳理是否与相关公司有业务或股权投资关联:包括魔蝎科技、新颜科技、集奥聚合、公信宝、白骑士、天机数据、立木征信、聚信立等(不同版本截图涉及公司有所不同,目前尚无法确认)。

银行的助贷产品开始收缩。有银行内部资深风控人士告诉零壹财经,他所在的银行,对助贷产品更加谨慎了。许多银行都是国有企业,对声誉风险的重视高于商业风险。“这个消息出来以后,我们董事长亲自打电话嘱咐,如果感觉到有可能有声誉风险的任何合作,都先停下来看看为好。”他透露。另有多位业内人士证实,不少银行的助贷产品都在收缩。

整体来看,爬虫停止运转对银行现有的业务影响并不大。一方面,银行对公业务占比较大,发力零售金融时间并不长;另一方面,在银行的零售金融当中,对爬虫数据的使用很少。

不过,爬虫停止运转对银行的零售金融转型多多少少会有一些影响。

此前,一位银行系统服务商内部人士曾向零壹财经透露,他们的主要业务是帮银行开发系统,帮助银行建立自己独立的风控系统是目标之一。银行要转型做零售金融业务,要客户下沉,但是银行内部其实没有这些客户的数据。之前,爬虫是市场上比较通用的技术解决方案。但是爬虫目前遭到整治之后,银行的零售金融转型必须寻找新的风控方案。“相关业务的开展肯定要推后。”他透露。

今年以来,开放银行的概念逐渐走热,银行零售业务的数字化转型成为必然,有不少创业公司已经开始进入这个市场。一家创业公司创始团队成员告诉零壹财经,在实际业务中确实感受到银行对爬虫的风险比较谨慎,中小银行的技术人才不多,对爬虫并不是特别了解,但是监管的风向让这些银行都比较害怕使用爬虫。“我们在推荐风控方案的时候,只能先推荐其他替代方案。如果有实在解决不了的问题,再来考虑能不能合规地使用爬虫。”他透露。

大数据风控釜底抽薪

整体来看,爬虫暂停究竟对市场贷款产品的影响面有多大?

一位资深风控人士告诉零壹财经,受影响的并非只有放贷机构,目前还在正常运营的大数据风控公司也受到了不小的影响。

据业内人士估计,无场景现金贷大约占网贷平台资产的60%—70%。上述资深风控人士透露,他有好几个朋友所在的公司都关门了。没有爬虫所提供的数据,能找到的替代数据有限,联合建模获取的数据作用并不太理想。因此,许多产品的坏账率飙升。

头部平台也受到了一定影响。一位头部平台首席风控官告诉零壹财经,比如一些公开数据的爬取,如法院失信被执行人的数据,由于爬虫团队的停止,现在无法爬取了,风控策略需要进行微调。

再看其他消费金融场景。一家汽车金融平台内部风控人士称,此前他们的风控是线上线下相结合,线的数据主要用来做反欺诈。但是爬虫停了之后,线上的反欺诈受影响比较大。这使得公司要重新考虑采用线下的其他方式来进行反欺诈,新的方法正在研究开发当中。

最后看目前尚在运营的大数据风控平台。一位资深风控人士告诉零壹财经,大数据风控平台之间的数据是“你中有我,我中有你”的,大数据风控公司的数据不仅接给很多贷款公司,也有很多其他的大数据风控公司接。爬虫停止之后,这些公司所应用的数据少了一大块,所以各种评分产品的效力大大下降。“一些原来的‘**分’之类的信用评分产品,现在作用大打折扣,在实际使用中,我们也不像原来那么依赖它们了。”前述风控人士表示。

“爬虫是大数据风控的灵魂,是大数据风控的底层基石。要做大数据风控,先要有丰富的数据,然后才能运用这些数据建立模型,进行信用评价。” 该人士表示,“这就相当于,建房子,把下面的地基都抽走了,上面的房子全部坍塌。”

无感数据源狂欢

市场在看似平静中正在经历巨大的调整。

数据的价值迅速凸显出来,有些握有数据的公司坐地起价。原先一份运营商报告3毛钱,字段覆盖很全,也非常有利于做反欺诈和催收。现在运营商报告无法获取,只能用与数据公司联合建模方式来获取运营商信息,比如月流量、通话地区分布等,这样使得成本大大提高,价格翻了好几倍。一位资深风控人士谈到这个问题时,气愤得直爆粗口。他透露,价格涨得太高,很多公司接受不了,替代方案效果又有限,所以很多公司没有办法,现在只能大规模缩量。

爬虫系统的价格也水涨船高。一位资深风控人士透露,这次整治之前,规模不太大的放贷机构一年调用第三方大数据风控服务商的爬虫系统,每年成本也就几十万。最近一套爬虫系统的报价已经超过1000万,而在两周前这个价格还是300万。

不少公司看准了数据荒所形成的市场空白,趁势而上。“最近来兜售数据的特别多,趁着数据荒,大家都出来赚一笔。”该人士告诉零壹财经,几乎每天都得接待一家这样的公司。

这些公司在业内被称为“无感数据源”。该人士解释,数据源分“有感数据源”和“无感数据源”。爬虫爬来的数据属于“有感数据源”,因为一般在金融应用中,爬虫爬取数据时,会弹窗要求用户进行账号和密码的授权,用户对授权这件事是有感知的。与此相对,

“实际上,大数据风控公司80%左右数据方面的业务做的是无感数据源。因为爬虫技术是有门槛的,能把爬虫技术做好的公司不多。”无感数据源十分庞杂,甚至连行业的人都说不清楚这些数据都是从哪来的。该人士坦言:“因为对方一推销,就会说有什么什么数据,但是要有数据的话,需要有相关业务才可以。可是,看这些公司也没有能积累数据的相关业务,所以数据来源就说不清了。他们都称自己是合法的,不过这真的很难令人相信。”

“这些公司有很多我们连名字都没听过。在过去都是一些小公司,这次整治风波中,好几家行业头部公司被整了,这些小公司都冒出来了。”该人士透露,“无感数据源比爬虫的危害大得多,爬虫好歹还要征得用户授权,无感数据源根本不用征得用户授权。如果用这些数据,未来法律风险更大。”该人士表示。

从数据质量上来说,这些“无感数据源”的质量也参差不齐,许多放贷机构并不愿意购买。该人士解释,“无感数据源”之前也一直有,之所以爬虫在市场上应用比较普遍,这是市场选择的结果。因为在线上小额现金贷款蓬勃发展的这几年当中,市场上的各家放贷机构早已把各种风控方案都试了个遍,爬虫是效果最好、性价比也比较高的方案。同时,爬虫数据在使用时会征得用户授权,在市场上各类数据源当中算是比较合规的。

另外一位资深风控人士无奈地透露,即使在这样的监管环境下,依然有公司会买这些数据。“其实这么一整,最坑的就是一些头部的公司。小公司无所谓,只图一时赚快钱了事。头部公司想着长远的发展,希望业务合规,不敢乱动。”

观望爬虫边界

目前的数据荒如何应对?一位业内人士坦言:“现在不是应对,而是观望。在确定监管层对爬虫的明确态度之前,还没法确定如何应对。”

多位大数据风控行业资深人士向零壹财经表示,不能把爬虫“妖魔化”。其实爬虫这个技术本身非常简单,就是模拟人的上网行为,是一种按照一定的规则,自动抓取网页信息的程序或者脚本。它是流程过程自动化的一个分支技术,是代替人工进行大量重复工作的一个工具而已。

“现在在网上借款,很多信息让你自己填的话,你受得了吗?”一位大数据风控资深人士反问,他表示,“用一些自动化的工具来代替手工填写数据,这是大的趋势,我们再也回不到过去很多信息都用手工填写的时代。”

同时他补充:“用爬虫爬取信息,除了对用户来说比较省事之外,对放贷机构来讲,获取的数据也更真实。很多需要人手填的数据,都会有造假的成分,因为可以随意填写。但是如果用自动化的程序去抓取的话,很多数据是无法修改的,部分能修改的用户临时修改数据也是很难的,因此数据真实性更高,有保证。”

前述人士坦言,大数据风控服务在实际应用中确实出现了很多问题。其实出现问题的核心在于,爬虫爬取的数据被“二次贩卖”,而不是“爬取”这个动作本身。同时,需要特别强调的是,并不是所有应用爬虫技术的公司都会将数据“二次贩卖”。

“在实际业务中,有三种爬虫的应用,是非常不一样的。爬虫、爬虫和爬虫是不一样的!” 他反复强调。

在实际应用中,搜索引擎就是爬虫技术的一个较大应用。但是,这个“爬虫”和这次整治风波中的爬虫有所不同。搜索引擎的爬虫,爬取的是公开的网页信息,并不涉及个人隐私,因此不在这次整治当中。

该人士告诉零壹财经,在实际的金融领域应用中,爬虫被用在两类公司:一类是第三方大数据风控公司,一类是头部网贷平台。

有许多小型的网贷公司,自己养不起爬虫团队,一般都会采用第三方大数据风控公司提供的服务。一般用户在网贷平台上借款时,网贷平台需要用户授权去爬取一些信息,用于判断个人信用,从而决定是否放款以及放多少额度。得到用户授权之后,实际帮助这些小型网贷公司爬取数据的就是第三方风控公司。爬取数据这一步,其实并没有问题,问题在于爬取数据之后。第三方风控公司的爬虫业务利润并不丰厚,一般来说爬取一条信息所收取的费用甚至可以低至1毛钱,一个公司单靠这项业务无法盈利。于是,很多第三方风控公司将爬取的用户信息存储、出售给其他公司,从而获取更多收益。

还有一类是头部放贷机构,这些机构一般都是自建爬虫团队。这其中的原因有几个方面:其一,自建爬虫团队,爬取的数据更加个性化、更符合业务需要,因为爬虫爬来数据的广度和深度直接决定着公司后续风控的质量,是风控的基础,头部放贷机构不愿将业务的核心放在别人手里;其二,第三方风控公司爬取数据之后出售,是行业内都知道的事,头部放贷机构不愿意自家的客户被别的公司抢走,因此倾向于保护数据不外泄;其三,如果用户数据被转卖,会造成多头借贷,因为别的公司拿到这些用户的数据就会给这些用户放款,一个用户在多家借款,会影响这个用户的最终还款。因此,转卖用户数据和头部放贷机构的商业利益是根本违背的。

对于爬虫的应用边界,多位大数据风控业内人士表示,业内形成的共识是:

“不能把所有爬虫都定义成‘非法’或者‘违规’,这个大帽子,作为从业者,真的实在承受不了。”前述资深大数据风控人士向零壹财经强调。

在这一波爬虫公司遭到整治的过程中,爬虫合规与违规的边界也在被反复讨论。在学界和法律界,其实对这个问题有相对比较明确的认识。

10月30日,上海交通大学数据法律研究中心执行主任、天册律师事务所资深顾问、数据法盟创始人何渊在2019数字信用与风控年会暨零壹财经新金融秋季峰会上表示,官方的态度实际上是很明确的,数据并不是不能爬,“说得很清楚,收集的时候不能采取妨碍网站的正常运行,甚至有一个尺度,流量不能超过别人网站的1/3”。何渊认为,“这三点决定你是不是犯罪,是不是违法”。

此前,10月8日,中国人民大学国家发展与战略研究院金融科技与互联网安全研究中心主任杨东在人民政协报上撰文《依法保护金融数据》,其中提到尽管纷扰不断,但传统金融机构线上化进程不可逆转。当前的紧要任务,是推动形成金融监管机构、行业头部企业与法律界等共同研究探讨的善治局面,鼓励科技向善。同时,针对当前数据分析行业的弊端,他提出了几点应对措施,其中包括:第一,金融监管机构出台金融业个人数据保护合规操作指南;第二,建立个人数据保护的行业自律组织;第三,以合规供应商清单的方式促进数据分析行业的发展。

目前,对个人金融数据监管最具针对性的一部法律是《个人金融信息(数据)保护试行办法》。此前据媒体报道,《个人金融信息(数据)保护试行办法(初稿)》已经出炉,央行已经下发到各家银行,目前正在征求意见中。

“盼望监管方面能尽快明确监管意见,因为逾期率是我们最害怕的。现在爬虫合规和平台逾期率是悬在我们头上的两把达摩克利斯之剑,任何一把掉下来都受不了。现在风控压力非常大。”一位头部平台风控人士表示。


转载声明转载声明:本文系后花园转载发布,仅代表原作者或原平台态度,不代表我方观点。后花园仅提供信息发布平台,文章或有适当删改。对转载有异议和删稿要求的原著方,可联络[email protected]