首页 > 如何用大数据完善征信体系

企业征信授权书的有效期是六个月,如何用大数据完善征信体系

互联网 2021-03-08 01:30:53

接触大数据的过程中,你会发现,接触越多数据,越觉得数据不够用。

单独的数据维度在很多情况下是不够精准的,这在征信行业特别明显。而多维的数据的交叉就能精准地刻画一个人或一个企业,每增加一个维度,数据的价值不是加法,应该说是乘法,甚至是指数级别的增长。

现在没有一家机构能够获得全数据、全样本,包括BAT和运营商。

我国互联网金融征信数据困境:缺数据&有数据

我们通常说的信用信息,在金融中是有特指的,主要包括偿还能力和偿还意愿。与我们经常看到的,像过马路闯红灯、坐地铁逃票,以及平时爱买什么样的东西等记录还是有差别的。也可以说是应用的场景不一样,就需要不同的信用信息。

在当前,互联网金融还没有进入人民银行的征信体系,所以整个信息是无法互通的,同时互联网金融的用户和银行的用户重合度很小,也就是说能在银行贷款的用户,也不会到P2P贷款,这两类机构的风控水平也明显的将两类用户区分开来了。

所以导致的第一个问题是缺数据,互联网金融机构迫切的需要个人征信数据。

那么,什么是有数据呢?每个金融机构都有一个人体在本业务体系的完整征信记录,也就是说,每个金融机构都非常有数据,但是这些数据都是作为数据资产是严禁流转的,所以就产生了既缺数据,又有数据的矛盾。

这种矛盾在整个大数据行业也是比较明显的,所以大数据产业一个比较怪的现象,大家都喊着数据要共享要交叉,但是谁也不愿意把数据拿出来,包括现在各地的大数据交易中心纷纷成立,目标是解决数据共享流动问题,也没有很好的解决这个问题。

三种数据流动方式

1、第三方征信模式

这种方式是第三方大数据公司用各自的能力和方式主动采集数据,对数据进行加工整理后,向各个应用机构提供数据服务。

这种模式的核心是征信中心和大数据公司的采集能力,只要有能力有途径就可以采集,甚至不管被采集的机构愿不愿意。数据的获益者是大数据中心和征信机构,而数据的生产者却没有得到明显的好处,所以现在的很多数据机构都很头疼,想法设法让自己的数据不被第三方机构采集。

特点和问题;

由于采集数据具有外部性,最大的问题就是信息的完整性和及时性很难保证,所以现在很多的互联网金融机构,会同时接多家征信机构来补充完善数据,还是无法解决问题。(征信机构之间同质化相对比较验证)

2、行业数据中心模式

这种方式是行业数据中心要求各个业务机构把数据上报,然后数据中心会把这些数据进行加工整理,再向现有的业务机构提供服务。

这种模式与第一种模式不同点是:第一种是主动采集,这种是要求机构上报,在数据上也是有差别的,上报的数据会比较纯粹、比较单一。

特点和问题:

这种模式是一种强中心模式,很多机构是不情愿的,所以这模式很通常只能靠行政手段来执行。典型的像工商的企业数据中心、人民银行的征信中心,只有这种强势的部门才能建立起来,这种模式是没有办法进行数据最大化共享和价值最大化发掘的。

3、数据聚合中心模式

这种模式是比较常见的,也是相对比较市场化的模式。在这种模式下,各个机构不需要再把数据事先交到数据中心,而是保留自己的数据库,通过API与数据中心连接。

当一个机构需要数据时,会把请求发到数据聚合中心,数据聚合中心会将这个请求发到除这个请求机构外的所有机构。机构收到请求后,有数据的机构会返回数据,数据聚合中心将返回的数据加工整理后再给查询机构。

特点和问题:

这种方式比前两种方式都进步许多,数据由数据提供者自己保存、自己控制;并且,数据的收益权也归了数据所有者。这也是当前很多数据联盟采用的方式,包括现在的互联网金融协会的数据共享模式以及很多的大数据交易中心都采用了这种模式。

但是这种模式存在三个比较严重的问题:

第一,查询信息的泄露。当一个机构需要数据,他的查询请求会被分发到其他机构,而在征信的场景下,查询信息本身就是一个隐私信息。

简单举一个例子,有一个用户到我这贷款,我希望查询他在其他机构的表现,一旦我把这个数据查询请求发出,相当于这个客户的信息被所有机构获知,那么其他机构就有可能抢先联系我的客户,相当于我的客户在查询的时候被泄露了。

第二,机构很容易投机获利。接入这个聚合平台后,机构最好的策略是接受请求,不应答,既能接收有意义的查询,又不泄露自己数据,并且还不违规。

第三,表面上看,所有的数据都由各自的机构自己保存管理,而实际上一旦数据进行了流转,数据中心可以保留所有的数据,也就是说,最后所有的数据都会在聚合中心留存。

中心是数据共享的最大威胁和最大障碍

简单总结一下前面几种模式,我们认为,当前数据流转不畅的一个重大原因是,数据中心或数据中介成为了最大威胁和最大障碍。我们知道商品经济时代,商品的交易中介起到了重大作用,包括线下的大卖场像国美、苏宁,以及线上的天猫、淘宝、京东,都汇集了众多的商品提供商和消费者,促成商品在他们之间进行流动。

为什么在数据时代,这种数据中介反而成为了阻碍。因为数据有着它的特殊性:第一,数据具有复制的无差别性;第二,数据看过即拥有。

以上介绍的数据交易/流通模式,作为中心能看到所有交易的数据,同时也就拥有了数据。中心一旦可以轻松得到数据,理论上,再有类似需求时,中心将不再需要原有数据提供者,可以自己直接提供服务。现在很多的中心会对外宣称,我们坚决不留数据,但是这只能依靠商业承诺,中心是有机会、有能力留存数据的,具体留没留,大家都不知道。

我们希望做到的

1、数据由提供者存储和管理,谁的数据谁控制;

2、查询请求只会发送到有此数据的机构,不能造成查询信息泄露;

3、数据查询方不知道数据由谁提供(可实名,可匿名);

4、数据提供方收到请求必须应答,不知道查询者是谁(可实名,可匿名);

5、数据只在查询方和提供方之间交互,任意第三方即使从网络中截取数据,也无法获取信息真正内容;

6、数据可追溯、可跟踪与可评估;

7、体系的运转是透明的,可监督的,可验证的。

通过三种技术实现:密码技术、区块链技术和安全多方计算

1、密码技术

密码技术大家都不陌生,这里主要强调密码的正确使用。其中包含密码算法组合的正确使用以及流程的正确使用。

只有加密算法的合理组合使用才能保证数据安全,比如要不可逆,必须要用到HASH,要不可抵赖不可篡改,要用到数字签名,需要数字的加密和解密的唯一,可能要用到数字信封。

在系统的整个过程中,也必须要合理的使用密码技术。这里主要提三点,密文索引、密文查询和密文获取,涵盖了整个的数据获取流程,只有整个数据流程的合理使用,才能保证数据的保密性和不可抵赖性。

2、区块链技术

一条链的基本框架设计

我对这种技术的理解,它是分布式的、完整的、不可篡改的、多方参与和监督的记录方式。

理论的、纯粹的区块链强调的是完全去中心,但我认为完全去中心难度比较大,弱中心和多中心可能更为合适。我们之所以引入了区块链技术,主要是利用他的透明操作和公共监督,让中心变成随时可监督、可抛弃、可替换的服务者。

开放与开源

其实无论系统设计的多么完善,都挡不住实践中的“小技巧”(漏洞或后门)。理论体系再好,实现是黑盒,参与者还是不放心。

在这个体系里我们做了两点开放:

第一是协议开放,所谓的协议开放是我把所有的数据格式、传输包都定义的清清楚楚,每一个参与者都可以自己实现加入系统;

第二是代码开源,让没有能力做开发、做接入的机构,我们把实现的源代码开放给你,你自己来看,也就是让用户看的清清楚楚,来证明系统的清白。

盲聚合中心模式的数据流动

经过以上的技术开发,所有的机构加入了系统之后,首先向中心公布自己的索引列表,同时这个索引是一个加密索引,用到了HASH算法。所以说在系统里会形成一张加密过后的索引表,即使索引表被系统或任意第三方获取,他也没有办法反推出其中代表的明文。

免责声明:非本网注明原创的信息,皆为程序自动获取自互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明(版权证明、身份证正反面、侵权链接),站长将在收到邮件24小时内删除。

相关阅读