必读:个人信用信息大数据时代的起源与发展

  经营许可证     |      2023-08-22
必读:个人信用信息大数据时代的起源与发展

征信行业历史起源

征信机构于1830 年代在美国兴起。雏形是一些商业研究机构,服务于民间或银行的借贷业务。获取信息的方式是招募一些研究人员走访街道,然后逐步形成规模化、标准化。

作为发源地,美国有三大征信机构,均已有100年的历史,如美国三大个人征信机构Experian、Aiquanfax、TransUnion。三大征信机构95%的数据来源相同,覆盖90%的美国人。可见,美国信用数据的覆盖范围非常广泛。其征信服务也覆盖多个行业。在美国,个人信用信息监管严格,监管法律非常健全。目前,企业信用信息基本没有受到监管。

中国征信行业历史起源

在中国,最早的专职征信局是中国征信局,成立于1932年6月6日。国内征信业的快速发展基本是从2003年以后开始的。这一年,中国人民银行征信局成立。中国也成立了。随着2017年6月个人信息安全法的颁布,整个征信行业对数据的敏感输出进行了重大调整,许多敏感信息接口被主动关闭。

中国央行征信覆盖情况

在中国,央行的征信数据实际上只覆盖了约3.8亿自然人,覆盖率很低,还有数亿人只有简单的身份数据。美国已经达到90%以上,所以单纯依靠央行数据在中国并不符合创新的共同基金行业信贷产品。于是,各类数据公司(包括注册征信机构)纷纷尝试将非央行征信电商和社交数据应用于信用风险控制,比如京东白条。

中国个人征信行业查询规模情况

无论国外还是国内,企业征信的发展都不及个人征信。从国内央行的信贷查询数据来看,2015年就达到了6.3亿,这只是央行系统内部的数据查询数量。可见,征信行业市场还是很大的。以此类推,央行之外的准信贷数据市场规模也应该是非常客观的。

中国个人征信行业备案情况

在中国,还没有征信机构获得正式许可。此前热议的八家主要征信机构目前还只是处于备案阶段。截至2016年底,全国共有征信机构134家。最新数据显示,目前仍在备案的征信机构仅有133家。经全面初步调查,目前只有不到20%的征信机构在营业,其余大部分仍在营业。处于准备和探索阶段。这些备案机构属于正规军,市场上还有不少数据科技公司也从事征信业务,但为了逃避监管,往往以“信用风险”为名进行数据查询交易。控制”。然而,这些非正式大军却非常有活力,各种创新信用模式产品层出不穷。目前还无法判断哪些是真正有用的。

后续将征信备案机构及非备案机构归类为“大数据行业”机构

中国征信行业数据主要类型

征信行业使用的数据主要包括传统央行征信数据和互联网征信数据。

互联网信用信息包含的数据主要涉及传统央行信用信息数据、业务数据、身份数据、社交数据、消费/金融数据,甚至日常活动数据、特定场景下的行为数据等。互联网信用数据与个人信用的相关性较弱,因此有N种关系算法来验证各种数据的相关性,以判断个人信用的可靠性。

由于体制和技术原因,传统征信系统中征信(央行)的运用大多局限于金融行业,而互联网金融平台的大数据征信结果往往有更多的应用在金融行业之外。

中国互联网征信行业数据类型

互联网信用数据多用于个人身份信息(个人基本信息、教育背景信息、驾照信息)、个人消费相关数据(资产信息、兴趣爱好、电子商务注册行为)、银行持卡人数据(POS交易信息、个人借记卡账单信息、线上线下支付数据)、互联网用户及行为信息(APP浏览数据、WEB浏览数据、地理位置信息)、司法执行信息(判决书信息、合同履行执行信息、失信行为信息) 、贷款黑名单高风险客户名单(传统金融、互联网金融)、航班信息(出行频率、票务信息)、位置信息(实时位置、常用地址、出行轨迹)等。但有权访问的企业这些信息基本上都属于行业巨头,比如三大运营商、京东、淘宝。

大数据的风控框架

根据国内信贷行业的调查,基于大数据的风控框架大致是这样的。一些小细节其实对应着贷前、贷中、贷后使用的一些大数据和大数据来源。不同环节对应的技术能力和数据源要求不同。在P2P等高风险行业,利用长期数据来屏蔽或获客是可以的。数据的使用并不是一成不变的,它取决于行业、产品、风险定价等灵活使用。在支付环节,结合位置信息就成为防刷卡的功能。这里就不举例了。

大数据风控行业类型

围绕大数据框架总体思路的发展,大数据风控行业实际上分为三种类型:个人/企业数据接口批发、个人/企业数据接口集成报告、个人/企业数据建模与分析分析系统。上图是一些业内比较知名的机构。产品输出方式:各种接口直接联调调用、网页版登录查询管理、定制风控报告、联合建模。

个人征信模型通用简版思路

最后说一下简化版的非自动个人征信模型:首先需要接入多种数据源,而这些数据源需要满足业务需求。这些规则用于特征提取和初步分类。然后,各种特征会根据不同的算法一一组合成相应的模型,应用于不同的业务场景。不同的模型通过机器学习(监督学习和无监督学习)输出相应的分数,并给每个模型相应的参考。最好需要有经验的人根据分数来做出最后的决定。

补充

银行机构等大型企业的信贷产品多以央行信贷数据为主,非央行大数据为辅。消费金融和P2P机构大多使用非央行大数据,由于客户基础、产品、面临的风险等原因,基本不使用央行数据。国内征信行业合作伙伴默认有两个征信系统:央行征信系统和民间借贷征信系统。一般情况下,银行基本都接入央行的征信,因此银行客户非常关心自己的信用记录。不过,互助基金行业基本没有进入央行征信体系,而是联合组建民间征信平台。在民间借贷征信体系中,实际上会影响他们的借贷行为。尤其是现在银行的信贷产品和信用卡都开始使用长期贷款。这些数据为许多小贷公司提供了帮助,但只贷给长期贷款名单上且有偿还能力的客户。