如何评估数据源.docx





《如何评估数据源.docx》由会员分享,可在线阅读,更多相关《如何评估数据源.docx(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、如何评估数据源对于一个金融机构而言,流量和风控决定利润,而数据质量是风控核心。 为提升风控水平,会引入新的数据源,面对新数据维度时,一般都会思 考两个方面:数据能否用,数据如何用。本篇文章会从线下数据测试、 线下数据评价、线上数据应用整个流程介绍如何谨慎的评估一个数据 源。一、线下数据评估1.1、不同类型数据源的评估首先,将数据分成4类,黑名单类、评分类,变量类,原始数据类。黑名单类应用在反欺诈环节,一般通过命中率、逾期率这两个 指标评估数据的有效性。一个好的黑名单应具有的性质是命中即逾 期”,即为保证准确性,黑名单的命中率一般不会很高(5%之内), 但只要命中,逾期概率就很高。评分类的变量直
2、接作为风控策略使用,一般通过缺失率有效性” “稳定性与现有数据共线性”投入产出这5个方面去评估。当评分具有稳定的排序能力,可用作客户分层或者准入。当评分具有明显 的尾部极端趋势,可做准入规那么,拦截掉极端的坏客户或者准入极端好 客户。变量类一般考虑策略/模型环节使用,一般通过缺失率有效性 稳定性变量之间的共线性与现有数据共线性”投入产出去评估。当变量具有稳定的排序能力,考虑建立模型。当变量具有极端 趋势且变量含义具有欺诈的性质,可考虑做一条反欺诈的规那么。原始数据类,一般是客户授权爬取的信息,需要做特征工程后评估数据 的价值。评估方法同变量类数据。1.2、评估指标(1)缺失率缺失率是考量数据覆
3、盖程度的指标。根据业务情况和数据的应用场景, 确定数据覆盖程度的需求。(2 )有效性分析单变量的GINI、KSJV值、趋势。评分类的变量,一般要求ks20 , 变量类的数据一般要求ks 10。同时,还有考量数据的可解释性和趋势 的稳定性。(3)稳定性无论是评分类还是变量类的数据源,都需要评估稳定性。稳定性的评估 是比照数据在两个不同时间段的分布情况,一般使用psi指标,psi0.1 认为数据有一定程度的偏移,psi0.25认为数据偏移很严重,需要迭 代相关策略或模型。(4)共线性(a )业务理解很多第三方的数据衍生逻辑都是笛卡尔积遍历所有组合可能,按照维度 切片拆分这些变量,初步预估整个数据含
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 如何 评估 数据源

限制150内