远程信息处理在预测建模中的应用.doc
《远程信息处理在预测建模中的应用.doc》由会员分享,可在线阅读,更多相关《远程信息处理在预测建模中的应用.doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 序言 预测建模已广泛用于定价,准备金分析与风险量化等保险精算应用中。预测建模的核心是使用过去的数据来预测将来结果的概率。在精算界,预测建模已经成为广义线性模型GLM: Generalized Linear Model的代名词。其他广泛应用的模型还包括聚类分析(Clustering)、分类与回归树CART: Classification and Regression Tree、随机森林RF: Random Forest以及神经网络模型ANN: Artificial Neural Network等。作者希望通过例子介绍预测建模的应用与最新开展。 简介 随着远程信息技术的迅速开展及其在车辆里程保险
2、UBI: Usage Based Insurance与驾驶员行为分析中的应用,车险的定价与风险评估变得更为准确,也更为复杂。远程信息技术通过车载设备与手机应用搜集车辆行驶的数据。搜集的数据中包括非传统的地理定位数据,这些数据是非构造化的,不能直接在预测模型中使用。如果能将这些数据转化成可以使用的变量,那么可以对驾驶行为进展更加个性化的分析,从而使车险业务的风险评估变得更全面,更可信。比方:在每辆车的驾驶纪录中,一般是由投保人驾驶的,偶尔会有他人驾驶的,但是无法确定哪些纪录是非投保人驾驶的。在统计学上,我们称之为无监视学习(Unsupervised Learning)。由于投保人与其他人的驾驶习
3、惯不同、对车的熟悉程度不同,因此驾驶风险存在差异,有必要加以研究。 本文探讨将预测建模与远程信息技术相结合,把地理定位数据构造化,并使用随机森林模型来测算由非投保人驾驶投保车辆的概率。在车险定价中,这些信息对于了解车辆的使用,风险评估,确定保险费率与良好驾驶折扣等都有非常好的帮助。文章最后还提供了核心R程序供大家参考。 数据 我们从驾驶行程的特点差异入手来判断哪些是投保人的驾驶、哪些是其他人的驾驶。本文使用了Kaggle竞赛提供的庞大的分析数据库,包含了由车辆每秒的地理坐标位置组成的车辆驾驶行程的详细信息。表1列出了一条驾驶行程的一小局部数据。 驾驶起点坐标为0,0,每行为车辆每秒的坐标。例如
4、,一秒钟后,车辆移动到-7.4,-7.5,即距离起点南7.4米,西7.5米。通过驾驶起点归零的方式,我们把实际的经度与纬度数据转变为标准化数据,以去除敏感信息。每个投保人都有相对应的200条驾驶行程数据。图1画出了一位驾驶员的200条驾驶行程。 数据处理 原始数据库包含复杂的地理位置信息,很难直接在预测建模中使用。数据分析的第一步是从数据中提取可以使用的特征,将非构造化的数据构造化。比方根据驾驶行程数据计算出最大速度、最小速度、平均速度等等。本例使用了表2中列出的特征。在具体实践中,还可以提取其他特征来解决其他的问题。 在实际业务中,投保车辆是否由投保人驾驶,或者哪些行程由投保人驾驶,在大局部
5、情况下都是未知的,这是精算与风险管理中很少见的无监视学习的问题。大多数预测模型无法解决无监视学习的难题。为了能够使用模型预测与识别某个行程的驾驶员,需要将无监视学习变成监视学习,在训练数据中明确标识行程是否由投保人驾驶。为了解决这个问题,我们在每个驾驶员行程数据集中参加一些其他驾驶员数据集中的行程数据。这些添加的行程根本上不可能是由此驾驶员驾驶的。在模型校准中,我们假设在该驾驶员自身的数据集中所有的行程都属于该驾驶员,所有随机参加的行程都不属于该驾驶员。在本文的例子中,对于每个驾驶员,我们随机从其他车手的数据中抽取500条行程数据,并标记为错误的行程。通过这样的数据处理,无监视学习问题成了一个
6、包含少量数据错误的监视学习Supervised Learning问题。图2演示了本文例子中使用的训练数据的组成。每个驾驶员均有各自的训练数据与预测模型。 随机森林模型(Random Forest Model) 随机森林模型是分类回归树CART的组合模型Ensemble,是一个用随机方式建立的,包含多个回归树的分类器。对于每一个分类回归树,我们用随机抽取的数据样本进展校准。根据这些校准后的分类回归树,最终预测按照分类回归树结果中的大多数来决定。图3展示了随机森林模型的根本架构。首先从训练数据库中产生n个随机样本。在本文的例子中,针对每个驾驶员的训练数据,随机抽取了50组样本数据,每组样本数据大约
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 远程 信息处理 预测 建模 中的 应用
限制150内