远程信息处理在预测建模中的应用.doc

资源ID：58050313 资源大小：30.50KB 全文页数：10页
资源格式： DOC 下载积分：20金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

远程信息处理在预测建模中的应用.doc

· 序言预测建模已广泛用于定价，准备金分析与风险量化等保险精算应用中。预测建模的核心是使用过去的数据来预测将来结果的概率。在精算界，预测建模已经成为广义线性模型GLM: Generalized Linear Model的代名词。其他广泛应用的模型还包括聚类分析 (Clustering)、分类与回归树CART: Classification and Regression Tree、随机森林RF: Random Forest以及神经网络模型ANN: Artificial Neural Network等。作者希望通过例子介绍预测建模的应用与最新开展。· 简介随着远程信息技术的迅速开展及其在车辆里程保险UBI: Usage Based Insurance与驾驶员行为分析中的应用，车险的定价与风险评估变得更为准确，也更为复杂。远程信息技术通过车载设备与手机应用搜集车辆行驶的数据。搜集的数据中包括非传统的地理定位数据，这些数据是非构造化的，不能直接在预测模型中使用。如果能将这些数据转化成可以使用的变量，那么可以对驾驶行为进展更加个性化的分析，从而使车险业务的风险评估变得更全面，更可信。比方：在每辆车的驾驶纪录中，一般是由投保人驾驶的，偶尔会有他人驾驶的，但是无法确定哪些纪录是非投保人驾驶的。在统计学上，我们称之为无监视学习 (Unsupervised Learning)。由于投保人与其他人的驾驶习惯不同、对车的熟悉程度不同，因此驾驶风险存在差异，有必要加以研究。本文探讨将预测建模与远程信息技术相结合，把地理定位数据构造化，并使用随机森林模型来测算由非投保人驾驶投保车辆的概率。在车险定价中，这些信息对于了解车辆的使用，风险评估，确定保险费率与良好驾驶折扣等都有非常好的帮助。文章最后还提供了核心R程序供大家参考。· 数据我们从驾驶行程的特点差异入手来判断哪些是投保人的驾驶、哪些是其他人的驾驶。本文使用了Kaggle竞赛提供的庞大的分析数据库，包含了由车辆每秒的地理坐标位置组成的车辆驾驶行程的详细信息。表1列出了一条驾驶行程的一小局部数据。驾驶起点坐标为0,0，每行为车辆每秒的坐标。例如，一秒钟后，车辆移动到-7.4，-7.5，即距离起点南7.4米，西7.5米。通过驾驶起点归零的方式，我们把实际的经度与纬度数据转变为标准化数据，以去除敏感信息。每个投保人都有相对应的200条驾驶行程数据。图1画出了一位驾驶员的200条驾驶行程。· 数据处理原始数据库包含复杂的地理位置信息，很难直接在预测建模中使用。数据分析的第一步是从数据中提取可以使用的特征，将非构造化的数据构造化。比方根据驾驶行程数据计算出最大速度、最小速度、平均速度等等。本例使用了表2中列出的特征。在具体实践中，还可以提取其他特征来解决其他的问题。在实际业务中，投保车辆是否由投保人驾驶，或者哪些行程由投保人驾驶，在大局部情况下都是未知的，这是精算与风险管理中很少见的无监视学习的问题。大多数预测模型无法解决无监视学习的难题。为了能够使用模型预测与识别某个行程的驾驶员，需要将无监视学习变成监视学习，在训练数据中明确标识行程是否由投保人驾驶。为了解决这个问题，我们在每个驾驶员行程数据集中参加一些其他驾驶员数据集中的行程数据。这些添加的行程根本上不可能是由此驾驶员驾驶的。在模型校准中，我们假设在该驾驶员自身的数据集中所有的行程都属于该驾驶员，所有随机参加的行程都不属于该驾驶员。在本文的例子中，对于每个驾驶员，我们随机从其他车手的数据中抽取500条行程数据，并标记为错误的行程。通过这样的数据处理，无监视学习问题成了一个包含少量数据错误的监视学习Supervised Learning问题。图2演示了本文例子中使用的训练数据的组成。每个驾驶员均有各自的训练数据与预测模型。· 随机森林模型(Random Forest Model) 随机森林模型是分类回归树CART的组合模型Ensemble，是一个用随机方式建立的，包含多个回归树的分类器。对于每一个分类回归树，我们用随机抽取的数据样本进展校准。根据这些校准后的分类回归树，最终预测按照分类回归树结果中的大多数来决定。图3展示了随机森林模型的根本架构。首先从训练数据库中产生n个随机样本。在本文的例子中，针对每个驾驶员的训练数据，随机抽取了50组样本数据，每组样本数据大约为总样本数据的60%。然后每个样本用来校准一个分类回归树。在驾驶行程识别的例子中，只需要识别是否由某一驾驶员驾驶，所以分类回归树实际上是一个分类树。每个分类树上的节点根据新产生特征进展分类，产生新的分支，直至最终节点没有进一步的划分。每个最终节点都会显示频率最高的可能情况作为预测结果。例子中，Y=0代表此驾驶行程不是由该驾驶员驾驶；Y=1代表此驾驶行程是由该驾驶员驾驶。最终预测由所有分类树的结果投票决定。例子中，Y=1获得了177票，占绝对优势，所以判断此驾驶行程是该驾驶员完成的。随机森林模型在运算量没有显著增加的前提下提高了预测精度，比广义线性模型GLM的预测精度高很多，而且随机森林对多元共线性不敏感，结果对缺失数据与非平衡的数据比拟稳健，预测结果波动性也较小，可以很好地预测多达几千个解释变量的作用。· 预测利用上面介绍的随机森林模型，我们可以预测行程属于该驾驶员的概率。为提高正确率，我们可以进展屡次重复计算。每轮计算中都将重新随机抽取错误行程，并重新校准随机森林模型。最终，根据每轮模型结果计算出的平均概率被用来做预测结论。如果平均概率小于0.5，那么判断此行程不属于该驾驶员。图4显示了某驾驶员数据集的预测结果。在给出的200个行程中，有6个行程预测概率小于0.5，意味着这些行程不属于该驾驶员。· 验证校准之后的模型可用于测试随机抽取的其他驾驶员的驾驶行程。比方说我们可以从其他驾驶员的数据中随机取样200次驾驶行程，看有多少行程被错误的预测为由该司机驾驶。如果预测的正确率低，那么说明校准模型的准确率低。但是使用这种方法，高的正确预测率并不一定意味着校准模型的高精度。例如，如果模型预测结果显示所有随机抽取的其他驾驶员行程都不是由该司机驾驶的，那么该模型可到达100的正确率。但同时模型对于由该司机自己驾驶的真正行程的预测结果也可能都是错误的。另一个相对合理的方法是将驾驶数据分为训练数据与验证数据。比方，训练数据可以由该驾驶员行程数据的75%，加上500条其他司机的随机行程数据构成。同时，验证数据可以由该驾驶员行程数据剩余的25，加上200条随机选取的其他司机的行程数据。基于这样的训练数据得到的校准模型可以预测验证数据中的正确行程由该驾驶员驾驶与错误行程有其他驾驶员驾驶。这样不但可以检验此模型预测错误行程的能力，也可以检验其预测正确行程的能力。图5演示了在这种方法下驾驶员1的训练数据与验证数据的构成。表4列出了用于验证模型的混淆矩阵。根据实际的混淆矩阵，我们可以使用以下几个指标来评估预测的准确性。查全率Precision用来衡量第一类统计错误。查准率recall用来衡量第二类统计错误。F-Measure是查全率与查准率的调与平均数，可以视为检验第一类与第二类错误的一个综与指标。例子中查全率、查准率与F-Measure均大于70%，可以推断模型预测的准确度较高，两类统计错误都比拟小。然而，这种方法的主要缺点是训练数据中正确行程数据量会减少。由于每个驾驶员只有较小的数据集，它可能会显著影响模型校准的可信度。· 结论通过特征提取等非传统的数据处理方法，可以将非监视学习问题转变为监视学习问题，从而使得远程信息技术采集的地理定位数据用于模型预测，大大提高风险识别的全面性与准确性。另外，模型开发及验证过程中的创意调整，可以改善模型的性能，提高模型结果的应用价值。· 核心R程序下面列出了用于实现随机森林模型的R程序。 # 例子中使用R package “randomForest. library(randomForest) # 建立随机森林模型的公式 #数据库FeaturesDataset包含从地理定位数据中提取的所有新特征 Xnames <- colnames(FeaturesDataset) #去除不需要的解释变量 driver no与trip no以及预测变量“indicator，建立解释变量矩阵。 Xnames <- Xnames!Xnames %in% c("driverno","trip","indicator") #设置公式 f<-as.formula(paste("as.factor(indicator)",paste(Xnames,collapse="+") #从别的驾驶员的数据中随机抽取一些驾驶行程，结合已有的数据建立训练数据库。 AddWrongTrips = function(driver, NoWrongtrips) Correcttrips = FeaturesDatasetwhich(FeaturesDataset,'driverno'=driver), Wrongtrips = FeaturesDatasetsample(which(FeaturesDataset,'driverno'!=driver), size = NoWrongtrips), Wrongtrips,'indicator' = 0 Trainingdata = rbind(Correcttrips, Wrongtrips) return(Trainingdata) # 使用随机森林模型预测每个驾驶员200条驾驶行程中哪些不是由此驾驶员驾驶的。使用的训练数据包括原有的200条驾驶行程以及随机抽取的其他不属于此驾驶员的行程。整个程序循环运行10次，每次随机抽取的行程不同。10次结果共同决定预测概率。 NoWrongTrips = 500 # 建立向量存储一个驾驶员所有驾驶行程的预测结果 TripProb = numeric(NoTrips) #建立矩阵存储一个驾驶员所有驾驶行程所有循环的预测结果 TrainProbIter = matrix(data=NA, nrow=NoTrips, ncol=Iteration) # 建立向量存储所有驾驶员所有驾驶行程的预测结果 TripProbTotal = numeric(NoTrips * NoDrivers) # 所有驾驶员的随机森林模型校准与预测 for (driver in DriveData) TrainData = AddWrongTrips(driver, NoWrongTrips) rfmodel = randomForest(f , ntree = 50, nodesize=5, importance = TRUE, data=TrainData) rfpred = predict(rfmodel, newdata = TrainData1:200, , type = "prob"),2 TrainProbIter,iter = rfpred TripProb=apply(X=TrainProbIter, 1, mean) indicator_pred=ifelse(TripProb>=0.5,1,0) FeaturesDatasetseq(i-1)*200+1, i*200 ),"indicator"=indicator_pred TripProbTotalseq(i-1)*200+1, i*200 )=TripProb第 10 页

注意事项

本文（远程信息处理在预测建模中的应用.doc）为本站会员（美****子）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。