决策树算法及应用.doc
《决策树算法及应用.doc》由会员分享,可在线阅读,更多相关《决策树算法及应用.doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、决策树算法及应用决策树算法及应用数一决策树算法简介168决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测.决策树算法可设计成具有良好可伸缩性的算法,能够很好地与超大型数据库结合,处理相关的多种数据类型,并且,其运算结果容易被人理解,其分类模式容易转化成分类规则。因此,在过去的几十年中,决策树算法在机器学习(machine learning)和数据挖掘( data mining) 领域一直受到广泛地重视. 决策树算法以树状结构表示数据分类的结果。树的非叶结点表示对数据属性(at tribute) 的测试.每个分枝代表一个测试输出,而每个叶结点代表一个分类。
2、由根结点到各个叶结点的路径描述可得到各种分类规则。目前有多种形式的决策树算法。其中最值得注意的是CART 和ID3/ C4. 5 。许多其它的算法都是由它们演变而来。下面介绍决策树算法ID3 (Quinlan ,1979) 在实际中的一例应用.决策树算法ID3 使用信息增益( Information Gain)作为选择属性对节点进行划分的指标。信息增益表示系统由于分类获得的信息量,该量由系统熵的减少值定量描述。熵(Entropy) 是一个反映信息量大小的概念。最终信息增益最高的划分将被作为分裂方案。决策树和决策规则是实际应用中分类问题的数据挖掘方法。决策树表示法是应用最广泛的逻辑方法,它通过一
3、组输入-输出样本构建决策树的有指导的学习方法。对于分类决策树来说,需要先对原始资料来进行分类训练,经由不断的属性分类后,得到预期的分类结果.判定树归纳的基本算法是贪心算法,它采用自上而下、分而治之的递归方式来构造一个决策树。ID3 算法是一种著名的判定树归纳算法,伪代码如下:Function Generate_decision_tree(训练样本samples,候选属性attributelist)创建节点N:if samples 都在同一个类C then返回N 作为叶节点,以类C 标记;if attribute_list 为空then返回N 为叶节点,标记为samples 中最普通类: /多数
4、表决定选择attribute_list 中有最高信息增益的属性test_attribute:标记节点N 为test_attribute;for each test_attribute 中的已知位ai /划分samples由节点N 长出一个条件为test_attribute=ai 的分枝;设Si 是samples 中test attribute=ai 样本的集合; /一个划分If Si 为空then加上一个树叶,标记为samples 中最普通的类;Else 加上一个由Generate_desdecision_tree(Si,attribute_list_test_attribute)返回的节点:
5、在树的每个节点上使用具有最高信息增益的属性作为当前节点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并确保找到一棵简单的树。二 数据挖掘技术的基本概念710 数据挖掘是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。它所挖掘出的规则蕴涵了数据库中一组对象之间的特定关系,揭示出了许多有用的信息,为经营决策、市场策划、金融预测等提供依据。通过数据挖掘,有价值的知识、规则或高层次的信息能从数据库的相关数据集合中抽取出来,并从不同的角度显示,从而使大型数据库成为一个丰富可靠的资源,为知识归纳服务。数据挖掘发现的知识通常是以概念(Concepts)、规则(Rules)
6、、规律(Regularities)、模式(Patterns)、约束(Constraints)、可视化(Visualizations)等形式表现。这些知识可以直接提供给决策者,用以辅助决策过程,或者提供给领域专家,修正专家已有的知识体系,也可以作为新知识转存到相应系统的知识存储机构中,比如专家系统(Expert System)、规则库等(Rule Base).数据挖掘应用领域的不断扩展,为数据挖掘的发展带来了蓬勃的生机。三 决策树在许多领域的应用基于决策树C4.5算法的我国商业银行信用风险评估模型实证分析251。实证分析的样本来源本文从某银行的信息系统中随机抽取了某行业( 2004 年) 100
7、 个贷款企业的资料作为建模样本,其中有81 个企业的财务数据资料完整, 可以作为分析研究的对象。在这81 个企业中有64 个企业贷款履约, 17 个企业贷款违约, 不良贷款率为20。1, 与该行业的整体贷款不良率非常接近, 因此, 随机抽取的81 个企业财务资料具有代表性, 可以用此样本对总体进行统计推断.2.指标体系的建立适当地选择财务指标建立反映企业信用风险的指标体系, 是信用风险评估的基础。依据全面性、有效性和可操作性的原则, 选择了5 个方面的9 项指标构建了信用风险评估指标体系。( 1) 负债水平资产负债率X1。适度的资产负债率表明企业投资人、债权人的投资风险较小, 企业经营安全稳健
8、, 具有较强的筹资能力。( 2) 流动能力和偿债能力流动比率X2、总债务/ebitdaX3.流动比率越高, 表明企业流动资产周转越快, 偿还流动负债能力越强。但需要说明的是, 该指标过高, 表明企业的资金利用效率比较低下, 对企业经营发展不利。总债务/ebitda 是指总债务相对于当年的息、税、折摊前收益的大小。总债务与ebitda的比率反映以企业所创造的税前利润和留在企业内部的固定资产折旧费用、摊销费用在支付利息前对总债务的保障能力。该指标越小, 企业还债能力越强, 反之, 企业还债的能力就比较弱.( 3) 赢利能力净资产收益率X4、销售( 营业)利润率X5。企业获利能力是企业信用的基础,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 算法 应用
限制150内