《金融数据挖掘》PPT课件.ppt
《《金融数据挖掘》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《金融数据挖掘》PPT课件.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 金融市场的数据挖掘金融市场的数据挖掘 教材:教材:数据采掘入门与应用数据采掘入门与应用 张尧庭编张尧庭编 中国统计出版社中国统计出版社 参考教材:参考教材:1、数据挖掘、数据挖掘概念与技术概念与技术 jiawei Han著,范明译著,范明译 机械工业出版社机械工业出版社 2、多元统计数据分析、多元统计数据分析理论、方法、实例理论、方法、实例 任若恩著任若恩著 国防工业出版社国防工业出版社 配套应用软件:配套应用软件:1、Intelligent miner for data 2、SAS 第一章:概论第一章:概论 一、何为数据挖掘(一、何为数据挖掘(data mining)现代信息社会的特征:信
2、息(数据)泛滥、知识缺乏,现代信息社会的特征:信息(数据)泛滥、知识缺乏,如何从海量数据(广义的概念)中挖掘出决策有用信息?如何从海量数据(广义的概念)中挖掘出决策有用信息?数据挖掘是数据挖掘是结合现代数学、统计学,机器学习、人工智结合现代数学、统计学,机器学习、人工智能、数据库管理、计算机图形学、软件工程等各领域的技术能、数据库管理、计算机图形学、软件工程等各领域的技术和知识,和知识,19901990年代在西方国家出现的一种高新技术年代在西方国家出现的一种高新技术从海从海量数据中挖掘出决策有用信息的技术。量数据中挖掘出决策有用信息的技术。19901990年代末,在对年代末,在对100100名
3、美国著名科学家的问卷调查中,名美国著名科学家的问卷调查中,数据挖掘被列为数据挖掘被列为2121世纪对人类发展影响最大、最有前途的世纪对人类发展影响最大、最有前途的1010大技术的第三位。大技术的第三位。我国对数据挖掘技术的重视(开发与应用)我国对数据挖掘技术的重视(开发与应用)1、863、963项目;项目;2、国家及省重点科学领域;、国家及省重点科学领域;3、国家统计局在全国组织数据挖掘培训(、国家统计局在全国组织数据挖掘培训(2000););4、企业特别是银行对数据挖掘技术的重视;、企业特别是银行对数据挖掘技术的重视;5、人民大学数据挖掘研究与应用中心。、人民大学数据挖掘研究与应用中心。海量
4、数据海量数据沙漠,隐含的知识沙漠,隐含的知识金子,金子,数据挖掘数据挖掘从沙漠中挖掘金子的技术。从沙漠中挖掘金子的技术。二、不同学科对数据挖掘技术的研究与开发二、不同学科对数据挖掘技术的研究与开发 1、理论研究、理论研究各种数据挖掘技术的理论基础、各种数据挖掘技术的理论基础、理论依据研究,从数学、统计学、人工智能、计算机理论依据研究,从数学、统计学、人工智能、计算机图形学等不同领域;图形学等不同领域;2、挖掘技术研究,从统计学、人工智能、机器、挖掘技术研究,从统计学、人工智能、机器学习、计算机图形学、软件工程等领域;学习、计算机图形学、软件工程等领域;3、数据管理策略研究,从数据库管理技术等领
5、域;、数据管理策略研究,从数据库管理技术等领域;4、数据挖掘技术的应用研究,其中数据挖掘技、数据挖掘技术的应用研究,其中数据挖掘技术在金融领域的应用是一个重要方面。术在金融领域的应用是一个重要方面。三、几种相对比较成熟的数据挖掘技术三、几种相对比较成熟的数据挖掘技术 数据挖掘是一门新兴的、正在不断发展中的技数据挖掘是一门新兴的、正在不断发展中的技术,近年来,几类十分重要、且相对比较成熟的数术,近年来,几类十分重要、且相对比较成熟的数据挖掘技术是:据挖掘技术是:1、分类与预测、分类与预测 2、特征化、比较与关联规则挖掘、特征化、比较与关联规则挖掘 3、聚类分析、聚类分析 4、序列发现、序列发现
6、本课程主要内容:几类数据挖掘技术的基本原本课程主要内容:几类数据挖掘技术的基本原理、数据挖掘方法、及这些挖掘技术在金融领域的理、数据挖掘方法、及这些挖掘技术在金融领域的应用。应用。第二章:分类与预测第二章:分类与预测 一、分类与预测的概念一、分类与预测的概念 1、分类、分类 已知离散的、有限的几个类,判断或预测样本属于那个类。已知离散的、有限的几个类,判断或预测样本属于那个类。*某人否具有某种疾病某人否具有某种疾病 *上市公司是否会陷入财务困境、是否会被外资并购上市公司是否会陷入财务困境、是否会被外资并购 *借款人是否会违约借款人是否会违约 *这个客户是否为银行的潜在优质客户、是否会转向其这个
7、客户是否为银行的潜在优质客户、是否会转向其他银行他银行 用用y表示类变量,表示类变量,y取离散的几个值,分类就是判断或预测取离散的几个值,分类就是判断或预测样本的样本的y究竟取什么值究竟取什么值 2、预测预测 预测是指对连续性变量的取值进行预测,如:预测是指对连续性变量的取值进行预测,如:*某个借款人的违约概率是多少某个借款人的违约概率是多少 *银行资产组合明天在银行资产组合明天在99%99%置信度下的最大损失(置信度下的最大损失(VaRVaR)有有 多大多大 *如果某开放式基金因面临巨额赎回申请而不得不大量如果某开放式基金因面临巨额赎回申请而不得不大量抛售某种证券,这种证券的价格会下跌多少抛
8、售某种证券,这种证券的价格会下跌多少 分类分类对离散型变量进行预测对离散型变量进行预测 预测预测对连续型变量进行预测对连续型变量进行预测 二、分类案例教学二、分类案例教学 上市公司财务困境预测模型构建上市公司财务困境预测模型构建 1、要求:要求:将因财务状况异常而被特别处理的将因财务状况异常而被特别处理的STST公司界定为财务困公司界定为财务困境公司、非境公司、非STST公司界定为财务正常公司,利用上市公司的财公司界定为财务正常公司,利用上市公司的财务报表数据,建立上市公司财务困境预测模型(提前一年预务报表数据,建立上市公司财务困境预测模型(提前一年预测,即用第测,即用第t-2t-2年的数据预
9、测企业在第年的数据预测企业在第t t年是否会陷入财务困年是否会陷入财务困境)。境)。分类变量分类变量y y的取值的取值 y=0 y=0 如果公司为财务困境公司如果公司为财务困境公司 y=1 y=1 如果公司为财务正常公司如果公司为财务正常公司 2、类似案例、类似案例:*外资并购目标公司预测外资并购目标公司预测 *防防信用卡诈骗预警系统信用卡诈骗预警系统 *银行客户关系管理银行客户关系管理 *税务稽核税务稽核 3 3、数据来源:、数据来源:CSMARCSMAR数据库数据库 1990-2004 1990-2004 资产负债表、损益表,资产负债表、损益表,1990-1997 1990-1997 财务
10、状况变动表财务状况变动表 1998-2004 1998-2004 现金流量表现金流量表 4 4、报表变动情况:、报表变动情况:1994 1994年合并会计报表年合并会计报表 1998 1998年资产减值准备年资产减值准备 5、研究所需数据、研究所需数据 、预测变量选取预测变量选取实践经验、其他文献使用的预测实践经验、其他文献使用的预测变量、采用技术手段(统计技术、数据挖掘技术)选取预测变量、采用技术手段(统计技术、数据挖掘技术)选取预测变量、在一定理论指导下构造新的预测变量;变量、在一定理论指导下构造新的预测变量;、样本数据的结构形式样本数据的结构形式 、采集样本数据时应注意的问题采集样本数据
11、时应注意的问题 *尽量采用跨年度数据尽量采用跨年度数据 *需要删除的数据需要删除的数据 *尽量不采用配对抽样尽量不采用配对抽样 、随机构造的训练样本组与检验样本组(过度拟合现随机构造的训练样本组与检验样本组(过度拟合现象)象)、本案例的数据说明(、本案例的数据说明(sj0sj0):*19951995年底前上市的公司;年底前上市的公司;*删除其他原因被特别处理的公司;删除其他原因被特别处理的公司;*数据跨期数据跨期1996-20011996-2001,分别预测,分别预测1998-20031998-2003;*删除在预测年度已陷入财务困境的公司;删除在预测年度已陷入财务困境的公司;*共有非共有非S
12、TST公司数据公司数据10081008个,个,STST公司数据公司数据111111个;个;*采用的采用的6 6个预测变量为(第一种方法):个预测变量为(第一种方法):总总负负债债/总总资资产产、主主营营业业务务收收入入/总总资资产产、总总利利润润/总总资资产产、(货货币币资资金金+短短期期投投资资净净额额)/流流动动资资产产、留留存存盈盈余余/总总资资产产、总资产的自然对数。总资产的自然对数。、随机抽样构造训练样本组、检验样本组的随机抽样构造训练样本组、检验样本组的SAS方法:方法:*将将EXCELEXCEL数据库转为数据库转为SASSAS数据库;数据库;*SAS随机数函数随机数函数unifo
13、rm(seed),随机种子数随机种子数seed取奇数,产生取奇数,产生0,1区间上的一个随机数区间上的一个随机数 *随机建立训练样本组、检验样本组的随机建立训练样本组、检验样本组的SASSAS程序程序#data a#data a;set sasuser.sj0;set sasuser.sj0;k=uniform(15);k=uniform(15);run;run;#对已进行对已进行k k排序的数据库排序的数据库a a data b;data b;set a;set a;m=int(_n_/2);m=int(_n_/2);run;run;(sj1sj1,sj2sj2)二、构造分类预测模型的方法二
14、、构造分类预测模型的方法 1 1、判别分析法判别分析法 、判别分析方法的统计学原理判别分析方法的统计学原理 假设有两个总体假设有两个总体财务困境公司与财务正常公司,每个财务困境公司与财务正常公司,每个总体都可以用一个六维随机变量总体都可以用一个六维随机变量 表示,不同的总体表示,不同的总体分布不同。预测上市公司是否会陷入财务困境,就是判断这分布不同。预测上市公司是否会陷入财务困境,就是判断这个公司所对应的样本属于哪个总体。个公司所对应的样本属于哪个总体。判别分析是利用距离(相似程度的体现)来判断样本的归判别分析是利用距离(相似程度的体现)来判断样本的归属。较常用的距离度量是马氏距离:属。较常用
15、的距离度量是马氏距离:,判别分析,判别分析实际上是利用距离差:实际上是利用距离差:为判断指标来判断样本的归属。为判断指标来判断样本的归属。由于马氏距离为一个二次型,因此当由于马氏距离为一个二次型,因此当 时,距离差也时,距离差也会一个二次型,这样在计算时较复杂,如果会一个二次型,这样在计算时较复杂,如果 ,且两个总,且两个总体均服从正态分布,则距离差为一个线性函数(线性判别函体均服从正态分布,则距离差为一个线性函数(线性判别函数),可利用这个线性函数数),可利用这个线性函数建立预测规则。建立预测规则。、判别分析的判别分析的SASSAS程序:程序:proc discrim data=sasuse
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 金融数据挖掘 金融 数据 挖掘 PPT 课件
限制150内