《SAS中判别分析》课件.pptx
SAS中判别分析 制作人:PPT制作者时间:2024年X月目录第第1 1章章 简介简介第第2 2章章 数据预处理数据预处理第第3 3章章 判别分析方法判别分析方法第第4 4章章 判别分析应用判别分析应用第第5 5章章 模型效果评估模型效果评估第第6 6章章 总结总结第第7 7章章 附录附录 0101第1章 简介 判别分析是什么判别分析是一种多元统计分析方法,它主要用于解决分类问题。它可以根据特定的变量将数据分组,然后根据给定变量指标进行差异分析。判别分析的作用判别分析的作用判别分析主要用于分类问题的解决,可以帮助我们分析多判别分析主要用于分类问题的解决,可以帮助我们分析多个变量对于分类的影响程度,并确定哪些变量对分类影响个变量对于分类的影响程度,并确定哪些变量对分类影响最大。同时,判别分析也可以用于预测未来分类的情况。最大。同时,判别分析也可以用于预测未来分类的情况。判别分析与其他统计分析方法判别分析对于某一组数据进行分类,而其他统计分析方法则主要用于数据的描述、推断、假设检验等等。区别判别分析和其他统计分析方法都是用来处理数据的方法,都可以用来帮助我们更好的理解和分析数据。相似判别分析主要适用于分类问题的解决,而其他统计分析方法则适用于不同的数据分析场景。适用情况判别分析的分类方式通过线性组合将变量信息转换为分类信息线性判别分析通过二次组合将变量信息转换为分类信息二次判别分析不需要对变量分布进行假设,适用性更广泛非参数判别分析判别分析应用领判别分析应用领域域判别分析在各个领域都有广泛的应用,比如医学诊断、金判别分析在各个领域都有广泛的应用,比如医学诊断、金融风险评估、市场营销、环境监测等等。判别分析的应用融风险评估、市场营销、环境监测等等。判别分析的应用可以帮助我们更好地理解和解决各种实际问题。可以帮助我们更好地理解和解决各种实际问题。建模分析建模分析选择适当的判别分析方法选择适当的判别分析方法计算判别函数计算判别函数校验模型校验模型模型应用模型应用分类分类预测预测 判别分析的步骤判别分析的步骤数据准备数据准备确定自变量和因变量确定自变量和因变量数据清洗数据清洗数据缺失值处理数据缺失值处理 0202第2章 数据预处理 数据收集与整理数据来源和采集方法选择数据收集和处理原则数据清洗、去重、缺失值处理等数据整理的步骤和技巧常见指标、数据可靠性判断数据质量评价数据探索与清理条形图、饼图、散点图、箱线图等数据可视化的方法和工具均值、中位数、标准差、分位数等数据分布描述异常值、离群值、噪声处理等数据清理的技巧和注意事项数据标准化防止量纲影响、提高算法效率数据标准化的概念和作用Min-Max、Z-Score、Normalization等标准化方法的比较和选择连续属性离散化、离散属性处理离散化特征选择减少冗余信息、提高分类精度特征选择的意义和目的过滤式、包裹式、嵌入式等特征选择方法信息熵、信息增益、Gini系数等特征权重赋值从数据源中获取数据并进行处理数据收集和整理0103对数据进行归一化、标准化等处理数据标准化02对数据进行可视化分析和清洗数据探索和清理数据可视化的作数据可视化的作用用数据可视化可以帮助我们更好地理解和分析数据,发现其数据可视化可以帮助我们更好地理解和分析数据,发现其中的规律和关联,同时也可以通过图表等形式直观地传达中的规律和关联,同时也可以通过图表等形式直观地传达分析结果。分析结果。常见的数据清理技巧剔除或替换异常值异常值处理删除缺失值、填充缺失值等缺失值处理删除重复值、合并重复值等重复值处理Z-ScoreZ-Score将特征值映射到正态分布中将特征值映射到正态分布中受离群值影响,需去除离群值受离群值影响,需去除离群值能够保留数据的原始分布能够保留数据的原始分布NormalizationNormalization将特征值映射到一定范围内将特征值映射到一定范围内不受离群值影响不受离群值影响相对复杂,需对数据进行处理相对复杂,需对数据进行处理LogisticLogistic归一化归一化将特征值映射到将特征值映射到0101之间之间受离群值影响,需去除离群值受离群值影响,需去除离群值能够保留数据的原始分布能够保留数据的原始分布数据标准化方法比较数据标准化方法比较Min-MaxMin-Max将特征值映射到将特征值映射到0101之间之间不受离群值影响不受离群值影响会压缩数据,不能减小噪声会压缩数据,不能减小噪声特征权重赋值方法特征权重赋值是特征选择的重要步骤,常用的方法有信息熵、信息增益、Gini系数等。其中,信息熵和信息增益是基于信息论的方法,Gini系数是基于统计学的方法。0303第三章 判别分析方法 线性判别分析线性判别分析(LDA)(LDA)线性判别分析(线性判别分析(LDALDA)是一种经典的监督学习方法,其基)是一种经典的监督学习方法,其基本原理在于将数据投影到一个低维空间,以最大化类间距本原理在于将数据投影到一个低维空间,以最大化类间距离和最小化类内距离。离和最小化类内距离。LDALDA的假设条件包括数据线性可分的假设条件包括数据线性可分和各类数据服从高斯分布。在实际应用中,和各类数据服从高斯分布。在实际应用中,LDALDA通过计算通过计算类别均值和协方差矩阵,进而进行分类预测。类别均值和协方差矩阵,进而进行分类预测。线性判别分析(LDA)数据线性可分,类间距离最大化,类内距离最小化基本原理和假设条件计算类别均值和协方差矩阵,进行分类预测具体操作方法二次判别分析二次判别分析(QDA)(QDA)二次判别分析(二次判别分析(QDAQDA)是一种与)是一种与LDALDA类似的监督学习方法,类似的监督学习方法,但其假设条件放宽为各类别数据服从不同的高斯分布。相但其假设条件放宽为各类别数据服从不同的高斯分布。相较于较于LDALDA,QDAQDA的优劣势在于对数据分布的更好拟合,但的优劣势在于对数据分布的更好拟合,但需要更多的参数来估计协方差矩阵,因而在样本量较小或需要更多的参数来估计协方差矩阵,因而在样本量较小或维度较高时可能表现不佳。维度较高时可能表现不佳。二次判别分析(QDA)各类别数据服从不同的高斯分布基本原理和假设条件更好的数据拟合,但需要更多参数优劣势逻辑回归逻辑回归(Logistic(Logistic Regression)Regression)逻辑回归(逻辑回归(Logistic RegressionLogistic Regression)是一种常用的分类算)是一种常用的分类算法,主要应用于二分类问题,如概率预测、风险评估等场法,主要应用于二分类问题,如概率预测、风险评估等场景。其原理基于景。其原理基于SigmoidSigmoid函数将线性回归的结果转换为概函数将线性回归的结果转换为概率值,从而进行分类。与率值,从而进行分类。与LDALDA和和QDAQDA相比,逻辑回归在处相比,逻辑回归在处理非线性问题上表现更优,但对于多分类问题需要额外的理非线性问题上表现更优,但对于多分类问题需要额外的拓展。拓展。逻辑回归(LogisticRegression)二分类问题,如概率预测、风险评估等原理和应用场景非线性问题处理更优,但多分类问题需要拓展比较和联系K K近邻近邻(KNN)(KNN)K K近邻(近邻(KNNKNN)是一种基本的分类和回归算法,其思想简)是一种基本的分类和回归算法,其思想简单直观,即通过计算待分类样本与训练集中的样本之间的单直观,即通过计算待分类样本与训练集中的样本之间的距离,选取距离最近的距离,选取距离最近的K K个样本作为其最近邻,根据多数个样本作为其最近邻,根据多数投票原则进行分类。与投票原则进行分类。与LDALDA、QDAQDA、逻辑回归相比,、逻辑回归相比,KNNKNN不需要显式的训练过程,但在处理大规模数据时效率不需要显式的训练过程,但在处理大规模数据时效率较低。较低。K近邻(KNN)计算距离,多数投票原则进行分类基本思想和算法流程无需显式训练,但效率较低比较和联系结尾结尾判别分析方法是统计学习中的重要分支,不同方法在不同判别分析方法是统计学习中的重要分支,不同方法在不同场景中有着各自的适用性和局限性。选择合适的方法取决场景中有着各自的适用性和局限性。选择合适的方法取决于问题的特性以及数据的特点,希望本课件对您理解判别于问题的特性以及数据的特点,希望本课件对您理解判别分析方法有所帮助。分析方法有所帮助。0404第4章 判别分析应用 商品销售预测市场分析如何使用判别分析预测商品销售数据分析分析销售数据示例案例分析商品销售预测实例分析信用评分卡信用评分卡信用评分卡是一种根据贷款人的个人信息和信用历史来评信用评分卡是一种根据贷款人的个人信息和信用历史来评估其信用风险的方法。制作这样一张卡片需要设计一套合估其信用风险的方法。制作这样一张卡片需要设计一套合理的评分模型,该模型包含多个变量理的评分模型,该模型包含多个变量这些变量通常包这些变量通常包括年龄、性别、工作经验、婚姻状况、收入、信用记录等括年龄、性别、工作经验、婚姻状况、收入、信用记录等等,利用这些变量来计算每个贷款人的信用得分。利用信等,利用这些变量来计算每个贷款人的信用得分。利用信用评分卡可以更准确地衡量借款人的还款能力和信用风险,用评分卡可以更准确地衡量借款人的还款能力和信用风险,从而在贷款申请审核时能更精准地评估客户的资信状况。从而在贷款申请审核时能更精准地评估客户的资信状况。数据预处理数据预处理缺失值处理缺失值处理异常值处理异常值处理数据标准化数据标准化模型建立模型建立特征工程特征工程算法选择算法选择模型评估模型评估信用评分卡应用信用评分卡应用客户评级客户评级贷款决策贷款决策风险控制风险控制信用评分卡制作方法信用评分卡制作方法变量收集变量收集确定相关变量确定相关变量确认数据来源确认数据来源数据收集数据收集分析方法使用判别分析预测股票市场走势010302案例分析统计分析股票市场的实例分析医疗诊断与预测诊断方法如何应用判别分析进行医疗诊断案例分析分析医疗数据预测的实例数据处理医疗数据处理方法信用评分卡的作用信用评分卡作为一种客户信用风险评估工具,可以用于贷款决策、授信结构建立等方面。利用信用评分卡可以更准确地衡量借款人的还款能力和信用风险,从而在贷款申请审核时能更精准地评估客户的资信状况。股票市场预测案例分析数据分析收益率相关性分析分类算法基于判别分析的股票分类预测算法使用判别分析预测股票涨跌幅医疗诊断与预测医疗诊断与预测判别分析可以用于医疗诊断和预测,通过分析病人的病历判别分析可以用于医疗诊断和预测,通过分析病人的病历资料、检查数据和其他相关信息,可以确定包括疾病类型、资料、检查数据和其他相关信息,可以确定包括疾病类型、病情等关键指标。利用判别分析可以更加准确地预测疾病病情等关键指标。利用判别分析可以更加准确地预测疾病的发展趋势和治疗效果,从而更好地指导医疗决策。的发展趋势和治疗效果,从而更好地指导医疗决策。数据预处理数据预处理数据清洗数据清洗数据标准化数据标准化数据归一化数据归一化特征选择特征选择相关性分析相关性分析主成分分析主成分分析方差分析方差分析模型建立模型建立特征工程特征工程算法选择算法选择模型评估模型评估医疗诊断与预测流程医疗诊断与预测流程数据收集数据收集收集病历资料收集病历资料收集检查数据收集检查数据收集其他相关信息收集其他相关信息 0505第5章 模型效果评估 如如何何从从混混淆淆矩矩阵阵中中评估模型表现评估模型表现从混淆矩阵中我们可以计算出从混淆矩阵中我们可以计算出模型的准确率、误判率、精确模型的准确率、误判率、精确率、召回率等指标,这些指标率、召回率等指标,这些指标可以帮助我们评估模型的表现。可以帮助我们评估模型的表现。例如,准确率可以帮助我们了例如,准确率可以帮助我们了解模型正确分类的比率,而误解模型正确分类的比率,而误判率则是模型错误分类的比率,判率则是模型错误分类的比率,这些指标可以用于比较不同模这些指标可以用于比较不同模型的性能,并选择最优的模型。型的性能,并选择最优的模型。混淆矩阵混淆矩阵混混淆淆矩矩阵阵的的定定义义和和作用作用混淆矩阵是描述分类模型预测混淆矩阵是描述分类模型预测结果的矩阵,它主要用于了解结果的矩阵,它主要用于了解模型分类结果的正确和错误情模型分类结果的正确和错误情况。况。通过混淆矩阵,我们可以很直通过混淆矩阵,我们可以很直观地看出模型对于不同类别的观地看出模型对于不同类别的分类的表现,可以帮助我们更分类的表现,可以帮助我们更好地评估模型的准确性和性能。好地评估模型的准确性和性能。如如何何利利用用ROCROC曲曲线线评估模型准确度评估模型准确度ROCROC曲线越向左上方弯曲,代曲线越向左上方弯曲,代表模型的准确度越高,通常我表模型的准确度越高,通常我们可以计算出们可以计算出ROCROC曲线下面积曲线下面积(AUCAUC)来评估模型的准确性。)来评估模型的准确性。AUCAUC的取值范围是的取值范围是0101,1 1代代表模型分类的完美,表模型分类的完美,0.50.5代表随代表随机分类器的性能。机分类器的性能。因此,我们可以用因此,我们可以用AUCAUC值来比值来比较不同模型的性能,选择最优较不同模型的性能,选择最优的模型。的模型。ROCROC曲线曲线ROCROC曲曲线线的的概概念念和和意义意义ROCROC曲线是一种描述模型准确曲线是一种描述模型准确性的曲线,它可以帮助我们判性的曲线,它可以帮助我们判断模型的分类性能。断模型的分类性能。ROCROC曲线的横坐标是假阳率曲线的横坐标是假阳率(FPRFPR),纵坐标是真阳率),纵坐标是真阳率(TPRTPR),指标越高就代表模),指标越高就代表模型的分类性能越好。型的分类性能越好。如如何何利利用用准准确确率率和和召召回回率率评评估估模模型型效效果果准确率和召回率可以帮助我们准确率和召回率可以帮助我们了解模型分类的准确性和召回了解模型分类的准确性和召回性,通常我们会综合考虑这两性,通常我们会综合考虑这两个指标来评估模型的性能。个指标来评估模型的性能。例如,当我们需要分类结果的例如,当我们需要分类结果的准确度比较高时,我们可以优准确度比较高时,我们可以优先考虑准确率;而当我们需要先考虑准确率;而当我们需要分类结果的召回性比较高时,分类结果的召回性比较高时,我们则可以优先考虑召回率。我们则可以优先考虑召回率。此外,此外,F1-scoreF1-score也是综合考虑也是综合考虑准确率和召回率的指标,可以准确率和召回率的指标,可以帮助我们更全面地评估模型的帮助我们更全面地评估模型的性能。性能。准确率和召回率准确率和召回率准准确确率率和和召召回回率率的的定义和计算方法定义和计算方法准确率和召回率是评估分类模准确率和召回率是评估分类模型性能的指标之一。型性能的指标之一。准确率指分类正确的样本数占准确率指分类正确的样本数占总样本数的比例,召回率指分总样本数的比例,召回率指分类正确的样本数占实际分类为类正确的样本数占实际分类为正样本的样本数的比例。正样本的样本数的比例。准确率和召回率的计算公式分准确率和召回率的计算公式分别如下:别如下:准确率准确率 正确分类的样本数正确分类的样本数/总总样本数样本数召回率召回率=正确分类的样本数正确分类的样本数/实际分类为正样本的样本数实际分类为正样本的样本数如如何何使使用用交交叉叉验验证证评估模型性能评估模型性能交叉验证可以帮助我们更细致交叉验证可以帮助我们更细致地了解模型的性能,能够降低地了解模型的性能,能够降低过拟合的概率,通常我们会使过拟合的概率,通常我们会使用交叉验证来评估模型的泛化用交叉验证来评估模型的泛化能力。能力。例如,我们可以计算交叉验证例如,我们可以计算交叉验证的平均准确率、平均召回率、的平均准确率、平均召回率、平均平均F1-scoreF1-score等指标来评估模等指标来评估模型的性能。型的性能。此外,我们还可以使用交叉验此外,我们还可以使用交叉验证来选择模型的超参数,比如证来选择模型的超参数,比如正则化系数、学习率等,从而正则化系数、学习率等,从而进一步提高模型的性能。进一步提高模型的性能。交叉验证交叉验证交交叉叉验验证证的的概概念念和和作用作用交叉验证是一种比较常用的评交叉验证是一种比较常用的评估模型性能的方法,它可以帮估模型性能的方法,它可以帮助我们更好地了解模型对新数助我们更好地了解模型对新数据的泛化能力。据的泛化能力。交叉验证的基本思想是将数据交叉验证的基本思想是将数据集分为训练集和测试集,在训集分为训练集和测试集,在训练集上训练模型,在测试集上练集上训练模型,在测试集上测试模型表现。测试模型表现。一般来说,我们会进行一般来说,我们会进行K K折交叉折交叉验证,即将数据集分为验证,即将数据集分为K K份,轮份,轮流选用其中流选用其中K-1K-1份作为训练集,份作为训练集,剩余剩余1 1份作为测试集,最后将每份作为测试集,最后将每个测试集的表现综合起来作为个测试集的表现综合起来作为模型的性能评估结果。模型的性能评估结果。0606第6章 总结 判别分析总结线性判别分析、二次判别分析、直接判别分析、主成分判别分析等基本原理医学诊断、图像识别、金融风险评估等应用优点是可以进行多分类,缺点是对异常值敏感,样本容易过拟合等优劣势个人心得体会个人心得体会在学习判别分析的过程中,发现该方法具有很强的实用性在学习判别分析的过程中,发现该方法具有很强的实用性和鲁棒性,可以应用于很多领域。但是需要对数据进行预和鲁棒性,可以应用于很多领域。但是需要对数据进行预处理和调参,否则可能会出现过拟合或者欠拟合的情况。处理和调参,否则可能会出现过拟合或者欠拟合的情况。未来发展趋势利用深度学习的特征提取能力与判别分析的分类能力相结合,可以进一步提高分类准确率深度学习与判别分析结合解决对概率分布未知时的分类问题,可以更好地适应各种数据类型非参数判别分析将多个判别模型集成起来,可以提高分类准确率和鲁棒性集成学习书籍书籍James,G.,Witten,D.,Hastie,James,G.,Witten,D.,Hastie,T.,&Tibshirani,R.(2013).T.,&Tibshirani,R.(2013).AnintroductiontoAnintroductiontostatisticallearning.Newstatisticallearning.NewYork:Springer.York:Springer.Johnson,R.A.,&Wichern,Johnson,R.A.,&Wichern,D.W.(2007).AppliedD.W.(2007).Appliedmultivariatestatisticalmultivariatestatisticalanalysis(6thed.).Upperanalysis(6thed.).UpperSaddleRiver,NJ:PearsonSaddleRiver,NJ:PearsonEducation.Education.SASInstituteInc.(2019).SASInstituteInc.(2019).SAS/STAT15.1usersSAS/STAT15.1usersguide.Cary,NC:SASguide.Cary,NC:SASInstituteInc.InstituteInc.网站网站代码代码参考文献参考文献论文论文Kang,Y.J.,&Yu,W.(2016).Kang,Y.J.,&Yu,W.(2016).AvariableselectionmethodAvariableselectionmethodforhigh-dimensionallinearforhigh-dimensionallineardiscriminantanalysis.discriminantanalysis.StatisticalPapers,57(1),1-StatisticalPapers,57(1),1-21.21.Li,D.,&Huang,J.Z.(2015).Li,D.,&Huang,J.Z.(2015).NonparametricdiscriminantNonparametricdiscriminantanalysiswithapplicationstoanalysiswithapplicationstofacerecognition.TheAnnalsfacerecognition.TheAnnalsofStatistics,43(1),249-276.ofStatistics,43(1),249-276.Liu,X.,&Shah,S.(2018).Liu,X.,&Shah,S.(2018).Robusthigh-dimensionalRobusthigh-dimensionaldiscriminantanalysis.discriminantanalysis.JournalofMultivariateJournalofMultivariateAnalysis,166,63-78.Analysis,166,63-78.0707第7章 附录 SAS代码示例以下是在SAS中进行判别分析的示例程序:代码示例procdiscrimdatairisoutstat=iris_stat;classspecies;varpetal_lengthpetal_widthsepal_lengthsepal_width;run;数据集下载本次课程使用的数据集链接如下:数据集下载链接练习题汇总要求:题目一要求:题目二要求:题目三课程讲师介绍课程讲师介绍本次课程的讲师为本次课程的讲师为XXXXXX,拥有多年的,拥有多年的SASSAS数据分析经验,数据分析经验,并在多家机构担任讲师,深受学生喜爱。并在多家机构担任讲师,深受学生喜爱。谢谢观看!下次再会