大数据解析与应用导论 (13).pdf
1大数据解析与应用导论大数据解析与应用导论Introduction to Big Data Analytics and ApplicationThe linked image cannot be displayed.The file may have been moved,renamed,or deleted.Verify that the link points to the correct file and location.第三章 判别分析基本原理基本原理1.距离判别距离判别2.贝叶斯判别贝叶斯判别4.Fisher判别判别3.SVM5.一、Fisher判别的思想3 构造一个线性投影:寻找投影方向,使两组数据投影后在直线上尽可能区分开ppXbXbbW+=110一、Fisher判别的思想满足类内紧凑,类间分离的原则二、Fisher判别的优化目标5怎么评估类内的紧凑程度和不同类别之间的分离程度?类间分离程度:不同类别中心的距离类内紧缩程度:方差,方差越大则越不紧缩二、Fisher判别的优化目标6以两类数据为例,给定训练数据集D=(x1,y1),(x2,y2),(xm,ym),其中样本xi为n维向量,标签yi为0或1,Nj为第j类样本的个数,Xj为第j类样本的集合,则第j类样本的类别中心和离差为()()(0,1)jTjjjx Xxxj=类别中心类内离差1(0,1)jjx Xjx jN=二、Fisher判别的优化目标7010011()()()()jjTTwx Xx XSxxxx=+=+0101()()TbS=投影向量w样本xj(j=0,1)低维特征wTxj第j类投影点的类内离差wTjw类间投影点中心之差wTSbw类内离差和类间离差二、Fisher判别的优化目标8是类内离差和,是类间离差)min()max()min(=1=特征根分解问题三、Fisher判别法计算步骤9 训练步骤输入两个类别的原始数据矩阵计算类别中心,类内离差和,类间离差求解特征根分解问题得到投影向量w三、Fisher判别法计算步骤10 判别步骤作判别x属于第0类x属于第1类输入未知类别样本x=(x1,x2,,xp)得到投影向量w之后,我们就可以对未知类别的新样本作判别了。0011ywxywyw=0102yyy+=利用投影向量计算投影y以及阈值y0y0为投影后与两个类别相距距离相等的点。四、Fisher判别法应用举例11Python中的sklearn库提供了线性判别函数,可以直接调用。class sklearn.discriminant_analysis.LinearDiscriminantAnalysis()一些常用方法:fit(self,X,y)用于训练给定数据predict(self,X)用于预测新给出的X属于哪个类四、Fisher判别法应用举例12例子import numpy as npfrom sklearn.discriminant_analysis import LinearDiscriminantAnalysisX=np.array(-1,-1,-2,-1,-3,-2,1,1,2,1,3,2)y=np.array(1,1,1,2,2,2)clf=LinearDiscriminantAnalysis()clf.fit(X,y)clf.predict(-0.8,-1)输出结果为1,即-0.8,-1点属于类别1四、Fisher判别法应用举例13我们随机生成一些数据,蓝色红色属于两个不同类别。左侧为原始数据,右侧为使用线性判别划分的数据,白色为分界线。