机器学习应用——无监督学习实例-31省市居民家庭消费调查&学生上网时间分布聚类&鸢尾花数据&人脸数据特征提取.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《机器学习应用——无监督学习实例-31省市居民家庭消费调查&学生上网时间分布聚类&鸢尾花数据&人脸数据特征提取.docx》由会员分享,可在线阅读,更多相关《机器学习应用——无监督学习实例-31省市居民家庭消费调查&学生上网时间分布聚类&鸢尾花数据&人脸数据特征提取.docx(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器学习应用无监督学习(实例:31省市居民家庭消费调查&学生上网时间分布聚类&鸢尾花数据&人脸数据特征提取)2结果展示-1聚成2类:kmKMeans(n_clusters2)-2聚成3类:kmKMeans(n_clusters3)-3聚成4类:kmKMeans(n_clusters4)3拓展改良计算两条数据相似性时,Sklearn的K-Means默认用的是欧式间隔。固然还有余弦相似度,马氏间隔等多种方法,但没有设定计算间隔方法的参数。想自定义计算间隔的方式时可更改此处源代码建议使用scipy.spatial.distance.cdist方法3.DBSCAN方法1DBSC
2、AN算法是一种基于密度的聚类算法聚类的时候不需要预先指定簇的个数最终的簇的个数不定2DBSCAN算法将数据点分为三类:核心点:在半径Eps内含有超过MinPts数目的点。边界点:在半径Eps内点的数量小于MinPts但是落在核心点的邻域内。噪音点:既不是核心点也不是边界点的点。3DBSCAN算法流程将所有点标记为核心点、边界点或者噪声点删除噪声点为间隔在Eps之内的所有核心点之间赋予一条边每组连通的核心点形成一个簇将每个边界点指派到一个与之关联的核心点的簇中(即在哪一个核心点的半径范围之内4举例如下13个样本点使用DBSCAN进展聚类取Eps3MinPts3,根据DBSACN对所有点进展聚类这
3、里使用曼哈顿间隔对每个点计算其邻域Eps3内的点的集合集合内点的个数超过MinPts3的点为核心点查看剩余点是否在核心点的邻域内,假设在,那么为边界点,否那么为噪声点。将间隔不超过Eps3的点互相连接构成一个簇,核心点邻域内的点也会被参加到这个簇中。4.DBSCAN应用1问题分析现有大学校园网的日志数据,为290条大学生的校园网使用情况数据数据包括用户ID,设备的MAC地址,IP地址开场上网时间,停顿上网时间,上网时长,校园网套餐等。利用已有数据,分析学生上网的形式。2实验目的通过DBSCAN聚类,分析学生上网时间以及上网时长的形式。3技术道路采用sklearn.cluster.DBSCAN模
4、块4数据实例5实验经过6代码实现建立工程导入sklearn相关包importnumpyasnpfromsklearn.clusterimportDBSCANDBSCAN主要参数1eps两个样本被看作邻居节点的最大间隔2min_samples簇的样本数3metric间隔计算方式例sklearn.cluster.DBSCAN(eps0.5,min_samples5,metriceuclidean)对上网时间聚类创立DBSCAN算法实例并进展训练获得标签附码importnumpyasnpimportsklearn.clusterfromsklearnimportmetricsfromsklearn.
5、clusterimportDBSCANmac2iddict()#字典onlinetimesfopen(TestData.txt)forlineinf:macline.split(,)2#读取每条中的mac地址onlinetimeint(line.split(,)6)#读取上网时长starttimeint(line.split(,)4.split()1.split(:)0)#读取开场上网时间ifmacnotinmac2id:mac2idmaclen(onlinetimes)#其中key是mac地址onlinetimes.append(starttime,onlinetime)#value是对应m
6、ac地址的上网时长和开场上网时间else:onlinetimesmac2idmac(starttime,onlinetime)real_Xnp.array(onlinetimes).reshape(-1,2)#对上网时间聚类创立DBSCAN算法实例并进展训练获得标签Xreal_X:,0:1dbsklearn.cluster.DBSCAN(eps0.01,min_samples20).fit(X)#调用DBSCAN方法进展训练labelsdb.labels#labels为每个数据的簇标签print(Labels:)print(labels)#打印数据被记上的标签ratiolen(labelsla
7、bels:-1)/len(labels)#计算标签为-1即噪声数据的比例print(Noiseratio:,format(ratio,.2%)#Numberofclustersinlabels,ignoringnoiseifpresentn_clusters_len(set(labels)-(1if-1inlabelselse0)#计算簇的个数并打印print(Estimatednumberofclusters:%d%n_clusters_)print(SilhouetteCoefficient:%0.3f%metrics.silhouette_score(X,labels)#评价聚类效果fo
8、riinrange(n_clusters_):#打印各簇标号及簇内数据print(Cluster,i,:)print(list(Xlabelsi.flatten()#对上网时长聚类创立DBSCAN算法实例并进展训练获得标签Xnp.log(1real_X:,1:)dbsklearn.DBSCAN(eps0.1401,min_samples10).fit(X)#调用DBSCAN方法进展训练labelsdb.labels#labels为每个数据的簇标签print(Labels:)print(labels)#打印数据被记上的标签ratiolen(labelslabels:-1)/len(labels)
9、#计算标签为-1即噪声数据的比例print(Noiseratio:,format(ratio,.2%)#Numberofclustersinlabels,ignoringnoiseifpresentn_clusters_len(set(labels)-(1if-1inlabelselse0)#计算簇的个数并打印print(Estimatednumberofclusters:%d%n_clusters_)print(SilhouetteCoefficient:%0.3f%metrics.silhouette_score(X,labels)#评价聚类效果foriinrange(n_clusters
10、_):#统计每一个簇内的样本个数均值标准差print(Cluster,i,:)countlen(Xlabelsi)meannp.mean(real_Xlabelsi:,1)stdnp.std(real_Xlabelsi:,1)print(tnumberofsample:,count)print(tmeanofsample:,format(mean,.1f)print(tstdofsample:,format(std,.1f)输出标签查看结果画直方图分析实验结果importmatplotlib.pyplotaspetplt.hist(X,24)观察得出:上网时间大多聚集在22:00以及23:00
11、数据分布vs聚类技巧对数变换对上网时长聚类创立DBSCAN算法实例并进展训练获得标签输出标签查看结果1按照上网时长DBSCAN聚了5类,上图所示,显示了每个聚类的样本数量、聚类的均值、标准差。2时长聚类效果不如时间的聚类效果明显。三、降维1.PCA方法1主成分分析PCA主成分分析(PrincipalComponentAnalysis,PCA是最常用的一种降维方法,通常用于高维数据集的探究与可视化,还可以用作数据压缩以及预处理等。PCA可以把具有相关性的高维变量合成为线性无关的低维变量称为主成分。主成分可以尽可能保存原始数据的信息。2涉及到的相关术语:方差是各个样本以及样本均值的差的平方以及的均
12、值,用来度量一组数据的分散程度协方差用于度量2个变量直接的线性相关性程度假设为0那么可认为二者线性无关。协方差矩阵由变量的协方差值构成的矩阵对称阵特征向量描绘数据集构造的非零向量公式如图A是方阵v是特征向量是特征值3原理矩阵的主成分其协方差矩阵对应的特征向量按照对应的特征值大学进展排序最大特征值为第一主成分其次是第二主成分以此类推4算法经过5主要参数在sklearn库中可使用sklearn.decomposition.PCA加载PCA进展降维n_components指定主成分的个数即降维后数据的维度svd_solver设置特征值分解的方法默认为auto,其他可选有full,arpack,ran
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 应用 监督 实例 31 省市 居民家庭 消费 调查 amp 学生 上网 时间 分布 鸢尾 数据 特征 提取
![提示](https://www.taowenge.com/images/bang_tan.gif)
链接地址:https://www.taowenge.com/p-79034556.html
限制150内