《人工智能基础与应用》第5章 课后习题参考答案.docx
《《人工智能基础与应用》第5章 课后习题参考答案.docx》由会员分享,可在线阅读,更多相关《《人工智能基础与应用》第5章 课后习题参考答案.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第5章 物以类聚:发现新簇群课后习题答案一、考考你1.关于聚类说法正确是 D 。A.聚类样本一定要有标签B.应该将所有特征数据作为聚类依据C.聚类的k值可以随意指定D.聚类质心就是各簇群特征的平均值2.下列 C 聚类性能评价指标在-1,1之间,值越接近1说明聚类效果越好。A.CH分数B.戴维森堡丁指数DBIC.轮廓系数D.inertia3.k-means模型的 A 参数能保证聚类结果复现。A.random_stateB.initC.max_iterD.algorithm4.衡量聚类效果好坏的主要依据是 D 。A.各类之间的界限明显B.各样本离各自质心之和最小C.类别之间的协方差越大越好D.同类
2、样本紧促,不同类样本相距远5.关于RFM模型的应用,说法错误的是 D 。A.R、F、M是区分客户的三个重要指标B.这三个指标是基于原始数据统计出来的C.在具体场景应用RFM模型时,可以添加其它指标D.训练模型前样本不进行标准化处理也是可以的二、亮一亮1.在案例1中用k-均值算法对鸢尾花进行聚类时,有哪些办法能帮你找到最优的k值?参考答案:(1)尽可能多的获得鸢尾花的特征数据进行初步分析,基于特征数据确定种类的有效值作为k的数值。(2)在运行k-means聚类中根据聚类结果对比分析确定最优的k值。2.在案例2的电商用户分类过程中,求各类客户样本的均值有何意义?请举例说明。参考答案:由于聚类前对原
3、始数据进行了标准化处理,所以需要聚类后对质心进行反标准化转换,得到原始均值,方便观察聚类结果和对业务场景的解释。三、帮帮我1. Wholesale customers data.csv文件保存有批发商客户数据,前5行数据如下图5.20所示。数据集各属性函数如下。图5.20 批发商客户数据 Channel:客户渠道,1指酒店类,2指零售类。 Region:客户所在地区,1指里斯本,2指波尔图,3指其它地区。 Fresh:在新鲜产品上的支出。 Milk:在乳制品上的支出。 Grocery:在杂货上的支出。 Frozen:在冷冻产品上的支出。 Detergents_Paper:在清洁剂(纸)上的支出
4、。 Delicassen:在熟食上的支出。请运用k-means聚类算法将这400名批发商客户进行聚类,并试图解释聚类结果。提示:聚类时只考虑后6个特征,因为这6个特征代表客户的进货能力。参考答案:# 数据预处理# 1. 处理异常值 在处理异常值之前, 先来通过箱线图看看异常值.import seaborn as snsimport pandas as pdimport matplotlib.pyplot as pltdf=pd.read_csv(rdataWholesale customers data.csv,sep=,)def get_boxplot(data, start, end):
5、fig, ax= plt.subplots(1, end-start, figsize=(24, 4) for i in range(start, end): sns.boxplot(y=datadata.columnsi, data=data, ax=axi-start)get_boxplot(df,2, 8)解释:可以看到以上6个连续型变量均有异常值,由于k-means算法对异常值较敏感, 因此选择剔除它。import numpy as npdef drop_outlier(data, start, end): for i in range(start, end): field=data.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能基础与应用 人工智能基础与应用第5章 课后习题参考答案 人工智能 基础 应用 课后 习题 参考答案
限制150内