大工21春《数据挖掘》大作业题目及要求【答案】.pdf
《大工21春《数据挖掘》大作业题目及要求【答案】.pdf》由会员分享,可在线阅读,更多相关《大工21春《数据挖掘》大作业题目及要求【答案】.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、网络教育学院网络教育学院数据挖掘课数据挖掘课 程程 大大 作作 业业题题目目:KnnKnn 算法原理以及算法原理以及 pythonpython 实现实现姓姓名:名:学习中心:学习中心:第一大题:第一大题:讲述自己在完成大作业过程中遇到的困难,讲述自己在完成大作业过程中遇到的困难,解决问题的思解决问题的思路,以及相关感想,或者对这个项目的认识,或者对路,以及相关感想,或者对这个项目的认识,或者对 PythonPython 与数据与数据挖掘的认识等等,挖掘的认识等等,300-500300-500 字。字。答:数据分析和数据挖掘并不是相互独立的,数据分析通常是直接从数据库取出已有信息,进行一些统计、
2、可视化、文字结论等,最后可能生成一份研究报告性质的东西,以此来辅助决策。但是如果要分析已有信息背后的隐藏信息,而这些信息通过观察往往是看不到的,这是就需要用到数据挖掘,作为分析之前要走的一个门槛。数据挖掘不是简单的认为推测就可以,它往往需要针对大量数据,进行大规模运算,才能得到一些统计学规律。科技的快速发展和数据的存储技术的快速进步,使得各种行业或组织的数据得以海量积累。但是,从海量的数据当中,提取有用的信息成为了一个难题。在海量数据面前,传统的数据分析工具和方法很无力。由此,数据挖掘技术就登上了历史的舞台。数据挖掘是一种技术,将传统的数据分析方法与处理大量数据的复杂算法相结合,从大量的、不完
3、全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。第二大题:完成下面一项大作业题目。第二大题:完成下面一项大作业题目。题目一:题目一:KnnKnn 算法原理以及算法原理以及 pythonpython 实现实现答:一、一、knnknn 算法介绍算法介绍邻近算法,或者说 K 最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘 分类技术中最简单的方法之一。所谓 K 最近邻,就是 k 个最近的邻居的意思,说 的是每个样本都可以用它最接近的 k 个邻居来代表。kNN 算法的核心思想是如果一个样本在特征空间中的 k 个最相邻的样本
4、中的大多数属于某一个类别,则该样 本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只 依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。在类别决策时,只与极少量的相邻样本有关。由于 kNN 方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN 方法较其他方法更为适合。二、核心概括二、核心概括主要的思想是计算待分类样本与训练样本之间的差异性,并将差异按照由小 到大排序,选出前面 K 个差异最小的类别,并统计在 K 个中类别出现次数最多的 类别为最相似的类,最终将待分类样本分到最相似的训练样本的类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘 答案 大工 21 数据 挖掘 作业 题目 要求
限制150内