机器学习及其Python实践 (2).pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《机器学习及其Python实践 (2).pdf》由会员分享,可在线阅读,更多相关《机器学习及其Python实践 (2).pdf(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器学习及其Python实践第2章 回归分析第2章 回归分析 回归分析是定量研究两种或两种以上变量间相互依赖关系的一种统计分析方法 按自变量:一元回归和多元回归 按因变量:简单回归和多重回归 按函数形式:线性回归和非线性回归 机器学习的基本概念、术语和算法步骤 Python编程实现2.1 编程环境与数据集 NumPy、Pandas、Matplotlib、scikit-learnNumPy:ndarrayPandas:Series/DataFrameMatplotlib:MATLABpyplotScikit-learn:sklearn2.1 编程环境与数据集 Anaconda是机器学习编程最好的
2、IDE阚道宏2.1 编程环境与数据集 Jupyter Notebook运行:ctrl+Enter2.1 编程环境与数据集 Scikit-learn库数据集(dataset)sklearn.datasets模块中的load_*()函数 sklearn.datasets模块中的fetch_*()函数 sklearn.datasets模块中的make_*()函数阚道宏2.1 编程环境与数据集 练习机器学习编程阚道宏2.1 编程环境与数据集 练习机器学习编程2.2 数据集加载与预处理 机器学习使用样本数据集训练模型 garbage in,garbage out 样本数据集(dataset)的检查与预处
3、理 新建一个jupyter记事本文件(.jpynb)加载并浏览数据集(Pandas的DataFrame类)阚道宏2.2 数据集加载与预处理 加载并浏览数据集(house)2.2 数据集加载与预处理 缺失值(NaN)与重复值(duplicate)drop、fill、interpolate2.2 数据集加载与预处理 缺失值与重复值 缺失值:drop2.2 数据集加载与预处理 缺失值与重复值 缺失值:fill2.2 数据集加载与预处理 缺失值与重复值 缺失值:interpolate2.2 数据集加载与预处理 缺失值与重复值 重复值:drop_duplicates2.2 数据集加载与预处理 特征选择
4、波士顿房价数据集 特征应当尽量与预测目标线性相关,否则属于无用特征 各特征项之间应当尽量不相关,否则属于冗余特征=,.=+=11+22+.2.2 数据集加载与预处理 特征选择 皮尔逊相关系数=(,=2 2.(2 1)1 +1如 0,则两个随机变量正相关(同增同减)f(x2)minxf(x)=1(1=1 1.(2 5)12.3 模型训练与评价 模型训练与梯度下降法 梯度下降法 二元函数 方向导数 1,2=1 11 12.(2 6)x1x2=vsinP(x1,x2)P(x1+x1,x2+x2)函数 f(x1,x2)的方向导数vx1=vcosx2Ov(1,2=1+2=(1,2.12=lim0 1+1
5、,2+2 12从二元函数推广至任意d元函数=,2.3 模型训练与评价 使用Scikit-learn库中的线性回归模型 sklearn.linear_model模块中的LinearRegression类 训练集 X_train Y_train 测试集 X_test Y_test2.3 模型训练与评价 模型评价与K折交叉验证 残差平方和 均方误差 决定系数R方=1 2.(2 8)=1=1 2.(2 9)=1=1.(2 10)=1 2.(2 11)2=1.(2 12)=1,1,2,2,2.3 模型训练与评价 模型评价与K折交叉验证 残差平方和 均方误差 决定系数R方=1 2.(2 8)=1=1 2.
6、(2 9)=1=1.(2 10)=1 2.(2 11)2=1.(2 12)=1,1,2,2,方为0时,模型最差;方为1时,模型最好;方越大,模型越好。训练集上的R方:拟合程度好;测试集上的R方:泛化能力强。2.3 模型训练与评价 模型评价 LinearRegression类的决定系数R方函数score()sklearn.metrics模块中的函数mean_squared_error()R方与MSE成反比2.3 模型训练与评价 K折交叉验证 训练集与测试集 留出法 K折交叉验证 sklearn.model_selection模块中的KFold类训练集Train set测试集Test set训练集
7、Train set测试集Test set平均拆分成k份K轮阚道宏2.3 模型训练与评价 K折交叉验证 波士顿房价问题2.4 正则化 线性方程组 系数矩阵A是非奇异的(nonsingular,或称可逆、满秩),则方程组有唯一解;系数矩阵A是奇异的(singular,或称不可逆、不满秩),则方程组的解中包含自由变量,即方程组有无穷多解;如果系数矩阵A近似奇异(approximately singular),即该矩阵经奇异值分解后存在非常小的奇异值(即奇异值近似等于零),则方程组的解是不稳定的 对于解不唯一或不稳定的方程定解问题,术语称之为不适定(ill-posed)问题=2.4 正则化 线性方程组
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习及其Python实践 2 机器 学习 及其 Python 实践
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内