大数据存储与处理-大规模机器学习13605.pptx





《大数据存储与处理-大规模机器学习13605.pptx》由会员分享,可在线阅读,更多相关《大数据存储与处理-大规模机器学习13605.pptx(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据存储与应用大规模机器学习课程主页:http:/介绍 机器学习定义 Perceptron(感知机)SVM(support-vector machines)支持向量机 最近邻(nearest neighbor)决策树机器学习 训练集(X,y)X:feature vector y:label 目的:找到一个函数:y=f(X)发现规律,预测未来 y类型 实数:Regression 布尔值:二元分类 有限取值:多元分类 无限取值:句子狗狗分类奇瓦瓦狗(体小,毛平滑)小猎兔狗腊肠犬X:高度,重量y:狗的种类文本分类根据email的内容,判断是否垃圾邮件根据新闻内容,判断新闻类型 Sport Poli
2、tics Feature vector 单词向量(1,0)常用方法无监督学习 聚类有监督学习 决策树 感知机:Perceptrons SVM 支持向量机 神经元网络 无循环感知机网络 基于事例的学习 Instance-based learning KNN模型元素 训练集 测试集 分类器问题:Overfit工作方式 Batch learning Online learning 象Stream 来一个处理一个,更新分类器 能够处理大训练集应用快递获单预测 X:出价,起点,终点 y:接受/拒绝 Online算法 持续收集新数据,不断更新模型感知机感知机神经元 刺激是输入的加权和感知机 输入:实数向量
3、 输出:1/-1 例:垃圾邮件检测Instance 空间类型输入:X输出:y模型 目标:找到合适的 使0几何描述 W和X向量的点积(余弦距离)wx 0wx 0求W 初始化为全0 来一个x,算 如果y=y,W保持不变 如果y!=y,往yx的方向旋转一点旋转的效果 y(x1)=1 却被判为了-1 W往x1方向转一点 W+cyx1 判断平面逆时针旋转一点 试图把x1包进来收敛性 只要是线性可分割的,就会收敛 如果不是,最后会震荡,无限循环震荡时的停止算法 震荡时,如何停止算法?逐渐减小调整幅度 观察训练集上的误差 观察一个小测试集上的误差 限制最大迭代次数非零判决平移多类感知 超过两类 分别训练三个
4、分类器 谁的wx值最大,算谁Winnow算法总会收敛 x取值:0,1初始化 w 全1,为x的长度预测预测对,w不动预测错:y真值是1,可,说明w太小,看x中哪些值为1,把对应的w加倍 y真值是-1,可,说明w太大,看x中哪些值为1,把对应的w减半 的调整 把它加到w里,一起变允许 对应的x为-1,但调整方法反过来:预测错:y真值是1,说明 太大,减半y真值是-1,说明 太小,加倍扩展平衡Winnow(Balanced Winnow)Thick Separator 界限(Margin)放松非线性边界 变换到线性上Map-Reduce的实现 每个机器处理部分x Map:如果出错,生成键值对(i,c
5、yxi)表示要对wi进行调整 c为调整速度 Reduce 累积,实现对w的调整 重复,直到收敛,或到达停止的条件感知机总结感知机加法更新w适合x少,互相有相关性 Winnonw乘法更新w适合x多,互相无相关性感知机总结是一种Online算法新(x,y)到达,更新w局限线性分割线性不可分的话,不收敛 Feature多时,效果一般问题 过拟合 哪个最优?问题一旦找到边界,就停止,不是最优SVM问题 寻找最佳的线性分割最大化Margin Margin到分割平面的距离,越宽越好最优分割平面SVM改进Perceptron的问题:最大化MarginMargin的数学描述 A在B上的投影点积MarginAM
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 存储 处理 大规模 机器 学习 13605

限制150内