物联网与数据挖掘习题及答案 第13、14章.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《物联网与数据挖掘习题及答案 第13、14章.docx》由会员分享,可在线阅读,更多相关《物联网与数据挖掘习题及答案 第13、14章.docx(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、13-1简述主动学习被提出的背景、意义及学习框架。物联网技术的快速发展和广泛应用使得我们可以随时随地、便捷地完成大规模数据的感 知、传输、收集、存储与处理;数据挖掘技术使得我们可以从数据中获取有效的、新颖的、 潜在有用的、最终可被理解的模式。两者的紧密结合促进了农业、工业、航空航天、物流、 消防安全、人机交互、教育、休闲娱乐等众多领域的快速发展。然而,在实际应用中,通过 物联网获得的传感器数据往往是原始的、未标注的,但是在一些有监督学习场景中需要大量 的高质量已标注的数据来训练一个准确鲁棒的预测模型。将传感器数据与相应标签对应起来 的过程一般需要通过人工的方式来完成,这往往不是一件简单的事,需
2、要花费大量的人力、 物力、财力和时间等资源。在实际应用中,基于大量有标签数据训练得到的模型往往能够获得较好的预测性能。主 动学习提供了一个折中的实施方案,仅要求标注最有价值的数据,而不要求全部标注。以提 高标注效率和降低标注成本。学习框架:给定一个有标签数据集和一个无标签数据集,一般中只包含少量的有标签数 据,主动学习过程主要包括以下步骤。(1)在当前已有的有标签数据集上通过某个学习算法训练得到一个模型Model;(2)通过以下过程完成一次模型Model的优化: 利用某个查询选择策略(Query Selection Strategy)从中选择最重要的样本x*,并将 其从中删除; 通过先知获得样
3、本x*的标签y;将标注的样本(x*,y)加入;利用新的重新训练模型Model。重复步骤(2),直至满足给定的停止条件,如达到最大查询次数、模型的准确率大于 某个阈值等。13-2比较分析基于流的选择采样和基于池的采样方法的异同。对于基于流的选择采样,无标签样本以流的形式达到模型(如决策树、朴素贝叶斯、人 工神经网络等),模型需要对流中的每个样本做出独立判断:将样本送到先知来查询该样本 的标签,还是直接将该样本丢弃。此方法一般适用于传感器节点、手机等资源受限的边缘计 算场景。基于池的采样设定的场景:有一小部分有标签数据和大量无标签数据可用,并根据 一定的策略从池中有选择性地找出需要查询标签的样本。
4、相比基于流的选择采样按顺序扫描 数据并单独做出查询决策,基于池的主动学习在选择最佳查询之前对整个数据集中的样本进 行了评估,因此一般可以获得较好的性能。13-3试编程实现基于不确定性采样的主动学习方法。参阅代码实现:Tang, Ying-Peng, Guo-Xiang Li, and Sheng-Jun Huang. nALiPy: Active learning in python.0arXiv preprint arXiv: 1901.03802 (2019). Github: 参阅代码实现:Tang, Ying-Peng, Guo-Xiang Li, and Sheng-Jun Huan
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 物联网与数据挖掘 习题及答案 第13、14章 联网 数据 挖掘 习题 答案 13 14
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内