大数据分析的四类陷阱.doc
《大数据分析的四类陷阱.doc》由会员分享,可在线阅读,更多相关《大数据分析的四类陷阱.doc(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据分析的四类陷阱高科技领域的人们正摩拳擦掌以迎接大数据(Big Data)时代的到来。大数据技术的本质是能够对数十亿的信息进行分析,从中获得有价值的洞见。例如惠普的研究人员就能根据Twitter来预测好莱坞的票房。由此看来,其它行业只要具备合适的工具,就能对社会网络进行数据分析。但是事情并非如此简单。首先,分析大数据集并不是什么新鲜事。有些公司已经做了几十年的数据分析。当前技术的不同之处在于,它提升了分析的速度,扩展了数据规模,使小型企业也能使用这种技术。而另一方面,大数据也会造成更严重的错误。针对上例,普林斯顿大学就得出了不同的研究结论:Twitter并不能真的预测票房成绩。 对同一个问
2、题,研究者怎么会得出相反的结论呢?我们来看一下数据分析中最常见的四类陷阱。1、样本缺乏代表性 大数据的背景仍是统计分析和推断。而统计系学生应该学到的一件事就是:统计结论依赖于样本的代表性。Twitter用户可能受到更高教育且收入更高,其年龄也会偏大一些。如果用这种有偏的样本来预测目标观众是年轻人的电影票房,其统计结论可能就不会合理了。提示:确保你得到的样本数据代表了研究总体。否则,你的分析结论就缺乏坚实的基础。2、事物是变化的 对研究对象的科学理解需要耐心。可能你的实验获得了预期的效果,但这还不够。你应该进行后续实验看能否得到相同的结果,还要看其他研究人员能否重现你的实验结果。特别是在处理人类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 陷阱
限制150内