2018年数据科学家报告.pdf
《2018年数据科学家报告.pdf》由会员分享,可在线阅读,更多相关《2018年数据科学家报告.pdf(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Figure Eight数据科学家报告数据科学家报告20182018年数据科学家报告编译呆鸟 译简介Figure Eight 2018年数据科学家报告3简介简介 近年来,Figure Eight一直在追踪数据科学的发展,自2015年发布上一版数据科学报告以来(那时我们还叫CrowdFlower),数据科学社区里发生了很多变化。机器学习技术蓬勃发展,需要越来越多的数据支持。如今,互联网每天会产出100万亿字节以上的数据供数据科学与机器学习分析。因此,数据科学和机器学习也顺势成为领英上增长最快的工作岗位。2015年以来出现的另一大趋势是数据科学社区比以往更加注重伦理问题,数据隐私问题越来越引人注目
2、。随着人工智用于医学诊断、法律量刑等领域的决策,需要更加谨慎地论证这些伦理问题。了解各领域从业者对前沿技术的想法十分重要。为此,我们调研了医护人员、神职人员及执法人员等500多位伦理专家。本报告后面的内容,还将专门对比伦理专家与数据科学家的观点。毋庸赘言,开始阅读本报告的调研结果吧。毋庸赘言,开始阅读本报告的调研结果吧。数据科学家喜欢并热爱这份工作Figure Eight 2018年数据科学家报告5工作满意度 相信很多人都听过一句话,“干自己喜欢的事,还能挣到钱,就算成功”。假设这话说的没错,还真的很难找出比数据科学家更成功的职业。几年来,我们一直在跟踪这个问题,并发现数据科学家非常热爱这一行
3、,即便真正的数据科学家可能会质疑1%的增长不具备统计显著性。20152017201867%88%89%认为当数据科学家幸福或非常幸福的占比热爱数据科学?就别错过机会 这几年,数据与数据科学带来了很多热门话题,谷歌人工智能专家Peter Norvig曾提出著名的“数据非理性效果”理论,哈佛商业评论将数据科学称为“21世纪最性感的工作”,经济学家杂志甚至跳出来说“数据是新的石油”。相信大多数人还记得大数据一夜之间就红遍全球了。Figure Eight 2018年数据科学家报告79.41%一月一月一次一次19.31%一周一周 一次一次数据科学家市场需求数据科学家的市场需求收到工作机会的频率?数据科学
4、家的市场需求收到工作机会的频率?收到工作机会的频率收到工作机会的频率29.70%一周一周 多次多次 11.39%一年一年多次多次 3.47%很少很少26.73%一月一月多次多次 我们曾咨询数据科学家一般多久能收到一次新工作推荐,下图所示的数据说明了不少问题。大约50%的数据科学家每周都会收到一次工作机会,30%的数据科学家每周至少会收到多次工作机会,85%的数据科学家至少每个月会收到一次工作机会。换句话说,精英数据科学家的市场需求很高。所以,如果你们公司有一名水平很高的数据科学家,一定要把他哄好,因为他还有很多选择。至少一周一次至少一周一次50%30%一周多次一周多次 虽然,数据科学如今炙手可
5、热,但要记住以前可不是这样。毕竟,仅仅在10多年前,大部分公司根本就不会跟踪并保存用户交互数据,但是如今,还是这些公司,他们会把认真采集这些数据,并将之作为企业的核心财富小心翼翼的看护起来。随着服务器越来越廉价,以很低的成本存贮大量的数据和信息成为可能,绝大多数公司都意识到数据能为企业实现很多以前无法想象的目标。既然有这么多数据需要处理,而且为公司创造价值的意愿又如此强烈。这样一来,数据科学家有这么高的市场需求就不足为奇了。收到工作机会的频率收到工作机会的频率85%至少一月一次至少一月一次50%Figure Eight 2018年数据科学家报告9 数据专家非常清楚只有拥有大规模的高质量数据,才
6、能构建精准的模型,并作出精明的决策。高质量数据越多,他们对所做的模型就越有信心。公司能为数据科学家做的事就是提供数据,而机器学习团队拥有数据的质量会为机器学习的结果带来极大的区别,这一点是重中之重。但是请记住,数据科学家需要的是高质量数据,通过几年的调研发现,其实,数据科学家也非常不喜欢清洗数据,他们认为干这些事情纯属是在浪费生命。阻碍阻碍什么拖了数据科学家的后腿,是数据,不是科学 偷偷告诉大家一个关于数据科学家的小秘密,他们都非常贪得无厌。这不是说他们的坏话,实际上,很多数据科学家逢年过节都会寄给我们非常不错的礼物。但是,一旦涉及到数据,不管他们已经掌握了多少数据,还永远都觉得不够。我们已经
7、在数据科学社区里做了几年调研,这个问题依然是当前社区里最大的挑战。去年大约有50%的数据科学家会说,这是他们日常工作中最头疼的三件事之一,而到了今年这个数字已经增长到了55%,并被列为最头疼的事情。55%的数据科学家说训练数据集的质量是他们最头疼的事情。1%至 25%28%23%21%17%25%至 50%50%至 75%75%以上 机器学习使用的数据 以前,我们从未问过数据科学家到底拿数据来干什么?但是,随着公司平台不断壮大,我们已经能够解开一些机器学习的神秘面纱,越来越多的数据直接从我们公司的平台传递给各种人工智能和机器学习的项目。然后我们就想,是不是应该问一下这些数据科学家,他们所做的工
8、作到底有多少比例用于人工智能?工作成果用于人工智能的比例10%无 Figure Eight 2018年数据科学家报告11用于机器学习的数据用于机器学习的数据 约有10%的数据科学家说他们的工作跟人工智能无关。不过,还有差不多40%的人说他们的工作和人工智能相关。考虑到当前投资界对人工智能的投入非常之大,我们特别期待看到明年这个数字会变成什么样。不过,我们相信一定会变得越来越高。数据科学家一般不需要干清洗日志这样的低级工作,基本上都是处理公司里最尖端的技术解决方案,难怪他们会觉得幸福。90%的数据用于机器学习研发时间占比30%5%12%24%29%多少时间研发?多少时间开发?无75%Figure
9、 Eight Data Scientist Report 201813工具与框架 2015年,我们重点关注数据科学家使用什么工具。虽然,当时Excel还是处理数据的主流工具,但那时已经出现了很多数据工具和处理办法供数据科学家选择。实际上,Partially Derivative公司在一集叫“怪怪的数据科学”播客节目里就提到过这个问题。他们的观点是数据科学是崭新的领域,没有哪种语言、工具或框架可以成为主流,即便现在也很难说哪种工具是最好的,数据科学家必须具备非凡的创造力,找出适于处理手头上数据科学项目的最佳工具和策略。现在机器学习与数据科学当时的情况差不多,也没有大家公认可行的策略,但是有很多方
10、法供人选择,用于处理以前难以解决的问题。不过,现在数据科学社区里大部分人(约61%)都选择了Python。但是,下面列出的常用Python库大多数并不是机器学习框架。数据科学家使用哪些工具?流行的机器学习框架机器学习框架应用情况PandasNumpyScikit-learnMatplotlibTensorFlowKerasSeabornPytorch&TorchAWS Deep Learning AMIGoogle Cloud ML EngineTheanoMicrosoft Azure Machine Learning IBM Watson Machine LearningAmazon Sa
11、geMakerCaffe/Caffe 2MxnetSalesforce EinsteinBokenCNTKGluonDeeplearning4jPaddleBigDLLicensingChainerDyNet0201030507090110130406080100120140150Figure Eight 2018年数据科学家报告15 开源软件占这些工具和框架的主流。Pandas和NumPy已经推出了很长时间,此外,与之类似的还有Scikit-Learn和Matplotlib,也是老牌的Python库。TensorFlow虽然是谷歌开发的,不过它也是开源软件。这里需要提醒的是,不能只根据数量进
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2018 数据 科学家 报告
限制150内