企业级机器学习平台产品解析.ppt
《企业级机器学习平台产品解析.ppt》由会员分享,可在线阅读,更多相关《企业级机器学习平台产品解析.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、198919921997201620142011BillOthelloDeep BlueAlphaGo2007SPHINXIBMWatsonAppleSiri1994NuanceChinookCheckers1988FacebookDeepFaceMicrosoftTayLoebnerPrizeClaudicoTexas Holdem2015GoogleBrain201220002013DQNXboxKinectGoogleNowMicrosoftCortanaPalantirMetropolisWealthfrontBettermentGoogleAdWordsKenshoGoogleAut
2、o-EmailMS OfficeGrammar2012CMU BossBostonDynamicsGoogle CarPepperAmazon Kiva人工智能发展的主要里程碑AI=机器学习+大数据存储和计算能力的发展:Intel/Nvidia/SSD/Infiniband数据规模的变化:O2O/物联网/互联网+机器学习领域的发展:框架、人才、数据科学家大纲1.机器学习产品2.算法与算法框架3.可扩展平台架构4.面向部署集成5.案例与选型企业级机器学习产品架构解析机器学习产品要解决什么问题?业务专业务专家家:利用大数据和机器学习获得业务提升关心关心:模型效果、与业务结合、可解释系系统统管理人管
3、理人员员:维护大量数据流&线上模型服务关心关心:资源使用、一致性、可管理性数据科学家数据科学家:处理数据&模型调研关心关心:算法、灵活性、可扩展性、性能模型效果 VS 调研成本 大量数据导入导出&预处理 特征工程&调参领域知识 VS 技能要求 问题定义和优化目标需要业务经验 需要懂Python/Spark/Tensorflow投产要求 VS 运维难度 线上特征 实时预估服务机器学习平台的困难?VSVSVS提升算法效果聪明 VS 笨天真无邪 VS 博览群书一代宗师 VS 走火入魔确保模型效果 充分使用尽可能多的数据经验风险:模型对于训练数据分类结果的误差置信风险:模型对于未知数据分类结果的误差样
4、本不足的情况下,VC维越高,越容易过拟合样本充足的情况下,VC维越高,模型效果越好-如何获得足够的样本数据:使用更多的表和字段,3维特征-如何获得足够的计算能力:分布式机器学习VC维=机器学习的智商智商大规模机器学习框架GDBTC+14/兼具运行效率和开发效率机器学习过程抽象,隐藏分布式细节数据流与学习过程的紧密结合面向实际客户问题的算法包SplitRRSplitRRSplitRRmapmapmap(Sort)reduceOutputFormatfilefileRecordReadersInput(k,v)pairsIntermediate(k,v)pairsPartitionerWrite
5、back tolocal HDFSstoreMR/Spark ML 计算模型Node 1Files loaded from local HDFS storesInput FormatSplitRRSplitRRSplitRRmapmapmapPartitioner(Sort)reduceOutputFormatfilefileRecordReadersInput(k,v)pairsIntermediate(k,v)pairsWrite back tolocal HDFSstoreNode 2Files loaded from local HDFS storesInput Format“Shuf
6、fling”processIntermediate(k,v)pairsexchanged by allnodesDataflowMapShuffleReduceWorkerData SharedWorkerData SharedWorkerData SharedPartion 2ww=w-wwww=w-wwww=w-wwwwGDBT 计算模型ParameterServerPartion 1w inHQueuewwwwPartitioned by featurePartion 3MinibatchPush/Pull wLoad DataFrom DatasourceGDBT Not Only P
7、arameter Server存储|计算|通讯|灾备|开放接口|场景优化HDFSLocal FSS3zeromqCUDAMKLYarnMPIMesosGDBT DataSource/HeterCacheGDBT RpcServiceGDBTHeterComputationGDBT ChannelGDBTProcessesGDBT ExecEngineGDBT Group CommunicationGDBT ML ComponentsGDBT WrapperGDBT LR/FMGDBT TransferGDBT TreeNetGDBTAutoFeatureGDBT W&D NN GDBT Ens
8、embleGDBT PSGDBT集成面向客户适用的算法DNN modelLR fea-weightGBDT modelCOEC,continuousfeatures 机器学习问题并非0和1问题 需要尽可能利用离散&连续特征 面向客户场景(模型稳定性)Bagging+Deep Sparse Network(第四范式新一代深度学习模型,2015)GDBT架构收益开发新算法只需要一百到几百行代码(LR、FM)无须关心分布式细节,就可获得分布式算法支持LossFunction/算法数据流的定制降低成本与门槛 业务专家 数据科学家数据科学家 机器学机器学习习系系统统开开发发人才人才AI 价值与成本培养一
9、个合格的AI人才需要6-10年的时间-杨强 AAAI Fellow,第四范式首席科学家培养一个合格的AI人才可增加经济收益500-1000万万美元-Andrew Moore 卡耐基梅隆大学计算机学院院长在白宫AI发展听证会上的讲话 BI SQL Oracle DB/DB2降低技能门槛 AutoML/AssistML/TransferLearning 算法创新:较少的需要参数手动调整 自动特征工程:利用DSN,同时获得千人千面+可推理的效果 高级特征工程算子:序列事件特征、社交关系特征 特征和模型可解释性:辅助建模人员更有效率工作 Transfer Learning(IN PROGRESS):如
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业级 机器 学习 平台 产品 解析
限制150内