京东数字化.docx
解读京东数字化京东作为一家业内领先的互联网科技公司,完整的产业链条带来了价值可沽 的海量大数据,丰富的业务场景也为技术开展提供了最正确创新土壤。京东技术形 成了一套完整的技术体系和有效的数据管理方法,并在实践中得以验证和夯实。一、京东大数据目前京东已拥有集群规模40000+服务器,数据规模达800PB+,每日的JOB 数100万+,业务表900万+,每日的离线数据日处理量30PB+,单集群规模到达 7000+台,实时计算每天消费的数据记录近万亿条。京东大数据建设了全生态核心产品体系,涵盖数据采集、存储、加工、分析、 可视化、机器学习等专业化产品和服务,在保障数据平安的前提下,提供更可靠、 高性能的服务,大幅降低大数据使用门槛,帮助京东大数据业务快速落地,助力 京东实践以数据为驱动的业务变革与开展。(一)大数据平台技术架构数据罗盘领航员子午线用户画像 1 碗樨皮用|营销/运营 推荐/搜索/广告 财务/市场:金融/智能数据集成开发平台OLAP平台 京东分析师平台产品移动版分析师 监控看板实时计算数据挖掘平台数据知识管理T数据质量监控T统一权限管理T系统临控平台数据流向分布式调度平台营销集市JDW财务集市JRDW数据集市数据仓库数据直通车(Plumber)抽数机结构化结构化非结构化数据库数据库其他文档图片音频/视频在算法模型训练和部署上,京东内部有一套自己的机器学习平台,该平台目 前打通了京东的J-ONE (编译、上线发布、部署一体化的工具平台),可以通过 J-ONE部署CPU或GPU应用,从而简化整个部署过程。对于机器学习平台可以参 考【机器学习平台】章节。算法部署尽量是原子化服务,这样可以在业务层进行 组装复用。对于手机端上的算法模型移植需要权衡好性能、质量和发热三者的权 重。模型测试&质量评估平台算法模型产出后会提交到测试人员进行测试或回归测试,测试人员会建立一 个模型测试平台,对提交的模型进行测试,每次测试会留存之前的测试结果该测 试平台的测试数据集一方面是验证数据集,并随着算法的实际应用会采样实际数 据中的一些数据集进行测试校验,并通过可视化的方式产出测试报告,测试报告 中的效果评测局部需要人工进行打分和评估,所以会在测试结果进行质量评估, 该数据会提交到质量评估平台,根据具体需求会提交到产品经理、产品运营或者 用户那进行质量评估,从而验证模型产出的结果是否符合用户需求。该结果会反 向再给到算法人员进行训练。算法服务网关算法服务网关如图,目的是将各种算法API进行封装,提供原子服务和组合 服务。业务端需要调用各种算法如抠图,美颜,换脸,换翅膀时,网关对各个业 务提供统一算法API,防止各个服务重复调用。算法网关对算法进行统一监控, 通过UMP监控服务器性能,接口可用性进行警。算法网关对数据进行统一收集, 便于数据管理,进行数据挖掘。GPU服务业苏服苏么么照业苏服苏么么照偿存储 组合服务 喳由流级 安路限降IS0辆翅廨换脸CPU服务人脸检测证件照裁削滤镜性别年加开涛的博客图:算法服务网关在数据管理上,所有原始图片数据和处理完成图片数据会沉淀到Hbase数据 存储平台,且根据数据平安级别进行加密存储保证数据的平安性,对于一些公开 数据可以直接抽样同步到质量评估平台进行质量评估,再反向同步到算法人员进 行模型增强。(三)数据产品京东大数据的数据应用表达在业务的各个环节,如采销、搜索、推荐、广告、 供应链、金融、物流等。提供个性化的智能服务(可供借鉴,建立现代服务体系)京东通过分析和判断消费者喜欢的品牌、婚姻状况等其他数据,描绘出每个 消费者的用户画像。京东通过这些数据来决定未来的营销策略,并为每个消费者 提供个性化的购物体验。举例来说,京东App首页“猜你喜欢”的实现过程如下列图。首先根据用户画 像信息和用户的近期行为及相关反响信息,选择不同的召回方式,进行业务规那么 过滤;对满足要求的候选商品集,提取用户特征、商品特征、用户和商品的交叉 特征;使用算法模型根据这些特征计算候选商品的得分;根据每个商品的得分对 商品进行排序,同时会丰富推荐理由,考虑用户体验,会对最终排好序推荐结果 进行微调整,如多样性展示。图:猜你喜欢实现过程图二、京东物联网小京鱼AloT生态1 .去年京东宣布将原有IoT业务全面整合升级为小京鱼AloT生态,向合作 伙伴提供物联网解决方案,也为行业提供了更为合理的“底层技术+服务平台+ 落地渠道”生态开展路径。小京鱼智能平台整合了原有的京东Alpha平台,并引入了京东领先的人工智 能与大数据能力,代表着京东IoT业务的全面升级。小京鱼智能平台将不仅聚焦 原有的智能硬件、智能家居、智慧出行方案,更把京东的强大物联网能力拓展至 更多场景。在技术层面,涵盖了自然语言理解、图像识别、深度学习、大数据挖掘等更 多能力,且都经过了京东丰富场景的严苛历练。在语音方面,到达95%的家庭场 景语音唤醒率、90%的语音识别准确率、96%的自然语言理解准确率、90%以上的 人声还原度;在图像视觉能力方面,支持97%的商品识别准确率、99%的AR/VR 模型渲染还原度。小京鱼智能服务平台提供在云端快速部署和交付应用,可减少 系统建设和运维本钱,在开发层面提供基础软硬件demo,可降低软件开发及推 广本钱,并且联合模块、芯片厂商生产出更高质量的设备,为合作伙伴提升产品 设备的市场优势。2 .数据分析:“数据没有得到有效的应用”是IoT在产业应用上普遍存在的 短板,联网设备每天交互产生的大量数据,很少有企业有效地存储、归纳、分析、 总结,没有足够的大数据处理能力就不能够发挥数据的价值,只有不停用数据训 练,智能产品才能越来越智能。通过小京鱼智能平台,合作伙伴会获得最具优势的大数据分析,包括分析设 备数据改进自身硬件产品,以及基于用户画像进行用户行为分析。以智能冰箱为 例,图像识别技术让冰箱“眼观八方”,足够的数据能让设备做到识别冰箱中至 少98%的食材。但这只是视觉数据最基本的应用,进一步给冰箱赋予灵魂特性, 还必须做到千人千面、食品位置检测、食品识别、过期提醒、图像美化、等更多 功能;从用户端获得数据反响到设备端,数据驱动的闭环形成,感知用户习惯, 冰箱提供的服务变得越来越智能。3 .与华为IoT生态打通成为生态互通范例目前,小京鱼智能平台拥有超过200万款智能商品,接入品牌超过500个, 服务超1000万家庭,小京鱼智能平台问世,标志京东已经形成了一个完整而开 放的赋能生态。作为开放生态的典型代表,京东和华为消费者BG达成战略合作, 京鱼座全线智能硬件与华为消费者BG全系列终端产品实现全面互联,小京鱼平 台与华为HiLink平台完全打通,推动智能家居行业标准的统一,为生态互通做 出良好示范。京东的智能生活体系规划构想中,每一款连入京东IoT的设备都将共享小京 鱼平台人工智能、大数据等技术能力,实现用户在家庭、汽车等多场景中,跨空 间、跨时间的设备协同便捷控制,这种美好而经典的智能物联生活,必将和更多 像华为一样开放的合作伙伴一同发力,加码取胜实现共赢。三、智能物流“亚洲一号”“亚洲一号”是京东在上海、北京、广州、西安、沈阳、武汉、成都等7个 城市建立的京东大物流平台。1、“亚洲一号”智能物流体系特点:“亚洲一号”采用大数据及人工智能 先进技术,优化了京东现有物流体系;将出单、分拣、存货、配送集中于一个 车间完成,提高了京东配送效率;旨在打造无人京东智能物流:无人仓、无人 机、无人车;智能合并同一用户的不同订单,进行统一配送。货到人系统:该系统由存储局部、存取局部、拣选局部等组成,其存取部 分为多层穿梭车系统,该系统经常被应用于箱货物的快速存取,主要用以实现需 要拣选的货物自动输送到拣选工位进行拣选作业,可以大大提高作业的准确性和 效率。S/RS系统:自动化立体仓库系统,自动化立体仓库的主体由货架、巷道式 堆垛起重机、入(出)库工作台和自动运进(出)及操作控制系统组成。交叉带分拣机系统:自动分拣出大、中、小包裹,优化分拣系统,提高了 分拣效率。AGV系统:自动引导小车(AGV),通过智能控制,小车可以自主前往目的 地,减少人工工作,提高工作效率,增加准确率。阁楼货架系统:在已有的工作场地或货架上建一个中间阁楼,增加了存储 空间,可做二、三层阁楼。输送系统:大局部的运输路线采用输送线,降低了人工工作量,提高了工 作效率。2、全球智慧供应链基础网络建设(GSSC):全球智慧供应链基础网络建设(GSSC),王振辉表示,这是从简单追求点到 点搬运效率,到从预测、采购、生产、物流交付的全链条优化;从实现国内的短 链触达,到在全球范围内将优质供应链服务输出全球商家、消费者;京东物流致 力于加速中国制造通全球,全球商品通中国,并给行业伙伴带来新的开展机会, 实现可持续开展。通过GSSC,建设实体的通路网络与智能平台,推动供应链的 无缝连接和快速反响,以到达商流、物流、资金流、信息流的协调通畅。“京东建立GSSC全通路网络,最关键的是通过六大产品京东供应链、京东快递、京东冷链、京东快运、京东跨境和京东云仓一体化的服务来打造 全链路的网络产品。通过这六个产品的打造和组合,为所有的企业、所有的消费 者提供一整套或者一体化的物流解决方案,让消费者真正体验到无界物流服务。”王振辉认为,相较于其他网络,GSSC有两个特点。第一,京东物流是一个 有自己六大网络的物流企业,本身就是一家物流企业。第二,京东物流会从两个 方面来进行建设,一方面是技术智能化平台的建设,另一方面,是做通路网络的 建设,因为京东物流就是通路网络的实施者和运营者,所以在通路网络的建设当 中,会和其他的合作伙伴一起来建设通路网络。强大的物流系统离不开智能平台支撑,京东物流有接近3000名研发人员。 王振辉表示,京东打造了一整套的智能物流体系,过去十年京东物流很好地把信 息系统和各种场景做了结合。这种结合不光是跟系统的结合,也和硬件做了结合。 在上海京东的无人仓信息系统就和来自于世界各地最顶尖的智能设备做了充分 结合,很好地提高了效率。3、青龙系统-玄武系统-赤兔运输调度系统关于青龙配送系统,首先它的整体模式和架构,青龙平台前端接连B2B、C2C、 020以及社会化订单等各种平台,后端直接开放到内部的物流运营机构和第三方 物流企业,而青龙平台主要有应用访问层、投放平台、核心服务、管理服务、数 据支撑五大板块,其应用访问层会统一门户,提供接货服务和产品服务,并进行 全程跟踪;投放平台主要负责注册和认证工作;平台核心服务在于运单查询、规 那么制定、路由服务和GIS;管理服务主要是客户、合同以及财务、报表等的管理; 数据支撑也是京东快物流的一个重要因素,其数据存储、清洗、检索、挖掘等工 作都很到位。其次,就是青龙系统的核心子系统,它由对外拓展、终端服务、运输管理、 分拣中心、运营支持、基础服务6大板块构成。在对外拓展模块方面,京东有 强大的仓储能力和物流能力为基础,为了形成更强大的仓配一体化核心竞争力, 京东采取仓储及物流向商家开放的策略,也就是向所谓的B端开放。这6个核心模块中,实现快速配送的核心要归功于预分拣子系统。预分拣 是承接用户下单到仓储生产之间的重要一环,可以说没有预分拣系统,用户的订 单就无法完成仓储的生产,而预分拣的准确性对运送效率的提升至关重要。下面 通过图3对其预分拣子系统做具体展示。玄武系统打造更智能化的仓储管理系统,实现软化灵动的智能仓储调度。在 货品入库一存取一拣选一包装一出库整个仓储过程中,通过RFID将货 品信息录入信息平台,然后进行智能储位布局以及拣选路径规划与优化,进而支 撑整个云物流过程的实现。赤兔运输调度系统:赤兔TMS以及大件物流调度系统,赤兔TMS的主要特 点即:供应链体系中存放其运输业务,将仓库、分拣等各节点连接起来,使得各 节点业务互通,实现了数据采集的智能化、流程的标准化和跟踪控制的透明化, 形成了 一体化物流供应链体系,很大程度上提升了京东的运输效率。京东云的实现主要就是依托于以上三个系统,从而打造其智能物流系统。另 外,京东云平台搭建还有利于支撑其企业购平台,通过需求预测及一体化的仓配 流程为企业制度采购计划,帮助企业客户实现快速准确采购。4、京东机器人、无人机:无人机的大规模应用还涉及到空域的问题,京东无人机目前已在陕西、江苏、 海南、青海、广东、福建、广西共7省进行常态化物流配送,有效解决许多农 村、道路不便地区最后一公里的配送问题。对于京东的机器人应用,京东物流首席规划师、无人仓工程负责人章根云介 绍,京东无人仓的最大特点是对于机器人的大规模、多场景的应用。在京东无人 仓的整个流程中,从货到人到码垛、供包、分拣,再到集包转运,应用了多种不 同功能和特性的机器人,总数量达近千个,而这些机器人不仅能够依据系统指令 处理订单,还可以完成自动避让、路径优化等工作。无人仓是京东在智能化仓储 方面的一次大胆创新,其自动化、智能化设备覆盖率到达100%,可以应对电商 灵活多变的订单的业务形态。在分拣场内,京东引进了 3种不同型号的智能搬 运机器人执行任务;在5个场景内,京东物流分别使用了 2D视觉识别、3D视 觉识别以及由视觉技术与红外测距组成的2. 5D视觉技术,为这些智能机器人安 装了 “眼睛”,实现了机器与环境的主动交互。5、自动化技术京东的无人仓库公司,是全球首个全流程的无人仓库公司,全流程无人仓库 可以实现货物从入库、分拣、包装、存储以及配送等环节的无人化和智能化。无 人仓库的作业环节主要包括入库作业、存储作业、订单拣选作业以及打包作业等, 其中涉及的自动化设备主要有物流机器人、机械臂、自动穿梭车等。全球首个全流程无人仓库一一京东无人仓库的建立,实现了货物从入库、分 拣、包装、存储以及配送等环节的全流程无人化。无人仓的自动化运输系统以感 知技术为基础,可以实现包裹的自动装卸及别离。采用六轴机器人拾取大件物品, 可搬运单件物品的重量高达165公斤,且搬运速度较快,比人工作业效率可提 高30%0对于小件包裹的分类同样采用自动分拣机器人进行分类。同时京东无人 仓还采用了 RFID电子标签技术可以远距离读取标签信息,也可以写入信息。在 京东无人仓库中,自动化机器人被大规模、多场景的利用,不同功能的机器人相 互配合,在中心系统的调配下高效率、高质量地完成货物的出库程序。京东无人 仓高峰期可每天处理达20万订单。上图为大数据平台技术架构,分散在四处的线上系统数据(多为结构化的业 务数据),或者是各种日志文件、文档、图片、音频、视频等非结构化数据,需 要进行采集。我们分别借助实时和离线的数据处理平台,将数据抽取至实时数据 仓库和离线仓库,然后借助平台内的工具对数据进行加工处理,同时辅以各种平 台产品对数据进行统一管理、监控、处理、查询、分析等,并结合具体的业务 需求,形成相应的数据应用产品。1、数据采集目前京东的数据采集方案主要分为两大类:用户行为日志采集方案(点击流 系统)和通用数据采集方案(数据直通车)。浏览器端的日志采集。日志采集。浏览器的日志采集方式,首先需要在统 计页面日志的页面中预先植入一段JavaScript脚本,当页面被浏览器加载时, 会执行该脚本。脚本中预设了一些采集需求,包括收集页面信息、访问信息(访 次、上下文)、业务信息、运行环境信息(浏览器信息、访问时间、访问地址) 等信息。日志采集脚本在被执行后,会向服务器端发送一条HTTPS的请求,请 求内容包含了收集到的日志信息。服务器日志接收。日志服务器在成功接收到 浏览器发送的日志请求后,立刻向浏览器发送一个请求成功的响应,日志请求的 响应不影响页面的加载。日志服务器在接收到日志请求后,会对日志请求进行分 析处理,包括判断其是否为爬虫、是否为刷流量行为、是否为恶意流量、是否为 正常的日志请求等,对日志请求进行屏蔽和过滤,以免对下游解析和应用造成影 响。日志存储。服务器接收到日志请求后,会依据请求的内容及约定的格式对 其进行格式化落地。例如,当前页面、上一页面、业务信息、浏览器等信息以特 定的字段标识,字段之间使用特定的分隔符,整条日志以特定的格式记录下来。 结合业务的时效性需求,将日志分发到实时平台或者落地成离线文件。移动设备的日志采集。移动设备的页面有别于浏览器页面,移动设备主要为 原生页组成的App应用,原生页使用原生预研开发完成。例如Android系统使 用Java语言,iOS系统使用Objective-C原生语言开发,原生页运行速度快, 效率高。采集方式。移动设备上App应用的数据采集主要使用的是SDK工具, App应用在发版前将SDK工具集成进来,设定不同的事件行为场景,当用户触 发相应的场景时,那么会执行SDK相应的脚本,采集对应的行为日志。日志存 储。用户的各种场景都会产生日志,为了减少用户的流量损耗,我们将日志先在 客户端进行缓存,并对数据进行聚合,在适当时机对数据进行加密和压缩后上报 至日志服务器,同时由于数据的聚合和压缩也可以减少对服务器的请求情况。数据直通车。数据直通车为京东线上数据提供接入京东数据仓库的完整解决 方案,为后续的查询、分发、计算和分析提供数据基础。直通车提供丰富多样、 简单易用的数据处理功能,可满足离线接入、实时计算、集成分发等多种需求, 并进行全程状态监控。图所示的数据直通车接入数据类型,根据抽取的数据量及 抽取对线上的影响,会分为定时的离线接入和实时接入两种抽取方式。每种抽取 方式支持不同的数据类型,每天在零点后可以获取前一天完整的数据,然后将一 整天的数据进行集中加工处理,并将数据最终储存到目标表对应的分区中。离线接入实时接入A MySQLA SQL Server A Oracle A MongoDB A HBaseA Elasticsearch A离线文件A MySQLA SQL Server A Oracle A MongoDB A HBaseA Elasticsearch A离线文件A MySQLA SQL ServerA实时数据上报实时接入日志2.数据处理实时平台。业务数据处理的需求已经逐渐从离线转向了实时,在电商的 应用场景中,越来越多的需求更加倚重实时数据的处理和分析,越来越多的面 向用户和商家的业务场景开始尝试实时技术带来的收益。京东实时技术平台协助 业务更快地帮助用户发现自己想要的商品(推荐搜索),帮助商家更快地制订销 售策略(实时数据分析报表)提供了强有力的支撑。京东实时数据平台一共包括三大局部:实时数据接入(MAGPIE),实时数据 传输(JDQ)和实时数据计算(JRC)。MAGPIEJDQJRC实时数据接入。实时数据的源头是各个线上业务系统的各种类型数据源,在 京东内部主要包括三个部门:线上业务系统数据库:MySQL、SQL Server. Oracleo目前京东内部线上系统基本都已经切换MySQL。实时数据接入系统 Magpie完全支持上述三个关系型数据库的数据实时接入,原理为数据库的主从 复制模式,通过伪装从库的方式,把关系型数据库的Binlog日志实时抓取并解 析发送到JDQ内。对于MySQL数据库,实时接入程序按照服务粒度抓取MySQL单 服务上的所有Binlog,在程序内部进行Binlog的实时解析并过滤出所需要的库 表,再发送到表粒度的Topic上,方便下游用户进行业务表粒度的实时处理。线上业务日志系统:统一流量(用户浏览点击日志),统一日志(各业务 系统服务日志)。业务日志由线上系统先发送到JDQ的写集群,再由Magpie任 务实时同步到JDQ的读集群。通过这种方式做到了日志数据的读写别离,极大 地提高了系统稳定性和服务能力。线上消息系统:JMQo JMQ是京东内部线上系统的消息中间件服务,很多 业务数据在落数据库之前都会经过JMQ系统在不同业务系统之间进行传递。 Magpie同样可以把JMQ内的线上系统消息实时地同步到JDQ内,再面向数据处 理用户进行消费,极大地提高了数据处理系统的服务能力。京东内部的所有系统的实时数据都会经过Magpie系统进行接入和转发到 JDQ系统,统一由JDQ对数据处理的业务需求提供消息服务。该方案帮助业务 用户在技术层面屏蔽了接入的复杂度问题,并把服务稳定性和能力提高到了大数 据实时处理的要求。实时数据总线。实时数据在由Magpie进行统一接入处理后,需要一个面 向业务研发用户的消息消费服务。基于Kafka的JDQ服务就是满足这个需求的 产品。在原生Kafka的基础之上,我们封装了权限、限速、监控报警等一系列 服务。针对重要业务进行了双机房读写别离的部署方案,大大提高了消息服务的 可靠性和服务能力。生产日志系统向最近机房内的JDQ系统的写Topic发送业 务日志消息,如遇机房故障,自动切换到可用机房的服务。JDQ系统通过实时同 步不同写集群数据到每个机房的读集群,实现每个机房都有一份完整的业务日志 数据可供业务研发消费。业务研发就近机房选择读集群进行消费,同时通过JDQ 可以实现不同用户的消费限速,最大限度地保证集群服务的稳定可靠。JDQ实 时数据总线服务作为实时数据的中转缓存服务,屏蔽了业务研发对不同数据源的 接入难度,同时通过一系列的数据格式使用方式的标准化,打通了实时数据从接 入到业务处理的传输环节,实现了京东内部实时数据通道的目标。实时数据计算。实时数据要想表达业务价值,最终还需要业务研发方进行计 算和分析。京东内部主流的实时计算平台是JRC计算平台,该平台脱胎于早期 的Storm版本,由平台研发进行了深度的改造和产品化,实现了业务研发用户 完全的Web产品任务管理和监控的需求,同时整合了 JDQ数据来源,实现了用 户在数据计算平台的无缝对接实时数据。该方案的特点如下:通过Kubernetes实现Topology执行节点的容器 化,资源随用随申请,提高资源利用率。通过Kube:rnetes和二级调度的方 案,把Topology调度逻辑放在Kubernetes层面和Topology内部,提高了调 度的效率,防止了不同Topology之间的干扰。心跳只在Timbus和Topology Master以及Topology Master和Worker之间进行,防止了传统方案任务量大 时的心跳压力。由于实时计算的场景多样,针对不同场景业内提出了多个流行的计算框架。 目前京东内部实时计算的场景也趋于多样,平台已经开始在线上正式提供Spark Streaming和Flink等多种计算框架的产品化服务。由于实时计算程序必须由程序代码进行开发,对于传统离线业务,SQL研发 人员进行离线需求转实时还有较高的门槛,平台正在进行SQL形式和拖曳形式 的实时计算产品化研发工作。该方案上线后,将进一步帮助业务方把离线数据处 理需求转移到实时数据处理上,帮助京东的业务更快速地服务于广大的用户和商 家。目前京东实时数据解决方案整套流程已经接入了线上的上千张业务表数据 流和数百个业务日志数据流,覆盖京东内部所有核心业务系统和大局部实时处理 业务,主要面向京东内部各个业务部门的个性化推荐、秒杀、实时运营、商家报 表等。未来,离线数据处理需求会越来越多地迁移到实时数据处理上。离线平台。京东大数据离线平台的整体架构如下列图。独立集群公共集群YarnPresto on YamSpaikinYamSpark StreamSpark CoreSpark Milib 机甥学习框架计算框架 (Hive,Spark, Presto)机器学习框架(GPU)Alluxio on YarnAlluxioHDFSHDFS离线处理架构为数据存储+数据缓存+数据处理+数据应用。数据存储。以前数据仓库是LZO,线上业务是SQL Server、Oracleo现在 数据仓库是ORC,线上业务是MySQL、HBase。数据缓存。Alluxio是一个基于内存的分布式文件系统,它是架构在底层 分布式文件系统和上层分布式计算框架之间的一个中间件,主要职责是以文件形 式在内存或其他存储设施中提供数据的存取服务。数据处理。混合型引擎,按需按量分配,以及根据不同业务场景,选择不 同处理方式,统一由Yarn做资源管理。数据应用。服务京东消费数据的几乎所有场景,如数据挖掘、分析报告、 常规报表、即席查询等。在京东大数据平台中有多个物理集群、十几个集群应用软件、十几个大 数 据产品、三十多个数据集市、六千多个平台用户,日运行job数量超过40万, 日计算数据量超过15PB。在如此庞大的业务场景、海量数据计算、复杂数据处 理流程的场景下,一个高效实用的大数据离线平台显得尤为重要。大数据平台已经实现了海量数据的实时与离线计算,同时也到达高并发、高 容错、高扩展、低本钱的集团开展需要。同时,在保证现有大数据平台稳定的基 础上,通过与京东集市三十多个业务集市的深入接触沟通,在业务开展基础上, 结合最新、最适合的前沿技术,不断提高大数据平台的业务实现范围、大数据平 台技术创新(如异构集群、多引擎支持、即席查询、多维分析、登月平台等)、 大数据平台更好的运营管控机制(如大数据平台运营规范、数据仓库与集市建设 规范、运营值班方案、流程中心等),不断满足京东业务高速开展对未来大数据 平台的技术需要,实现京东战略价值目标。(二)数据管理(智能信息管理)数据管理是构建一个统一的、高可用的、服务完善的数据环境的基本保障。 从数据架构设计、数据资产管理、数据平安管理、统一业务指标、数据服务管理 等五个方面构建了数据管理框架,通过组织保障、规范流程、技术创新完成数据 管理的目标。工程也算法一体化平台整个工程&算法一体化平台架构包括数据集&标注平台、算法模型训练&部署 平台、模型测试&质量评估平台、算法服务网关、服装搭配平台,通过将这些平 台全链路打通,形成一体化架构,让数据透明、让过程透明,形成统一语言,提 升效率和质量。算法服务网关数据集平台标注平台图:工程&算法一体化平台数据集&标注平台在数据集方面,整个数据集会分为:训练数据集、测试数据集和验证数据集, 训练数据集会通过如开源数据集、爬虫、自有数据集、定制生产、第三方等多渠 道采集数据集,数据集的质量、维度和精细化程度决定了最终模型训练后的效果。 有了训练数据集后需要通过标注平台进行人工打标,即告诉机器什么是什么,和 小孩一样,机器要能识别某个事物,就需要不断有人教给它这个事物有什么特征。网站抓取模块网站数据抽取脚本模块模板/数据映射模块打标模块打标模块打标复核模块爬虫引擎数据格式化脚本模块数据格式化脚本模块爬虫数据存储打标数据存储复核数据存储开洗的博客图:数据集&标注平台算法模型训练&部署平台