详解华为12种数据采集技术及应用实践.docx
《详解华为12种数据采集技术及应用实践.docx》由会员分享,可在线阅读,更多相关《详解华为12种数据采集技术及应用实践.docx(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、详解华为12种数据采集技术及应用实践导读:数字化转型要从根本上加强数据的可获得性,围绕我们构建的数据主题和对象丰富数据感知渠道。要追求更加实时、全面、有效、平安的数据获取。随着企业业务数字化转型的推进,非数字原生企业对数据的感知和获取提出了新的要求和挑战,原有信息化平台的数据输出和人工录入能力已经远远满足不了企业内部组织在数字化下的运作需求。企业需要构建数据感知能力,采用现代化手段采集和获取数据,减少人工录入。数据感知能力架构如图1所示。数据感知图片数据接入数据存储硬感知视频接入方式结构化数据文档批次接入实时接入按需接入埋爬系点虫统榜郸卡FID条二树RF音频接入工具备器设 像音频感业 图语视传
2、工数据流 CLI Message ETL Queue Data StreamReplication Processing DataDiscovery非结构化数据推荐存储介质 RDBMS: SQL Server, DB2, Oracle, MySQL Document DB:MongoDB, ArangoDB, Hbase, HDFS, OrientDB, Elastic, gunDB Object DB:Versant, db4o, Objectivity, JADE, N Database Graph DB:Neo4J, Infinite Graph, Sparksee, AllegroGr
3、aph, WhiteDB图1数据感硬感知主要利用设备或数据感知可分为硬感知和软感知”,面向不同场景。装置进行数据的收集,收集对象为物理世界中的物理实体,或者是以物理实体为载体的信息、事件、流程等。而软感知使用软件或者各种技术进行数据收集,提供的对象存在于数字世界,通常不依赖物理设备进行收集。如图2所示。1他QI感硬知W米B辕传感器数据采集图7 3类软感知1 .埋点埋点是数据采集领域,尤其是用户行为数据采集领域的术语,指的是针对特定用户行为 或事件进行捕获的相关技术。埋点的技术实质,是监听软件应用运行过程中的事件,当 需要关注的事件发生时进行判断和捕获。埋点的主要作用是能够帮助业务和数据分析人员
4、打通固有信息墙,为了解用户交互行为、 扩宽用户信息和前移运营机会提供数据支撑。在产品数据分析的初级阶段,业务人员通 过自有或第三方的数据统计平台了解App用户访问的数据指标,包括新增用户数、活 跃用户数等。这些指标能帮助企业宏观地了解用户访问的整体情况和趋势,从总体上把握产品的运营 状况,通过分析埋点获取的数据,制定产品改进策略。埋点技术在当前主要有以下几类,每一类都有自己独特的优缺点,可以基于业务的需求, 匹配使用。代码埋点是目前比拟主流的埋点方式,业务人员根据自己的统计需求选择需要 埋点的区域及埋点方式,形成详细的埋点方案,由技术人员手工将这些统计代码添加在 想要获取数据的统计点上。可视化
5、埋点通过可视化页面设定埋点区域和事件ID ,从而在用户操作时记录操 作行为。全埋点是在SDK部署时做统一的埋点 App或应用程序的操作尽量多地采集 下来。无论业务人员是否需要埋点数据,全埋点都会将该处的用户行为数据和对应产生 的信息全采集下来。2 .日志数据采集日志数据收集是实时收集服务器、应用程序、网络设备等生成的日志记录,此过程的目 的是识别运行错误、配置错误、入侵尝试、策略违反或平安问题。在企业业务管理中,基于IT系统建设和运作产生的日志内容,可以将日志分为三类。因为系统的多样化和分析维度的差异,日志管理面临着诸多的数据管理问题。操作日志,指系统用户使用系统过程中的一系列的操作记录。此日
6、志有利于备 查及提供相关平安审计的资料。运行日志,用于记录网元设备或应用程序在运行过程中的状况和信息,包括异常的状态、动作、关键的事件等。平安日志,用于记录在设备侧发生的平安事件,如登录、权限等。3 .网络爬虫网络爬虫(Web Crawler)又称为网页蜘蛛、网络机器人,是按照一定的规那么自动抓取网页信息的程序或者脚本。搜索和数字化运营需求的兴起,使得爬虫技术得到了长足的开展,爬虫技术作为网络、数据库与机器学习等领域的交汇点,已经成为满足个性化数据需求的最正确实践。Python. Java. PHP、C#、G。等语言都可以实现爬虫,特别是Python中配置爬虫的便捷性,使得爬虫技术得以迅速普及
7、,也促成了政府、企业界、个人对信息平安和隐私 的关注。四.软感知能力在华为的实践软感知主要面向产品持续运营提供服务,基于对产品日志、用户行为的感知,改善产品功能。以华为内部数据管理平台为例(如图8所示),数据管理平台的数字化运营,需要识别用户行为,进而提升运营效率与用户数据消费的体验。IT秋访同标整SupplyDWI就理衰洋情页宜16B咨询与系蜕集成解决方案开发部图8数据管理平台用户标签 通过对平台埋点,捕捉用户在界面上从数据定位到最终消费的浏览过程和停留时间等信 息,并关联用户的部门、职位、所在地等信息,自动生成用户画像和数据画像,确定细 分用户范围,界定相同认知背景和业务场景的用户,提供可
8、识别的分类资产用于搜索, 界定数据资产分类,面向不同用户界定不同的资产范围,减少匹配差异和搜索引擎复杂 度,训练搜索引擎和推荐算法,提供最优数据推荐结果和排序位置。12类感知能力在企业中的应用,突破了原有人工维护数据的局限。但是不管是软感 知还是硬感知,产生的数据在没有纳入企业整体的数据管理体系情况下,如果只 以独立数据的形式存在,是无法应对复杂的企业数字化变革的。a使用软件或者各种程序进行数忙收集. 提供的对象存在于敬宁世界,通常不 依,物理设备进行收集数据感知的过程发生在数字世界,通常 星自动运行的程序或脚本埋点、System Log、网络爬虫利用设备或装百进行数据的收集,收集 对象为物理
9、世界中的物理实体,或者是 以物理实体为载体的信息.事件、流程、 状态等道的感知过程是数据从物理世界向数字世界的转化过程,有些数据感知需要人的操作语音、视装.OCR. RFID.条形码/ 二维码.传感器、工控设箭一图2感知分类一,基于物理世界的硬感知能力自动采集技术仍在开展中,不自动采集技术仍在开展中,不数据采集方式主要经历了人工采集和自动采集两个阶段。同的应用领域所使用的具体技术手段也不同。基于物理世界的硬感知依靠的就是数 据采集,是将物理对象镜像到数字世界中的主要通道,是构建数据感知的关键,是实现 人工智能的基础。基于当前的技术水平和应用场景,我们将硬感知分为9类,每一类感知方式都有自 身的
10、特点和应用场景,如图3所示。磁卡软感知硬/产知据知数感/传感器数据采集图39类硬感知.条形码与二维码条形码或者条码是将宽度不等的多个黑条和空白,按一定的编码规那么排列,用以表达一 组信息的图形标识符,通常一维条形码所能表示的字符集不过10个数字、26个英文字 母及一些特殊字符,条码字符集所能表示的字符个数最多为128个ASCII字符,信息 量非常有限。二维码是用某种特定的几何图形按一定规律在平面上分布的黑白相间的图形,用来记录 数据符号信息。二维码拥有庞大的信息携带量,能够把使用一维条码时存储于后台数据 库中的信息包含在条码中,可以直接阅读条码得到相应的信息,并且二维码还有错误修 正及防伪功能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 详解 华为 12 种数 采集 技术 应用 实践
限制150内