HBase互联网电视论文.docx





《HBase互联网电视论文.docx》由会员分享,可在线阅读,更多相关《HBase互联网电视论文.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、HBase互联网电视论文1.1Hbase原有系统架构HBase是ApacheHadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目的是存储并处理大型的数据。HBase是一个开源的、分布式的、多版本的、面向列的存储模型,它存储的是松懈型数据。相比传统的关系型数据库,HBase具有易扩展、大数量、扩展灵敏、成本低等优势。1.2OTT用户行为数据系统架构图在OTT体系中,每个机顶盒终端就是一个用户,有唯一的用户标识UserID;用户通过机顶盒来访问和使用互联网电视业务,用户在盒端系统上产生的所有行为日志都上传给系统平台OpenApi,由系统平台进行数据的处理后进行入库,供经分系
2、统进行单用户或批量用户的查询。2数据构造2.1数据构造设计Hbase底层是基于列式存储的,能够在不浪费存储空间的情况下将表设计得非常稀疏。因而能够将所有的用户行为数据存储在一张宽的表中,消除在进行“行为间组合查询条件查询时带来的表联开销。由于Hbase目前并不能很好的处理两个或者三个以上的列族,本场景中采用单列族设计,列族的大版本数MaxVersion设定为1。想要获得较好的查询效率,应该将频繁查询的条件放在RowKey中,尽量保证查询条件都在RowKey中有所体现。从图3能够看出Hbase的查询效率从高到低依次为RowKey、ColumnFamily、ColumnQualifier、Time
3、Stamp和Value。因而想要获得较好的查询效率,应该将频繁查询的条件放在RowKey中,尽量保证查询条件都在RowKey中有所体现。本应用场景中,需要频繁查询的条件依次为用户身份标识userID、行为发生时间、行为类型和行为类型所包含的字段及其属性值。根据查询条件的频繁度,可将RowKey设计成userID、行为发生时间和用户行为ID的组合。同时考虑到RowKey的散列性,Key设计方案为:反转userID+“,+行为发生日期+“,+用户行为ID。由于单个用户在特定的某一天,一样的行为类型能够发生屡次例如123456789用户在2021年9月1日这一天能够发生屡次播放行为,假如采用真实的字
4、段名称作为列名,后来写入的数据会把前面写入的数据覆盖掉。为了保证数据的完好性,需要在原有字段名的后面加上一个当天唯一的列ID以作区分。列ID仅仅为了保证数据的完好性,无任何实际意义,能够是一个从0开场依次递增的数字序列。2.2数据格式源数据部分表示由平台产生的原始日志,自定义部分表示源数据经过人工处理后的扩展属性,行为ID为人为定义,列ID为人工生成的标识ID。列ID在一天内的同一个行为日志中具有唯一性。由反转userID和用户行为发生的日期以及用户行为ID组成RowKey,由真实的列名加上列ID组成Hbase里面的列名。3数据处理源数据入库经过分为2个步骤,源数据处理和并行入库。源数据处理部
5、分进行源数据整理,包括日志的清洗,RowKey和列ID的生成。并行入库经过将处理好的源数据以MapReduce方式将源数据导入到Hbase中。3.1数据入库源数据处理经过负责进行数据清洗及RowKey和列ID的生成,并将生成好的数据文件拷贝到HDFS中。一种列ID的设计方案是将列ID设定为一个从0开场依次递增的数字序列,此ID使得同一天内,同一种用户行为类型的每一条数据都具有唯一标识。以表1中模拟的播放日志数据为例。并行入库部分负责将处理好的源数据以MapReduce方式从HDFS导入到Hbase中。此方式通过读取HDFS上的文件,以Put的方式在Map经过中完成数据写入,无Reduce经过。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HBase 互联网 电视 论文

限制150内