大数据存储-教学大纲.docx
大数据存储教学大纲课程名称:大数据存储课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分一、课程的性质大数据技术的开展对社会诸多领域都产生了巨大的推动作用,同时也使得数据资源成为 各行各业开展的重要资源之一。大数据时代下,各类数据都呈现出爆炸式增长的趋势,各行 各业对海量数据资源的存储要求也越来越高,这使得大数据存储在大数据技术领域占有越来 越重要的地位。为了推动我国大数据行业的开展,满足存储、分析海量数据的行业需求,特 开设大数据存储课程。二、课程的任务通过本课程的学习,使学生了解大数据存储,掌握使用存储工具对海量数据进行存储和 分析,并详细拆解学习广电用户数据存储与分析案例,根据实际业务需求,综合利用各种存 储工具对海量数据进行存储、分析和处理,将理论与实践相结合,为将来从事数据存储、数 据分析研究、工作奠定基础。三、课程学时分配序号教学内容理论学时实验学时其它1工程1 了解大数据302工程2结构化数据仓库一一Hive573工程3列存储数据库一一HBase57联系方式:189 2756 5259泰迪智能科技官网:打造数据智能职业敕育领军企业4工程4文档存储数据库一一MongoDB455工程5文档存储数据库一一ElasticSearch566工程6数据传输工具Sqoop457工程7广电用户数据存储与分析26总计2836四、教学内容及学时安排1.理论教学序 号章节名称主要内容教学目标学时1了解大数据1 .大数据的概念2 .数据的特征3 .大数据的应用领域4 .大数据技术体系5 .了解数据存储6 .了解分布式数据库1 .了解大数据的概 念、特征和应用领 域。2 .熟悉大数据技术 体系。3 . 了解基于文件系 统、数据库和数据仓 库的数据存储方式。4 . 了解NoSQL数据 库的特点与分类。32结构化数据仓库 Hive1 .认识Hive2 . 了解Hive的架构3 .搭建Hadoop集群4 .配置MySQL数据库5 .配置Hive数据仓库6 .掌握Hive基础数据类型7 .创立表8 .删除表与表数据9 .修改表结构10 .导入数据11 .导出数据12 .认识SELECT语句结构13 .了解运算符的使用14 .使用WHERE语句进行条件查询1 . 了解Hive及其架 构原理。2 .熟悉Hive的安装 流程。3,了解Hive的基础 数据类型。4 .掌握HiveQL语句 的基本操作。5 .掌握Hive中UDF 的编写方法。5联系方式:189 2756 5259泰迪智能科技官网:打造数据智能职业敕育领军企业15 .认识HiveQL内置函数16 .认识HiveQL子查询17 .编写Hive中的UDF18 .过滤无效、异常数据19 .选取有效字段20 .构建模型指标3列存储数据库 HBase1 . 了解 HBase2 .掌握HBase核心功能模块3 .了解HBase的数据模型4 .安装前的准备工作5 .安装与配置Zookeeper6 .安装与配置HBase7 .设计表结构的原那么8 .创立与删除表9 .插入数据10 .查询数据11 .删除数据12 .扫描全表13 .按时间版本查询数据14 .搭建HBase开发环境15 .创立表与删除表的方法16 .调用表对象的put()方法插入数据17 .调用表对象的get()方法进行查询18 .调用表对象的scan()方法进行全 表查询19 .编写MapReduce实现数据交互1 .了解HBase的发 展历程、功能模块和 数据模型。2 .熟悉HBase的基 础架构及其各个模 块的功能。3 .掌握HBase的安 装与配置方法及过 程。4 .理解HBase数据 表的设计原那么。5 .掌握 HBase Shell 与 HBase Java API 的基础语法。6,掌握利用 MapReduce 实现 HBase 与 HDFS 的 数据交互的方法。54文档存储数据 库 MongoDB1 .了解 MongoDB2 . 了解MongoDB数据模型3 .安装与配置MongoDB4 .访问 MongoDB HTTP 端 口5 .创立与删除数据库6 .插入文档数据7 .删除文档数据8 .更新文档数据9 .查询文档数据10 .索引11 .聚合12 .搭建MongoDB的开发环境13 .创立电子商务日志数据存储数据 库1 .了解 MongoDB 及 其数据模型。2 .掌握MongoDB的 安装与配置方法。3 .掌握 MongoDB shell的基础操作。4 .熟悉 MongoDB Java开发环境的搭 建过程。5 .能够利用 MongoDB Java API 完成简单的数据分 析任务。45文档存储数据 库 ElasticSearch1 .了解 ElasticSearch2 .安装分布式ElasticSearch3 .配置Head插件4 .创立与修改索引1 . 了解 ElasticSearch 的基础概念、术语和 特点。2 .掌握 ElasticSearch5联系方式:189 2756 5259联系方式:189 2756 5259泰迪智能科技官网:打造数据智能职业敕育领军企业5 .增加、删除与修改数据6 .查询数据7 .搭建ElasticSearch开发环境8 .创立与修改索引9 .增加、删除与修改数据10 .批量操作11 .调用Get API查询12 .调用Search API查询13 .输出设置14 .度量聚合15 .分组聚合集群的安装过程和 配置方法。3 .掌握 ElasticSearch Head插件的基础操 作。4 .掌握 ElasticSearch Java API的基础语 法。6数据传输工具 Sqoop1 .了解 Sqoop2 .安装与配置Sqoop3 .掌握Sqoop eval的基本操作4 .掌握Sqoop import的基本操作5 .掌握Sqoop job的基本操作6 .使用Sqoop将MySQL中的数据导 入 Hive7 .掌握Sqoop export基本操作8 .使用Sqoop从Hive传输数据到 MySQL1 ,了解Sqoop的基 础概念及其安装与 配置过程。2 .掌握Sqoop的基 本传输命令。3 .掌握Sqoop的传 输命令与参数的使 用方法。4 .掌握用Sqoop实 现增量导入、更新输 出等操作的方法。47广电用户数据 存储与分析1 .业务需求分析2 .选择存储与分析技术3 .设计存储与分析架构4 . 了解数据5 .将数据导入ElasticSearch6 .在Hive中创立数据管理表7 .查看Hive中的表数据8 .统计各表宣传数据记录数9 .统计各表政企用户记录数10 .统计用户收视时长分布11 .统计机顶盒待机记录数12 .处理无效用户信息13 .处理无效收视数据14 .处理无效订单数据15 .计算电视消费水平和宽带消费水 平16 .将数据保存至其他数据库1 .了解工程需求分 析的过程。2 .了解ElasticSearch> Hive、 MySQL 和 HBase 在 大数据存储中的适 用范围。3 .掌握将CSV文件 导入 ElasticSearch 的方法。4 .掌握 将ElasticSearch 数据导 入Hive的方法。5 .了解在Hive中对 数据进行清洗和统 计分析的方法。6 .掌握将Hive数据 导入MySQL的方 法。7 .掌握将Hive数据 导入HBase的方法。2学时合计28泰迪智能科技官网:联系方式:189 2756 5259打造数据智能职业敕育领军企业2.实验教学序号实验工程名称实验要求学时1Hive的安装与 使用1 .搭建Hadoop集群2 .配置MySQL数据库3 .配置Hive数据仓库4 .创立表5 .删除表与表数据6 .修改表结构7 .导入数据8 .导出数据9 .认识SELECT语句结构10 .使用WHERE语句进行条件查询11 .认识HiveQL内置函数12 .认识HiveQL子查询13 .编写Hive中的UDF42航空客户数据 存储与分析L创立航空客户信息表2 .导入航空客户数据到航空客户信息表3 .查询航空客户信息表空值记录数4 .查询航空客户信息表字段数据的最大值和最小值5 .统计会员数最多的会员级别6 .编写UDF统计客户入会时长7 .过滤无效、异常数据8 .选取有效字段9 .构建模型指标33HBase的安装 与使用1 .安装前的准备工作2 .安装与配置Zookeeper3 .安装与配置HBase4 .创立与删除表5 .插入数据6 .查询数据7 .删除数据8 .扫描全表9 .按时间版本查询数据10 .搭建HBase开发环境11 .创立表与删除表的方法12 .调用表对象的put()方法插入数据13 .调用表对象的get()方法进行查询14 .调用表对象的scan()方法进行全表查询15 .编写MapReduce实现数据交互44构建冠字号存 储管理系统1 .设计与新建钞票交易数据表2 .新增与删除钞票交易数据表数据3 .查询指定时间版本的钞票数据3泰迪智能科技官网:联系方式:189 2756 5259打造数据智能职业敕育领军企业4 .使用Java API创立钞票交易数据表5 .搭建HBase开发环境6 .通过Java API插入数据到钞票交易数据表并查询7 .通过MapReduce导入数据到钞票父易数据表5MongoDB 的安 装与使用1 .安装与配置MongoDB2 .访问 MongoDB HTTP 端 口3 .创立与删除数据库4 .插入文档数据5 .删除文档数据6 .更新文档数据7 .查询文档数据8 .索引9 .聚合10 .搭建MongoDB的开发环境11 .创立电子商务日志数据存储数据库36用户日志数据 的存储与查询1 .存储用户日志数据到MongoDB2 .查询MongoDB中用户访问HTML页面的记录数3 .搭建MongoDB的开发环境4,使用MongoDB Java API创立电子商务日志数据存储 系统27ElasticSearch 与 Head插件的安 装与使用1 .环境准备2 .安装Node.js环境3 .配置分布式ElasticSearch4 .配置Head插件5 .创立与修改索引6 .增加、删除与修改数据7 .查询数据8 .搭建ElasticSearch开发环境9 .创立与修改索引10 .增加、删除与修改数据11 .批量操作12 .调用Get API查询13 .调用Search API查询14 .输出设置15 .度量聚合16 .分组聚合48电影评分数据 的存储与查询1 .使用Head扩展插件存储用户和电影信息数据2 .搭建ElasticSearch开发环境3 .通过Java存储用户对电影的评分数据4 .通过Java查询插入的数据记录5 .查询评价电影超过50次的用户29Sqoop的安装 与使用1 .安装与配置Sqoop2 .掌握Sqoop eval的基本操作3 .掌握Sqoop import的基本操作3联系方式:189 2756 5259泰迪智能科技官网:打造数据智能职业敕育领军企业4 .掌握Sqoop job的基本操作5 .使用Sqoop将MySQL中的数据导入Hive6 .掌握Sqoop export基本操作7,使用Sqoop从Hive传输数据到MySQL10用户浏览日志 数据传输、存储 与查询1 .查询MySQL用户日志数据表的记录数2 .将MySQL中的用户日志数据增量导入Hive3 .导出Hive中的筛选结果至MySQL211广电用户数据 存储与分析1 .业务需求分析2 .将数据导入ElasticSearch3 .在Hive中创立数据管理表4 .查看Hive中的表数据5 .统计各表宣传数据记录数6 .统计各表政企用户记录数7 .统计用户收视时长分布8 .统计机顶盒待机记录数9 .处理无效用户信息10 .处理无效收视数据1L处理无效订单数据12 .计算电视消费水平和宽带消费水平13 .将数据保存至其他数据库6学时合计36五、考核方式突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业 (10%) +课堂参与(20%) +期末考核(70%),期末考试建议采用开卷形式,试题应包括 基本概念、组件安装步骤、开发环境搭建流程、数据存储与查询操作、案例分析实现流程等 局部,题型可采用选择题、判断题、简答题、应用题等方式。六、教材与参考资料.教材谭旭,李程文.大数据存储.北京:人民邮电出版社.2022.1 .参考资料联系方式:189 2756 5259联系方式:189 2756 5259泰迪智能科技官网:打造数据智能职业敕育领军企业1孟宪伟,许桂秋.大数据导论M.北京:人民邮电出版社.2019.2武志学.大数据导论 思维、技术与应用M.北京:人民邮电出版社.2019.3刘军.Hadoop大数据处理M.人民邮电出版社:,201309.299.4梅博.面向电视用户的实时日志采集和处理系统设计与实现D.北京邮电大学, 2020.5刘淼,陈红,时瑞鹏.Hadoop系统搭建及工程实践M.北京:北京邮电出版社.2021.6尹相儒.基于Sqoop的数据转换平台设计与实现D.南京师范大学,2018.联系方式:189 2756 5259泰迪智能科技官网:打造数据智能职业敕育领军企业