大数据技术在学生成绩分析中的应用,计算机应用技术论文.docx





《大数据技术在学生成绩分析中的应用,计算机应用技术论文.docx》由会员分享,可在线阅读,更多相关《大数据技术在学生成绩分析中的应用,计算机应用技术论文.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据技术在学生成绩分析中的应用,计算机应用技术论文本篇论文目录导航:【题目】【第一章】【第二章】【第三章】【第四章】 大数据技术在学生成绩分析中的应用【总结/以下为参考文献】 第 4 章 大数据技术在学生成绩分析中的应用。 通过第一章的文献总结,我们了解到我们国家已经有一部分高校利用大数据技术对教育数据进行了分析,华而不实包括学生行为的分析、学生成绩的分析、远程教育资源的分析和在线系统中师生的交互数据进行分析,得到了一些有价值的教学和教育决策的应用。本章采用吉林大学电子科学与工程学院 2002 年到 2018 年除了 2005 年的学生成绩作为输入数据集,结合 Hadoop 平台对其进行了统
2、计分析以及发现了课程之间的关联规则,希望能为我的母校做一些奉献。 4.1 实验环境介绍。 本文通过在VMware workstation10.0.0上建立两台虚拟机来搭建Hadoop集群环境,华而不实一台作为 NameNode,另一台作为 DataNode. 1搭建 Linux 系统。 Hadoop 是开发在 Linux 平台上的,固然在其它系统上也能运行,但是搭建的环境极为复杂,需要把原先的系统模拟成 Linux 环境才能使用 Hadoop,因而本文选择采用 Linux 系统。在 PC 机上安装了 VMware Workstation10.0.0,之后便能够搭建 Linux 系统了。图 4.
3、1 是 Linux 版本信息。 2Hadoop 平台的搭建。 由于搭建的是集群环境,所以 Hadoop 采用完全分布式形式。 在 Linux 上搭建 Hadoop 之前,需要安装两个程序:JDK 和 SSHSecure Shell安全外壳协议。 JDK1.6 或更高层次版本,本文采用 JDK1.7Hadoop 是用 Java 开发的,Hadoop 的编译以及 MapReduce 的运行都需要使用 JDK. SSH安全外壳协议Hadoop 运行经过中需要管理远端 Hadoop 守护进程。在 Hadoop 启动后,NameNode 是通过 SSH 来与 DataNode 进行交互的。也就是讲必须在
4、节点之间通信的时候采用不需要输入密码的形式,故我们需要配置 SSH 运用无密码公钥认证。这样 NameNode 就能够在不输入密码的情况下管理 DataNode.同样原理,DataNode 上也能使无密码访问 NameNode. 从 Apache Hadoop 的发布页面下载 Hadoop本文所使用的是 Hadoop-1.0.3,首先为 master 机器安装 Hadoop. 配置 Hadoop 环境变量: /etc/profile:添加 Hadoop 环境变量。 conf/hadoop-env.sh:配置 Java 环境变量、和 Hadoop 环境变量等。 conf/core-site.xm
5、l:用于定义系统级别的参数,如 Hadoop 的临时目录,配置NameNode 节点的 URI-统一资源标识符包括协议,主机名称,端口号。 conf/mapred-site.xml:配置指定 MapReduce 的 JobTracker 的地址。 conf/hdfs-site.xml:配置数据块副本的个数以及执行权限等。 通过 scp 命令将 master 上的 Hadoop 文件复制到 slave1 上, 进入 master 的 Hadoop 安装目录,格式化 HDFS: bin/hadoop namenode -format运行 hadoop 进程:bin/start-all.shjps
6、查看进程启动情况,如此图 4.2 所示上面的图为 master 的节点信息,下面的图为 slave1 上的节点信息。 3Eclipse 配置Eclipse 是本文编写 MapReduce 程序的开发环境,方便调试 MapReduce 程序。 Eclipse 版本:eclipse-jee-kepler-SR2-linux-gtk在 Eclipse 上配置 Hadoop 相关插件 将 hadoop-1.0.3-eclipse-plugin.jar 复制到 eclipse 安装目录下。 配置 hadoop installation directory:选择 Hadoop 的安装目录。 配置 Map/
7、Reduce Locations:添加 Location name、MapReduce Master 和 DFSMaster 的地址和端口。 这样整个 Hadoop 分布式集群环境就搭建成功了。图 4.3 为 Hadoop 集群部署示意图。 Master 管理 NameNode、SecondaryNamonode 和 JobTracker,slave1 管理DataNode 和 TaskTracker. 4.2 数据预处理。 大部分原始数据难免会存在某些数据记录的缺失和冗余等,为了保证结果的严谨性,很有必要对原始数据进行清洗;而将某些数据用特定的字符转换会方便程序的编写;本文将原始数据根据成绩
8、的等级进行分类,这样的划分能够精准挖掘结果。基于以上三点本文的数据清洗经过如下: 1清理无效数据数据中存在 - ,空值等不合法的字符,这些数据并不存在任何意义。而针对学生成绩数据,华而不实的选修课程并不是所有的学生都会选择的,本文也不会采用这样的数据。 2数据转换数据转换也就是用简单的字符代替课程名称,例如,本文采用不同的阿拉伯数字代表不同的课程名称。 3数据规范化我们将学生成绩根据这样的标准划分:90 分以上为优秀,80-90 分为良好,70-80 分为中等,60-70 分为及格,60 分下面为不及格。 4.3 基于学生成绩的统计分析。 根据数据本身的特点,即我们首先采用趋势图分析,所使用的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流

限制150内