酒店评论数据挖掘课程设计报告.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《酒店评论数据挖掘课程设计报告.docx》由会员分享,可在线阅读,更多相关《酒店评论数据挖掘课程设计报告.docx(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本科课程设计阳光连锁酒店系统的数据仓库和数据挖掘设计 目录1 概述31.1应用背景和问题的提出31.2设计内容的概述32 数据仓库设计42.1概念模型设计42.2逻辑模型设计62.2.1 星型图62.2.2 确定主题的属性组62.2.3 事实表72.3物理模型设计73 数据挖掘应用设计103.1酒店评论文本挖掘概述103.1.1 酒店评论情感分类103.1.2 对分类后的评论聚类113.1.3 分类后基于关键词进行关联分析113.2 实现方法113.2.1 数据准备113.2.2 数据预处理123.2.3分类实现133.2.4 聚类实现143.2.4 关联分析141 概述1.1应用背景和问题的
2、提出阳光酒店是一家大型连锁酒店,在全国各地都有其分店,每日的客户订单信息都十分庞大,需要建立一个数据仓库来分析这些杂乱的数据,以查漏补缺,为顾客提供一个优质舒适的入住环境,提高自身的市场竞争力。酒店的运营本身可以分为3个部分客房,客户,服务(员工),这三者缺一不可,酒店的高层管理人员主要关心酒店整体的营销额,哪个省份的客户量大,分店的数量是否应该增加,而每个分店的管理人员则只关心自己店内的入住率每日每月每年的情况如何,每个客房是否需要修缮,只有每个分店的销售额提高,酒店的整体利益才会提高,此数据仓库主要以客户中心,分析了阳光酒店的整个运营流程,为这些管理人员提供了有用的信息来提高酒店的服务质量
3、,吸引更多的顾客 1.2设计内容的概述客房的类型,设计,必备的客房用品都多种多样,可以先通过分析大部分客户的需求进行初步的安排和设计,再通过客户的反馈评价进一步的改善,仓库会收集客户的各种信息,通过统计其定期时间内预定酒店的次数,地点,房型,时间,适当进行推荐,提高入住率。员工同样很重要,他们是提供优质服务的主体,指定其编号与服务的客房号,通过整体用户的评价进行挑选,替换,培训。以上的分析都能体现出此数据仓库的作用及其重要性。 2 数据仓库设计 2.1概念模型设计2.1.1.多维数据表模型(信息包图)表 1 信息包图维度酒店服务分析类别|时间维区域维客房维客户维员工维年度省份编号身份证号编号季
4、度城市类型工作种类姓名月分店区状态入住目的职位日消费金额度量标准:评价表和入住率2.1.2、主题域图 1 主题域的划分2.1.3.ER图图 2 整体酒店的ER图分为4个主题域,客房,客户,分店,以及员工,客户可以提前预定客房(交押金,指定入住时间和时长,房型),入住(入住时间和退房时间,所有消费),消费(酒店里的吃食和用品消费量),获取员工的服务(比如换被褥,添加饮用水,卫生纸,整理房间的项目),入住后还可评价酒店(时间,评价的内容及评分)2.2逻辑模型设计2.2.1 星型图图 3 销售分析时的星型图2.2.2 确定主题的属性组表 1 主题的相关属性表主题名公共键属性组客户客户号基本信息:客户
5、号,名称,电话 消费信息:客户号,时间,消费金额评价信息:客户号,时间,内容,分数订单订单号预订信息:预定号,客户号,时间,押金,房型入住信息:客户号,房号,时间,入住性质服务信息:工号,房号,服务项目号分店分店号基本信息:分店号,分店名称,分店电话区域信息:省,市,区评价信息:客户号,分店号,评分等级,2.2.3 事实表图 4 多维度的事实图2.3物理模型设计总共需要10张表表 3 客户表表 4 员工表表 5 分店表表 6 区域表表 7 客房表表 8 预定表表 9 入住表表 10 消费表表 11 服务表表 12 物品表表 13 评论表3 数据挖掘应用设计3.1酒店评论文本挖掘概述移动互联网时
6、代,酒店业的市场更加风云变幻,其中最为显著的问题就是酒店该如何正确理解消费者的期望,据此评估自己服务质量的表现,并针对性的加以改善,通过对酒店的评论进行文本挖掘是一个行之有效的好方法。3.1.1 酒店评论情感分类语料情感分析,简单的讲就是一个二分类问题,基于酒店的评论内容,判断出正负面情绪,计算两种评论的比例,就可以知道酒店的服务质量怎么样。但因为是文本挖掘,数据的预处理比较复杂。进行关键字提取,然后做出词向量模型,然后使用 SVM(支持向量机)进行训练,最后使用模型将收集的酒店评论进行情感分类,进行情感分类的目的是为了使用LDA主题模型分析的时候能够精准提取到酒店的优缺点的主题3.1.2 对
7、分类后的评论聚类 经过上一步对酒店的情感分类后,分别对正向情感和福相情感进行聚类分析,预测评论主题各5个,这样可以找到客户对于酒店服务常提到的4个优点和缺点,方便酒店基于此最具体的改进3.1.3 分类后基于关键词进行关联分析提取每一个评论中的关键词,用于关联分析,获取此酒店最主要的一些特点3.2 实现方法3.2.1 数据准备1、环境配置及库的引用Python3.7Jieba用于分词Gensim用于词向量模型构建Pandas用于DataFrame的处理Numpy用于存储和处理大型矩阵Scikit-learn用于机器学习使用Matplotlib用于绘制二维图形Tensorflow用于训练模型2、数
8、据获取2.1 停用词词典使用中科院计算所中文自然语言处理开放平台发布的中文停用词表,包含了1208个停用词。2.2 正负向语料库(训练集用于训练模型)从CSDN的一篇文章中下载“有关中文情感挖掘的酒店评论语料”作为训练集与测试集,本次实验选用正负各1000的平衡语料(ChnSentiCorp_htl_ba_2000)作为数据集进行分析。2.3 python爬取到的酒店评论(训练集用于训练模型)爬取携程网( url = 3.2.2 数据预处理1 正负语料合并因为原本的数据集保存在neg(负向语料)和pos(正向语料)两个文件夹,而文件夹中的每一篇评论为一个txt文档,为了方便之后的操作,需要把正
9、向和负向评论分别规整到对应的一个txt文件中 2 分词采用结巴分词分别对正向语料和负向语料进行分词处理。3 去除停用词分词完成后,即可读取停用词表中的停用词,对分词后的正负向语料进行匹配并去除停用词4 文本向量表示根据以上步骤得到了正负向语料的特征词文本,而模型的输入必须是数值型数据,因此需要将每条由词语组合而成的语句转化为一个数值型向量。5 降维Word2vec模型设定了400的维度进行训练,得到的词向量为400维,实验中发现前100维就可以输入训练模型进行训练3.2.3分类实现1、构建分类模型采用支持向量机(SVM)作为分类模型 ,支持向量机(SVM)是一种有监督的机器学习模型。采用支持向
10、量机SVM构建模型实现分类(python中有对应的包svm),其主要思想为找到空间中的一个更够将所有数据样本划开的超平面,并且使得本本集中所有数据到这个超平面的距离最短,通过2000条正负评论语料,训练出一个准确度高的模型2、运用训练模型将训练好的SVM模型运用在海亮酒店评论上,将评论分为正负两个语料3.2.4 聚类实现通过查看文档等,发现LDA主题模型1】很适合实现文本的聚类分析,能够以概率抽取的形式提取出文本的主题,LDA通过 setOptimizer 函数支持不同的推断算法。EMLDAOptimizer 对于似然函数用 expectation-maximization 算法学习聚类,然后
11、获得一个合理的结果3.2.4 关联分析1、用textrank方法分别提取正负向评论文档中的关键词,绘制词云,以直观的方式获取酒店的关键信息TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。2、Apriori(关联分析算法)使用Apriori算法发现频繁项集l 扫描数据集,得到所有出现过
12、的数据,作为候选1项集l 挖掘频繁k项集扫描计算候选k项集的支持度剪枝去掉候选k项集中支持度低于最小支持度的数据集,得到频繁k项集。如果频繁k项集为空,则返回频繁k-1项集的集合作为算法结果,算法结束。基于频繁k项集,链接生成候选k+1项集l 利用步骤2,迭代得到k=k+1项集结果由频繁项集产生关联规则产生关规则的过程如下:l 对于每个频繁项集I,产生I的所有非空子集l 对于I的每个非空子集s,如果support(l)/support(s) min_conf,则输出规则“s(l-s)”。其中,min_conf是最小置信度阈值。 本科实验报告课 程 名 称: 数据挖掘 课 程 编 号: 0806
13、0116 学 院: 信息科学技术学院 系: 计算机系 专 业: 计算机科学与技术 指 导 教 师: 刘波 教 师 单 位: 暨南大学 开 课 时 间:2019 2020 学年度第 二 学期暨南大学教务处2020 年 6 月 17 日 数据挖掘 课程实验项目目录学生姓名:郝佳男 学号:2017050404序号实验项目编号实验项目名称*实验项目类型成绩指导教师1 01分类综合性刘波 202聚类综合性刘波 303关联分析综合性刘波 *实验项目类型:演示性、验证性、综合性、设计性实验。*此表由学生按顺序填写。暨南大学本科实验报告专用纸课程名称 数据挖掘 成绩评定 实验项目名称 酒店评论情感分类 指导教
14、师 刘波 实验项目编号 0806011601 实验项目类型 设计 实验地点 学院 信息科学技术学院 系 计算机系 专业 计算机科学与技术 实验时间 2020 年 5 月 20 日 下 午 一. 实验内容对酒店的评论进行文本挖掘,基于机器学习的方法利用机器学习算法(支持向量机)训练已标注情感类别的训练数据集训练分类模型,再通过分类模型预测通过python爬取到的酒店评论所属情感分类。二. 选用的算法与参数设置1. 数据获取def getContent(fullname): f = codecs.open(fullname, r,GB18030,errors=ignore) content = f
15、.readline() f.close() return content因为编码不统一的问题,采用codecs库打开一条评论的txt文件,r,只读文件,GB18030,一种更为高级的编码方式,屏蔽了不同编码的差异性2. 数据预处理2.1 正负语料合并for filename in filenames: content = getContent(rootdir + + filename) output.writelines(content) i = i+1循环1000次,每一次都取出一条正向(负向)语料中的内容,写入一个新的txt文件,并最后存储为utf-8的形式2.2 分词1) 文本清洗#去除
16、文本中的英文和数字line = re.sub(a-zA-Z0-9,line)#去除文本中的中文符号和英文符号line = re.sub(s+.!/_,$%*(+;:“”+|+!,。??、#¥%&*(),line)2) 运用方法接受三个输入参数: 需要分词的字符串line;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型import jiebasegList = jieba.cut(line,cut_all=False) #line为输入的每一条评论语句2.3 去除停用词1) 打开已经放在data文件夹中的停用词stopkey = w.strip() for
17、 w in codecs.open(datastopWord.txt, r,encoding=utf-8).readlines()2) 用循环语句,只保留不在stopkey中出现的词语for word in wordList: word = word.strip() if word not in stopkey: if word != t: sentence += word + 2.4 文本向量表示采用Word2Vec词向量模型将语料转换为词向量。由于特征词向量的抽取是基于已经训练好的词向量模型,而wiki中文语料是公认的大型中文语料,所以从wiki中文语料生成的词向量中抽取本文语料的特征词向
18、量。从网上百度盘里直接下载wiki.zh.text.vector特征词向量作为模型的输入。2.5 降维PCA算法对结果进行降维3. 分类模型构建采用支持向量机(SVM)作为分类模型 ,支持向量机(SVM)是一种有监督的机器学习模型。通过计算测试集的预测精度和ROC曲线来验证分类器的有效性(ROC曲线的面积(AUC)越大模型的表现越好。)1) 目标函数的惩罚系数C=1,核函数为linear(核函数为SVM的模型类别)2) 目标函数的惩罚系数C=2,(C越大,对误分类的惩罚增大,有助于提高准确度,但泛化能力减弱),核函数为poly3) 目标函数的惩罚系数C=2,核函数为rbf4. 调用模型分类用m
19、odel.predict(数据)预测y的值是0还是1,根据此将原有的评论分成pos和neg两个文件for i in range(len(df):# 循环检测测试数据分类成功的个数 y=model1.predict(np.array(x_pcai) if y=1: P.append(x_pcai) targetf1.writelines(linei + n) else: N.append(x_pcai) targetf2.writelines(linei + n) print(y)三.实验结果1. 数据获取1.1 停用词词典本文使用中科院计算所中文自然语言处理开放平台发布的中文停用词表,包含了1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 酒店 评论 数据 挖掘 课程设计 报告
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内