bilbili用户画像分析定稿.docx
《bilbili用户画像分析定稿.docx》由会员分享,可在线阅读,更多相关《bilbili用户画像分析定稿.docx(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、北京理工大学珠海学院2016级毕业设计Bilibili视频网站用户画像分析学 院:专 业:姓 名:指导老师:商学院信息管理与信息系统王妍曦学 号:职 称:160802104997 田艳 中国珠海二二年五月诚信承诺书本人郑重承诺:本人承诺呈交的毕业设计网上人才招聘系统设计与实现是在指导教师的指导下,独立开展研究取得的成果,文中引用他人的观点和材料,均在文后按顺序列出其参考文献,设计使用的数据真实可靠。 本人签名: 日期: 年 月 日Bilibili视频网站用户画像分析摘 要Bilibili,又名哔哩哔哩或B站,是中国大陆知名的视频弹幕网站和最大的年轻人潮流文化娱乐社区。其主要内容基本为ACG(A
2、nimation、Comic、Game)和弹幕。作为一个视频网站,有着不同于其他视频播放平台的鲜明风格和互动形式。一直以来,二次元是bilibili用户的主流,年轻人是bilibili的主要受众群体。B站内容的丰富多样,因此携带有大量的用户特征信息。根据用户在视频网站上的基本信息及所发布的视频信息可推断用户的属性信息(即构建用户画像)对科学研究和商业都有着极高的价值。 本论文尝试针对哔哩哔哩视频网站的用户画像进行分析研究,主要从角色画像与行为画像两个维度构建用户画像体系,综合数据分析研究用户群体的基本信息及喜好变化。根据数据统计网站的哔哩哔哩用户基本信息数据分析其角色画像,再采用网络爬虫技术获
3、取哔哩哔哩视频网站的视频数据,结合相关的科学计算方法综合分析用户的行为画像。最终得出综合的结论。关键词:Bilibili,数据挖掘,数据分析,用户画像Design and Implementation of Online Recruitment SystemAbstractBilibili, also known as Bilibili or Bilibili station B, is a well-known video barrage website and the largest youth fashion culture and entertainment community in
4、mainland China. Its main contents are basically ACG (Animation, Comic, Game) and bullet screen. As a video website, it has a distinct style and interactive form different from other video broadcasting platforms. For a long time, quadratic has been the mainstream of bilibili users, and young people a
5、re the main audience group of bilibili. The content of station B is rich and diverse, so it carries a large amount of user characteristic information. Based on the users basic information on the video website and the video information published by the user, the attribute information of the user can
6、be inferred (that is, the user portrait can be constructed), which is of great value to scientific research and business.This paper attempts to analyze and study the user portrait of bilibili video website, and mainly constructs the user portrait system from the two dimensions of character portrait
7、and behavior portrait, and studies the basic information and preferences of user groups through comprehensive data analysis. According to the data statistics website bilibili user basic information data to analyze their role portrait, and then use the web crawler technology to obtain the video data
8、of bilibili video website, combined with the relevant scientific computing methods to comprehensively analyze the user behavior portrait. Finally comes to a comprehensive conclusion.Key words: Bilibili, data mining, data analysis, user portrait目录一、绪论1(一)论文背景及意义11.研究背景12.研究意义:1(二)用户画像概念及研究现状综述21.用户画像
9、概述22.用户画像研究现状3(三)研究内容及方法31.研究内容32.研究方法3(四)技术工具的选择41.网络爬虫42. mongoDB53.python数据分析5(五)论文结构6二、 可行性分析7(一)社会可行性7(二)技术可行性7三、数据获取及管理8(一)数据的爬取81.数据获取模块82.控制模块9(二) 数据清洗111.数据库管理112.数据处理12四、基于属性用户画像构建15(一)用户画像的维度15(二)用户画像的维度指标的选择151.角色画像指标选择152.行为画像指标选择16(三)评估方法181.构建指标体系182.评估指标的权重确定18五、哔哩哔哩用户画像分析20(一)角色画像分析
10、20(二)行为画像分析21六、结论25参考文献27谢 辞28一、绪论(一)论文背景及意义1.研究背景Bilibili,又名哔哩哔哩或B站,是中国大陆知名的视频弹幕网站,和最大的年轻人潮流文化娱乐社区。其主要内容其主要的内容基本为ACG(Animation、Comic、Game)和弹幕。作为一个视频网站,有着不同于其他视频播放平台的鲜明风格和互动形式。一直以来,二次元是哔哩哔哩用户的主流,年轻人是哔哩哔哩的主要受众群体,尽管较为稳定但是受众范围小。但是随着其他视频网站的收购,合并,发展,哔哩哔哩作为小众视频分享网站,资金上也不够雄厚,因此无法有实力同其他视频网站竞争。并且,现如今各视频网站纷纷开
11、发了弹幕功能,买下进口动漫版权,哔哩哔哩的优势渐渐淡化。因此哔哩哔哩必须从单纯的视频分享网站向多元化的商业模式转型。近年来,哔哩哔哩开设了多个如学习,美食,科普,时尚等非传统ACG文化分区。除此之外还有新兴的直播行业,同时哔哩哔哩鼓励独创,吸引了众多的非二次元文化用户的入驻,逐渐成为中国的YouTube。哔哩哔哩也被调侃为“中国最大的学习网站”。近期国内疫情的影响,哔哩哔哩也成为上海教委指定学习网站之一。尽管哔哩哔哩目前仍以游戏作为主要的收入来源,但是随着发展, 也应更加多元化。同时,大数据是当今时代的热词,其庞大的数据量可以通过数据的挖掘和分析从而做到对用户行为的确认和预测。数据挖掘与分析这
12、种技术因此受到企业和决策者们的爱戴,其主要是基于如机器学习,统计学知识或人工智能等相关技术,处理业务中的海量数据,将有价值的数据提取并进行分析,以保证数据资源的合理及充分利用。这种技术可以帮助企业做出合理决策,精准营销,从而降低企业的运营风险。 2.研究意义:大数据的时代,各行各业都追求数字化服务,精准定位。研究用户及其喜好的变化是必要的。众多电商网站都根据用户的喜好进行推送,可以提高用户的忠诚度和收益。这对于哔哩哔哩也同样适用,但是关于哔哩哔哩的用户画像并且基于数据的分析非常罕见。根据用户画像的分析,可以预测未来的发展方向,改善当前面临的问题,帮助哔哩哔哩可持续性发展。大数据分析的意义即通过
13、数据对一个企业运营情况和发展进行评估,从传统的定性分析转变为定量分析。明确的数据是更加真实有力的证据,这比传统的定性分析,专家评测等方法更加合理客观。对于视频网站来说,用户的喜好决定了用户的行为,提高用户的忠诚度势必要研究用户的喜好及其变化。根据数据挖掘技术,获得真实有效的用户行为数据,并对这些数据进行分析研究,确定用户需求和喜好。如通过学习视频播放的增长率相对较高,可提供更加专业和系统化的网课合集,并通过同教育机构的签约实行网课直播。尽可能的贴合用户的需求,构建用户画像是帮助哔哩哔哩确定用户群体,了解市场,根据数据分析基于发展建议,帮助哔哩哔哩在视频网站的相互竞争中屹立不倒。(二)用户画像概
14、念及研究现状综述1.用户画像概述用户画像就是根据从用户的行为信息中提炼出的用户属性,这些属性包括了用户的偏好等信息,根据这些标识信息建立用户的模型,这些模型可以高度概括并且以通俗易懂的形式描述用户的特征,从而更加容易理解用户,更加直观的给人传递用户喜好信息。保证用户画像的可靠性,需要满足用户画像的五个条件,即目标,方式,组织,标准,验证。其分别可解释为:目标:用户画像调查所针对的人群,即需描述其特征的人或者需要分析的人。方式:可被分为形式化手段和非形式化手段。形式化手段是使用数据描述和构画用户的形象;非结构化手段则是使用文字,语言,图像,视频等方式对用户进行描述。组织:结构化或非结构化的组织形
15、式。标准:采用常识,共识再到知识体系渐进的过程对用户进行描述,从而认识用户。验证:数据来源真实有效,可以被推理和检验。同时用户画像还包含不同的种类,如角色画像,行为画像。角色画像角色画像包括用户的基本属性,常见的属性有名称,性别,年龄,职业,地域等相关属性,其数据均是客观存在的。其主要偏重于用户的定位,确定用户形象的分析行为画像则是根据以往数据总结归纳得到的用户行为的描述和预测,其数据会根据用户不同的行为喜好发生变化。数据是行为画像的关键,行为画像充分的体现了数据的价值和意义。2.用户画像研究现状用户画像目前在国内也被广泛的的应用于互联网及电商等领域。企业通过分析历史用户的信息,从而得到用户偏
16、好,能供作为精准营销的数据支持。例如手机短信,邮件,广告推送等营销行为。同时在用户统计研究,企业数据挖掘,产品服务,不同行业报告中也有着举足轻重的作用。同时用户画像也可以用于挖掘潜在用户。用户画像的应用场景较多,通过挖掘用户的兴趣,偏好等特征,向用户推荐适合的产品,从而提升产品服务且为企业待带来盈利。在国内已经有不少的成果案例:比如段云峰、吴唯宁、李剑威等人在数据仓库及其电信领域的相关应用中,通过运营数据仓库的方法,对电信行业的服务客户进行了存储管理5;叶松云也在我国电信行业的客户流失管理相关建模分析及应用的研究中,通过对电信行业的流失客户进行模型建构,从而管理这个流失模型来有效控制客户的流失
17、6。高玉龙3 在电子商务网站的用户画像研究中,通过获取用户数据并将用户属性标签化,再定义了相关规则,以此来构建用户画像模型。用户画像适用范围极广,无论是新用户的引流,潜在用户的挖掘,再到老用户的培养以及失流用户的回流等工作都卓有成效。因此对于处于转型期的bilibili 视频网站来说,通过对用户画像的描述可以帮助企业快速定位当前用户,挖掘其潜在用户,帮助企业发展。(三)研究内容及方法1.研究内容由于哔哩哔哩视频网站的用户隐私限制,无法获取较全面,且有分析价值的用户数据,因此本文研究的角色画像数据来自艾瑞数据,行为画像数据为自主爬取的用户在哔哩哔哩视频网站的在线行为数据,即视频的相关信息,如(如
18、视频名称,视频分类,视频发布人,视频播放量等属性),这些数据可以很好的展现哔哩哔哩视频网站不同用户的喜好,以及这些喜好根据时间的变化而发生改变。视频反应的数据情况可以为用户画像的模型构建提供良好的属性选择。再根据构建好的模型得到哔哩哔哩视频网站用户画像。基于以上分析得到的用户画像可以帮助清晰定位用户,帮助企业发展。将研究内容和研究方法区别开。研究内容是研究对象和想得到的研究结果等。研究方法是使用的技术手段、途径等。2.研究方法本文主要通过对bilibili用户在线的行为数据,用统计学及网络爬虫技术进行数据挖掘与分析,构建合理的用户画像模型。为能够达到研究的目标,拟采用一下的研究方式:1. 文献
19、查阅,通过查阅bilibili 发展,用户画像分析,数据挖掘及分析等包含相关关键词的文献,了解国内对于bilibili 的用户分析及发展现状,国内互联网用户画像分析现状,以及一些用户画像分析的维度与方法。以此为基础进行bilibili 用户画像的概念模型。2. 通过学习python网络爬虫技术,将原始数据收集存入mongoDB后再利用python对数据进行数据的预处理,即数据清洗。主要处理爬虫过程中爬取的无效数据,空数据,以及乱码数据。尽可能的保证数据的准确性及有效性。通过获取的视频数据定义用户画像的评价维度,确定合理的用户画像属性维度,从而建立准确的用户画像模型。利用数据分析的工具及可视化的
20、展现,动态的数据分析结果勾画出用户群体在bilibili视频网站的用户需求变化,从而准确的定义用户画像模型。从而对bilibili 用户画像模型进行可视化的展示。3. 通过科学数据分析方法如层次分析理论,对用户喜好数据根据行为表现进行综合描述,得到用户几年间的喜好变化。(四)技术工具的选择系统运行于Windows平台;系统的Java JDK版本为1.8;系统编程软件基于PyCharm及Anaconda3-5.3.1下的Jupyter Notebook编程语言使用python3.7。数据库采用mongoDB1.网络爬虫网络爬虫1(web crawler),也被称为网络蜘蛛2(spider),会从
21、Internet上下载内容并编制索引。爬虫程序通常经过编程,可以访问其所有者提交的新站点或更新站点。可以有选择地访问整个站点或特定页面并对其建立索引。位于页面上时,会收集有关页面的信息,例如copy和meta标签。然后,将页面存储在索引中,算法可以对其中包含的单词进行排序,以便以后为用户获取信息。 URL,即统一资源定位符(Uniform Resource Locator),我们也称为网络地址。爬虫技术一般以初始的一个网页 URL 为起点,获取其URL 列表,运行时连续的把获取到的新的 URL 加入待爬行组,通过遵循爬取的策略不断的从待爬取的 URL 爬行组中选出新的 URL 进行爬取,直到满
22、足相应的条件,爬取遇到阻碍,或者执行者手动进行停止操作才停止爬行。通过网络爬虫获取的网页数据中有两种数据类型,即结构化数据和结构化数据,常见的结构化数据如 JSON 格式,是一种特定格式的字符串形式,类似于字典。JSON格式易于电脑的生成和解析,通过相应的关键字可得到对应的数据信息7。而非结构化数据基本可以分为两种文本格式与 HTML 格式。本文从bilibili视频网站爬取的数据信息则是机构化数据JSON格式存存入MongoDB。2. mongoDBMongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是可以应用于各种规模的企业、各个行业以及各类应用程序的开源数据库。作为
23、一个适用于敏捷开发的数据库,MongoDB的数据模式可以随着应用程序的发展而灵活地更新。与此同时,它也为开发人员 提供了传统数据库的功能:二级索引,完整的查询系统以及严格一致性等等8。 现如今传统的关系型数据库(如MySQL)面对于数据操作的数据的高并发读写,海量数据的高效储存和访问,数据库的高扩展和可用性的需求以及应用Web2.0的网站需求应对代价较高。MongoDB在当前的社交场景,游戏场景,物流场景,物联网场景以及直播等场景下的应用及其广泛。例如:微信用户朋友圈的相关信息的存储,通过地理位置索引实现的附近的人,漂流瓶,定位等功能。其具有可以写入海量数据,且可以频繁的写入操作。对于非强事务
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- bilbili 用户 画像 分析 定稿
限制150内