bilbili用户画像分析定稿.docx
北京理工大学珠海学院2016级毕业设计Bilibili视频网站用户画像分析学 院:专 业:姓 名:指导老师:商学院信息管理与信息系统王妍曦学 号:职 称:160802104997 田艳 中国·珠海二二年五月诚信承诺书本人郑重承诺:本人承诺呈交的毕业设计网上人才招聘系统设计与实现是在指导教师的指导下,独立开展研究取得的成果,文中引用他人的观点和材料,均在文后按顺序列出其参考文献,设计使用的数据真实可靠。 本人签名: 日期: 年 月 日Bilibili视频网站用户画像分析摘 要Bilibili,又名哔哩哔哩或B站,是中国大陆知名的视频弹幕网站和最大的年轻人潮流文化娱乐社区。其主要内容基本为ACG(Animation、Comic、Game)和弹幕。作为一个视频网站,有着不同于其他视频播放平台的鲜明风格和互动形式。一直以来,二次元是bilibili用户的主流,年轻人是bilibili的主要受众群体。B站内容的丰富多样,因此携带有大量的用户特征信息。根据用户在视频网站上的基本信息及所发布的视频信息可推断用户的属性信息(即构建用户画像)对科学研究和商业都有着极高的价值。 本论文尝试针对哔哩哔哩视频网站的用户画像进行分析研究,主要从角色画像与行为画像两个维度构建用户画像体系,综合数据分析研究用户群体的基本信息及喜好变化。根据数据统计网站的哔哩哔哩用户基本信息数据分析其角色画像,再采用网络爬虫技术获取哔哩哔哩视频网站的视频数据,结合相关的科学计算方法综合分析用户的行为画像。最终得出综合的结论。关键词:Bilibili,数据挖掘,数据分析,用户画像Design and Implementation of Online Recruitment SystemAbstractBilibili, also known as Bilibili or Bilibili station B, is a well-known video barrage website and the largest youth fashion culture and entertainment community in mainland China. Its main contents are basically ACG (Animation, Comic, Game) and bullet screen. As a video website, it has a distinct style and interactive form different from other video broadcasting platforms. For a long time, quadratic has been the mainstream of bilibili users, and young people are the main audience group of bilibili. The content of station B is rich and diverse, so it carries a large amount of user characteristic information. Based on the user's basic information on the video website and the video information published by the user, the attribute information of the user can be inferred (that is, the user portrait can be constructed), which is of great value to scientific research and business.This paper attempts to analyze and study the user portrait of bilibili video website, and mainly constructs the user portrait system from the two dimensions of character portrait and behavior portrait, and studies the basic information and preferences of user groups through comprehensive data analysis. According to the data statistics website bilibili user basic information data to analyze their role portrait, and then use the web crawler technology to obtain the video data of bilibili video website, combined with the relevant scientific computing methods to comprehensively analyze the user behavior portrait. Finally comes to a comprehensive conclusion.Key words: Bilibili, data mining, data analysis, user portrait目录一、绪论1(一)论文背景及意义11.研究背景12.研究意义:1(二)用户画像概念及研究现状综述21.用户画像概述22.用户画像研究现状3(三)研究内容及方法31.研究内容32.研究方法3(四)技术工具的选择41.网络爬虫42. mongoDB53.python数据分析5(五)论文结构6二、 可行性分析7(一)社会可行性7(二)技术可行性7三、数据获取及管理8(一)数据的爬取81.数据获取模块82.控制模块9(二) 数据清洗111.数据库管理112.数据处理12四、基于属性用户画像构建15(一)用户画像的维度15(二)用户画像的维度指标的选择151.角色画像指标选择152.行为画像指标选择16(三)评估方法181.构建指标体系182.评估指标的权重确定18五、哔哩哔哩用户画像分析20(一)角色画像分析20(二)行为画像分析21六、结论25参考文献27谢 辞28一、绪论(一)论文背景及意义1.研究背景Bilibili,又名哔哩哔哩或B站,是中国大陆知名的视频弹幕网站,和最大的年轻人潮流文化娱乐社区。其主要内容其主要的内容基本为ACG(Animation、Comic、Game)和弹幕。作为一个视频网站,有着不同于其他视频播放平台的鲜明风格和互动形式。一直以来,二次元是哔哩哔哩用户的主流,年轻人是哔哩哔哩的主要受众群体,尽管较为稳定但是受众范围小。但是随着其他视频网站的收购,合并,发展,哔哩哔哩作为小众视频分享网站,资金上也不够雄厚,因此无法有实力同其他视频网站竞争。并且,现如今各视频网站纷纷开发了弹幕功能,买下进口动漫版权,哔哩哔哩的优势渐渐淡化。因此哔哩哔哩必须从单纯的视频分享网站向多元化的商业模式转型。近年来,哔哩哔哩开设了多个如学习,美食,科普,时尚等非传统ACG文化分区。除此之外还有新兴的直播行业,同时哔哩哔哩鼓励独创,吸引了众多的非二次元文化用户的入驻,逐渐成为中国的YouTube。哔哩哔哩也被调侃为“中国最大的学习网站”。近期国内疫情的影响,哔哩哔哩也成为上海教委指定学习网站之一。尽管哔哩哔哩目前仍以游戏作为主要的收入来源,但是随着发展, 也应更加多元化。同时,大数据是当今时代的热词,其庞大的数据量可以通过数据的挖掘和分析从而做到对用户行为的确认和预测。数据挖掘与分析这种技术因此受到企业和决策者们的爱戴,其主要是基于如机器学习,统计学知识或人工智能等相关技术,处理业务中的海量数据,将有价值的数据提取并进行分析,以保证数据资源的合理及充分利用。这种技术可以帮助企业做出合理决策,精准营销,从而降低企业的运营风险。 2.研究意义:大数据的时代,各行各业都追求数字化服务,精准定位。研究用户及其喜好的变化是必要的。众多电商网站都根据用户的喜好进行推送,可以提高用户的忠诚度和收益。这对于哔哩哔哩也同样适用,但是关于哔哩哔哩的用户画像并且基于数据的分析非常罕见。根据用户画像的分析,可以预测未来的发展方向,改善当前面临的问题,帮助哔哩哔哩可持续性发展。大数据分析的意义即通过数据对一个企业运营情况和发展进行评估,从传统的定性分析转变为定量分析。明确的数据是更加真实有力的证据,这比传统的定性分析,专家评测等方法更加合理客观。对于视频网站来说,用户的喜好决定了用户的行为,提高用户的忠诚度势必要研究用户的喜好及其变化。根据数据挖掘技术,获得真实有效的用户行为数据,并对这些数据进行分析研究,确定用户需求和喜好。如通过学习视频播放的增长率相对较高,可提供更加专业和系统化的网课合集,并通过同教育机构的签约实行网课直播。尽可能的贴合用户的需求,构建用户画像是帮助哔哩哔哩确定用户群体,了解市场,根据数据分析基于发展建议,帮助哔哩哔哩在视频网站的相互竞争中屹立不倒。(二)用户画像概念及研究现状综述1.用户画像概述用户画像就是根据从用户的行为信息中提炼出的用户属性,这些属性包括了用户的偏好等信息,根据这些标识信息建立用户的模型,这些模型可以高度概括并且以通俗易懂的形式描述用户的特征,从而更加容易理解用户,更加直观的给人传递用户喜好信息。保证用户画像的可靠性,需要满足用户画像的五个条件,即目标,方式,组织,标准,验证。其分别可解释为:·目标:用户画像调查所针对的人群,即需描述其特征的人或者需要分析的人。·方式:可被分为形式化手段和非形式化手段。形式化手段是使用数据描述和构画用户的形象;非结构化手段则是使用文字,语言,图像,视频等方式对用户进行描述。·组织:结构化或非结构化的组织形式。·标准:采用常识,共识再到知识体系渐进的过程对用户进行描述,从而认识用户。·验证:数据来源真实有效,可以被推理和检验。同时用户画像还包含不同的种类,如角色画像,行为画像。角色画像·角色画像包括用户的基本属性,常见的属性有名称,性别,年龄,职业,地域等相关属性,其数据均是客观存在的。其主要偏重于用户的定位,确定用户形象的分析·行为画像则是根据以往数据总结归纳得到的用户行为的描述和预测,其数据会根据用户不同的行为喜好发生变化。数据是行为画像的关键,行为画像充分的体现了数据的价值和意义。2.用户画像研究现状用户画像目前在国内也被广泛的的应用于互联网及电商等领域。企业通过分析历史用户的信息,从而得到用户偏好,能供作为精准营销的数据支持。例如手机短信,邮件,广告推送等营销行为。同时在用户统计研究,企业数据挖掘,产品服务,不同行业报告中也有着举足轻重的作用。同时用户画像也可以用于挖掘潜在用户。用户画像的应用场景较多,通过挖掘用户的兴趣,偏好等特征,向用户推荐适合的产品,从而提升产品服务且为企业待带来盈利。在国内已经有不少的成果案例:比如段云峰、吴唯宁、李剑威等人在数据仓库及其电信领域的相关应用中,通过运营数据仓库的方法,对电信行业的服务客户进行了存储管理5;叶松云也在我国电信行业的客户流失管理相关建模分析及应用的研究中,通过对电信行业的流失客户进行模型建构,从而管理这个流失模型来有效控制客户的流失6。高玉龙3 在电子商务网站的用户画像研究中,通过获取用户数据并将用户属性标签化,再定义了相关规则,以此来构建用户画像模型。用户画像适用范围极广,无论是新用户的引流,潜在用户的挖掘,再到老用户的培养以及失流用户的回流等工作都卓有成效。因此对于处于转型期的bilibili 视频网站来说,通过对用户画像的描述可以帮助企业快速定位当前用户,挖掘其潜在用户,帮助企业发展。(三)研究内容及方法1.研究内容由于哔哩哔哩视频网站的用户隐私限制,无法获取较全面,且有分析价值的用户数据,因此本文研究的角色画像数据来自艾瑞数据,行为画像数据为自主爬取的用户在哔哩哔哩视频网站的在线行为数据,即视频的相关信息,如(如视频名称,视频分类,视频发布人,视频播放量等属性),这些数据可以很好的展现哔哩哔哩视频网站不同用户的喜好,以及这些喜好根据时间的变化而发生改变。视频反应的数据情况可以为用户画像的模型构建提供良好的属性选择。再根据构建好的模型得到哔哩哔哩视频网站用户画像。基于以上分析得到的用户画像可以帮助清晰定位用户,帮助企业发展。将研究内容和研究方法区别开。研究内容是研究对象和想得到的研究结果等。研究方法是使用的技术手段、途径等。2.研究方法本文主要通过对bilibili用户在线的行为数据,用统计学及网络爬虫技术进行数据挖掘与分析,构建合理的用户画像模型。为能够达到研究的目标,拟采用一下的研究方式:1. 文献查阅,通过查阅bilibili 发展,用户画像分析,数据挖掘及分析等包含相关关键词的文献,了解国内对于bilibili 的用户分析及发展现状,国内互联网用户画像分析现状,以及一些用户画像分析的维度与方法。以此为基础进行bilibili 用户画像的概念模型。2. 通过学习python网络爬虫技术,将原始数据收集存入mongoDB后再利用python对数据进行数据的预处理,即数据清洗。主要处理爬虫过程中爬取的无效数据,空数据,以及乱码数据。尽可能的保证数据的准确性及有效性。通过获取的视频数据定义用户画像的评价维度,确定合理的用户画像属性维度,从而建立准确的用户画像模型。利用数据分析的工具及可视化的展现,动态的数据分析结果勾画出用户群体在bilibili视频网站的用户需求变化,从而准确的定义用户画像模型。从而对bilibili 用户画像模型进行可视化的展示。3. 通过科学数据分析方法如层次分析理论,对用户喜好数据根据行为表现进行综合描述,得到用户几年间的喜好变化。(四)技术工具的选择系统运行于Windows平台;系统的Java JDK版本为1.8;系统编程软件基于PyCharm及Anaconda3-5.3.1下的Jupyter Notebook编程语言使用python3.7。数据库采用mongoDB1.网络爬虫网络爬虫1(web crawler),也被称为网络蜘蛛2(spider),会从Internet上下载内容并编制索引。爬虫程序通常经过编程,可以访问其所有者提交的新站点或更新站点。可以有选择地访问整个站点或特定页面并对其建立索引。位于页面上时,会收集有关页面的信息,例如copy和meta标签。然后,将页面存储在索引中,算法可以对其中包含的单词进行排序,以便以后为用户获取信息。 URL,即统一资源定位符(Uniform Resource Locator),我们也称为网络地址。爬虫技术一般以初始的一个网页 URL 为起点,获取其URL 列表,运行时连续的把获取到的新的 URL 加入待爬行组,通过遵循爬取的策略不断的从待爬取的 URL 爬行组中选出新的 URL 进行爬取,直到满足相应的条件,爬取遇到阻碍,或者执行者手动进行停止操作才停止爬行。通过网络爬虫获取的网页数据中有两种数据类型,即结构化数据和结构化数据,常见的结构化数据如 JSON 格式,是一种特定格式的字符串形式,类似于字典。JSON格式易于电脑的生成和解析,通过相应的关键字可得到对应的数据信息7。而非结构化数据基本可以分为两种文本格式与 HTML 格式。本文从bilibili视频网站爬取的数据信息则是机构化数据JSON格式存存入MongoDB。2. mongoDBMongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是可以应用于各种规模的企业、各个行业以及各类应用程序的开源数据库。作为一个适用于敏捷开发的数据库,MongoDB的数据模式可以随着应用程序的发展而灵活地更新。与此同时,它也为开发人员 提供了传统数据库的功能:二级索引,完整的查询系统以及严格一致性等等8。 现如今传统的关系型数据库(如MySQL)面对于数据操作的数据的高并发读写,海量数据的高效储存和访问,数据库的高扩展和可用性的需求以及应用Web2.0的网站需求应对代价较高。MongoDB在当前的社交场景,游戏场景,物流场景,物联网场景以及直播等场景下的应用及其广泛。例如:微信用户朋友圈的相关信息的存储,通过地理位置索引实现的附近的人,漂流瓶,定位等功能。其具有可以写入海量数据,且可以频繁的写入操作。对于非强事务的数据存取可以及时应对数据变化。MongoDB数据存储是松散的,不需要在存储时就确定数据模型,可以很好的支持可扩展性高。3.python数据分析Python在数据交互与分析,探索性计算以及数据可视化等方面都有非常多元化的库和技术交流的社区,除此之外在python的numpy、pandas、matplotlib、等一系列优秀的库和工具在数据分析中经常用到,使用起来非常的方便快捷,功能完全,可以满足数据分析的各种操作,对海量数据的分析效率也很高。因此备受各种行业数据分析师的喜爱。Jupyter NoteBook(以前称为IPython NoteBook),是一款免费的开源的交互式web工具。它提供了一个用户和IPython内核交互的一个界面,同时它又是一个交互式的笔记本(可以保存你的源代码、运行结果),集文本(markdown)、代码、图像、公式与一体的python的web界面。在普通的python shell或者IDE(集成开发环境)如Pycharm中进行数据分析,过程繁琐。通常代码和文档不能同时进行,如获取数据分析中间结果数据,则需将代码重新运行,再将结果编辑成文档。Jupyter NoteBook 可以边进行代码的编写,边输出叙事性文档,界面美观。(五)论文结构本文共分为6个章节,主要研究了基于数据挖掘技术构建用户画像并分析,结合分析得出结论并给予建议。细节如下:一、绪论,主要介绍了本次研究的背景,意义,用户画像的描述及研究现状,以及本文的研究内容及方法。二、 可行性分析,主要从社会及次啊用的相关技术层面进行分析确保研究可行。三、数据的获取及处理,主要阐述了如何应用爬虫工具将数据从原始网站爬取。并对爬取数据到的数据如何存储及处理进行了详细的描述。三、 用户画像的构建,确定用户画像的维度及其指标的选择,并介绍数据评估的方法。五、 根据用户画像的维度进行用户画像分析分析六、根据分析结果得出结论,并给予相应的建议。二、 可行性分析本论文尝试针对哔哩哔哩视频网站的用户画像进行分析研究,主要从角色画像与行为画像两个维度构建用户画像体系,结合爬虫技术手段及科学计算分析方法综合分析用户的行为画像。最终得出综合的结论。(一)社会可行性利用用户画像分析制定营销策略,或者防止用户流失等在国内外并不少见。通过查阅用户画像的相关分析发现,互联网行业常以电商或者社交平台相关的论文或者数据分析较为常见,各种分析的手段也比较完善。对于4G乃至未来的5G时代所带来的大量新型的互联网视频行业的数据分析相对较少,知网关于哔哩哔哩视频网站的分析多数为角色画像分析,缺少数据的支撑和预测。因此本文从用户画像的两种模式即角色画像和行为画像对哔哩哔哩视频网站的用户画像进行较为全面的分析,结合相关互联网社交平台用户画像分析的相关方法。这类的分析在行业中也起到重要的作用,可以帮助哔哩哔哩视频网站更加清晰的认识其角色画像以及行为画像,即用户群体随着时间的变化而发生的数据变化,喜好变化等。因此本次哔哩哔哩用户画像分析研究具有较高的社会价值,也具有可行性。(二)技术可行性Python是一款强大的数据分析工具,对于数据分析初学者可在短期内掌握技术,代码量小。python大量的库为数据分析提供了完整的工具集,相比spss及excel,对于大量数据的处理能力强,且运行速度快。比起MATLAB、R语言等其他主要用于数据分析语言,python语言功能更加健全。Python也是目前较为主流的编程语言之一,同时有着丰富的数据库以及活跃的社区,遇到问题基本可以在网络寻找解决方法。因此运用python来完成数据挖掘到分析是可行的。三、数据获取及管理本章中所有的实验数据均来自于。(一)数据的爬取1.数据获取模块Bilibili API:b站的API是其向开发者提供的获取数据的网络接口,通过API可以获取部分数据。但b站对与反爬虫机制对的ip访问频率存在限制,因此需要休眠,或拥有大量IP。为了兼顾效率和稳定,购置大量ip存放于txt文件中,在进行爬虫时对其调用。本文基于python的爬虫工具对数据进行抓取。数据获取:本文的数据获取利用的时开源库requests(/kennethreitz/requests/)实现。requests是一个基于python网络模块urllib3开发的http客户端库,相比于python标准库urllib,它提供了更方便的api接口,支持http连接保持和连接池,支持cookie保持绘画,支持上传文件,支持自动确定相应内容的编码,支持国际化的url(如带中文参数的url链接)和post数据自动编码。由于bilibili视频网站对于同一IP频繁访问的防护机制,且2014-2019年视频总量超过8000w,本地内存无法完成数据全部爬取。本文采用系统抽样的方法对bilibili的视频信息进行抽取。系统抽样也可以被称作等距抽样,SYS抽样等。这种方法是在一个整体中,首先依据样本的整体容量确定抽选样本的间隔单位,再随机开始进行抽样,抽样按照确定的间隔单位抽取对应的样本,直到没有样本以进行抽取。这种方式对于本文的研究中较大数据量且无法完全获取的情况有着较为科学的帮助。本文主要以url前缀+视频的av号码(bilibili视频网站视频的唯一确定标识)进行数据的获取,采用系统抽样的方法,既定每间隔1000个号码进行一次数据的爬取。从html页面中后获取到的相关视频的数据包括:视频名称,发布人,视频类别,发布时间,观看数,点赞数,投币数,收藏数等信息。每个视频有唯一标识的aid,视频的名称即为视频在上传时对其的命名。每个视频有视频描述,视频描述可以为无,即没有信息。每个视频信息都包含发布视频的用户信息,即mid和name。视频相关信息还包括发布的时间,可以以此来进行后续的动态分析。视频的类别是该视频所处的分区,此处为小分区,对应分分区号,由于该网页不包括大分区的信息,后期需要对其进行分类处理。视频的观看数即播放量,点赞数量,投币数量,收藏数量是该视频的收益信息。2.控制模块对爬虫工作进行控制,包括任务的发布和回收,控制数据流大小,页面的刷新和跳转,数据的储存等。任务发布:给爬虫模块分配url,获取从url返回的数据,部分代码如图3.1.1所示。并存入mongoDB数据库部分代码如图3.1.2所示:图3.1.1 获取数据部分代码图3.1.2 保存数据部分代码数据流控制:控制爬取的数据量以满足分析需求,部分代码如图3.1.3所示。采用pool进行多线程程操作,节省数据爬取的时间。获取到数据后交由处理模块处理。部分代码如图3.1.4所示:图3.1.3 获取数据控制部分代码图3.1.4 进程池部分代码页面刷新和跳转:设置timeout防止访问时间过长造成假死。数据保存:首先连接mongoDB数据库将response的数据不进行转化处理直接以JSON格式存储进mongoDB。部分代码如图3.1.5所示:图3.1.5 数据保存部分代码(二) 数据清洗1.数据库管理MongoDB是一个文档型数据库,因此可以存放xml、json、bson类型的数据。这对于本次研究爬取的原始数据的存储就非常的方便,且存储迅速。本文共创建了两个数据库VideosData,VideosDataFinal。VideosData:为了提高爬取信息的存储效率,首先将爬取的源数据直接以json形式存储进mongoDB数据库,其形式如表3.2.1所示:表3.2.1 VideosData数据库信息字段名称类别描述_id ObjectIdDocuments 自生成的 _id,作为主键code Int32是否可以查找到视频数据,无数据时为404,有数据为0message String是否可以查找到视频数据,无数据为啥都木有,有数据为0ttl Int32IP包被路由器丢弃之前允许通过的最大网段数量data Object字典,存放视频信息数据VideosDataFinal:该数据库是将数据进行预处理,提取VideosData数据库中有用的字段信息,将其从新组合存入新的数据库VideosDataFinal,方便后续数据的使用和分析。如表3.2.2所示:表3.2.2 VideosDatFinal数据库信息字段名称类别描述_id ObjectIdDocuments 自生成的 _id,作为主键aid Int32视频idview Int32视频的播放数量title String视频的名称tid Int32视频所投放分区的编号tname String视频所投放分区的名称pubdata String视频的发布时间pubdata_y String视频发布时间所在年份mid Int32发布视频的用户的idname String发布视频的用户的昵称danmaku Int32视频拥有的弹幕数量reply Int32视频拥有的评论数量favorite Int32该视频被收藏的次数coin Int32该视频收到的bilibili硬币的数量like Int32该视频收到的点赞的数量share Int32该视频被分享的次数2.数据处理在本小节中,我将对实验中的数据预处理的方法进行描述。在bilibili的众多用户信息,视频信息中,存在大量的无效数据。因为数据量大,实际的数据会受到噪声,缺失值和不一致数据的影响。低质量的数据将会导致低质量的挖掘结果这些数据如不加以处理就放入实验中则会干扰实验,影响分析结果。本文的数据预处理流程如图3.2.1所示:图3.2.1 数据处理流程1. 从bilibili视频网站获取的视频数据以aid进行查询依据,部分视频如果作者或者其他行为将视频删除后,搜索aid则不能获取到视频相关信息,因此在数据获取阶段就存在大量的无效数据。尽管没有视频信息,但仍有返回值可以被存进数据库当中,在数据库中显示如图3.2.2所示:图3.2.2 无视频信息返回数据2. 获取到网页数据后,数据库中的数据存在大量的无效数据及无关属性,因此对数据进行二次处理。进行二次处理的原因是,在数据获取时对数据进行筛选和过滤爬虫爬取的速度慢。同时访问网址,获取数据,转换数据并进行存储的效率低,因此采用对已经爬取到保存的数据进行再加工。例如数据源的时间是以时间戳(pubdate:1577767986)的形式保存,将其转化成正常的时间格式(pubdate:"2019-12-31 12:53:06"),并且再分析时主要以年份进行横向的分析,也需要将年份提取保存。部分代码如图3.2.3所示:图3.2.3 转换时间戳代码源数据中的无效数据,即被删除或者屏蔽的视频所返回的信息值也需要过滤掉,在从mongoDB读取数据的的时候进行filter筛选操作,无效信息的massage为“啥也木有”,而有object返回的massage为“0”,因此找到massage为“0”的数据进行提取。部分代码如图3.2.4:图3.2.4 筛选有视频信息数据代码3. 将数据库原始数据进行转化后的数据文件保存为csv文件方便在jupyter notebook读取打开。打开存在数据格式转换导致的数据异常,无法被jupyter notebook读取从而报错。经网络问题解决方法查找并未找到其他合适的解决方案,因此使用“error_bad_lines=False”对错误数据进行跳过。4. 首先确认数据是否正常获取,展示数据信息如图3.2.5所示:图3.2.5 视频数据信息视频的属性有两种状态,可为空,不可为空。播放数量(view),弹幕数量(danmaku),回复数量(reply),收藏数量(favorite),投币数量(coin),点赞数量(like),分享数量(share)可以为空值。视频名称(title),视频分类(tname),发布时间(pubdate),发布人(name)等属性不可为空。因此翠玉不能为空的属性要进行缺失值的查询和剔除,此处以属性为例,部分代码如图3.2.6所示:图3.2.6 处理缺失值代码四、基于属性用户画像构建(一)用户画像的维度对视频网站进行用户画像的分析,主要从两方面:行为画像和角色画像。·角色画像包括用户的基本属性,常见的属性有名称,性别,年龄等相关属性,其数据均是客观存在的,可以对用户形象有一个大致的定义。·行为画像则是根据以往数据总结归纳得到的用户行为的描述和预测,其数据会根据用户不同的行为喜好发生变化。本文的行为画像分析的数据主要来自于用户在哔哩哔哩观看视频的不同数据,可以通过分析用户观看不同类型视频的相关行为情况分析得出用户的行为画像,如图4.1.1所示。图4.1.1 用户画像维度(二)用户画像的维度指标的选择1.角色画像指标选择哔哩哔哩视频网站记录了关于用户的基本信息,包括昵称,生日,性别等信息,这些信息客观存在,不会因为用户在哔哩哔哩的观看行为而发生改变,可以直接的描述使用哔哩哔哩视频网站观看视频的用户形象。例如:昵称为老番茄的用户,性别男性,年龄23岁,长期生活于上海,是哔哩哔哩视频网站首个拥有1000w粉丝的up主。根据哔哩哔哩视频网站记录的用户基本数据,本文主要选取了性别,年龄,地域三个指标进行角色画像的分析,如图4.1.2所示。图4.1.2 角色画像指标2.行为画像指标选择哔哩哔哩视频网站主要的用户行为是观看不同种类的视频,视频则记录了不同的信息,包括其所属的分区,投放的时间,播放量,点赞投币量,弹幕评论量等一系列的哔哩哔哩用户行为信息。本文为了确定用户行为画像,需要确定视频的不同属性,以及对应的行为数据进行综合评价,如图4.2.1所示。例如:游戏类视频在2014年播放量位居所有视频类别第一名,其点赞总和超过1000w,用户收藏次数最多。图4.2.1 行为画像偏好及行为指标因此本文将视频属性主要分为三个大类即二次元,2.5次元,三次元。和十六个视频分区。按照哔哩哔哩视频网站的分类,十六个分区按照实际情况分类汇总为三个分区,如表4.2.1所示:表4.2.1 三大视频偏好分类属性划分具体类别二次元游戏,动画,番剧,国创2.5次元音乐,舞蹈,鬼畜三次元生活,娱乐,影视,科技,时尚,数码,纪录片,电视剧,电影由于哔哩哔哩视频所包含的信息并没有分区数据,而是记录了不同大分区下的小分区编号和名称。因此,按照哔哩哔哩视频网站官方分组,对小分区的分类进行汇总。视频分类将依据哔哩哔哩划分的类别分为:番剧,国创,数码,生活,鬼畜,时尚,放映厅,纪录片,动画,音乐,舞蹈,游戏,科技,娱乐,影视,电影,电视剧。其对应的小分区如表4.2.2所示。表4.2.2 小分区对应的大分区信息大分区小分区番剧连载动画,完结动画,资讯,官方延伸国创国产动画,国产原创相关,布袋戏,动态漫·广播剧动画短片·手书·配音,MAD·AMV,MMD·3D,综合音乐演奏,MV,音乐现场,音乐综合原创音乐,翻唱,VOCALOID·UTAU,电音舞蹈中国舞,舞蹈综合,宅舞,街舞,明星舞蹈,舞蹈教程游戏手机游戏,网络游戏,单机游戏,电子竞技,桌游棋牌,GMV,音游,MUGEN科技趣味科普人文,野生技术协会,演讲·公开课 ,星海,机械,汽车数码手机平板,电脑装机,摄影摄像,影音智能生活手工,绘画,运动,搞笑,日常,美食圈,动物圈,其他鬼畜鬼畜调教,音MAD,人力VOCALOID,教程演示时尚美妆,服饰,健身,T台,风向标娱乐影视杂谈,影视剪辑,短片,预告·资讯,特摄用户的行为数据主要表现为播放,点赞,投币,收藏,转发,评论六种形式。此外,选取的了视频投稿年份的数据指标,视频年限将按照间隔1年进行分组,即(2014,2015,2016,2017,2018,2019),方便后续对行为数据的纵向分析。(三)评估方法本文涉及的属性指标因受到多种行为指标的影响,因此选择采用模糊评价法。模糊评价法是一种基于模糊数学的综合评标方法。该综合评价法根据模糊数学的隶属度理论把定性评价转化为定量评价,即用模糊数学对受到多种因素制约的事物或对象做出一个总体的评价。可以将行为数据很好的进行量化,从而将模糊的确定关系变为明确的数据对不同属性进行评估,从而得到更加科学合理的用户喜好分析结果。1.构建指标体系根据上述确定的属性维度和行为维度的指标设定,用户的喜好是由属性维度进行分类,确定用户不同类型的喜好则由行为维度指标进行确定。因此评估表现我们定义为U,被评估的评估集称为V=v1,v2,v3vn,评估集合中的待评估数据需要相应的权重,反应评估集合中数据的重要程度,一般采用专家评估法或频数统计法等方法。其表现为W=w1,w2,w3wn。则分析的数据表现U= v1 w1+ v2 w2+ v3 w3+ vn wn2.评估指标的权重确定采用层次分析理论,将确定的行为指标实现科学合理的由定性到定量分析 的结果。采用此方法可以更加直观的评估各个行为指标的重要程度。为将定性指标转化为定量指标,20世纪70年代Saaty等美国数学家首次使用九级比例标度的方法如表4.3.1所示,将定性数据转化为定量的评估矩阵表4.3.1 九级比例标度标度重要程度说明1两个元素互相比较时,重要程度相同3两个元素互相比较时,前者重要5两个元素互相比较时,前者很重要7两个元素互相比较时,前者明显重要9两个元素互相比较时,前者