基于NLP的公众人物信息数据挖掘研究.docx
《基于NLP的公众人物信息数据挖掘研究.docx》由会员分享,可在线阅读,更多相关《基于NLP的公众人物信息数据挖掘研究.docx(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于NLP的公众人物信息数据挖掘研究黄莉摘 要NLP指自然语言处理,将人类特有的语言转为结构化数据,是数据挖掘中人机交互的基础。本文以公众人物的公开文本信息为数据集,基于NLP自然语言处理的词向量及余弦相似度,主要对相近职业、月亮星座和地理位置3个维度展开浅层分析。为初步建立画像特征,挖掘步骤分为数据探索、爬虫采集和数据预处理,数据量级、颗粒度、泛化和评估仍有待优化。关键词数据;维度;NLPdoi:10.3969/j.issn.1673 - 0194.2020.08.087中图分类号TP311.10文献标识码A文章编号1673-0194(2020)08-0-021 數据探索数据探索包含数据质量
2、分析和数据特征分析,是为了进一步数据采集、预处理和建模,通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程。数据质量分析需要准备可信的数据,是数据挖掘的重要基础,直接影响模型和结论的有效性和准确性。需要观测收集样本数据源的数量和质量,检查原始数据状态,如缺失值、异常值、非一致值、重复值等数据,分析比较明显的规律和趋势、各因素之间的关联性,满足模型构建的要求。数据特征分析一般是分布分析和统计量分析。分布分析能揭示数据的分布特征和分布类型。通过定量数据分布分析,了解其分布形式是对称的还是非对称的,发现某些特大或特小的离群值;通过定性数据分布分析,根据定
3、性变量的类型来分组。统计量分析则有集中和离中趋势度量、趋势度量、周期性分析、贡献度分析、相关性分析。截至2017年,维基百科的文本集字段有文章编码、标题、章节标题、章节文本。公众人物相关文本集的存储结构以姓名为标题,章节标题一般包含简介、早期、家庭、教育或生涯,因此本文所需的数据主要采集于早期。2 数据采集元素采集的规则是,通过姓名实体识别,初步采样英文人名名单样本框。以姓名为索引,从维基百科英文网简单随机抽样,按出生日期截取初步样本数据集。其中出生日期的时间序列跨度主要为10年(1900-1910年);公众人物样本单元数为310;维度简化至12个,分别为:姓名、职业、行业代码、月亮星座、星座
4、属性、出生日期、死亡日期、年龄、所属洲、原国籍、国籍和性别。职业元素结合国际劳动管理组织2008年发布的职业国际标准分类ISCO-08确定,一人多职者,由该职的突出性确定入样权重。国籍的元素则根据国际标准化组织管理的国家代码ISO 3166-1-2006进行数据变换。这里月亮星座的算法是b=int(a-0.2+0.4n),a和b分别是太阳星座和月亮星座的编码,n是农历生日的“日”部分。3 数据预处理数据预处理主要包括数据清洗、数据集成、数据变换和数据规约。3.1 数据清洗数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,过滤与挖掘主题无关的数据,处理缺失值、异常值等。采取删除记
5、录、数据插补来解决缺失值的问题。通过删除含有异常值的单元来保全完整度是最有效的,但减少历史数据会造成资源大量浪费和信息丢失。数据集越小,对分析结果的客观性和正确性影响越大。3.2 数据集成数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)的过程。要考虑实体识别和属性冗余问题,从而将源数据在最低层上加以转换、提炼和集成。实体识别指筛选并整合与挖掘有关实体,如识别同名异义、异名同义、单位不统一,用相关分析检测并删除冗余属性(重复或近义)。3.3 数据变换数据变换主要是对数据进行规范化处理,如平方、开方、取对数、差分运算等,将数据转换成便于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 NLP 公众 人物 信息 数据 挖掘 研究
限制150内