《中国近代史纲要》考试过关?Python帮你划重点-精品文档资料整理.docx
《《中国近代史纲要》考试过关?Python帮你划重点-精品文档资料整理.docx》由会员分享,可在线阅读,更多相关《《中国近代史纲要》考试过关?Python帮你划重点-精品文档资料整理.docx(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中国近代史纲要考试过关?Python帮你划重点 作者 | blmoistawinde, 西南某高校学森一枚 喜欢有意思的数据挖掘分析。祈望给世界带来些清新空气 来源 | 数据森麟 ID:shujusenlin 翻开查分界面 我看到我的“中国近当代史纲要一栏露出了难看的脸色。 这时 一个程序突然自告奋勇 “不就是这种简单的考试吗 让我学一下你们的课本 我也可以上考场 ( ) 我把我的课本文本输入给它。不到一分钟以后 它对我讲 “我学完了 来考我吧。 固然也只是在考前突击了两天 但我对它如此之快的速度还是深感嫉妒。我问 “你知道孙中山先生都干了哪些事情吗 “发动护法运动、就任临时大总统、让位于袁世
2、凯 “不错吗 你是怎么做到的 “让我给你细细讲来吧 准备工作 程序 “首先引入一些必要的库 然后我加载doc为18401919年度中国大事的那一段段文本做个简单的例如 这局部代码就不用我列出来了吧。 旁白 这里使用harvesttext库进展文本挖掘 它的许多功能可以使得文本分析的流程变得更加轻松。前面的“用python分析?三国演义?中的社交网络一文也使用了这一工具。 ht HarvestText()sentences ht.cut_sentences(doc) 有哪些重要对象 “重要对象 一般都是一些专有名词。我可以利用自然语言处理中的命名实体识别技术就可以识别出这样的一些对象 比方 人名
3、、地名、机构名还有其他专有名词等。 HarvestText中包装精简了pyhanlp中的命名实体识别接口 让我们来使用它找到近代史中的重要对象吧。 entity_type_dict for i, sent in enumerate(sentences): entity_type_dict0 ht.named_entity_recognition(sent) for entity0, type0 in entity_type_dict0.items(): entity_type_dictentity0 type0for entity in list(entity_type_dict.keys()
4、:10: print(entity, entity_type_dictentity)中国 地名鸦片战争 其他专名五四运动 其他专名英国 地名南京 地名望厦 其他专名黄埔 地名不平等条约 其他专名洪秀全 人名金田 地名 把找到的实体登录 我们就可以统计他们出现的次数 通过词频来判断它们的重要性。 ht.add_entities(entity_type_dict entity_type_dict)inv_index ht.build_index(sentences)counts ht.get_entity_counts(sentences,inv_index)print(pd.Series(cou
5、nts).sort_values(ascending False).head()中国 21清政府 6日本 5孙中山 4英国 3dtype: int64 我 “这个分析确实有用 看着这些词我就联想到了 在18401919年度的中国 清政府面对外敌的屈辱 和孙中山先生为代表的有识之士的努力。但是考试不是单考这些对象 关键要考以及它们有关的知识点啊。 程序 “别着急 对于知识点 我也有方法找到。 有哪些重要知识点 程序 “你们讲的重要知识点 可以认为是包含了那些重要对象的事件或事实吧。对于你们人类 事实可能就是自然语言描绘的一句话。不过对于我们程序 我们要用一种标准明晰的构造来表示它。三元组组成的知
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国近代史纲要 中国近代史 纲要 考试 过关 Python 重点 精品 文档 资料 整理
限制150内