对鲁迅小说所用字和词进行定量统计,各体文学论文.docx
《对鲁迅小说所用字和词进行定量统计,各体文学论文.docx》由会员分享,可在线阅读,更多相关《对鲁迅小说所用字和词进行定量统计,各体文学论文.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、对鲁迅小说所用字和词进行定量统计,各体文学论文词汇统计分析是对词汇使用进行量的描绘叙述,揭示词汇的各种统计特性,并可据此编成各种频度表或词频词典和常用词表,这对语言教学、语言研究和信息处理都有着较高的实用价值。从词汇研究的角度来看,词汇统计研究已有很长的历史了。一般以为,近代大规模词汇统计始于1898年,德国学者F.W.Kaeding编制的世界上小讲:(呐喊14篇,(彷徨11篇,(故事新编8篇。本次统计选用的是(呐喊(含 自序 )与(彷徨,原因有两点。一是希望分析用语料的选用与(鲁迅小讲汉英平行语料库内容同步,更重要的是(故事新编是鲁迅先生在不同时期根据远古神话和历史传讲写就,故未包含在本次分
2、析语料之中。在本文, (鲁迅小讲 是指鲁迅在(呐喊和(彷徨所写的内容。 比照语料采用的是北京语言大学汉语国际教育技术研发中心所提供的(汉语常用词词频表(简称为 (北语词表 )和(汉字字频词典(简称为 (北语字表 ),以作定量对照分析。语料采集的方式是对(呐喊和(彷徨两部小讲集作扫描处理,以PDF格式存储;ABBYY软件作文字辨别(OCR),经校对修正后,构成电子文本;用中国科学院计算技术研究所张华平博士研制的汉语词法分析系统ICTCLAS整合版(2008)进行两种形式的中文分词:有标记分词和无标记分词。 有标记分词用于进行词性统计,而无标记分词用作词频分析。 采用日本早稻田大学Laurence
3、 Anthony教授开发的antconc,对(鲁迅小讲用字和无标记分词进行字频与词频统计(结果见图1与图2),并将统计结果导入excel与北语两表进行整理比拟。 三、字表与词表统计分析与比拟结果31字表统计与比拟: (鲁迅小讲总字数(tokens),据antconc统计,为122,971个(不含标点),单字(types)3051个。频度最高100字依次是: 的、了、一、是、不、他、我、有、在、来、也、这、人、讲、着、子、里、上、去、大、得、然、到、个、么、们、看、时、便、就、那、而、还、又、出、没、你、要、道、但、自、她、都、家、和、只、见、起、地、为、下、头、以、可、阿、过、于、天、小、面、
4、很、却、后、老、想、样、回、知、多、生、之、什、好、些、已、己、中、眼、经、走、前、两、似、事、太、年、四、所、心、声、几、十、从、三、吃、无、手、话、气、对 。 (北语字表字频累计总字形数为71,632,779个,单字5499个。频度最高100字依次是: 的、一、他、我、是、了、不、在、这、人、她、有、个、们、来、你、到、上、讲、那、着、地、子、里、就、时、得、么、为、要、可、也、过、去、和、大、会、出、下、道、以、看、对、没、自、样、想、把、好、起、生、后、而、然、能、中、都、心、斯、还、事、什、天、小、尔、只、面、开、家、些、从、头、情、儿、手、种、发、意、于、多、但、话、很、现、己、当
5、、如、前、又、所、走、身、之、回、知、特、用、无、经、已 。 (鲁迅小讲频率最高的前10字: 的、了、一、是、不、他、我、有、在、来 占(鲁迅小讲全部语料的18.68%;前100字占53.4045%。(北语字表频率最高的前10字 的、一、他、我、是、了、不、在、这、人 占全部语料的17.46%;前100字占48.92%。两词表频度最高10字一样率80%,而前100字两者的一样率为83%,即83个字共同出如今两表中。华而不实各有17字为对方所缺。 (鲁迅小讲前100、字中独有的17字为: 眼、便、吃、几、见、老、两、年、气、却、三、声、十、四、似、太、阿 (北语字表独有的17字为: 种、当、儿、
6、尔、发、会、开、能、情、如、身、斯、特、现、意、用、把 。(北语字表收字5499个,华而不实2491个未被(鲁迅小讲使用;(鲁迅小讲用字3051个,未被(北语字表收录的有42字:胤、秕、髀、孛、鹁、猹、淝、镄、苻、祓、喤、楫、鶺、桕、髁、哙、圹、馗、髡、醴、鸰、熳、伲、钕、恧、荠、蓐、殳、姒、凇、窣、佟、抟、仵、怃、窸、羲、祆、獬、砉、魆、荸。 32词表统计比拟 本次分析所比拟的是(北语词表和经ictclas分词所生成的(鲁迅小讲词表中的双音节以上的词,未包括单音节词。原因是(北语词表对单音节词的频数标记统一为 0 ,无法获得定量数值,只能舍弃。(鲁迅小讲词表中单音节词为2297个;(北语词表
7、中单音节词为2628个。双音节及以上的词数与比例,见表1。 【表】 (鲁迅小讲词表中非单音节词的总词形数(tokens)为28176个,词类数(types)6879个;出现频度最高的100词依次是: 没有、一个、什么、知道、他们、自个、起来、已经、我们、由于、然而、时候、觉得、似乎、如今、这样、而且、似的、看见、孩子、于是、能够、固然、所以、有些、很多、仿fo、之后、东西、眼睛、怎么、终于、那里、后来、女人、还是、大家、母亲、突然、一定、这里、但是、先前、以为、自然、那时、大约、声音、下去、可是、或者、一点、人们、出来、辫子、立即、一般、太太、老爷、还有、一面、忽而、这些、听到、实在、如何、家
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内