《现代汉语词量与分级幻灯片.ppt》由会员分享,可在线阅读,更多相关《现代汉语词量与分级幻灯片.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、现代汉语词量与分级第1页,共40页,编辑于2022年,星期日思考一、现代汉语的词量有多大?二、包括哪些词语?三、分几“级”合适?每级界限在哪?四、词级划分依据的标准和方法?第2页,共40页,编辑于2022年,星期日当代最具影响力的两个常用词表:现代汉语频率词典现代汉语频率词典,85488548条条对外汉语教学词汇大纲对外汉语教学词汇大纲,88228822条条第3页,共40页,编辑于2022年,星期日“语法、语音是有系统的,词汇是一盘散沙。”最初实践,对现代汉语词典的计量研究第4页,共40页,编辑于2022年,星期日近几年的实践:现代汉语常用词表现代汉语常用词表,商务印书馆,2008年11月“对
2、外汉语对外汉语15001500常用词常用词”,见中国语言生活状况报告2006,王铁琨主编,商务印书馆,2007年8月。(收入国家汉办主编国际汉语通用课程教学大纲外语教学与研究出版社,2008年4月)“基础教育基础教育30003000基本词基本词”,见中国语言生活状况报告2007,王铁琨主编,商务印书馆,2008年11月。第5页,共40页,编辑于2022年,星期日一、现代汉语的词汇量有多大?1.对词典的考察2.对词表的考察3.对大规模真实语料的考察第6页,共40页,编辑于2022年,星期日p 从词典来考察“词汇量”1.1.现代汉语词典现代汉语词典的词汇的词汇规范型词典全面反映语言的词汇体系,就要
3、对词语作全面收录,不因某些词语无需查检而不收。规范型词典对民族共同语词汇的记录是全面的,但不是穷尽的(在理论上和实践上都是不可能的)。现汉是一部中型词典,它在收词上既是全面的,又有较强的选择性。选词的依据,主要不是看查考的需要,而是看词语在语言使用中出现的频率。晁继周、单耀海、韩敬体:关于规范型词典的收词问题,见现代汉语词典学术研讨会论文集,商务印书馆,1996年版,第70、72页。第7页,共40页,编辑于2022年,星期日现汉词条61000:-单字条10700(4000)-方言词2600-科技术语60000*0.2=12000-书语词3800=31900从严计算,32000-40000之间。
4、第8页,共40页,编辑于2022年,星期日在现汉的语文词周围存在一条宽阔的接壤词汇带:1.方言词方言词:现代汉语方言大词典共41卷,收41个方言点的词汇,平均每个点收词8000条,其总数达30万条以上。汉语方言大词典20万条2.术语词、行业词术语词、行业词:数十个学科、行业,以每个2000计,有数十万条。3.新词语新词语:近30年间,30000余条,每年约1000条。4.文言词文言词:辞源10万条,汉语大词典非现代词。第9页,共40页,编辑于2022年,星期日当代汉语词典当代汉语词典中型语文词典中型语文词典52000 2001新华词典新华词典中型语文词典中型语文词典50000 2005现代汉语
5、规范词典现代汉语规范词典中型语文词典中型语文词典80000 2005辞海大中型百科词典120000 1999汉语大词典大型历时词典370000 1994中文大辞典大型历时词典430000 1962汉和大辞典大型历时词典400000 1960韩汉大辞典大型历时词典450000 2008第10页,共40页,编辑于2022年,星期日方言词与普通话词语的区分:方言词与普通话词语的区分:拇指 大拇指 大拇哥第11页,共40页,编辑于2022年,星期日行业词与普通话词语的区分:行业词与普通话词语的区分:招标、投标、竞标、发标、中标、得标招标、投标、竞标、发标、中标、得标开标、唱标、流标、跑标、串标、围标开
6、标、唱标、流标、跑标、串标、围标接听接听主叫、被叫主叫、被叫第12页,共40页,编辑于2022年,星期日新词语与普通话词语的区分新词语与普通话词语的区分裸露、裸照、裸奔、裸泳、裸尸裸戏、裸晒、裸聊、裸背、裸肩/裸机、裸眼 /裸捐、裸退、裸官第13页,共40页,编辑于2022年,星期日书语词与古语词的区分:书语词与古语词的区分:古语词书语词中性词口语词膺膺选选登第、登科、及第当选、中选、入选考取、考中勖励、勖励、勖勉勖勉激发、激励、激扬、嘉勉、砥砺、慰勉劝勉、勉励、鼓励、劝导劝说、相劝、开解劬劬劳劳操劳奔波、劳累奔忙第14页,共40页,编辑于2022年,星期日表名研制者词语数时代现代汉语常用词频
7、率词典854885481986对外汉语教学词汇大纲国家汉办882288221992现代汉语词表刘源71000710001984张氏词库张卫国1090001090001999知网董振东81000810002005中文词库张潮生80000800002005中文信息处理用词表孙茂松1200001200002007现代汉语常用词表课题组56008560082008现代汉语语义分类词典苏新春83000830002008一般的分词软件所带的词库容量:“10-15万”p从词表来考察“词汇量”第15页,共40页,编辑于2022年,星期日p 从大规模真实语料来考察“词汇量”来源/规模词语数词种数研制者时间通用语
8、料库(4500万)25万120000 国家语委20002005年度(9亿)165万110000 语言资源中心20062006年度(9.7亿)260万107000 语言资源中心2007第16页,共40页,编辑于2022年,星期日结论:从对词典的考察来看,属普通话词汇的语文词词量约6万左右。从对词表和大规模真实语料来看,大概在8-10万左右。确定词量的关键在普通话词汇与接壤词汇之间如何划界。第17页,共40页,编辑于2022年,星期日二、现代汉语词汇包括哪些词种那么在6-8万的普通话词汇范围中,包括了哪些词语?试以下面三种为例:现代汉语词典(63000/58000)现代汉语语义分类词典(83000
9、条/77000)现代汉语常用词表(56008/55600)第18页,共40页,编辑于2022年,星期日现代汉语词典63000/580004573038329现代汉语语义分类词典83000条/7700050567现代汉语常用词表56008/55600交集比较:交集比较:第19页,共40页,编辑于2022年,星期日现代汉语词典63000/58000457303832931032现代汉语语义分类词典83000/7700050567现代汉语常用词表56008/55600050607年度报告430000交集比较:交集比较:第20页,共40页,编辑于2022年,星期日结论:没有一种词汇集具有完全的“认同度
10、”;没有完整地包含它集或被它集所包含。不同规模、不同性质、不同用途的词汇集都有着自己“独收子”。参与比较的词汇集愈多,交集愈小,交集的“普遍性”愈突出。第21页,共40页,编辑于2022年,星期日三、划多少“级”合适?拟建构“基本词集”:第一级:3000条第二级:8000条第三级:30000条第四级:60000-80000条另有若干附属的专集第22页,共40页,编辑于2022年,星期日词级划分的参考因素:1.分布-分布率:2.使用-频率-覆盖率:3.基础、重要的语义成分:4.服务对象、使用范围:5.作用与功能第23页,共40页,编辑于2022年,星期日结论:广分布的词,并不等于高频词;高频率使
11、用词,不等于广分布的词母语学习者与第二语言学习者的不同;基础教育学习者与社会使用者的不同;第24页,共40页,编辑于2022年,星期日四者的共有词05年总词表(词频序号)50006522100001533615000265692000041252250006611530000171904310321650049普遍存在的词不等于使用中的高频词普遍存在的词不等于使用中的高频词第25页,共40页,编辑于2022年,星期日基础教育3000基本词05年总词表(词频序号)1000174220005577300024542普遍存在的词不等于使用中的高频词普遍存在的词不等于使用中的高频词第26页,共40页,
12、编辑于2022年,星期日四、词级划分依据的标准和方法频次法分布法频级法使用率使用度语义分布第27页,共40页,编辑于2022年,星期日分布法与频率法的对比第28页,共40页,编辑于2022年,星期日教材分词单位总数词总数词种数共用共用部分共用独用独用词种数比例%词种数比例%词种数比例%人教版342 9112870962485210 46042.09927637.325 11620.59苏教版261 9972193372318010 46045.12824635.574 47419.3北师大版316 5222642802689510 46038.89884032.877 59528.24语文版3
13、68 6963068792840010 46036.831012935.677 81127.5四套教材词语状况:四套教材词语状况:第29页,共40页,编辑于2022年,星期日分布法分布法频次法频次法序号词文本数频次数序号词文本数频次数3068平原平原272823722372 麦秸麦秸1503074逢逢272823732373 水上漂水上漂1503073噢噢272823742374 杨志杨志1503076迷人迷人272824202420 切斯特切斯特1493075靠近靠近272824212421 信客信客1493079往日往日272826352635 帕霍姆帕霍姆1453078炎热炎热27282
14、9012901 贾芸贾芸1413080向往向往272829022902 瑞恩瑞恩1413082脸颊脸颊272729032903 王利发王利发1413082不免不免272729742974 皮诺曹皮诺曹140第30页,共40页,编辑于2022年,星期日分布法频次法词词文本文本_ _频次序频次序频次频次_ _文本序文本序使用度序使用度序词词频次序频次序文本文本_ _频次序频次序使用度序使用度序平原平原30683876387630663066麦秸麦秸23722372274791019510195逢逢30743985398530793079水上漂水上漂23732373274781018710187噢噢
15、30733986398630733073杨志杨志23742374274771018610186迷人迷人30763987398730783078切斯特切斯特24202420274801052310523靠近靠近30753988398830803080信客信客24212421274811057610576往日往日30793989398930773077帕霍姆帕霍姆26352635274821090710907炎热炎热30783991399130753075贾芸贾芸29012901274831121111211向往向往30803992399230743074瑞恩瑞恩29022902274841121
16、211212脸颊脸颊30824110411030823082王利发王利发29032903274851121311213不免不免30824112411230813081皮诺曹皮诺曹29742974274861126411264第31页,共40页,编辑于2022年,星期日分布法与频次分的对比分析思考一:频次统计法有相当的误导性。频统计法只有在具有大致相当的分布情况下才具有较好的参考性。第32页,共40页,编辑于2022年,星期日思考二:使用度统计法能在一定程度上冲淡频次信息的片面性,但它只适用于频次与分布差别不大的现象适用。对频次高分布窄的词语不能起到足够的校正作用,因为频次畸高的因素仍会严重影响
17、到综合数值。第33页,共40页,编辑于2022年,星期日思考三:词语的分布信息比频次信息有更好的参考价值。分布统计法能更准确地显示词语的通用性、基础性、大众性。第34页,共40页,编辑于2022年,星期日频级法的使用频级:在调查对象中相同频次的为一个频级。频级统计法:根据频级调查词语常用度的一种调查方法。适用于大规模语料调查。特别是对于立足于特性不一、容量差异明显的多个语料库之间比较的大规模词汇统计。通常有升序,降序等。第35页,共40页,编辑于2022年,星期日现代汉语常用词表的词频序号使用的是频级法由于词语的来源面比较宽,各种语料都有由于词语的来源面比较宽,各种语料都有自己的覆盖面与构成特
18、点,词表中的词语自己的覆盖面与构成特点,词表中的词语不能在每种语料中都得到全部显现。同一不能在每种语料中都得到全部显现。同一个词语在不同语料库中的频次也可能相差个词语在不同语料库中的频次也可能相差较大,因而不同语料库中的具体频次之间较大,因而不同语料库中的具体频次之间缺乏严格的可比性。用频级统计则能较客缺乏严格的可比性。用频级统计则能较客观地显示每个词语的使用情况。频级就是观地显示每个词语的使用情况。频级就是同一语料库中的所有词语按频次数量的多同一语料库中的所有词语按频次数量的多少排列时体现出来的排位顺序。相同频次少排列时体现出来的排位顺序。相同频次的为一个频级。的为一个频级。第36页,共40
19、页,编辑于2022年,星期日频级统计分两步施行。频级统计分两步施行。第一步形成不同类型语料的频级:检测语料有第一步形成不同类型语料的频级:检测语料有“通用语料库通用语料库”、“人民日报人民日报”、“文学作品文学作品”三种,这样每一个词语就有了三个不同的原三种,这样每一个词语就有了三个不同的原始频级。始频级。第二步形成总语料的频级,就是将每个词语的第二步形成总语料的频级,就是将每个词语的三种语料的频级之和除以三。三种语料的频级之和除以三。相同频级的词语,根据总频次的多少由高到低相同频级的词语,根据总频次的多少由高到低排序,相同频次的根据读音的字母升序排列。排序,相同频次的根据读音的字母升序排列。第37页,共40页,编辑于2022年,星期日频级:相同频次的为一级,由高到低排列。共同频级:若干个库的频级相加/频级数总频级=(频级1+频级2+N)/频级数第38页,共40页,编辑于2022年,星期日语义分布法的测定语义分布法的测定(一般说的分布是领域分布)第39页,共40页,编辑于2022年,星期日思考与练习1.如何来确定词量的范围?有那些常用的方法?2.确定词量的难度是什么?3.确定词量有何意义?第40页,共40页,编辑于2022年,星期日
限制150内