欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    现代汉语词量与分级精品文稿.ppt

    • 资源ID:84139590       资源大小:1.73MB        全文页数:40页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    现代汉语词量与分级精品文稿.ppt

    现代汉语词量与分级第1页,本讲稿共40页思考一、现代汉语的词量有多大?二、包括哪些词语?三、分几“级”合适?每级界限在哪?四、词级划分依据的标准和方法?第2页,本讲稿共40页当代最具影响力的两个常用词表:现代汉语频率词典现代汉语频率词典,85488548条条对外汉语教学词汇大纲对外汉语教学词汇大纲,88228822条条第3页,本讲稿共40页“语法、语音是有系统的,词汇是一盘散沙。”最初实践,对现代汉语词典的计量研究第4页,本讲稿共40页近几年的实践:现代汉语常用词表现代汉语常用词表,商务印书馆,2008年11月“对外汉语对外汉语15001500常用词常用词”,见中国语言生活状况报告2006,王铁琨主编,商务印书馆,2007年8月。(收入国家汉办主编国际汉语通用课程教学大纲外语教学与研究出版社,2008年4月)“基础教育基础教育30003000基本词基本词”,见中国语言生活状况报告2007,王铁琨主编,商务印书馆,2008年11月。第5页,本讲稿共40页一、现代汉语的词汇量有多大?1.对词典的考察2.对词表的考察3.对大规模真实语料的考察第6页,本讲稿共40页p 从词典来考察“词汇量”1.1.现代汉语词典现代汉语词典的词汇的词汇规范型词典全面反映语言的词汇体系,就要对词语作全面收录,不因某些词语无需查检而不收。规范型词典对民族共同语词汇的记录是全面的,但不是穷尽的(在理论上和实践上都是不可能的)。现汉是一部中型词典,它在收词上既是全面的,又有较强的选择性。选词的依据,主要不是看查考的需要,而是看词语在语言使用中出现的频率。晁继周、单耀海、韩敬体:关于规范型词典的收词问题,见现代汉语词典学术研讨会论文集,商务印书馆,1996年版,第70、72页。第7页,本讲稿共40页现汉词条61000:-单字条10700(4000)-方言词2600-科技术语60000*0.2=12000-书语词3800=31900从严计算,32000-40000之间。第8页,本讲稿共40页在现汉的语文词周围存在一条宽阔的接壤词汇带:1.方言词方言词:现代汉语方言大词典共41卷,收41个方言点的词汇,平均每个点收词8000条,其总数达30万条以上。汉语方言大词典20万条2.术语词、行业词术语词、行业词:数十个学科、行业,以每个2000计,有数十万条。3.新词语新词语:近30年间,30000余条,每年约1000条。4.文言词文言词:辞源10万条,汉语大词典非现代词。第9页,本讲稿共40页当代汉语词典当代汉语词典中型语文词典中型语文词典52000 2001新华词典新华词典中型语文词典中型语文词典50000 2005现代汉语规范词典现代汉语规范词典中型语文词典中型语文词典80000 2005辞海大中型百科词典120000 1999汉语大词典大型历时词典370000 1994中文大辞典大型历时词典430000 1962汉和大辞典大型历时词典400000 1960韩汉大辞典大型历时词典450000 2008第10页,本讲稿共40页方言词与普通话词语的区分:方言词与普通话词语的区分:拇指 大拇指 大拇哥第11页,本讲稿共40页行业词与普通话词语的区分:行业词与普通话词语的区分:招标、投标、竞标、发标、中标、得标招标、投标、竞标、发标、中标、得标开标、唱标、流标、跑标、串标、围标开标、唱标、流标、跑标、串标、围标接听接听主叫、被叫主叫、被叫第12页,本讲稿共40页新词语与普通话词语的区分新词语与普通话词语的区分裸露、裸照、裸奔、裸泳、裸尸裸戏、裸晒、裸聊、裸背、裸肩/裸机、裸眼 /裸捐、裸退、裸官第13页,本讲稿共40页书语词与古语词的区分:书语词与古语词的区分:古语词书语词中性词口语词膺膺选选登第、登科、及第当选、中选、入选考取、考中勖励、勖励、勖勉勖勉激发、激励、激扬、嘉勉、砥砺、慰勉劝勉、勉励、鼓励、劝导劝说、相劝、开解劬劬劳劳操劳奔波、劳累奔忙第14页,本讲稿共40页表名研制者词语数时代现代汉语常用词频率词典854885481986对外汉语教学词汇大纲国家汉办882288221992现代汉语词表刘源71000710001984张氏词库张卫国1090001090001999知网董振东81000810002005中文词库张潮生80000800002005中文信息处理用词表孙茂松1200001200002007现代汉语常用词表课题组56008560082008现代汉语语义分类词典苏新春83000830002008一般的分词软件所带的词库容量:“10-15万”p从词表来考察“词汇量”第15页,本讲稿共40页p 从大规模真实语料来考察“词汇量”来源/规模词语数词种数研制者时间通用语料库(4500万)25万120000 国家语委20002005年度(9亿)165万110000 语言资源中心20062006年度(9.7亿)260万107000 语言资源中心2007第16页,本讲稿共40页结论:从对词典的考察来看,属普通话词汇的语文词词量约6万左右。从对词表和大规模真实语料来看,大概在8-10万左右。确定词量的关键在普通话词汇与接壤词汇之间如何划界。第17页,本讲稿共40页二、现代汉语词汇包括哪些词种那么在6-8万的普通话词汇范围中,包括了哪些词语?试以下面三种为例:现代汉语词典(63000/58000)现代汉语语义分类词典(83000条/77000)现代汉语常用词表(56008/55600)第18页,本讲稿共40页现代汉语词典63000/580004573038329现代汉语语义分类词典83000条/7700050567现代汉语常用词表56008/55600交集比较:交集比较:第19页,本讲稿共40页现代汉语词典63000/58000457303832931032现代汉语语义分类词典83000/7700050567现代汉语常用词表56008/55600050607年度报告430000交集比较:交集比较:第20页,本讲稿共40页结论:没有一种词汇集具有完全的“认同度”;没有完整地包含它集或被它集所包含。不同规模、不同性质、不同用途的词汇集都有着自己“独收子”。参与比较的词汇集愈多,交集愈小,交集的“普遍性”愈突出。第21页,本讲稿共40页三、划多少“级”合适?拟建构“基本词集”:第一级:3000条第二级:8000条第三级:30000条第四级:60000-80000条另有若干附属的专集第22页,本讲稿共40页词级划分的参考因素:1.分布-分布率:2.使用-频率-覆盖率:3.基础、重要的语义成分:4.服务对象、使用范围:5.作用与功能第23页,本讲稿共40页结论:广分布的词,并不等于高频词;高频率使用词,不等于广分布的词母语学习者与第二语言学习者的不同;基础教育学习者与社会使用者的不同;第24页,本讲稿共40页四者的共有词05年总词表(词频序号)50006522100001533615000265692000041252250006611530000171904310321650049普遍存在的词不等于使用中的高频词普遍存在的词不等于使用中的高频词第25页,本讲稿共40页基础教育3000基本词05年总词表(词频序号)1000174220005577300024542普遍存在的词不等于使用中的高频词普遍存在的词不等于使用中的高频词第26页,本讲稿共40页四、词级划分依据的标准和方法频次法分布法频级法使用率使用度语义分布第27页,本讲稿共40页分布法与频率法的对比第28页,本讲稿共40页教材分词单位总数词总数词种数共用共用部分共用独用独用词种数比例%词种数比例%词种数比例%人教版342 9112870962485210 46042.09927637.325 11620.59苏教版261 9972193372318010 46045.12824635.574 47419.3北师大版316 5222642802689510 46038.89884032.877 59528.24语文版368 6963068792840010 46036.831012935.677 81127.5四套教材词语状况:四套教材词语状况:第29页,本讲稿共40页分布法分布法频次法频次法序号词文本数频次数序号词文本数频次数3068平原平原272823722372 麦秸麦秸1503074逢逢272823732373 水上漂水上漂1503073噢噢272823742374 杨志杨志1503076迷人迷人272824202420 切斯特切斯特1493075靠近靠近272824212421 信客信客1493079往日往日272826352635 帕霍姆帕霍姆1453078炎热炎热272829012901 贾芸贾芸1413080向往向往272829022902 瑞恩瑞恩1413082脸颊脸颊272729032903 王利发王利发1413082不免不免272729742974 皮诺曹皮诺曹140第30页,本讲稿共40页分布法频次法词词文本文本_ _频次序频次序频次频次_ _文本序文本序使用度序使用度序词词频次序频次序文本文本_ _频次序频次序使用度序使用度序平原平原30683876387630663066麦秸麦秸23722372274791019510195逢逢30743985398530793079水上漂水上漂23732373274781018710187噢噢30733986398630733073杨志杨志23742374274771018610186迷人迷人30763987398730783078切斯特切斯特24202420274801052310523靠近靠近30753988398830803080信客信客24212421274811057610576往日往日30793989398930773077帕霍姆帕霍姆26352635274821090710907炎热炎热30783991399130753075贾芸贾芸29012901274831121111211向往向往30803992399230743074瑞恩瑞恩29022902274841121211212脸颊脸颊30824110411030823082王利发王利发29032903274851121311213不免不免30824112411230813081皮诺曹皮诺曹29742974274861126411264第31页,本讲稿共40页分布法与频次分的对比分析思考一:频次统计法有相当的误导性。频统计法只有在具有大致相当的分布情况下才具有较好的参考性。第32页,本讲稿共40页思考二:使用度统计法能在一定程度上冲淡频次信息的片面性,但它只适用于频次与分布差别不大的现象适用。对频次高分布窄的词语不能起到足够的校正作用,因为频次畸高的因素仍会严重影响到综合数值。第33页,本讲稿共40页思考三:词语的分布信息比频次信息有更好的参考价值。分布统计法能更准确地显示词语的通用性、基础性、大众性。第34页,本讲稿共40页频级法的使用频级:在调查对象中相同频次的为一个频级。频级统计法:根据频级调查词语常用度的一种调查方法。适用于大规模语料调查。特别是对于立足于特性不一、容量差异明显的多个语料库之间比较的大规模词汇统计。通常有升序,降序等。第35页,本讲稿共40页现代汉语常用词表的词频序号使用的是频级法由于词语的来源面比较宽,各种语料都有由于词语的来源面比较宽,各种语料都有自己的覆盖面与构成特点,词表中的词语自己的覆盖面与构成特点,词表中的词语不能在每种语料中都得到全部显现。同一不能在每种语料中都得到全部显现。同一个词语在不同语料库中的频次也可能相差个词语在不同语料库中的频次也可能相差较大,因而不同语料库中的具体频次之间较大,因而不同语料库中的具体频次之间缺乏严格的可比性。用频级统计则能较客缺乏严格的可比性。用频级统计则能较客观地显示每个词语的使用情况。频级就是观地显示每个词语的使用情况。频级就是同一语料库中的所有词语按频次数量的多同一语料库中的所有词语按频次数量的多少排列时体现出来的排位顺序。相同频次少排列时体现出来的排位顺序。相同频次的为一个频级。的为一个频级。第36页,本讲稿共40页频级统计分两步施行。频级统计分两步施行。第一步形成不同类型语料的频级:检测语料有第一步形成不同类型语料的频级:检测语料有“通用语料库通用语料库”、“人民日报人民日报”、“文学作品文学作品”三种,这样每一个词语就有了三个不同的原三种,这样每一个词语就有了三个不同的原始频级。始频级。第二步形成总语料的频级,就是将每个词语的第二步形成总语料的频级,就是将每个词语的三种语料的频级之和除以三。三种语料的频级之和除以三。相同频级的词语,根据总频次的多少由高到低相同频级的词语,根据总频次的多少由高到低排序,相同频次的根据读音的字母升序排列。排序,相同频次的根据读音的字母升序排列。第37页,本讲稿共40页频级:相同频次的为一级,由高到低排列。共同频级:若干个库的频级相加/频级数总频级=(频级1+频级2+N)/频级数第38页,本讲稿共40页语义分布法的测定语义分布法的测定(一般说的分布是领域分布)第39页,本讲稿共40页思考与练习1.如何来确定词量的范围?有那些常用的方法?2.确定词量的难度是什么?3.确定词量有何意义?第40页,本讲稿共40页

    注意事项

    本文(现代汉语词量与分级精品文稿.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开