欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    语料的标注与句法结构的提取幻灯片.ppt

    • 资源ID:70111684       资源大小:1.59MB        全文页数:29页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    语料的标注与句法结构的提取幻灯片.ppt

    语料的标注与句法结构的提取第1页,共29页,编辑于2022年,星期二Part I 语料的标注语料的标注Part II 句法结构提取句法结构提取第2页,共29页,编辑于2022年,星期二Part I 语料的标注语料的标注1.What is annotation?2.How to do it?第3页,共29页,编辑于2022年,星期二Annotation of corporaAnnotation:The process of making explicit linguistic categories implicit within a corpus text,for example,by adding layers of information on the grammatical classes of words,or on the classes of speech acts which have taken place in the course of the transcribed speech,or the classes of errors learners made in writing.(Edwards 1995:20).第4页,共29页,编辑于2022年,星期二A.Part-of-speech tagging B.Syntactic annotation C.Semantic annotation D.Discourse annotation E.Pragmatic annotation 第5页,共29页,编辑于2022年,星期二POS-Tagging-also known as grammatical tagging-divides words into categories,based on how they can be combined to form sentences-most common used form of corpus annotation第6页,共29页,编辑于2022年,星期二Nowadays ,it is fashionable to speak of a generation gap .The parents complain that children are self-centered and do not show them proper respect and obedience ,while children are complaining that parents do not understand them .How does the generation gap form?第7页,共29页,编辑于2022年,星期二How to do it?manuallycomputer-assisted fully automatic 第8页,共29页,编辑于2022年,星期二computer-assisted annotationAnnotool第9页,共29页,编辑于2022年,星期二Fully automatic annotationCLAWSConstituent Likelihood Automatic Word-tagging Systemdeveloped by UCREL(University Centre for Computer Corpus Research on Language)at LancasterPOS-tagger for Englishexists since early 1980shas several tagsets第10页,共29页,编辑于2022年,星期二Tagset variationCategoryExampleCLAWS5AdverboftenAV0Adverb,negativenotXX0Adverb,comparativefasterAV0Adverb,superlativefastestAV0Adverb,particleupAVPAdverb,deictichereAV0Adverb,intensifierveryAV0Adv,intensifier,postposedenoughAV0Adverb,questionwhenAVQAdv,question,intensifierhowAVQ第11页,共29页,编辑于2022年,星期二Fully automatic annotationGo tagger第12页,共29页,编辑于2022年,星期二When_WRB we_PRP are_VBP born_VBN,_,the_DT education_NN our_PRP$parents_NNS give_VBP us_PRP is_VBZ to_TO learn_VB how_WRB to_TO speak_VB and_CC how_WRB to_TO recognize_VB them_PRP._.It_PRP is_VBZ a_DT basic_JJ education_NN and_CC we_PRP start_VBP to_TO face_VB the_DT colorful_JJ world_NN._.The_DT education_NN is_VBZ very_RB important_JJ which_WDT influences_NNS children_NNS s_POS nature_NN._.According_VBG to_TO that_IN,_,education_NN gives_VBZ the_DT first_JJ step_NN to_TO people_NNS and_CC influences_NNS them_PRP gradually_RB._.第13页,共29页,编辑于2022年,星期二Part II 动词被动结构提取动词被动结构提取1.动词被动结构的概念动词被动结构的概念2.2.动词被动结构提取动词被动结构提取第14页,共29页,编辑于2022年,星期二动词被动结构的概念动词被动结构的概念:(passive constructions of verbs)(passive constructions of verbs)被动结构的种形式:被动结构的种形式:long passive(with by)short passive(without by)(LGSWE)第15页,共29页,编辑于2022年,星期二语料库研究发现语料库研究发现(LGSWE):SP are predominant in all syntactic positions in English.Be-passives sharply differ by register,with conversation and academic prose at the opposite poles.LP are most common in news and academic prose.第16页,共29页,编辑于2022年,星期二动词被动结构提取动词被动结构提取研究问题研究问题:1 1、中国学生书面语中使用被动结构的情况如中国学生书面语中使用被动结构的情况如何?与英语本族语者有何不同?何?与英语本族语者有何不同?2 2、中国学生英语书面语和口语在被动结构中国学生英语书面语和口语在被动结构上存在何种差异?上存在何种差异?3、中国学生书面语中的被动结构是否随二、中国学生书面语中的被动结构是否随二语水平的提高而发生变化?语水平的提高而发生变化?第17页,共29页,编辑于2022年,星期二回答问题一回答问题一:提取中国学生书面语中被动结提取中国学生书面语中被动结构构,提取英语本族语者的被动结构提取英语本族语者的被动结构,进行对比进行对比.回答问题三回答问题三:提取中国学生提取中国学生1-4年级书面语年级书面语中的被动结构观察发展趋势中的被动结构观察发展趋势.第18页,共29页,编辑于2022年,星期二练习运用练习运用CONCORDCONCORD单独提取某个被动结构:单独提取某个被动结构:动词动词+过去分词被动结构:(过去分词被动结构:(V+PP)例如:例如:1)be forced(to do)2)Be supported(by)3)Be discussed结构编码:结构编码:*VB*第19页,共29页,编辑于2022年,星期二代码的含义代码的含义?代表代表be动词动词VB*代表任何时态的代表任何时态的be动词动词:代表任何动词的过去分词代表任何动词的过去分词如:如:表示过去分词表示过去分词been第20页,共29页,编辑于2022年,星期二第一组:第一组:第一组:第一组:中国学生作文中国学生作文中国学生作文中国学生作文 本族语书面语本族语书面语本族语书面语本族语书面语第二组:第二组:第二组:第二组:中国学生作文中国学生作文中国学生作文中国学生作文 中国学生口语中国学生口语中国学生口语中国学生口语练习提取:练习提取:第21页,共29页,编辑于2022年,星期二第22页,共29页,编辑于2022年,星期二(V+PP)结构统计结果)结构统计结果(万分率万分率):中国学生中国学生美国人美国人RF171864StF67.3115.1书面语中,中国学生与美国学生在被动语态书面语中,中国学生与美国学生在被动语态使用上差异巨大。使用上差异巨大。第23页,共29页,编辑于2022年,星期二(V+PP)结构统计结果:)结构统计结果:笔语笔语(中国学生中国学生)口语口语(中国学生中国学生)171/67.3171/67.360/26.260/26.2中国学生口语中的被动结构比书面语中要少中国学生口语中的被动结构比书面语中要少中国学生口语中的被动结构比书面语中要少中国学生口语中的被动结构比书面语中要少,被动结构被动结构被动结构被动结构在口笔语中的分布基本合理。在口笔语中的分布基本合理。在口笔语中的分布基本合理。在口笔语中的分布基本合理。第24页,共29页,编辑于2022年,星期二(V+PP)结构统计结果:)结构统计结果:1年级年级2年级年级3年级年级4年级年级 49/14.242/10.549/14.331/9.7呈现逐年递减的总趋势呈现逐年递减的总趋势,但有变异。但有变异。第25页,共29页,编辑于2022年,星期二(V+PP)结构统计结果:)结构统计结果:中国学生中国学生外国学生外国学生171/67.3421/81.9外国外国L2L2学生比中国学生高,但低于英语学生比中国学生高,但低于英语本族语者。本族语者。第26页,共29页,编辑于2022年,星期二VB*by例如:例如:be affected byVB*例如:例如:be treated as练习单独提取练习单独提取“带带by的被动结构的被动结构”第27页,共29页,编辑于2022年,星期二练习批量提取被动结构:练习批量提取被动结构:*VB*VB*R*VB*R*R*VB*N*VB*N*R*VB*N*R*R*VB*P*VB*P*R*VB*P*R*R*第28页,共29页,编辑于2022年,星期二Thank You第29页,共29页,编辑于2022年,星期二

    注意事项

    本文(语料的标注与句法结构的提取幻灯片.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开