《语料的标注与句法结构的提取幻灯片.ppt》由会员分享,可在线阅读,更多相关《语料的标注与句法结构的提取幻灯片.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语料的标注与句法结构的提取第1页,共29页,编辑于2022年,星期二Part I 语料的标注语料的标注Part II 句法结构提取句法结构提取第2页,共29页,编辑于2022年,星期二Part I 语料的标注语料的标注1.What is annotation?2.How to do it?第3页,共29页,编辑于2022年,星期二Annotation of corporaAnnotation:The process of making explicit linguistic categories implicit within a corpus text,for example,by addi
2、ng layers of information on the grammatical classes of words,or on the classes of speech acts which have taken place in the course of the transcribed speech,or the classes of errors learners made in writing.(Edwards 1995:20).第4页,共29页,编辑于2022年,星期二A.Part-of-speech tagging B.Syntactic annotation C.Sema
3、ntic annotation D.Discourse annotation E.Pragmatic annotation 第5页,共29页,编辑于2022年,星期二POS-Tagging-also known as grammatical tagging-divides words into categories,based on how they can be combined to form sentences-most common used form of corpus annotation第6页,共29页,编辑于2022年,星期二Nowadays ,it is fashionabl
4、e to speak of a generation gap .The parents complain that children are self-centered and do not show them proper respect and obedience ,while children are complaining that parents do not understand them .How does the generation gap form?第7页,共29页,编辑于2022年,星期二How to do it?manuallycomputer-assisted ful
5、ly automatic 第8页,共29页,编辑于2022年,星期二computer-assisted annotationAnnotool第9页,共29页,编辑于2022年,星期二Fully automatic annotationCLAWSConstituent Likelihood Automatic Word-tagging Systemdeveloped by UCREL(University Centre for Computer Corpus Research on Language)at LancasterPOS-tagger for Englishexists since e
6、arly 1980shas several tagsets第10页,共29页,编辑于2022年,星期二Tagset variationCategoryExampleCLAWS5AdverboftenAV0Adverb,negativenotXX0Adverb,comparativefasterAV0Adverb,superlativefastestAV0Adverb,particleupAVPAdverb,deictichereAV0Adverb,intensifierveryAV0Adv,intensifier,postposedenoughAV0Adverb,questionwhenAVQ
7、Adv,question,intensifierhowAVQ第11页,共29页,编辑于2022年,星期二Fully automatic annotationGo tagger第12页,共29页,编辑于2022年,星期二When_WRB we_PRP are_VBP born_VBN,_,the_DT education_NN our_PRP$parents_NNS give_VBP us_PRP is_VBZ to_TO learn_VB how_WRB to_TO speak_VB and_CC how_WRB to_TO recognize_VB them_PRP._.It_PRP is_
8、VBZ a_DT basic_JJ education_NN and_CC we_PRP start_VBP to_TO face_VB the_DT colorful_JJ world_NN._.The_DT education_NN is_VBZ very_RB important_JJ which_WDT influences_NNS children_NNS s_POS nature_NN._.According_VBG to_TO that_IN,_,education_NN gives_VBZ the_DT first_JJ step_NN to_TO people_NNS and
9、_CC influences_NNS them_PRP gradually_RB._.第13页,共29页,编辑于2022年,星期二Part II 动词被动结构提取动词被动结构提取1.动词被动结构的概念动词被动结构的概念2.2.动词被动结构提取动词被动结构提取第14页,共29页,编辑于2022年,星期二动词被动结构的概念动词被动结构的概念:(passive constructions of verbs)(passive constructions of verbs)被动结构的种形式:被动结构的种形式:long passive(with by)short passive(without by)(L
10、GSWE)第15页,共29页,编辑于2022年,星期二语料库研究发现语料库研究发现(LGSWE):SP are predominant in all syntactic positions in English.Be-passives sharply differ by register,with conversation and academic prose at the opposite poles.LP are most common in news and academic prose.第16页,共29页,编辑于2022年,星期二动词被动结构提取动词被动结构提取研究问题研究问题:1 1
11、、中国学生书面语中使用被动结构的情况如中国学生书面语中使用被动结构的情况如何?与英语本族语者有何不同?何?与英语本族语者有何不同?2 2、中国学生英语书面语和口语在被动结构中国学生英语书面语和口语在被动结构上存在何种差异?上存在何种差异?3、中国学生书面语中的被动结构是否随二、中国学生书面语中的被动结构是否随二语水平的提高而发生变化?语水平的提高而发生变化?第17页,共29页,编辑于2022年,星期二回答问题一回答问题一:提取中国学生书面语中被动结提取中国学生书面语中被动结构构,提取英语本族语者的被动结构提取英语本族语者的被动结构,进行对比进行对比.回答问题三回答问题三:提取中国学生提取中国学
12、生1-4年级书面语年级书面语中的被动结构观察发展趋势中的被动结构观察发展趋势.第18页,共29页,编辑于2022年,星期二练习运用练习运用CONCORDCONCORD单独提取某个被动结构:单独提取某个被动结构:动词动词+过去分词被动结构:(过去分词被动结构:(V+PP)例如:例如:1)be forced(to do)2)Be supported(by)3)Be discussed结构编码:结构编码:*VB*第19页,共29页,编辑于2022年,星期二代码的含义代码的含义?代表代表be动词动词VB*代表任何时态的代表任何时态的be动词动词:代表任何动词的过去分词代表任何动词的过去分词如:如:表示
13、过去分词表示过去分词been第20页,共29页,编辑于2022年,星期二第一组:第一组:第一组:第一组:中国学生作文中国学生作文中国学生作文中国学生作文 本族语书面语本族语书面语本族语书面语本族语书面语第二组:第二组:第二组:第二组:中国学生作文中国学生作文中国学生作文中国学生作文 中国学生口语中国学生口语中国学生口语中国学生口语练习提取:练习提取:第21页,共29页,编辑于2022年,星期二第22页,共29页,编辑于2022年,星期二(V+PP)结构统计结果)结构统计结果(万分率万分率):中国学生中国学生美国人美国人RF171864StF67.3115.1书面语中,中国学生与美国学生在被动语
14、态书面语中,中国学生与美国学生在被动语态使用上差异巨大。使用上差异巨大。第23页,共29页,编辑于2022年,星期二(V+PP)结构统计结果:)结构统计结果:笔语笔语(中国学生中国学生)口语口语(中国学生中国学生)171/67.3171/67.360/26.260/26.2中国学生口语中的被动结构比书面语中要少中国学生口语中的被动结构比书面语中要少中国学生口语中的被动结构比书面语中要少中国学生口语中的被动结构比书面语中要少,被动结构被动结构被动结构被动结构在口笔语中的分布基本合理。在口笔语中的分布基本合理。在口笔语中的分布基本合理。在口笔语中的分布基本合理。第24页,共29页,编辑于2022年
15、,星期二(V+PP)结构统计结果:)结构统计结果:1年级年级2年级年级3年级年级4年级年级 49/14.242/10.549/14.331/9.7呈现逐年递减的总趋势呈现逐年递减的总趋势,但有变异。但有变异。第25页,共29页,编辑于2022年,星期二(V+PP)结构统计结果:)结构统计结果:中国学生中国学生外国学生外国学生171/67.3421/81.9外国外国L2L2学生比中国学生高,但低于英语学生比中国学生高,但低于英语本族语者。本族语者。第26页,共29页,编辑于2022年,星期二VB*by例如:例如:be affected byVB*例如:例如:be treated as练习单独提取练习单独提取“带带by的被动结构的被动结构”第27页,共29页,编辑于2022年,星期二练习批量提取被动结构:练习批量提取被动结构:*VB*VB*R*VB*R*R*VB*N*VB*N*R*VB*N*R*R*VB*P*VB*P*R*VB*P*R*R*第28页,共29页,编辑于2022年,星期二Thank You第29页,共29页,编辑于2022年,星期二
限制150内