2022年语料检索的速成教程:AntConc生鲜入门参考 .pdf
《2022年语料检索的速成教程:AntConc生鲜入门参考 .pdf》由会员分享,可在线阅读,更多相关《2022年语料检索的速成教程:AntConc生鲜入门参考 .pdf(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语料检索的速成教程: AntConc 生鲜入门 作者:李亮(广东外语外贸大学 词典学中心) 2012 年 8 月 27 日 Email: 【步骤 1】AntConc 这款免费软件, 诞生于 2002 年 4 月 16 日(当时是1.0 版) ,到 2012年 8月就刚好 10年 4个月了,适合处理不超过200MB 的英语语料, 因为当你处理200MB的 txt 文件的时候,要占用1GB 的物理内存呢,而100 万英语单词的“中国英语学习者语料库”(CLEC 库)才 6.6MB ,足够处理30 个“ CLEC 库”了,也就是3 千万单词的英语语料库;作者是长年居住在日本早稻田大学的英国俊男(19
2、70 年出生),本科是物理专业,硕博士阶段就转向语言学了,读博期间开发了针对博士论文的AntConc ;【步骤 2】AntConc 有七大功能,你一看(下面截图的7 个菜单项目)就眩晕的话,不妨听我打一些比方;整体上说,一个所谓的语料库检索软件,就是来计算“3 大关系”:(1)一大堆的文章到底有多少单词?(2)这些单词的两侧经常有哪些单词?(3)同一个词在这一大堆文章中的出现频率,是否跟在另一大堆文章中的出现频率有显著差异?【步骤 3】无论你是学英语或是教英语的人士,你都是一个社会普通成员,必然有自己的人际交往圈子, 也必然有擦肩而过的身边人,擦肩而过的人也许跟你认识就打个招呼,也许跟你不认识
3、,所以就算你打招呼,对方也只能难堪地笑笑或盯着你;一个人,其实跟书本上的单词,跟生活中的单词挺相似的境遇,都是接触面挺宽,亲密人并不多;【步骤 4】AntConc 就像一个私家侦探,你随时可以抓来一大堆英语文章,把这些文章中的熟悉单词和陌生单词都做个“清单”和“谱系图”和“交际分析”;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 15 页 - - - - - - - - - 【步骤 5】AntConc 的 7 大菜单,其实相当于在回答这7 大问题:擦肩而过的身边人有哪些
4、?(Concordance ) 左右两侧距人群边缘多远?(Concordance Plot) 百米以内的身边人有哪些?(File View) 经常擦肩的身边人有哪些?(Clusters) 固定交往的身边人有哪些?(Collocates) 生活独立的成年人有多少?(Word List) 多处兼职的身边人有哪些?(Keyword List)【步骤6】诚然,打比方只是一种“切入”,到底有多么确切,也见仁见智;下图是在阿富汗与巴基斯坦边境地区被小培养为恐怖分子的三个小男孩,他们怀抱的是 “AK47 ”(诞生于1947 年,是苏联人研制的稳定耐用的优秀的自动步枪);而“ AK47 ”在整体上虽然你应该把
5、它看作一个单词,但是,AntConc 的默认状态却是只认“AK ”呢!【步骤 7】我们当前所处的时代是“2010s” ,根据维基百科,它意味着2010 年 1 月 1日到 2019 年 12 月 31 日之间的整整10 年,我是“70 后 (70s) ” , 你也是“70s” 或者“60s”或“ 80s”啦,“We are 70s ”这三个词, AntConc会告诉你“它”只看到“We are s ”这三个词,它这么抬高 “s” 这个后缀字母的地位,你也许极为不赞成, 但这就是AntConc的默认状态!名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - -
6、 - - - - - 名师精心整理 - - - - - - - 第 2 页,共 15 页 - - - - - - - - - 【步骤 8】2012 是一部关于全球毁灭的灾难电影,讲述在2012 年世界末日到来时,主人公以及世界各国人民挣扎求生的经历,当你用 AntConc 来计算“2012 is a good film ”这个句子有多少个单词,AntConc 会告诉你“只有4 个单词”,因为它在默认状态下会对“独立连续的数字串或依附于其他英语字母的连续数字串”视而不见! 这也就解释了上面的“ AK ”与“ 47”发生脱离的问题;【步骤 9】英语中有挺多的系动词或助动词或情态动词所构成的否定表达
7、的缩略形式,例如 is not 变成了 isnt 呀, are not 变成了 arent 呀, was not 变 wasnt 呀, has not 变hasnt 呀,will not 变 wont 呀,would not 变 wouldnt呀,shall not 变 shant 呀,do not变 dont 呀,did not 变 didnt 呀,ought not 变 oughtnt呀;反正, 单引号都代表着 “被省略的字母o” ;这些“中间有单引号兼省略号的否定合成词”你让 AntConc 来计算“单词个数”,它会默认把它们进行“强拆”,把“单引号”当作空格呢,所以“didnt ”就变
8、成了“ didn ”和“ t” ,而“ isnt ”变成了“ isn”和“ t” ,而“ dont ”变成了“ don”和“ t” ,天啦,“don”可也是一个独立的单词呢,意思是“校长”或“黑帮老大”!【步骤 10】英语中也有“Ph.d. ”或“ a.m.”或“ oclock ”或“ etc.”这类单词,其他中间或单词尾部带“省略符号”的词也频频露面;AntConc 也都把“省略符号”当作“词与词的国境线”而把它们强拆开;【步骤 11】上面这些 “AntConc 的默认状态的异常现象”的根源, 并非 AntConc 的“缺陷” ,而是英语实在是太复杂了, “一条规则” 总是夹杂着 “多条意外
9、规则” ,到底是 “漏过居多”抑或是“误抓居多”也跟个人的具体需求有很大关系,你瞧AntConc的默认的对单词的识别规则是“纯粹字母的连续体”呢!一旦遇到一个并非字母的符号就被当作“前一个单词与后一个单词的分界线”了名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 15 页 - - - - - - - - - 【步骤 12】上面都是在回答“生活独立的成年人有多少?”,这是“单词”与“成年人”之间的比喻; 这个问题影响深远,你在使用不同的语料检索软件的时候,它们的单词计算结果
10、不一致,搭配词计数不一致,统计检验值不一致,语块生成列表不一致,应该就是从“什么是独立且完整的单词”而缘起的!【步骤13】像你我这样的普通成年人,每天在生活中遇到的人分为3 大类:视而不见类,点头之交类,促膝谈心类。视而不见类,是陌生人,他们的生活跟你的生活只是擦肩而过,或恰好乘坐同一辆公交车去另一个地方;点头之交类,是“形式上的熟人”,礼尚往来仅限于“点头”;促膝谈心类,可以上门求教或送礼或拉家常;英语中的单词与其他单词之间也恰好是这三类关系呢!一个单词总是有很多的单词相伴左右,都是偶然的,纯属“路过” ;一个单词也总是有不太多的单词是它的“点头之交”,也许哪天真的变成“促膝之交”了呢;一个
11、单词到底有多少的促膝之交,跟这个单词本身的是否经常“出门”有重大关系,也跟这个单词的“先天素质”有重大关系;【步骤 14】AntConc这个软件的巨大优势在于,它能高速地在“单词的海洋”或“人潮汹涌”中找到你的“百米以内者、擦肩而过者、经常擦肩者、固定交往者”,这四类从左到右是“从疏远到亲密”呀!英语中的“百米以内者”是“上下文语境中的更多单词” , “擦肩而过者”是“偶然在一起的若干单词”,而“经常擦肩者”是“习惯表达”或“固定短语” ,而“固定交往者”就是“搭配”或“习语”啦!名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - -
12、名师精心整理 - - - - - - - 第 4 页,共 15 页 - - - - - - - - - 【步骤 15】从“语言学是一门先进的科学”的角度来说,“语料库”就像一个“试管”或“森林公园”或“饲养场”,把大量的野生动物汇集到了一起,你可以随时观察,它们也不会溜掉或逃逸,你可以测量它们的各种特征,也可以把它们三五成群地组成一个新的观察视角, 甚至可以在它们身上安装监控跟踪器,哪怕漆黑的夜里你也知道它身处何处!所以,在一个“库”或“栅栏内”的语料们,总是有“围墙”的,某个单词距离围墙有多远,这就是AntConc 试图回答的“左右两侧距人群边缘有多远?”,这就是把整个语料文件当作一个饲养场
13、,每个单词都相当于在一个有一定长度的直线上的某个位置! (语料软件把一个语料文件进行扫描,总是从第一个词到最后一个词,总共100 个词的话,你是第50 个词,就正好在一个直线的正中央呢。【步骤 16】有了“库”,就像有了一个微型的虚拟城市;每个词,都有了多个活动空间或活动场所或多重身份;你会看到一个人在家是丈夫,在医院是病人,在商店是顾客,在学校是学生,在公司是领导,但是,哪种身份才是“更本质”呢?回答这个问题,一则要看你是怎么定义“本质”的,二则要看你期望得到什么样的答案,三则要看你用什么手段或工具来衡量,四则要看你是否给不同的测量以不同的权重(重视程度);回到英语单词,你会发现日常词汇往往
14、也能出现在专业领域,浅显单词也能出现在深奥文章,童年言辞也容易变为成人用语;进一步回到语料库语言学来说,这叫做 “词汇在不同语料库之间的对比及其显著性”;这样的对比能发现某个单词在客场作战的时候是否真的是客场的“重要人物” !【步骤 17】很多人一拿到AntConc 就急于看结果,其实AntConc 跟大部分软件一样,要从菜单“文件” 的“打开”一个文件而开始的;否则,一个软件怎么知道你要处理“谁”或“哪个文件”呢,它自动推测的话,岂不乱了套!名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - -
15、- 第 5 页,共 15 页 - - - - - - - - - 【步骤 18】选了一个文件,它就躺在“语料文件列表(Corpus Files) ”了;你可以一次选择多个文件到这个列表(如下图),也可以多次选取来不断添加到这个列表;【步骤19】上面两个图的右侧的图片的“9.txt ”是用鼠标点了一下,就变成了天蓝色的“选中状态” ,你就可以把它从列表中“踢掉”了,同样是点“File”菜单【步骤 20】上面的第1 个图的“ Close File ”就是踢掉当前选中的某个文件,第2 个图的“ Close All Files”就是踢掉当前列表的所有文件,而“Open Dir ”就是把一个文件夹的所有
16、txt 文件都自动添加到当前的文件列表中,而不用你逐个选择, Dir 是 Directory是“目录”是“文件夹”的意思;【步骤 21】一旦选择好了一个或多个你准备进行分析的文件,输入一个词(组),就可以点“ Start ”这个按钮来进行“Concordance ”了!名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 15 页 - - - - - - - - - 【步骤 22】Concordance 就是找“某个词(组) ”的“擦肩而过的身边人有哪些?”说白了, 就是看“左
17、右两侧的10 个词左右的范围的语境”,中央是天蓝色或其他的耀眼颜色凸现的 “搜索词 (组)” , “hit(命中)”就是“找到了一个” ,而“KWIC ”是 KeyWord In Context的缩写,就是方便你集中地观察每个含有“搜索目标”的“局部文本”;【步骤23】你现在知道了“点一个按钮,就能找到很多实例”了,下一步就往往是肉眼观察, 但是,你看到的结果只是按照在原文中出现的先后顺序而呈现,所以不利于你观察左右两侧的相同搭配词的相互对比,例如:【步骤 24】所以,你需要点一下 “排序”按钮;但是,排序总要有 “标准”呀,而 AntConc的默认标准是“右侧第一个词最优先,其次是右侧第二个
18、词,再次是右侧第三个词”名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 15 页 - - - - - - - - - 【步骤 25】AntConc 的默认状态是“通吃大小写”,无论你输入“a”或“ A” ,它就找来所有的“ a”和“ A” ,这叫做“大小写不敏感”;你瞧“ AIDS ”和“ aids”就很不一样嘛; China 和 china 是只有一个字母的大小写差别却是“专用名词与普通名词的差异性” ;【步骤 26】在“搜索输入框”的右侧,还有一个“Advanced
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年语料检索的速成教程:AntConc生鲜入门参考 2022 语料 检索 速成 教程 AntConc 生鲜 入门 参考
限制150内