《WordSmith使用介绍7525.pdf》由会员分享,可在线阅读,更多相关《WordSmith使用介绍7525.pdf(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1.WordSmith 介绍 这是 WordSmith 工具控制器的主画面.它有四个主要的菜单选项,一个谚语(不断变化,您可以编辑),主要工具的三个按钮(Concord 是红色,因为这个工具在使用中),以及一系列的标签.目前,我们看到它显示 anthony&已被选定用做 Concord.2.选择文本文件 要选择文本文件,单击主控制器中的文件菜单:当你单击 选择文本,你会看到像这样:在左边是一个相当标准的文本文件资源管理器中,右边是一个选中文本区域.按一下有两个蓝色箭头的按钮(如下图光标处),或拖曳一些文本文件从左至右。您应该会看到类似这样:目前 WordSmith 表明(在上图状态栏)7 个已
2、被保存.您可以看到文件大小,但WordSmith(还)不知道每个文本文件有多少的词.我们选择了 Concord 的 7 个文本(见 Concord 上位于 已选文件).按下绿色按钮或者关闭窗口.3.Concord Concord 概况 A concordance 看起来就像这样:它是所有出现 wherefore 在 Romeo and Juliet 的 8 个文本的 concordance.目前只有 3 项.第一个有 644 个词(43%),其源文件是.制作一个 Concordance 当您按下主控制器 Concord 按钮,一个新的 Concord 工具打开了并出现在 Windows 任务栏
3、.现在在 Concord,选择 File|New.如果没有文本文件已选定,会要求您选择一些.按 Choose Texts Now 按钮.一旦文本被选中,输入一个合适的 Search Word:在这里,已经选择 wherefore 作为搜索词.然后按 OK.concordance 列出所有wherefore的例子,还在词前后有一个词分隔符号,如标点符号,空格等.既然现在我们已经做了 concordance,WordSmith 现在知道每一个文本文件有多少词:共有 1,506 次;更大(2,236 个单词).查看源文件 要查看源文件,双击正使用的线.在这里,点击了突出行包含有 wherefore
4、art thou Romeo.或按 F8,线会变粗:或把有兴趣 d 的线拉长或拉粗:将光标放在左栏的 2 和 3 数目之间,它改变形状:再拉下来.也可以把光标放在右边缘后再拉粗,就在 Set 的左边.Collocates 和 Mutual Information 以下是 AGO 的 collocates,用 BNC 的书面部分计算所得,按频率排序.有 AGO 的实例近 17000 个,并且 YEARS 是首位搭配,9000 次邻现于 AGO.关系 栏为空,此时只能用频率对每栏进行排序,或按照词的字母顺序排序.所需的是要知道所有这些collocates,每个与 AGO 关系有多紧密.是否 A,T
5、HE,WAS 等等,真的与 AGO 关系紧密 如果我们现在选择菜单 计算|Mutual Information,并选择一个合适的词表来做比较:那么,我们得到以下列表,排序时按 关系 栏:列表前面几项能更好地反映 AGO 随着时间和数量的趋势.首位搭配(HENSLEY)只有 5 次同现于 AGO(BNC 书面部分共有 17 次).使用标注 Concordancing 如果您的源文件有标注,可要做的第一件事是让 WordSmith 知道.要做到这一点,在主 控制器,选 Settings|Adjust Settings 然后,选 Tags and Mark-up.如果您使用的是英国国家语料库,在 C
6、ustom settings 里选它,如上所示.然后选 Entity file如果不想见 eacute;不选 及类似的,再按 Load:.到目前为止,我们已告诉控制器,忽略以尖括号开始和结束的所有标签(),把几个实体引用翻译成符号,如%和,并且删除了每个文本的题头(直到).作为一个开端,已经不错了.现在,我们对词类做 concordance.BNC 使用的标记,如下所示::at the great houses 所以每个介词标记为 在介词本身前.目的是要看到在 BNC 选定的文字的所有的介词.选定一个 BNC 文本文件后,键入*作为搜索词(星号是必要的,因为一个词直接在词类标签后)并按下 OK
7、.WordSmith 检查角括弧内是否是文字或标注始标记:在这里,我们选 No.再次按下 OK.你看到的介词和标注(但没有任何其他标记).4.Wordlist 词表 WordSmith Tools 的词表像这样的:这表明每个单词在文本文件了出现的频率,其在文本词汇中所占比例,以及每个单词在多少的文本文件中出现.制作单词列表 要制作单词列表,先按 WordList 按钮,在主控制器.WordList 启动后,选择文本然后你会看到这样的.在这里,我们要作出一个基于 8 文本文件简单的词列表,文本来自戏剧 Romeo and Juliet,按 Make a word list now.WordLis
8、t tool显示一个频率列表.最常用的词是#.有985个#.怎么回事 原来,#在默认情况下被用来代表任何数字,如 65,40 或$.在#下,最常见的词是 the,and,I to,of.旁边,你可以看到它在我们使用的 8 文本里的频率,每个词的百分比,以及每个词在 8 个文本中出现的次数.好像 I 的频率最高,但在 8 个文本中却没有出现.要按字母顺序排列看词,请按一下窗口底部附近的 alphabetical 标签.现在,向下滚动到 wherefore.结果似乎证实了我们做 concordance 的发现.Concordancing 选定词 一旦你在屏幕上得到了一个词表,您可能希望看到一些词所
9、在的语境.选择一个字(或多个)并选择计算|Concordance.您会得到像这样(如果制作词表时的原始文本仍在原位):lemmatising 要手动进行 lemmatise,用屏幕上的单词列表,把它拖到您想加入到的线上.再放开:你会看到总数的变化并且 Lemmas 栏中的项目为可见.如果有很多,您可以双击 Lemmas 栏看到详细资料:词表统计 多词单元 用二或三个词(n-grams)制作词表,如 OF THE IN THE END ONCE UPON A TIME 等等,你先要计算一个 索引文件.这主要是表明每一个单独的词在您的语料库的位置.制作一个多词词表,你得到像这样的结果.按 Ctrl
10、/F2 保存它,提示的文件名类似于 _index_3-5-word clusters.在以后可以作为一个普通的词表打开它.5.KeyWords WordSmith Tools 的关键词列表像这样的.该关键词是与某种参考语料比较,其出现频率很高的词.关键词旁边有不同的数字,告诉您每一个词在源文本的频率,以及与参考语料相比的频率.在上述列表中,与英国国家语料库相比,戏剧 Romeo and Juliet 的 8 个文本有许多主要人物的名字,和一些古语词,如 thou、thee、和 love.要制作关键词列表,首先按 KeyWords 按钮,在主控制器.当 KeyWords 启动后,选菜单上的 Fi
11、le,再选 New,你会看到这样的.你必须选择由 WordSmith 工具制作并保存的单词列表.你可以按这个按钮选择单词列表文件:如果您已经选择了一个以上的单词列表和另一个如下的参考列表,按 Make a keyword list now.(您选择后,该按钮才能启用.)你会看到像这样:这是一个关键词图示,文本来自于 British National Corpus(BNC)的 a1f,与整个的 BNC 做比较.你看到:每个关键词(KW)(这些显然都与国际关系有关)衡量其发布及其关键度 相同的文本里每个关键词在与其他关键词有多少联系 每个关键词在文本多少次(点击).地图显示了在每个单词的来源.在左边的蓝线代表文本的开始,在右边的蓝线代表了结束.看看 Britain,Germany,Italy 和 century-这些在文本的四分之三之处好像突然增多.China,Mao,Peking 在文本稍后部分同现.一旦你在屏幕上得到了一个关键词表,您可能希望看到的一些词所在的语境.选择一个字(或多个)并选择 计算|Concordance.在这里,神秘的 HAH 已被选定.您会得到像这样(如果制作词表时的原始文本仍在原位):
限制150内