2022年微积分基础的新视角整理 .pdf
《2022年微积分基础的新视角整理 .pdf》由会员分享,可在线阅读,更多相关《2022年微积分基础的新视角整理 .pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2010 年第 55 卷第 27-28 期:2667 英文版见:Liu H T.Language clusters based on linguistic complex networks.Chinese Sci Bull,2010,55,doi:10.1007/s11434-010-4114-3 论文中国科学 杂志社SCIENCE CHINA PRESS 语言复杂网络的聚类研究刘海涛 浙江大学外语学院,杭州 310058;中国传媒大学应用语言学研究所,北京 100024 E-mail: 2010-03-06 收稿,2010-04-22 接受国家社会科学基金资助项目(09BYY024)摘要利用
2、 15 种语言的依存句法树库,构造了 15 个语言网络,并采用复杂网络研究工具对这些语言网络进行了研究,其目的是研究复杂网络在语言分类中的可行性.研究结果显示,通过复杂网络的主要参数,即节点的平均度、聚类系数、平均路径长度、网络中心度、直径、节点度幂律分布的幂指数、度分布与幂律拟合的决定系数,可以对人类语言进行分类,其准确性与利用现代语序类型学主要指标进行的语言分类准确性相当.克服了类型学研究中语种库语料为非真实语料及参数选择中过于注重微观的问题,所得到的结果更能体现语言的整体类型学特征.本研究不仅丰富了现有的语言类型学方法,也拓展了复杂网络在人文、社会与生命科学等领域的应用.关键词复杂网络语
3、言类型语言网络依存句法聚类分析语言分类语言系统是一种复杂的网络结构体1.这也意味着难以用传统的语言学研究方法来研究语言的整体特征,因此,采用复杂网络来研究语言是很有必要的一项尝试.与此同时,采用复杂网络对人类语言进行全方位的考察,也有助于发现语言系统与人类认知、人类社会、自然界其他系统的关系.各国学者已在语言复杂网络研究方面做了不少研究26,这些研究涉及到了多种人类语言,语言网络的构造原则也异彩纷呈.研究表明,这些语言不同、构建原则不同的语言网络,大多具有小世界与无尺度的特征.这些研究对于认识语言网络的普遍性、语言系统与人类社会及自然界其他系统之间的共性是有意义的,但这种偏重于各种网络共性的研
4、究,对于揭开人类语言结构与演化规律的价值并不大.如果只强调普适性,网络的个性就会迷失在共性中,“天下网络一般黑”7,这显然也不利于复杂网络研究在现实世界中的应用.对于语言学家而言,语言网络只是研究语言的手段,而非目标8.因此,在语言复杂网络的研究中,除了研究各层次语言网络的一般特性与构拟复杂网络的各种理论模型外,更重要的是挖掘复杂网络在语言研究中的各类应用可能.“语 言 类 型 学”是 一 门关 于 语 言 分类 的 学科.Altmann 与 Lehfeldt9将语言分类视为“普通语言类型学”的 两大 主 要任 务之 一.他 们认 为,语言 分类(Sprachklassifikation)就是
5、构建一种建立在语言整体相似性之上的自然语言分类体系.现代语言类型学不仅研究语言的分类,更重要的是通过跨语言的比较来研究人类语言的共性10,11.与传统语言类型学相比,现代语言类型学将其研究的重点转为研究人类语言共性的趋向,这无疑是值得肯定的.但现代语言类型学中也有过于重视个别参数研究的趋向,这种沉溺于细节的研究可能难以准确地从整体的角度对语言进行分类研究,进而影响类型学研究成果对语言分类的效果.另外一个值得注意的问题是类型学研究的资源问题,尽管当前的语种库已有近千种语言,但这些语言的类型数据大多不是来自于日常交流中随处可见的自然话语.根据此类数据得到的结论,难以全面反映一种语言的类型学特点.为
6、了解决这两个问题,在资源方面可采用经过形态、句法等标注的真实语料,以便得到更客观、更名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 8 页 -2010 年 9 月第 55 卷第 27-28 期2668 可靠的结论;在参数选取及验证方面,可选用一些便于自动从真实文本语料库中提取并且可以反映语言整体概貌的参数,并用聚类(clustering)等现代统计技术定量验证这些参数在语言分类方面的有效性与可靠性.Liu12采用 20 种语言的依存句法树库作为资源,研究了依存方向作为语序类型研究参数的可行性.结果表明,经过句法标注的真实语料库是可以作为语言类型研究资源的,此种方法得到的语言分类结
7、果与采用类型学语种库得到的结论相似.随着复杂网络研究工具的普及,越来越多的语言学家开始加入到语言网络的研究队伍8,1320.这些研究涉及语音、句法、语义、语体、语言发展等问题.在语言类型方面,在比较了捷克语的词形网络与词目网络之后,?ech与 Ma?utek16认为二者之间的差异可 能 反 映 了 一 种 语 言 的 类 型 特 征;Choudhury与Mukherjee17认为印地语拼写网络与英语拼写网络之间的平均度存在较大的差异,这可能反映了一种语言类型间的差异.除此之外,尚未见到国内外采用复杂网络进行语言类型的实证性研究.本文利用 15 种语言的依存句法树库构造了相应语言复杂网络,采用复
8、杂网络研究工具提取了这些语言网络的主要复杂网络参数.文章研究了这些语言网络之间的共性,通过聚类实验研究了复杂网络作为语言类型研究参数的可能性与可靠性.1 语言复杂网络的构造与测度从结构方面来看,无论一个网络的规模有多大,结构有多复杂,构成网络的基本要素却并不复杂.所有的网络都是由节点与边组成的,但在不同的现实世界网络里,节点与边所代表的事物是不一样的.就本文所用的句法网络而言,其节点为词,边为词与词之间的语法功能关系.为了构造某种语言的句法网络,首先需要选取适宜的句法分析方法.短语结构和依存关系是目前最常用的两种句法分析手段.短语结构分析注重的是研究组成句子各成分之间部分与整体的关系,而依存分
9、析的目的则是搞清楚句中所含词语之间的各种语法关系1.依存分析的基础是词间的二元语法关系,因此可以很容易地将句子的依存分析转换为一种网络表示.Liu8给出了从依存关系到依存句法网络的详细信息,这里不再赘述.图 1为 3个汉语句子及相应的英语句子构成的句法网络示例.所用的 3 个句子为:约翰在桌子上放了本书(John put the book on the table);那学生读过一本有趣的书(the student read an interesting book);那本书的封面旧了(the cover of the book is old).图 1所示两种语言的句法网络是不一样的,这也为我们采
10、用语言网络来研究语言类型提供了直观的依据.在有了句法网络之后,我们就可以按照复杂网络指标或参数来研究网络的主要特征.为了衡量一个网络的复杂性,最常用的复杂网络参数是平均路径长度(L)、聚集系数(C)、平均度()、直径(D)、度分布(P(k)等21,22.根据句法网络的特点,我们也将网络的中心化(network centralization,NC)23程度列为一个考察的参数.中心化参数有助于发现句法图 1 由 3 个句子组成的汉语、英语句法网络示例名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 8 页 -2669 论文网络中的中心节点,它可以间接反映一种语言的形态变化程度.利用以上
11、这些参数,我们一般就可以判断一个网络的性质,如网络是否是小世界网络或无尺度网络.在度分布方面,图 1(a)中含有 4 个度为 1的节点,8 个度为 2 的节点,1 个度为 3 的节点,2 个度为 4 的节点,1 个度为 5的节点;在图 1(b)中度为 1的节点有4 个,度为 2的节点有 6 个,度为 3 的节点有 3 个,度为 4 的节点有 1 个,度为 6 的节点有 1 个.以上数据显示(表 1),图 1(a)与(b)具有不同的复杂网络参数值.由于示例网络只含有3 个句子,如果增加所研究语言的句子(词)数量,不同语言网络之间的参数还会有区别吗?如果这些差别依然存在,那么它们可以用来作为语言类
12、型研究的参数吗?为 了 回答 这两 个 问题,根 据 可用 的树 库 资源,我们构建了以下15 种语言的句法网络(括号内为 ISO 639-2 语言代码):阿拉伯语(ara)、加泰罗尼亚语(cat)、现代希腊语(ell)、古希腊语(grc)、英语(eng)、巴斯克语(eus)、匈牙利语(hun)、意大利语(ita)、日语(jpn)、葡萄牙语(por)、罗马尼亚语(rum)、西班牙语(spa)、土耳其(tur)、拉丁语(lat)、汉语(chi).我们使用分子交互网络分析与可视化软件平台Cytoscape 中的网络分析插件NetworkAnalyzer进行所需的复杂网络参数计算24.2 15种语言
13、网络的复杂性特征本文由于受树库资源的限制,所选样本库中的语言大多为印欧语系语言.从语言类型研究的角度看,这种采样方式是欠妥的,但考虑到本文的主要目的在于提出一种新的方法并实证研究这种方法在语言分类中的可行性,因此这样的选择是可以接受的.本文所用的绝大多数树库2535来自 CoNLL-X“多语依存句法分析竞赛项目”36,37的训练语料.为了使研究结果更具可比性,我们随机从可用语料中抽取词数大致相当的语料,并将其转换为相应语言的句法表 1 汉英句法示例网络的主要参数a)E N C L NC D 汉语20 17 2.235 0 3.074 0.125 6 英语16 14 2.286 0 2.604
14、0.333 6 a)E 为网络中边的数量,N 为节点的数量,为节点的平均度,C 为聚类系数,L 为平均最短路径长度,NC 为网络中心度,D 为直径网络,以便复杂网络分析软件使用.我们用 NetworkAnalyzer对所有 15 种语言的句法网络进行了分析,主要参数见表2.所用树库资源中,阿拉伯语、汉语、英语、匈牙利语、葡萄牙语、罗马尼亚语为新闻语料,日语为会话语料,拉丁语与古希腊的语料选自相应语言的经典文献,其余语言的语料为混合型.原始树库句法标注体系方面,阿拉伯语、汉语、现代希腊语、古希腊语、巴斯克语、罗马尼亚语、土耳其语、拉丁语采用的是依存句法标注体系,意大利语、日语、葡萄牙语、加泰罗尼
15、亚语、西班牙语采用的是短语结构与依存句法相结合的标注方式,英语与匈牙利语采用的是短语结构的标注方法.对于原本不是依存方式标注的树库,我们采用的是CoNLL-X 提供的经过自动转换的该树库的依存格式.阿拉伯语、现代希腊语采用的是布拉格依存树库38的标注方法.3 语言复杂网络与语言类型的关系我们首先分析这些语言网络的整体特征,即它们的小世界特征与无尺度特征.由图 2 可见,这 15 种语言的句法网络的平均路径长度的波动范围不大,分布在 2.755 与 3.938 之间.换言之,在所研究的这15 种语言网络中,任意 2个节点之间的平均距离不会超过3 个节点.Liu8假设句法语 言网络中的这种最短路径
16、现象是与句子依存距表 2 15种语言句法网络的主要参数a)E N C L NC D R2ara 30164 10190 5.783 0.165 3.622 0.196 10 1.211 0.723 cat 30944 8906 6.816 0.129 3.234 0.235 9 1.165 0.703 chi 13348 4015 6.478 0.128 3.371 0.231 10 1.33 0.801 ell 27942 9229 5.968 0.114 3.445 0.227 11 1.226 0.722 grc 23798 8870 5.291 0.089 3.638 0.146 11
17、 1.343 0.746 eng 28229 7770 7.127 0.122 3.308 0.189 9 1.223 0.803 eus 27895 10561 5.207 0.115 3.571 0.213 13 1.334 0.75 hun 33146 13075 5.055 0.029 3.938 0.155 11 1.353 0.734 ita 32329 9051 7.059 0.126 3.243 0.194 8 1.185 0.701 jpn 8356 1638 9.716 0.279 2.755 0.319 6 1.123 0.789 por 29396 8855 6.444
18、 0.207 3.123 0.312 8 1.125 0.685 rum 28032 8862 6.189 0.108 3.316 0.245 9 1.204 0.72 spa 25254 7939 6.209 0.181 3.146 0.271 9 1.108 0.688 tur 26421 11969 4.25 0.205 2.958 0.514 10 1.161 0.616 lat 28945 11571 4.91 0.107 3.598 0.196 11 1.266 0.721 a)为节点度幂律分布的幂指数,R2为度分布与幂律拟合的决定系数名师资料总结-精品资料欢迎下载-名师精心整理-
19、第 3 页,共 8 页 -2010 年 9 月第 55 卷第 27-28 期2670 图 2 聚类系数与平均路径长度对比图为清晰起见,图中的C 扩大了20 倍离的最小化趋向密切相关的.这一假设将语言网络的小世界特点与语言学及认知科学联系在了一起.依存距离指的是支配词和从属词之间的线性距离.例如,在句子“这是一个例子”中,“是-这”之间的依存距离为2-1=1,“个-一”之间的依存距离为4-3=1,“例子-个”之间的依存距离为5-4=1 而“是-例子”之间的依存距离为5-2=3.这个例句的依存距离为(1+1+1+3)/4=1.5.Liu39对 20种语言平均依存距离的研究表明,所研究语言的平均依存
20、距离基本在1.798 与 3.662 之间变化.即在真实语句中,两个存在语法关系的词之间的线性距离,平均不会超过3 个词.依存距离的这种最小化趋向受人类工作记忆容量与语法的共同约束与限制.在句法网络中,节点就是词,因此我们有理由相信在句法网络的平均路径长度与一个句子的平均依存距离之间存在着一种密切的联系.但如何更好地解释二者之间的关系,仍需要进一步的研究.此种研究将有助于加深对复杂网络、人类认知机理与语言处理能力及三者之间关系的认识.在句法网络中,聚类系数反映的是与某一个词具有句法关系的两个词之间也存在句法关系的可能性.从图 2 可以看出,在聚类系数的曲线两端分别为日语与匈牙利语,其中日语的C
21、 为 0.279,匈牙利语的为 0.029,二者几乎相差了10 倍.除了这两种语言外,其他 13 种语言的聚类系数基本分布于0.088 与0.207 之间.但是,与这些网络有相同节点与平均度的随机网络相比,句法网络的聚类系数还是要远远大于随机网络的聚类系数.因此,结合图 2的 C 与 L,可以认为本文所研究的15种语言网络均为小世界网络.我们也注意到,日语与匈牙利语不仅位于聚类系数曲线的两端,而且也位于平均路径长度曲线的两端.在 15 种语言中,日语具有最大的聚类系数与最小的平均路径长度,而匈牙利语则具有最小的聚类系数与最大的平均路径长度.为什么会这样呢?是由于语料的问题,还是语言类型特点的一
22、种反映呢?从语言形态结构上讲,这两种语言都属于黏着语,但日语语料是受限领域的会话,而匈牙利语是一般的新闻语料.在同等规模的语料库中,由于日语语料在词汇与句法方面都受到了限制,因此导致与同属黏着语的匈牙利语在这两个参数上有了很大的差异.这也说明,复杂网络参数对语体的敏感不仅在一种语言内部有效,也具有跨语言的有效性4,8.此外,这两种语言在这两个参数方面的差别也与匈牙利语多用词缀,而日语则用虚词来表示词的语法功能有关.度分布服从幂律(P(k)k-)分布的网络叫做无尺度(scale-free)网络.为此,我们根据 NetworkAnalyzer提供的相应功能,对所研究的15 种语言网络进行了幂律拟合
23、,得到了每一种语言的幂律指数与决定系数(图 3).图 3中的幂律指数变化区间为1.077 与 1.353,决定系数为 0.75以上的语言只有5种.我们的研究再次表明,真实网络度分布数据由于其具有的长尾特征,很难得到令人信服的幂律拟合结果.为了消除长尾的干扰,人们一般采用分段拟合或累加度分布的方法,也有学者提出了一些新的、更有效果的方法40.由于本文的首要目标是挖掘复杂网络与语言类型的关系,属于复杂网络的应用研究,因此,我们只是简单地采用了现有最便捷的方法,而没有对这个问题做深入的研究.图 3 显示,这种参数已足以将所研究的语言区分开来,并有可能成为一种对语言进行分类的参数.根据已有句法网络的研
24、究结果看3,8,如果采用累积度分布或分段截取的办法,本文所研究网络的度分布均接近于一种幂律分布,即这些网络均是无尺度网络.在简单考察这些网络的整体特征之后,下面我们来分析一些可能与语言类型有关的参数.句法网络中节点的度,表示的是在真实的语料中,词与其他词结合的情况8.从语言学的角度看,这些网络的度是词的句法配价的一种反映,是该语言词(词类)“概率配价模式”41的实例化.图 4 显示,一种语言的平均度与其网络中心化程度没有必然的联系,这是因为中心化指标反映的是网络中节点度名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 8 页 -2671 论文图 3 幂指数与决定系数对比图 4 平均
25、度、网络中心化及边点比为清晰起见,图中的NC 扩大了20 倍之间的差异,反映的是节点的权威性,而不是节点可与其他节点相连的平均能力.句法上看,NC 大的语言,意味着在其语言网络中,具有一些度数比较突出的节点.这些节点大多为语法功能词或虚词.从这点看,NC 反映了一种语言形态变化的程度,可作为一种类型学的参数来用.理论上讲,网络的平均度与该网络所含的边与节点的数量有关.为此,我们计算了每个网络的边与节点数之间比值,如图 4 中 E/N 曲线所示.网络的节点度与E/N 比之间密切正相关(Pearson 相关系数=0.999,P 0.001).单从这点来看,一个句法网络的平均度可能并不适宜于作为一种
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年微积分基础的新视角整理 2022 微积分 基础 新视角 整理
限制150内