基于时间序列的词义演化计算.ppt
基于时间序列的词义演化计算,唐旭日1 曲维光2 陈小荷2 1 华中科技大学 2 南京师范大学,提纲,词义演化及其研究的意义研究现状基于时间序列的词义演化计算框架实验与讨论研究展望,什么是词义演化词义演化计算研究的意义,词义演化及其研究意义,词义演化的实例,例1 男性“美丽”产业正流行。生命时报例2The last update bricked my phone例3简静,就是不生活在热闹。生命时报例4老外也这么墨迹。例5A:航班晚点了。B:啊,这什么节奏!,假借,隐喻,转喻,转喻?,新词,词义演化计算,词义演化计算是一个分类问题新词新出现词语屌丝新词词义演变隐喻板块转喻大锅饭已有词汇词义变化词义扩展隐喻缩水转喻灰色收入词义缩小低落词义不变房屋,研究的意义,在互联网日益普及的背景下词义演化加速。互联网用户在旧词新用、新词创造方面更加活跃。各种自然语言处理系统需要更快地更新词义知识。人工词义知识编撰耗时、耗力、一致性差、且受制于自身知识,无法满足上述需求。词义演变的自动侦测、分类以及语义判断成为重要任务。,基于并置比较的方法基于时间序列的方法,研究现状,基于并置比较的方法,男子 跳水 ,双人 跳水 比赛,1. Cavallin, K.: Automatic extraction of potential examples of semantic change using lexical sets. In: Proceedings of the 11th Conference on Natural Language Processing, pp. 370377 (2012)2. Gulordava, K., Baroni, M.: A distributional similarity approach to the detection of semantic change in the google books ngram corpus. In: Proceedings of the GEMS 2011 Workshop on GEometrical Models of Natural Language Semantics, pp. 6771 (2011)3. Lau, J.H., Cook, P.,McCarthy, D., Newman, D., Baldwin, T.:Word sense induction for novel sense detection. In: Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, pp. 591601 (2012)4. Cook, P., Hirst, G.: Automatic identification of words with novel but infrequent senses. In: Proceedings of the 25th Pacific Asia Conference on Language Information and Computation, pp. 265274 (2011),无法判断词语的规约化程度无法判断演变类型语料依赖性强,基于时间序列的方法,1. Hilpert, M., Gries, S.T.: Assessing frequency changes in multistage diachronic corpora: Applications for historical corpus linguistics and the study of language acquisition. Literary and Linguistic Computing 25(4), 385401 (2009)2. Rohrdantz, C., Hautli, A., Mayer, T., Butt, M., Keim, D.A., Plank, F.: Towards trackingsemantic change by visual analytics. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pp. 305310 (2011)3. Sagi, E., Kaufmann, S., Clark, B.: Semantic density analysis: comparing word meaning across time and phonetic space. In: Proceedings of the Workshop on Geometrical Models of Natural Language Semantics, pp. 104111 (2009)4. Sanchez-Marco, C., Evert, S.: Measuring semantic change: The case of spanish participial constructions. In: Proceedings of Quantitative Investigations in Theoretical Linguistics,vol. 4, pp. 7983 (2011),优势:给出了全局性的描写,问题:非自动,当前仅用于人工判断,计算框架词义表征方式词义变化模式判断词义变化模式与类型,基于时间序列的词义演化计算框架,计算框架,词义表征,Word-Context Model重组 使 自己 的 股份 缩水:c=IdentificationLikelihood Ratio Test,单位时间词语的语义状态描述,语义状态是在单位时间语料中词语T的各种义项的使用概率的总体描述。由此,语义状态可以表述为义项的熵:,词义变化模式判断(1),词义变化表述为语义状态的时间序列:词义的变化模式也就是时间序列的变化模式。假定语言的变化,包括词义的变化模式遵循如下指数函数: (Kroch, 1989),词义变化模式判断(2),不同的词义变化模式体现为不同的s值与k值之组合,词义变化模式判断(3),通过曲线拟合,在词义状态时间序列基础上,可以获取k值与s值,从而获得不同的变化模式。,词义变化模式与类型,变化模式与类型S 值较大 隐喻性词义变化S 值较小 转喻性词义变化S 值 约为0 词义无变化S 值 为负 词义缩小,实验设置实验结果,实验与讨论,实验数据,Key words: 33 wordsCorpora: 59 years of Peoples DailySegmented and POS tagged with ICTCLASCorpora divided on yearly basis,实验结果,链接至paper,新词,未变词语,词义缩小,隐喻性变化(透明),研究展望,1. 构建词义变化测试数据,应用SVM进行分类2. 更好的词义变化时间序列模型?3. 侦断“新词义”?,Further information found in the paper:Semantic change computation: A successive approach presented at BSICS workshop with IJCAI 2013,