生活中的数学创新项目省名师优质课赛课获奖课件市赛课一等奖课件.ppt





《生活中的数学创新项目省名师优质课赛课获奖课件市赛课一等奖课件.ppt》由会员分享,可在线阅读,更多相关《生活中的数学创新项目省名师优质课赛课获奖课件市赛课一等奖课件.ppt(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生活中数学创新项目汇报人 孙振龙年7月10日1/582/58网络(信息)网络(信息)3/584/58创新?创新?5/58互联网文本数据挖掘互联网文本数据挖掘6/58问题:用尽可能简单知识和方法来分析挖掘文本,进而找出有用信息关联问题:用尽可能简单知识和方法来分析挖掘文本,进而找出有用信息关联现况:传统词库,语义分析等现况:传统词库,语义分析等7/58已结婚和还未结婚青年都要实施计划生育已结婚和还未结婚青年都要实施计划生育已结婚和还未结婚青年已结婚和尚未结婚青年8/58现现在在很很多多语语言言模模型型已已经经能能比比较较漂漂亮亮地地处处理理这这一一问问题题了了。但但在在汉汉字字分分词词领领域域里
2、里,还还有有一一个个比比分分词词歧歧义义更更令令人人头头疼疼东东西西未未登登录录词词。汉汉字字没没有有首首字字母母大大写写,专专名名号号也也被被取取消消了了,这这叫叫计计算算机机怎怎样样识识别别人人名名地地名名之之类类东东西西?更更惨惨则则是是机机构构名名、品品牌牌名名、专专业业名名词词、缩缩略略语语、网网络络新新词词等等等等,它它们们产产生生机机制制似似乎乎完完全全无无规规律律可可寻寻。最最近近十十年年来来,汉汉字字分分词词领领域域都都在在集集中中攻攻克这一难关。自动发觉新词成为了关键步骤。克这一难关。自动发觉新词成为了关键步骤。9/58挖挖掘掘新新词词传传统统方方法法是是,先先对对文文本本
3、进进行行分分词词,然然后后猜猜测测未未能能成成功功匹匹配配剩剩下下片片段段就就是是新新词词。这这似似乎乎陷陷入入了了一一个个怪怪圈圈:分分词词准准确确性性本本身身就就依依赖赖于于词词库库完整性,假如词库中根本没有新词,我们又怎么能信任分词结果呢?完整性,假如词库中根本没有新词,我们又怎么能信任分词结果呢?不不依依赖赖于于任任何何已已经经有有词词库库,仅仅仅仅依依据据词词共共同同特特征征,将将一一段段大大规规模模语语料料中中可可能能成成词词文文本本片片段段全全部部提提取取出出来来,不不论论它它是是新新词词还还是是旧旧词词。然然后后,再再把把全部抽出来词和已经有词库进行比较,找出新词。全部抽出来词
4、和已经有词库进行比较,找出新词。10/58怎样算一个词?怎样算一个词?11/58标准标准?文本片段出现次数是否足够多。数据源:人人网年12月前半个月部分用户状态“电影”出现了389次,“电影院”只出现了175次12/58标准标准1词内部凝固程度。数据源:人人网年12月前半个月部分用户状态2400万字数据中,“电影”一共出现了2774次,出现概率约为0.000113。“院”字则出现了4797次,出现概率约为0.0001969。假如二者之间真毫无关系,它们恰好拼在了一起概率就应该是0.0001130.0001969,约为2.22310-8次方。但实际上,“电影院”在语料中一共出现了175次,出现概
5、率约为7.18310-6次方,是预测值300多倍。13/58标准标准1词内部凝固程度。数据源:人人网年12月前半个月部分用户状态类似地,统计可得“”字出现概率约为0.0166,因而“”和“电影”随机组合到了一起理论概率值为0.01660.000113,约为1.87510-6,这与“电影”出现真实概率很靠近真实概率约为1.610-5次方,是预测值8.5倍。计算结果表明,“电影院”更可能是一个有意义搭配,而“电影”则更像是“”和“电影”这两个成份偶然拼到一起。14/58作为一个无知识库抽词程序,我们并不知道“电影院”是“电影”加“院”得来,也并不知道“电影”是“”加上“电影”得来。错误切分方法会过
6、高地预计该片段凝合程度。假如我们把“电影院”看作是“电”加“影院”所得,由此得到凝合程度会更高一些。所以,为了算出一个文本片段凝合程度,我们需要枚举它凝合方式这个文本片段是由哪这个文本片段是由哪两部分组合而来。两部分组合而来。15/58令p(x)为文本片段x在整个语料中出现概率,那么我们定义“电影院”凝合程度就是p(电影院)与p(电)p(影院)比值和p(电影院)与p(电影)p(院)比值中较小值,“电影”凝合程度则是p(电影)分别除以p()p(电影)和p(电)p(影)所得商较小值。16/58能够想到,凝合程度最高文本片段就是诸如“蝙蝠”、“蜘蛛”、“彷徨”、“忐忑”、“玫瑰”之类词了,这些词里每
7、一个字几乎总是会和另一个字同时出现,从不在其它场所中使用。17/58标准标准2词外部表现。考虑“被子”和“辈子”这两个片段。我们能够说“买被子”、“盖被子”、“进被子”、“好被子”、“这被子”等等,在“被子”前面加各种字;但“辈子”使用方法却非常固定,除了“一辈子”、“这辈子”、“上辈子”、“下辈子”,基本上“辈子”前面不能加别字了。“辈子”这个文本片段左边能够出现字太有限,以至于直觉上我们可能会认为,“辈子”并不单独成词,真正成词其实是“一辈子”、“这辈子”之类整体。18/58标准标准2词外部表现。文本片段自由利用程度也是判断它是否成词主要标准。假如一个文本片段能够算作一个词话,它应该能够灵
8、活地出现在各种不一样环境中,含有非常丰富左邻字集合和右邻字集合。19/58Link:信息熵信息熵“信息熵”是一个非常神奇概念,它能够反应知道一个事件结果后平均会给你带来多大信息量。假如某个结果发生概率为p,当你知道它确实发生了,你得到信息量就被定义为-log(p)。p越小,你得到信息量就越大。一颗骰子六个面分别是1、1、1、2、2、3,那么你知道了投掷结果是1时可能并不会那么吃惊,它给你带来信息量是-log(1/2),约为0.693。知道投掷结果是2,给你带来信息量则是-log(1/3)1.0986。知道投掷结果是3,给你带来信息量则有-log(1/6)1.79。不过,你只有1/2机会得到0.
9、693信息量,只有1/3机会得到1.0986信息量,只有1/6机会得到1.79信息量,因而平均情况下你会得到0.693/2+1.0986/3+1.79/61.0114信息量。这个1.0114就是那颗骰子信息熵。20/58Link:信息熵信息熵“信息熵”是一个非常神奇概念,它能够反应知道一个事件结果后平均会给你带来多大信息量。假如某个结果发生概率为p,当你知道它确实发生了,你得到信息量就被定义为-log(p)。p越小,你得到信息量就越大。现在,假如某颗骰子有100个面,其中99个面都是1,只有一个面上写2。知道骰子抛掷结果是2会给你带来一个巨大无比信息量,它等于-log(1/100),约为4.6
10、05;但你只有百分之一概率获取到这么大信息量,其它情况下你只能得到-log(99/100)0.01005信息量。平均情况下,你只能取得0.056信息量,这就是这颗骰子信息熵。21/58Link:信息熵信息熵“信息熵”是一个非常神奇概念,它能够反应知道一个事件结果后平均会给你带来多大信息量。假如某个结果发生概率为p,当你知道它确实发生了,你得到信息量就被定义为-log(p)。p越小,你得到信息量就越大。一个最极端情况:假如一颗骰子六个面都是1,投掷它不会给你带来任何信息,它信息熵为-log(1)=0。什么时候信息熵会更大呢?22/58信息熵直观地反应了信息熵直观地反应了一个事件结果有多么随机一个
11、事件结果有多么随机23/58标准标准2词外部表现。我们用信息熵来衡量一个文本片段左邻字集合和右邻字集合有多随机。24/58吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮“葡萄”:4次左邻字:吃,吐,吃,吐右邻字:不,皮,倒,皮左邻字信息熵=-(1/2)log(1/2)-(1/2)log(1/2)0.693右邻字信息熵=-(1/2)log(1/2)-(1/4)log(1/4)-(1/4)log(1/4)1.0425/58“被子”:956次右邻字集合信息熵3.87404“辈子”:2330次右邻字集合信息熵4.1164426/58“被子”左邻字用例非常丰富:用得最多是“晒被子”
12、,它一共出现了162次;其次是“被子”,出现了85次;接下来分别是“条被子”、“在被子”、“床被子”,分别出现了69次、64次和52次;当然,还有“叠被子”、“盖被子”、“加被子”、“新被子”、“掀被子”、“收被子”、“薄被子”、“踢被子”、“抢被子”等100各种不一样使用方法组成长尾全部左邻字信息熵为3.6745327/58“辈子”左邻字就很可怜了,2330个“辈子”中有1276个是“一辈子”,有596个“这辈子”,有235个“下辈子”,有149个“上辈子”,有32个“半辈子”,有10个“八辈子”,有7个“几辈子”,有6个“哪辈子”,以及“n辈子”、“两辈子”等13种更罕见使用方法。全部左邻
13、字信息熵仅为1.25963。“下子”则是更经典例子,310个“下子”用例中有294个出自“一下子”,5个出自“两下子”,5个出自“这下子”,其余都是只出现过一次罕见使用方法。实际上,“下子”左邻字信息熵仅为0.294421,我们不应该把它看作一个能灵活利用词。28/58一些文本片段左邻字没啥问题,右邻字用例却非常贫乏,比如“交响”、“后遗”、“鹅卵”等,把它们看作单独词似乎也不太适当。我们不妨就把一个文本片段自由利用程度定义为它左邻字信息熵和右邻我们不妨就把一个文本片段自由利用程度定义为它左邻字信息熵和右邻字信息熵中较小值。字信息熵中较小值。29/58文本片段凝固程度和自由程度,两种判断标准缺
14、一不可。只看凝固程度话,程序会找出“巧克”、“俄罗”、“颜六色”、“柴可夫”等实际上是“半个词”片段;只看自由程度话,程序则会把“吃了一顿”、“看了一遍”、“睡了一晚”、“去了一趟”中“了一”提取出来,因为它左右邻字都太丰富了。30/58怎么用?怎么用?31/58找出候选词找出候选词我们把文本中出现过全部长度不超出d子串都看成潜在词(即候选词,其中d为自己设定候选词长度上限),再为出现频数、凝固程度和自由程度各设定一个阈值,然后只需要提取出全部满足阈值要求候选词即可。为了提升效率,我们能够把语料全文视作一整个字符串,并对该字符串全部后缀按字典序排序。32/58四是四十是十十四是十四四十是四十四
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生活 中的 数学 创新 项目 名师 优质课 获奖 课件 市赛课 一等奖

限制150内