统计自然语言处理基本概念幻灯片.ppt
《统计自然语言处理基本概念幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计自然语言处理基本概念幻灯片.ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计自然语言处理基本概念第1页,共73页,编辑于2022年,星期二模型真实世界中的系统模型1InputOutput模型2Output1Output2如果Output1总是和Ouput接近,Output2总是和Output偏离,我们就认为模型1比模型2好第2页,共73页,编辑于2022年,星期二 真实系统模型1模型2InputOutput第3页,共73页,编辑于2022年,星期二第4页,共73页,编辑于2022年,星期二模型由体系结构和参数两部分构成举例:住宅楼多层板楼高层板楼高层塔楼参数层数:户型:三室一厅,两室一厅,举架高度:供热方式:地热?暖气片?第5页,共73页,编辑于2022年,星期二
2、目录样本空间(Sample Space)估计器(Estimator)和随机过程(Stochastic Process)信息论(Information Theory)数据集分类(Data Set Classification)性能评价(Performance Measure)第6页,共73页,编辑于2022年,星期二样本空间(Sample Space)第7页,共73页,编辑于2022年,星期二试验(Experiment)试验一个可观察结果的人工或自然的过程,其产生的结果可能不止一个,且不能事先确定会产生什么结果例如连掷两次硬币样本空间是一个试验的全部可能出现的结果的集合举例连掷两次硬币=HH,H
3、T,TH,TT,H:面朝上;T:面朝下第8页,共73页,编辑于2022年,星期二事件(Event)事件一个试验的一些可能结果的集合,是样本空间的一个子集举例:连掷两次硬币A:至少一次面朝上B:第二次面朝下A=HT,TH,HH,B=HT,TT第9页,共73页,编辑于2022年,星期二事件的概率事件的概率重复m试验,如果事件A出现的次数为n,则事件A的概率为P(A)=n/m,这称为概率的频率解释,或称统计解释频率的稳定性又称为经验大数定理举例:连掷两次硬币A:至少一次面朝上B:第二次面朝下P(A)=3/4,P(B)=1/2当试验不能重复时,概率失去其频率解释的含义,此时概率还有其他解释:贝叶斯学派
4、和信念学派一个人出生时的体重,一个人只能出生一次第10页,共73页,编辑于2022年,星期二举例举例:连续三次掷硬币样本空间=HHH,HHT,HTH,HTT,THH,THT,TTH,TTT事件A:恰好两次面朝下A=HTT,THT,TTH做1000次试验,计数得386次为两次面朝下估计:P(A)=386/1000=0.386继续做7组试验,得:373,399,382,355,372,406,359,共8组试验计算平均值:P(A)=(0.386+0.373+)/8=0.379,或累计:P(A)=(386+373+)/8000=3032/8000=0.379统一的分布假设为:3/8=0.375第11
5、页,共73页,编辑于2022年,星期二概率空间概率空间的三个公理P(A)0P()=1P(AB)=P(A)+P(B)if AB=这三条公理也是概率的原始定义推论:P()=0;A BP(A)0正相关,0:x和y关联强度大I(x,y)=0:x和y无关I(x,y)0:x和y具有互补的分布第36页,共73页,编辑于2022年,星期二熵(Entropy)熵(Entropy)Chaos(混沌),无序物理学:除非施加能量,否则熵不会降低举例:把房间弄乱很容易,整理干净不容易是不确定性(Uncertainty)的衡量不确定性越高,熵越高,我们从一次实验中得到的信息量越大第37页,共73页,编辑于2022年,星期
6、二熵的公式熵H(X)=-xp(x)logxp(x)假设PX(x)是随机变量X的分布基本输出字母表是单位:bits熵是X的平均信息量,是自信息量的期望E(X)=x p(x)xI(X)=-logp(x),取2为底,I(X)=-log2p(x)E(I(X)=E(-log2p(x)=x p(x)(-log2p(x)=H(X)H(X)=H(p)=Hp(X)=HX(p)=H(pX)第38页,共73页,编辑于2022年,星期二熵的例子掷均匀硬币,=H,Tp(H)=.5,p(T)=.5H(p)=-0.5log20.5+(-0.5log20.5)=132面的均匀骰子,掷骰子H(p)=-32(1/32)log2(
7、1/32)=5事实上,21=2,25=32(perplexity)掷不均匀硬币p(H)=0.2,p(T)=0.8,H(p)=0.722p(H)=0.01,p(T)=0.99,H(p)=0.081第39页,共73页,编辑于2022年,星期二好书店,差书店第40页,共73页,编辑于2022年,星期二什么时候H(p)=0?试验结果事先已经知道即:x,p(x)=1;y,p(y)=0 if yx熵有没有上限?没有一般的上限对于|=n,H(p)log2n均衡分布的熵是最大的第41页,共73页,编辑于2022年,星期二等概率分布2个输出的等概率分布,H(p)=1bit32个输出的等概率分布,H(p)=5bi
8、ts43亿输出的等概率分布,H(p)=32bits非等概率分布32个输出,2个0.5,其余为0,H(p)=1bit怎样比较具有不同数量输出的“熵”第42页,共73页,编辑于2022年,星期二混乱度Perplexity混乱度G(p)=2H(p)平均每次试验有多少种可能的结果在NLP中,如果词表中的词具有统一的分布概率,则最难预测,熵最大,混乱度最高反之,分布越不均衡,熵越小,混乱度越小第43页,共73页,编辑于2022年,星期二联合熵和条件熵两个随机变量:X(空间是),Y()联合熵(Joint Entropy)(X,Y)被视为一个事件H(X,Y)=-x yp(x,y)log2p(x,y)条件熵(
9、Conditional Entropy)H(Y|X)=-x yp(x,y)log2p(y|x)p(x,y)是加权,权值是没有条件的第44页,共73页,编辑于2022年,星期二条件熵H(Y|X)=xp(x)H(Y|X=x)=xp(x)(-yp(y|x)log2p(y|x)=-x yp(y|x)p(x)log2p(y|x)=-x yp(x,y)log2p(y|x)第45页,共73页,编辑于2022年,星期二熵的性质熵的非负的H(X)0Chain RuleH(X,Y)=H(Y|X)+H(X)H(X,Y)=H(X|Y)+H(Y)H(X,Y)H(X)+H(Y),X和Y独立时相等H(Y|X)H(Y),条件
10、熵比熵小第46页,共73页,编辑于2022年,星期二熵的编码意义如果一个符号序列是满足概率分布p的随机过程产生的,那么对这个序列进行编码至少需要的bit数是H(p)压缩问题如果数据中有很多重复的模式,则易于压缩,因为熵小否则,熵大,不容易压缩第47页,共73页,编辑于2022年,星期二编码实例怎样给ISO Latin 1编码?通常用8位经验表明:有的字符经常出现,有的字符很少出现我们可以给经常出现的字用较少的bit来表示,给很少出现的字符用较多的bit来表示假设:p(a)=0.3,p(b)=0.3,p(c)=0.3,其余p(x)=0.0004编码:a:00,b:01,c:10,其余:11b1b
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 自然语言 处理 基本概念 幻灯片
限制150内