第三节信息处理与数据挖掘技术优秀PPT.ppt
《第三节信息处理与数据挖掘技术优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第三节信息处理与数据挖掘技术优秀PPT.ppt(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三节信息处理与数据挖掘技术第一页,本课件共有26页一、化学计量学简介一、化学计量学简介a brief introduction of chemometrics化学计量学:化学与计算机结合的产物化学计量学:化学与计算机结合的产物1974年,Kowalski 与Wold 提出建立国际化学计量学协会任务:任务:运用数学和统计的方法设计或选择最佳测试过程和实验 通过化学数据分析提供更多化学信息。通过化学数据分析提供更多化学信息。范畴:范畴:纯化学与量子化学之间凡涉及计算和计算机的所有领域。应用举例:应用举例:大连湾海水污染物与污染源之间的关系;控制控制 由尿样获取身体健康状况的全部信息;简化简化 化
2、合物性质数据结构,结构与性质的关系;新药新药 产品质量检验生产中的问题;决策决策 犯罪现场的烟雾分析:香烟牌号,种类;破案破案第二页,本课件共有26页 二、二、信息评价信息评价 information appraise 分析仪器是分析化学家为获取化学信息所使用的工具,因此可以由信息理论来评价仪器的性能。1.1.信息量和熵信息量和熵 设设有有一一事事件件有有几几种种可可能能性性,他他们们各各自自的的概概率率为为p pi i,ShannonShannon定定义义信息熵信息熵:在在信信息息理理论论中中,习习惯惯取取“2”作作为为对对数数的的底底,此此时时单单位位为为bit(e为底,为底,nat)。设
3、有一具有两种可能性的等概率事件:设有一具有两种可能性的等概率事件:第三页,本课件共有26页信息量和熵信息量和熵 熵是事件不确定程度的度量,不确定程度越大,熵就越大。熵是事件不确定程度的度量,不确定程度越大,熵就越大。对于一个概率密度为对于一个概率密度为p p(x x)的连续型分布熵的定义为的连续型分布熵的定义为:信息的概念是与事件发生的概率相联系的,出现小概率事件信息的概念是与事件发生的概率相联系的,出现小概率事件所包含的信息量大,因此可定义所包含的信息量大,因此可定义信息量信息量:I=-lgpi 如果事件发生后的概率不等于如果事件发生后的概率不等于1,即它是不确定的,则信息量可,即它是不确定
4、的,则信息量可表示为:表示为:I=lg(qi/pi)式中式中 qi 是事件发生后的概率。是事件发生后的概率。第四页,本课件共有26页2.2.信息量与熵的关系信息量与熵的关系 如果通过某些方法获取信息使原来事件的不确定程度减如果通过某些方法获取信息使原来事件的不确定程度减小,所得到的信息的数量就是信息量,小,所得到的信息的数量就是信息量,故信息量就是熵减少的故信息量就是熵减少的量:量:I=H0-H式中式中 H0 和和H 分别表示获取分别表示获取“情报情报”前后,事件不确定程度。在分析前后,事件不确定程度。在分析化学中则是实验前后的熵。若经过实验后的结果完全确定,即实验后化学中则是实验前后的熵。若
5、经过实验后的结果完全确定,即实验后的熵的熵=0,则:,则:I=H0=Hmax即经过这样一个实验后,可能得到的最大信息量。即经过这样一个实验后,可能得到的最大信息量。第五页,本课件共有26页3.3.分析化学实验中的信息量与熵分析化学实验中的信息量与熵 在定性分析实验中,判断某一组分是否存在。在定性分析实验中,判断某一组分是否存在。实验前:实验前:概率:各为概率:各为1/21/2(实验前并无任何信息)(实验前并无任何信息)H H0 0=1 bit=1 bit实验后:实验后:H H=0=0故信息量:故信息量:I I=H H0 0-H H=1 bit=1 bit如果采用仪器分析定性,不能将全部组分检测
6、出,如何确定?如果采用仪器分析定性,不能将全部组分检测出,如何确定?例:原子吸收测定含铜、锌试样例:原子吸收测定含铜、锌试样(组成未知组成未知)。仅测定出仅测定出CuCu2+2+时的信息量,测定出时的信息量,测定出CuCu2+2+、Zn Zn2+2+时的信息量分别时的信息量分别是多少?(阴离子不能检测)。是多少?(阴离子不能检测)。第六页,本课件共有26页4.4.定量分析中有关参数与信息量定量分析中有关参数与信息量 在定量分析实验中,如果实验前知道某一组分的大致范围时,在定量分析实验中,如果实验前知道某一组分的大致范围时,即即p p(x x)均匀地分布在均匀地分布在(x x1 1,x x2 2
7、)区间内,则:区间内,则:由于分析中偶然误差的存在,结果不可能是一定值而成正态分由于分析中偶然误差的存在,结果不可能是一定值而成正态分布。设其标准偏差为布。设其标准偏差为,则:,则:第七页,本课件共有26页于是:于是:越小,信息量越大。实验中增大信息量的途径?越小,信息量越大。实验中增大信息量的途径?减少干扰、提高仪器灵敏度、减小噪声、增加测定次数等。减少干扰、提高仪器灵敏度、减小噪声、增加测定次数等。第八页,本课件共有26页5.5.仪器的最大信息量仪器的最大信息量 分析仪器通常有一测定限分析仪器通常有一测定限c cminmin,待测试样浓度低于此值时,不待测试样浓度低于此值时,不能用该仪器测
8、定。该仪器实验前的熵为:能用该仪器测定。该仪器实验前的熵为:c c 为仪器能分辨的最小浓度差,实际的信息量:为仪器能分辨的最小浓度差,实际的信息量:第九页,本课件共有26页 对于多通道的仪器,可以有对于多通道的仪器,可以有n n个通道同时测定个通道同时测定n种组分,种组分,其总的信息量是各通道的信息量之和:其总的信息量是各通道的信息量之和:单位时间内信息量的变化称为信息流:单位时间内信息量的变化称为信息流:理想的分析仪器应该在很短的时间内获得很大的信息量。理想的分析仪器应该在很短的时间内获得很大的信息量。第十页,本课件共有26页6.6.仪器的效率和剩余度仪器的效率和剩余度 仪器的效率可用剩余度
9、来衡量。剩余度的定义:仪器的效率可用剩余度来衡量。剩余度的定义:R=Hman H 剩余度是熵偏离其最大值的度量。熵的一个重要性质是剩余度是熵偏离其最大值的度量。熵的一个重要性质是当所有的可能性都是等概率时,熵有最大值。当所有的可能性都是等概率时,熵有最大值。在定量分析中,如果试样中待测组分的含量完全是未知的,在定量分析中,如果试样中待测组分的含量完全是未知的,则其可能的含量为则其可能的含量为0 0100%100%,故:,故:第十一页,本课件共有26页仪器的效率和剩余度仪器的效率和剩余度 在分析仪器中,剩余度常被定义为:在分析仪器中,剩余度常被定义为:R=Iman I 即它是分析过程中被保留,未
10、被利用的信息量的度量。剩余度大即它是分析过程中被保留,未被利用的信息量的度量。剩余度大表示该仪器的效率低。表示该仪器的效率低。分析时,一般样品的大致含量范围总是知道的,设其范围为分析时,一般样品的大致含量范围总是知道的,设其范围为x x1 1x x2 2。故:故:则:则:第十二页,本课件共有26页三、信号与噪声三、信号与噪声signal and noise本底信号本底信号:没有试样时,仪器产生的信号;随机噪声;没有试样时,仪器产生的信号;随机噪声;空白信号空白信号:试样中无待测组分时,仪器产生的信号;试样中无待测组分时,仪器产生的信号;试样预处理试样预处理:空白信号接近本底信号;空白信号接近本
11、底信号;第十三页,本课件共有26页1.1.检出限检出限 样品的信号能被检出的最低限;由于存在随机噪声(正态样品的信号能被检出的最低限;由于存在随机噪声(正态分布),有误判的可能;分布),有误判的可能;如何规定检出限使误判产生的几率符合要求如何规定检出限使误判产生的几率符合要求(统计学统计学),1969年,国际原子吸收光谱会议;年,国际原子吸收光谱会议;yB+3 B 1975年,年,IUPAC;yB+2 B 保险检出限:保险检出限:yB+6 B 数学期望值数学期望值yB;标准偏差;标准偏差 B定义:定义:以一定的置信度检出待测组分的最低浓度(或量)以一定的置信度检出待测组分的最低浓度(或量)yA
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 三节 信息处理 数据 挖掘 技术 优秀 PPT
限制150内