近红外建模与模型评价.ppt
近红外检测技术的建模(校准)近红外检测技术的建模(校准)联系方式联系方式倪勇 E-mail:MSN:校准=教会仪器近红外光谱定量分析技术又称“黑匣子黑匣子”分析技术,是一种间接的测量方法,即通过对样品光谱和其质量参数进行关联,建立预测模型,然后通过预测模型和未知质量参数的样品光谱来预测样品的组成和性质。近红外是间接检测必需校准必需有参考分析方法近红外技术应用前提条件近红外技术应用前提条件 一般来讲,能否应用近红外技术定量精确检测某种成分的含量主要由以下三方面的因素决定:1.被检测的样品是否有很好的近红外光谱反应特性,即通常所说的“红外活性”。2.仪器自身的特性及相关的技术指标:检测过程中光谱的重复性精度、信噪比以及波长范围等因素。3.用于建模定标的样品的化学值的准确程度。检测 精度=重复性准确度=达到真值的能力精度高准确性高精度高准确性差精度差准确性差不同实验室比较资料来源:CCFRA 合作研究项目,1997什么是校准&描述特定近红外波长光的吸收特性和样品组 成之间的关系。Y=C0+C1*A1+C2*A2+Cn*An 红外光谱定量分析流程红外光谱定量分析流程 光谱定量分析流程收集样品加入界外点重新建模检查分析方法检修仪器日常分析对模型进行评价建立多元回归模型选择验证集选择校正集对光谱必要的处理测定全波长谱图测定全部样品的物化性质检测结果是否正确仪器及操作是否正确样品是否为界外点正确不正确不是是正确不正确校正模型训练集样品的选择F尽可能要覆盖待分析样品的范围F对于待测的物化性质,样品应均匀分布F样品的基底应相同(如PH值或水分)F若各组分间相互反应,要注意光谱采集合采集瞬间的组成变化F包括尽可能多的有代表性的样本F样本变化范围越大,模型的适用范围越宽,但分析结果的精度可能变差;模型适用范围小时,分析结果的精度相对较高,但适用面变窄。对样品物化性质的测定F对于人工合成样品,比较简单F对于复杂的天然产品,必须选用被大家接受权威的分析方法。F模型预测结果的准确性在很大程度上取决于标准测量结果的准确性。F用多次分析结果的平均值来降低误差影响近红外分析结果准确性因素影响近红外分析结果准确性因素实验室化学分析的准确度实验室化学分析的准确度代表性样品的收集代表性样品的收集光谱的信噪比光谱的信噪比光谱信息的代表性光谱信息的代表性环境与样品前处理环境与样品前处理模型优化的条件模型优化的条件包括:谱区的选择、光谱预处理方法和包括:谱区的选择、光谱预处理方法和得分因子的维数等。得分因子的维数等。化学计量学方法在近红外光谱中应用化学计量学方法在近红外光谱中应用 光谱预处理和波段的选择方法:包括傅立叶变换(Fourier transform)、卷积(Convolution)、去卷积(Deconvolution)、微分(derivative)处理以及相关系数法、遗传算法(GA)等方法,对光谱进行平滑处理和基线校正,以及光谱波长范围的优化。如近期的移动窗偏最小二乘回归法。光谱预处理和波长优选方法在近红外光谱分析技术中是相当重要的.主成分分析(PCA)、马氏距离(MD)、聚类分析(CA)、多元线性回归(MLR)、偏最小二乘法(PLS)、人工神经网络(ANN)和拓扑(Topological)方法,以及最近提出的支持向量机(Support vector machine)等。目的在于利用这些化学计量学方法建立稳定、可靠的定性或定量分析模型,以对近红外光谱进行快速、实时的定性定量分析 近红外光谱定性和定量校正方法:建模常用化学计量学方法建模常用化学计量学方法多元线性回归(Multivarate Linear Regression,缩写为MLR)主成分分析(Principle Component Analysis,缩写为PCA)主成分回归(Principle Component Regression,缩写为PCR)偏最小二乘法(Partial Least Square,缩写为PLS)拓扑学方法和人工神经网络方法(Artificial Neural Net,缩写为ANN)等等。化学计量学已经成为近红外光谱分析中的不可或缺的重要组成部分。主成分分析和偏最小二乘是经典的化学计量学方法,也是在近红外光谱分析中最常用的方法。PCA是在近红外定性和定量分析中都常用的方法,其主要目的是数据降维,以消除近红外光谱信息中相互重叠的部分,是将光谱数据向协方差最大方向投影,得到最大限度反映被测样品的组成和结构信息的新变量,但由于投影过程与因变量不相关,一般预测精度不很高。用PLS建立模型,可以利用全部光谱的信息对样品进行分析,将光谱矩阵的分解和回归交互进行,由于光谱的非线性会导致过拟合,因此在近红外光谱的应用有时会受到限制。将支持向量机用于近红外光谱可有效地改善过拟合现象,而且它允许高维数据作为输入矢量,可以很好地解决温度等变量引起的光谱非线性变化问题。因此,对于每一种化学计量学方法而言,都有各自的长处和短处,在用于近红外光谱时可能受到某些限制。目前已有研究者将这些方法相互结合,取长补短,再将其应用于近红外光谱分析技术中。化学计量学方法用于近红外光谱中,使近红外的独特优势得到了充分发挥。建模方法研究v基于基于SVM的近红外定性建模方法的近红外定性建模方法 提出了将近红外光谱技术(NIR)和基于统计学习理论的支持向量机(SVM)相结合,来建立识别合格/劣质奶粉的近红外定性模型。实验结果表明应用SVM-NIR建立判别奶粉安全定性分析模型的方法是可行的,这将为奶粉安全判别分析提供了一种更为便捷,无损的绿色分析技术。SVM分类器分类器NIR建模中的化学计量学方法研究建模中的化学计量学方法研究v建模方法PLS、SVR、consensus modeling v光谱预处理背景扣除、数据压缩 小波变换(WT)变量筛选/波长筛选 WT-UVE、WT-IPOWv建模样本筛选一、小波变换用于数据压缩和背景扣一、小波变换用于数据压缩和背景扣除除v小波变换内积 卷积投影 滤波数据压缩 滤噪、不同分辨率成分提取共识(共识(consensus)算法)算法传统的多元校正技术,如PLS、PCR,一般采用单一模型,即首先采用一定的训练集建立一个最优模型然后用于预测,当训练集样本数目有限或存在较大误差时模型的预测精度与稳定性往往达不到满意的效果。共识策略(consensus strategy)采用同一训练集中的不同子集建立多个模型同时进行预测,将多个预测结果通过简单平均或加权平均作为最终的预测结果,可获得更高的预测精度和稳定性。快速建模的基本过程快速建模的基本过程1、选取少量样品(如20个)建立基础模型(注意实时性、样品选择、环境控制、化学参考值精度控制等)2、使用基础模型预测新的样品,粗选特异点,补充基础数据库。3、使用新的数据库建立新的校准,更新模型,提高精度与适用度。4、使用初期要养成将比对样品加入基础数据库中的习惯。5、本地化模型以100200个样品为宜。保证模型精度条件保证模型精度条件实时性:实时性:很多样品的某些成分会随着时间或环境变化而发生改变,如对于最常见的水分含量就受环境的温湿度影响。所以要求建模过程尽量保证实时性,即将扫描与化学分析同步进行。一些常见的积攒样品集中建模的方法并不科学。对于DA7200来说,建立一个很基础的模型只需要很少量的样品,但可以在今后逐步补充新的样品,这一过程可以在分析验证的同时自然完成,所以不要认为建模是突击性的短期行为。样品筛选样品筛选:建模用的样品并不是越多越好,样品的收集过程也并不是一个无止境的过程。样品的化学值尽量要涵盖将来要分析的未知样品的范围,并且在该范围内分布均匀,样品的品种本身具有较强的代表性,这样建立的模型并不一定使用很多的样品(通常100个左右),就可以在长时间内保证好的适用度。化学结果的精度保证:化学结果的精度保证:对于用户来说,这一环节是建模过程中最重要的一步。因为化学结果是近红外检测的数据基础,所以化学结果的精度直接决定近红外的精度,从过去的经验来讲,可以采取以下措施控制化学值:1、建模样品的化学值要尽量来自于同一个化验室,如果必须使用多家实验室的结果,也要使用统一标准后的检验结果(如实验室间的集团环比结果很好或使用标准样品先统一结果,消除实验室间的系统误差)。2、实验室的双试验结果应当满足国家标准,如果结果不好,需要进行多次检验以验证结果。但这并不足以保证检测结果的准确性,一定要做到不同的检验人员进行盲双试样检测的重复性精度也达到要求,如果不满足,则最好选用有经验的化验人员独立检验为仪器提供建模基础数据。3、为了减少建模的工作量,可以使用初步的模型对样品进行粗选,然后选取代表性强且梯度含量好的样品进一步做化学法检测。4、对于没有条件的实验室,可以先收集样品,然后通过与有条件的实验室合作建立实用的检验模型。5、任何模型都有其适用范围,万能的通用模型是不存在的,适用度往往是以牺牲精度为前提的,所以还是建议尽量建立独立的适用于本企业的近红外模型。测量条件:测量条件:测量条件的控制将影响仪器的自身精度,主要包括:检测环境条件控制样品的前处理方法检测装样过程控制等 特别提醒特别提醒1、好的曲线需要不断维护:增加新的样品以提高适用度。但不需要特别添加普通数据,要添加的样品应该是影响模型精度的样品(截距调整的节点),只需要养成将日常比对的有标准化学值的样品加入数据库即可。2、要建立一个基础收集数据库,最好养成统一命名的习惯以便后续查询。特别提醒特别提醒3、样品的收集周期持续半年到一年的时间为宜,这样不但可以扩展曲线范围,而且可以很好克服环境变化的影响。多个品种的样品要同时收集。4、对于温差变化较大的实验室环境和检测液体样品的情况,需要加入温度补偿样品以克服温度的影响。特别提醒特别提醒5、对于有条件自己建模的用户可以建立自己的校准模型。但如果使用Grams不够熟练,可以将基础数据库发给我们公司,我们将协助建模,但务必保证数据库的完整性和条理性。6、在收集几十个样品(30个以上)后就要建立初级模型,以便从初级模型上就可以看出误差来源以便解决,以免造成工作上不必要的浪费。模型不好!模型不好!模型一般!模型一般!模型很好模型很好异黄酮曲线异黄酮曲线精选49个样品建立的液态赖氨酸发酵液中赖氨酸含量预测模型的近红外值与实验室值的相关性浓缩磷脂丙酮不溶物近红外检测值与实浓缩磷脂丙酮不溶物近红外检测值与实验室值的相关性验室值的相关性R2整粒花生的含油近红外预测值与实验室整粒花生的含油近红外预测值与实验室值的相关性值的相关性 小麦蛋白曲线小麦面筋曲线准确度和精确度准确度和精确度准确度表示分析结果与真实值之间的接近程度。准确度表示分析结果与真实值之间的接近程度。分析结果与真实值之间的差值称误差分析结果与真实值之间的差值称误差精确度表示各次分析结果相互接近的程度精确度表示各次分析结果相互接近的程度精确度分为重复性精确度分为重复性Repeatability和再现性和再现性Reproducibility重复性表示同一分析人员在同一条件下所得分析结果的精确重复性表示同一分析人员在同一条件下所得分析结果的精确度度再现性表示不同分析人员或不同实验室之间在各自的条件下再现性表示不同分析人员或不同实验室之间在各自的条件下所得到的精确度所得到的精确度近红外与标准方法分析近红外与标准方法分析 近红外分析准确度无论如何也不会比对定标样品集标准分析法分析的准确度高.标准方法和近红外方法准确度标准方法和近红外方法准确度.5倍倍近红外方法的精度优于实验室标准方近红外方法的精度优于实验室标准方法(显著特点)法(显著特点)准确度和精确度准确度和精确度准确度表示分析结果与真实值之间的接近程度。准确度表示分析结果与真实值之间的接近程度。分析结果与真实值之间的差值称误差分析结果与真实值之间的差值称误差精确度表示各次分析结果相互接近的程度精确度表示各次分析结果相互接近的程度精确度分为重复性精确度分为重复性RepeatabilityRepeatability和再现性和再现性ReproducibilityReproducibility重复性表示同一分析人员在同一条件下所得分析结果的精密重复性表示同一分析人员在同一条件下所得分析结果的精密度度再现性表示不同分析人员或不同实验室之间在各自的条件下再现性表示不同分析人员或不同实验室之间在各自的条件下所得到的精密度所得到的精密度标准偏差与变异系数标准偏差与变异系数采用标准标准偏差可将更大的偏差显著的反应出来,采用标准标准偏差可将更大的偏差显著的反应出来,更能说明数据的离散度更能说明数据的离散度 标准偏差标准偏差平均偏差平均偏差相对标准偏差又称为变异系数相对标准偏差又称为变异系数在没有系统误差的前提下,标准方法准确度近似精确在没有系统误差的前提下,标准方法准确度近似精确度度校正模型的评价残差E校正集标准样品化学值测定误差SES相关系数R Correlation 定标相关系数定标相关系数自预测标准偏差RMSEE预测均方根误差RMSEC交互验证标准偏差RMSECV校正均方根误差RMSEP校正集(预测集)样品的标准差SEC/SEP预测残差平方和PRESS误差分类误差分类对于各种原因导致的误差,根据其性质对于各种原因导致的误差,根据其性质不同,可以区分为系统误差和随机误差不同,可以区分为系统误差和随机误差两大类两大类系统误差系统误差 方法误差方法误差仪器和试剂误差仪器和试剂误差操作误差操作误差随机误差随机误差