血糖近红外光谱分析的 平滑模式与.pdf
《血糖近红外光谱分析的 平滑模式与.pdf》由会员分享,可在线阅读,更多相关《血糖近红外光谱分析的 平滑模式与.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、DOI:10.3724/SP.J.1096.2010.00342血糖近红外光谱分析的 Savitzky-Golay 平滑模式与偏最小二乘法因子数的联合优选谢 军1潘 涛*1陈洁梅2陈华舟1,3任小焕11(广东省高等学校光电信息与传感技术重点实验室(暨南大学),广州 510632)2(暨南大学生物工程学系,广州 510632)3(上海大学数学系,上海 200444)摘要利用偏最小二乘法(PLS)和光谱 Savitzky-Golay(SG)平滑方法,建立血清葡萄糖近红外光谱分析的优化模型。基于最优单波数模型的预测效果,提出划分校正集和验证集的一种新方法。采用 10000 5300cm1和 4920
2、 4160 cm1的组合波段,光谱经过 SG 平滑处理,利用 PLS 方法建立定标预测模型。将平滑点数扩充为 5,7,87(奇数),多项式次数扩充为 n=2,3,4,5,6,得到包含582 个平滑模式的14 个平滑系数表。对所有平滑模式和 PLS 因子数(1 40)分别建立 PLS 模型。按照预测效果进行优选,得到最优 SG 平滑模式为1 阶导数平滑,3、4 次多项式类型,SG 平滑点数为 53,最优 PLS 因子数为 7,最优 RMSEP 达到 0.376 mmol/L。所采用的划分校正集和验证集的方法、SG 平滑模式的扩充、SG 平滑模式和 PLS 因子数的联合大范围筛选能够有效地应用于近
3、红外光谱分析的模型优化。关键词血糖;近红外光谱;偏最小二乘法;Savitzky-Golay 平滑;校正集验证集划分2009-06-19 收稿;2009-09-12 接受本文系国家自然科学基金(No.10771087)、广东省自然科学基金(No.7005948)、广东省科技计划项目(Nos.2007A020905001,2007B030501008,2007B020714001)、广州市科技攻关项目(No.2007Z3-E0281)资助*E-mail:tpan 1引言随着光谱技术和化学计量学的快速发展,近红外光谱以其分析效率高、速度快、成本低、非破坏性和易于在线分析等特点已广泛应用于农业、食品、
4、烟草、医药等领域 1,2。模型优化对于提高近红外光谱预测能力具有重要意义。偏最小二乘法(PLS)是融合主成分分析和多元线性回归的一种有效的化学计量学方法 1 7,其中合理选用 PLS 因子数,对于充分利用光谱信息和消除噪声非常重要。在光谱预处理中,平滑可以保留光谱轮廓而消除噪声,求导则可以有效消除基线漂移、倾斜等噪声。Savitzky-Golay(SG)方法是应用十分广泛而有效的平滑和求导预处理方法 8 11。按照导数阶数(平滑看成 0 阶求导)、多项式次数和平滑点数的不同,SG 平滑模式有很多种,计算公式也各不相同。其中平滑点数的设置非常重要,点数过少容易产生新误差,点数过多则容易使包含信息
5、的光谱数据磨光丢失,都会造成模型精度下降。根据预测效果对 SG 平滑模式与 PLS 因子数联合筛选是很有必要的,但由于工作量庞大,既往的研究很少做到这一步。另一方面,考虑到有些实际测量体系可能需要更多的平滑点数,比如测量数据波长间隔小的情形,相邻波长点的数据过于相似,点数少的平滑效果往往不够好。为了拓宽适用范围,有必要按照原始论文的方法 8扩充平滑系数表。血糖近红外光谱分析及其模型优化是很重要的研究方向 3,4。本实验以血糖近红外光谱分析为例,研究 SG 平滑模式与 PLS 因子数的联合优化设计在近红外光谱分析模型优化中的作用。为了改善模型预测能力,基于最优单波数模型提出了划分校正集和验证集的
6、新方法。2实验部分2.1实验材料、仪器和测量方法191 份血清样品由广州市某医院提供,样品葡萄糖的含量由全自动生化分析仪测定作为光谱分析的参考化学值。全体化学值范围 3.53 6.15 mmol/L,均值、标准偏差分别为 4.90 和 0.59 mmol/L。实验仪器为 5700 傅里叶变换型近红外光谱仪(美国 Necolet 公司),探测器为铟镓砷(InGaAs)。用光程第 38 卷2010 年 3 月分析化学(FENXI HUAXUE)研究报告Chinese Journal of Analytical Chemistry第 3 期342 3462 mm 的石英比色皿测量光谱,扫描谱区 10
7、000 4000 cm1,分辨率 4 cm1,扫描次数 64。2.2校正集和验证集的划分方法基于全体样品最优单波数模型的预测效果给出划分校正集验证集的一种新方法。根据比尔定律,考虑血清样品吸光度与葡萄糖化学值的单波数线性模型A(v)=k(v)C+(1)其中,A(v)为样品在波数 v 的吸光度,k(v)为在波数 v 的葡萄糖单位浓度吸光系数,C 为样品的葡萄糖浓度化学值,为其它未知干扰。在每个波数 v,利用全体样品的吸光度和化学值回归计算 k(v),再利用 k(v)和样品吸光度计算样品 i 的预测值 Ci(v)(i=1,2,N),N 是全体样品个数。进一步计算预测值与化学值的均方根偏差(RMSE
8、),设 Ci为样品 i 的化学值,则RMSE(v)=Ni=1(Ci(v)(Ci)2N 槡1(2)按 RMSE 值最小选出最优单波数模型和相应波数 vOptimal,根据最优单波数模型计算每个样品的浓度预测值与化学值的偏差,称为单波数预测偏差(Single wavenumber prediction bias,SWPB)。SWPBi=|Ci(vOptimal)Ci|,i=1,2,N(3)SWPB 是吸光度和化学值的一种关联指标,根据 SWPB 划分校正集检验集,利用计算程序筛选使两个集合的 SWPB 分布一致(均值和标准偏差相近,相对误差小于 1%)。将化学值和光谱数据结合起来使校正集验证集具有
9、相似性,从而具有建模代表性。为了使得校正集浓度范围能够涵盖验证集浓度范围,将化学值最大和最小的样品放在校正集,化学值次大次小的样品放在验证集。2.3SG 平滑方法SG 平滑的参数包括导数阶数 s、多项式次数 n 和平滑点数 2m+1。SG 平滑把光谱区间的若干个连续点作为一个窗口,窗口内每点用多项式(以点的编号 0,1,2,为变量)来做实测数据的最小二乘拟合。拟合后,多项式在编号为 0(中心点)的值就是 SG 平滑值,多项式对编号求导后在编号为 0(中心点)的值就是 SG 导数值。按上述程序,窗口中心点的平滑值和各阶导数值都可以表示为窗口内各点实测数据的线性组合。线性组合的系数(即平滑系数)由
10、平滑点数(即窗口内的点数)、多项式次数和导数阶数唯一确定。通过窗口移动,得到每个窗口中心点的平滑值和各阶导数值,从而得到原谱的 SG 平滑谱和 SG 导数谱。为了拓宽应用范围,本研究将平滑点数从原有的 5 25 之间奇数 8扩充为 5 87 之间的奇数,多项式次数扩充为 n=2,3,4,5,6(原为 n=2,3,4,5),按照原方法 8编写程序计算,得到14 个涵盖原有平滑系数的平滑系数表,共有 582 个平滑模式(原有 117 个),是适用范围更宽的 SG 平滑预处理群。2.4模型的评价指标模型评价指标主要包括预测均方根偏差(RMSEP)和预测相关系数(RP)RMSEP=Mi=1(Cip C
11、ip)2M 槡1,Rp=Mi=1(Cip Cmp)(Cip Cmp)Mi=1(Cip Cmp)2Mi=1(Cip Cmp)槡2(4)其中,Cip和 Cip分别为验证集中第 i 个样品的预测值和化学值,Cmp和 Cmp分别为验证集样品的预测值均值和化学值均值,M 为验证集的样品个数。RP与 RMSEP 是有一定关联的,RMSEP 值低,RP一般也较高。本研究以 RMSEP 为优化目标来进行参数设计和模型优选。3结果与讨论3.1样品光谱、校正集和和验证集的划分191 个血清样品的近红外光谱如图 1 所示。光谱在 6900 和 5200 cm1附近有水分子的强烈吸收,除了水的吸收峰外没有其它显著的吸
12、收峰,光谱重叠严重,吸收较弱。考虑到在5200 和4000 cm1附近343第 3 期谢 军等:血糖近红外光谱分析的 Savitzky-Golay 平滑模式与偏最小二乘法因子数的联合优选吸收强烈,光谱能量低,信息含量差,噪音大,故把这两段(吸光度高于 2 的波段)光谱数据扣除后用于建模。用于建模的光谱波段是 10000 5300 cm1和 4920 4160 cm1两段的组合。按照 2.2 节的方法,建立每个波数点的吸光度和化学值的单波数模型,按照 RMSE 最小找到最优波数 vOptimal为 7232 cm1。根据 7232 cm1对应的最优单波数模型计算每个样品的SWPB,全体样品的SW
13、PB 和化学值分布如图 2 所示。由图 2 可见,全体样品的化学值和 SWPB 分布均匀,无显著的异常样品。因此,全体样品都用于建模。按照大约 21 的比例,校正集 131 个样品,验证集 60 个样品,按照2.2 节方法划分校正集验证集,得到的校正集验证集的 SWPB、化学值的均值和标准偏差如表 1 所示。表 1 和图 2 都表明,校正集验证集的化学值和 SWPB 分布都非常一致。图 1191 个血清样品的近红外光谱Fig.1Near-infrared spectra of 191 serum samples图 2SWPB 与化学值的分布Fig.2Distribution of single
14、 wavenumber prediction bias(SWPB)and chemical values表 1校正集验证集 SWPB、化学值的均值和标准偏差Table 1Mean and standard deviation of SWPB and chemicalvalue in calibration set and prediction set化学值 Chemical value均值Mean标准偏差Standarddeviation单波数预测偏差 SWPB均值Mean标准偏差Standarddeviation校正集Calibration set4.910.590.4300.294验证集P
15、rediction set4.870.600.4280.2953.2SG 平滑模式与 PLS 因子数的联合优选为了比较,在 SG 平滑前直接 PLS 方法建模。采用 10000 5300 cm1和 4920 4160cm1组合波段,PLS 因子数设置从 1 到 40,按照 RMSEP 最小遴选最优因子数为 8,最优RMSEP 值为 0.423 mmol/L。此结果优于既往的血清葡萄糖近红外光谱分析效果 3,4。由 此说明,所采用的组合波段(10000 5300 cm1和 4920 4160 cm1)和校正集验证集的划分方法具有良好建模代表性和预测效果。建立计算机算法平台,把全部 582 种 S
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 血糖近红外光谱分析的 平滑模式与 血糖 红外 光谱分析 平滑 模式
限制150内