茶籽含油量高光谱检测技术研究.pdf
茶籽含油量高光谱检测技术研究 摘 要:为了研究油茶籽含油量高光谱检测技术,本试验采用了神经网络、主成分分析法、偏最小二乘法等算法,分析处理了油茶籽的高光谱数据,提取相应特征值(面积参数)。对高光谱数据进行建模,通过模型预测油茶籽含油量的面积参数。通过预测面积与实际面积的偏差值,评价所建模型的预测能力。研究包括使用 FieldSpec HH 2 光谱仪测出 27 组油茶籽光谱,然后使用气相色谱法对样品进行标定,从而得到高光谱模型和实际含油量的对应关系,并进行外部验证。其具备对预测集油茶籽含油量的检测。关键词:近红外;ANN 神经网络;主成分分析;偏最小二乘法 2 Research on Detection of Camellia Oilfera Abel Seed Oleaginousness by Hyperspectral Technology Abstract:Artificial neural network,principal component analysis,partial least squares etc.were used to analyze the hyper spectral data of oil tea camellia for the research on detection of Camellia Oilfera Abel seeds oleaginousness by hyper spectral technology,extracting the appropriate characteristics(area parameters).As a result,a model was built to predict the area parameters of oil tea camellia seed oleaginousness successfully and to study the deviation of the forecast area and actual area,to evaluate the predictive ability of the model.The result proved the model was capable to achieve the detection of camellia seed oil content This approach was composed of four major procedures:Measuring spectrum corresponding to the 27 group of seed by the Field Spec HH2 hyper spectral instrument,Quantitative analysis of the sample by gas chromatography technology,Building a model of the correspondence between oleaginousness and spectral data and recalibrating externally.Especially,a novel methodology,model based on spectral analysis method,was proposed to accomplish measuring the obscured oleaginousness of Camellia Oilfera Abel seed by utilizing the property of model.Key words:NIR(Near Infrared Spectroscopy);ANN(Artificial Neural Network);PCA(Principal Component Analysis);PLS(Partial Least Squares)3 目 录 摘要1 关键词1 1 前言2 1.1 课题背景2 1.1.1 油茶籽的简介2 1.1.2 含油量检测技术的目的和意义2 1.2研究进展和国内外现状2 1.3研究内容与技术路线3 1.3.1 研究内容3 1.3.2 技术路线4 2 总体方案设计4 2.1近红外光谱定量分析理论依据 4 2.1.1 近红外光谱产生机理4 2.1.2 油茶籽分子光谱特性4 2.2试验原理5 2.3试验方案6 3 试验方法与过程6 3.1试验材料6 3.2样品的光谱采集7 3.3 采集的部分高光谱数据9 3.4高光谱数据处理的必要性11 4 油茶籽光谱特性12 4.1 分析软件和方法12 4.2 光谱数据预处理13 4 4.2.1 平滑处理提高信噪比13 4.2.2 峰值及峰位13 4.3 光谱数据降维17 4.3.1 PCA 降维17 4.3.2 NEWC 降维22 4.3.3 反射峰积分26 4.4 BP 神经网络建模 27 4.5 外部验证31 5 结束语32 参考文献33 致谢34 附录35 1 1 前言 1.1 课题背景 1.1.1 油茶籽的简介 茶油全称是油茶籽油,是油茶树(Camellia oleiferaAbel)所产富含脂肪的种子经压榨或浸提得到的植物油脂。茶油的高营养价值与其脂肪酸组成有关,茶油主要由脂肪酸组成,即油酸(C18:1)74%87%、亚油酸(C18:2)7.0%14%、饱和酸 7%11%1。故采用油茶籽油的特征指标即脂肪酸组成,作为油茶籽油真实属性的主要判定依据。茶油中油酸的含量为天然植物油中之冠,含有的亚油酸、亚麻酸等多不饱和脂肪酸为人体生长和生理活动不可缺少的必需脂肪酸,茶油食用后人体的消化吸收率达97%。优质茶油富含生理活性物质甾醇、生育酚、角鲨烯等,对提高人体抗病能力,延缓衰老等有重要作用2,其市场价格大约是普通食用油的 36 倍3。1.1.2 含油量检测技术的目的和意义 随着科技的进步和人们健康意识的增强,相比食品的色香味,人们更看重食品的营养价值和安全性。消费者普遍关心的是市售品牌油、散装油、以及餐饮用油的品质。近年来出口和国内市场的食用油脂中掺伪现象也日趋严重。茶油因其种类不同、营养价值不同而价格差异很大。一些生产经营者为了获取暴利,在高价茶油籽中掺入廉价的茶油籽。甚至还有的厂家将过期变质油茶籽掺入合格油茶籽中以次充好,但茶农和消费者很难从外观上识别掺杂的油茶籽。掺伪茶油籽不仅影响品质和营养成分,而且危害到茶农的利益和消费者的健康。为了保护合法生产经营者和消费者的利益,能否找到快速准确检测油茶籽品质和进行油茶籽种类鉴别的方法成为当务之急。传统的检测油茶籽含油量主要有理化检验方法、气相色谱法、高效液相色谱法及同位素比值法等方法。传统化学方法往往需要多种化学仪器和试剂,样品需要预处理,操作繁琐,耗时费力。因此,寻求出一种能快速、准确、在线、无损检测油茶籽品质的新方法对提高油茶籽市场实时质量监控能力,规范油茶籽市场,保障茶农权利等方面具有十分重要的意义。1.2 研究进展和国内外现状 国内外许多学者利用电学特性、声学特性、光学特性、声波振动特性、太赫兹、核磁共振、X 射线、电子鼻、机器视觉等技术对种子的品质进行无损检测4。种子品质无损检测是在不破坏被检测种子的情况下,应用一定的检测技术和分析方法对其外部特征和内部品质加以测定,并按一定的标准对其做出评价的过程。油茶籽含油量用传 2 统的检测方法进行测量费时、费力,且内部组织成分的测定需依靠破坏性检测方法,受人工影响较大,这严重影响了对油茶籽进行快速、无损、准确的评价。因此研究快速、无损、准确的油茶籽含油量的检测技术,对推动农业的健康、持续发展,提高油茶籽的交易价格,增加果农收入,具有十分重要的现实意义。众所周知,光谱分析是自然科学中一种重要的研究手段,光谱技术能检测到被测物体的物理结构、化学成分等指标。高光谱遥感技术在植被生化成分定量提取与作物农学参数估算研究上的逐步深入,高光谱数据与叶绿素含量(Chlorophyll Content,CH.C)、叶绿素密度(Chlorophyll Density,CH.D)等农学参数之间的相关关系的研究已日渐增多5。吴长山等通过微分光谱与水稻、玉米 CH.D 的相关分析,选出 CH.D 相关性高且受植被种类影响很小的特征波段,建立了统一的线性模型,模型精度达 80.6%6。国内有关含油率 NIR 模型分析的研究有油菜、玉米、黄豆、棉籽等植物油种类,如李钧等研究的油菜籽含油量 NIR模型的内部交叉验证的决定系数和均方差分别为 0.98 为 0.7557。方彦等建立的玉米NIR 模型其定标集、检验集的相关系数分别为 0.958 和 0.9578。这些模型都有很好的预测结果,为近红外光谱分析技术在植物油含量的快速检测奠定良好的理论基础。原姣姣等人1通以索氏提取法分析了30份油茶籽的含油量,通过多种预处理方法和回归方法建立了较精准的分析模型。其校正相关系数(RC)0.92567、外部验证系数(r)0.8978 其最优波段为 4200.204088.35 cm-1和 4666.894639.89 cm-1。这模型为高光谱检测技术的发展起到了积极的意义。近红外光谱定量和定性分析在农副产品及食品的研究方面有较广泛的研究,而关于高光谱在油茶籽品质检测与掺假鉴别分析尚无较深入的研究。1.3 研究内容与技术路线 1.3.1 研究内容 该课题研究目标是:采用不同的高光谱预处理,降维方法建模,得出最佳模型。具体的研究内容包括:(1)收集油茶籽样品,其中包括了含油量差别较大的品种。使茶油籽含油量的变幅尽可能包含待检测茶油籽的含油量,便于选出有代表性的样品参加标定计算。(2)采集油茶籽的高光谱。(3)对高光谱进行预处理,提高信噪比。(4)降维处理,便于软件分析。(5)特征值提取,对高光谱进行主成分分析,NEWC 和积分面积处理,提取其特 3 征值。(6)使用 BP 网络对高光谱进行建模。(7)外部验证,验证模型的可行性。1.3.2技术路线(1)选择有代表性的校正集样本,并测量其近红外光谱。(2)采用气相色谱法进行化学成分标定。(3)根据测量的光谱和化学数据通过合理的化学计量学方法建立校正模型。(4)根据校正模型对预测集样品的组成及性质进行测定。2 总体方案设计 2.1 近红外光谱定量分析理论依据 2.1.1 近红外光谱产生机理 在分子中,如果成键的两个原子的正负电荷中心不重合,这两个原子就形成一对电偶极子9。电偶极子以一定的频率振动时,能吸收光子,因而会对吸收谱产生影响。若某物质中的原子完全非极性且完全对称,该物质在不同波长处的吸收就相等,吸收谱就会是一条直线10。实际中的分子并非如此,其吸收谱中的每一波峰或每一波谷都反映了分子的组成结构特征。这就是光谱分析的物理基础。近红外波段的吸收一般是由质量最小的氢原子 H 引起。氢原子不仅能引起分子的基频吸收,还会产生非简谐振动并引起较强的倍频吸收11。H 基频吸收在 28003700cm-1,绝大多数倍频在 450025000cm-1,(约 4002200nm)内,40005500cm-1(约18002500nm)为合频区域。H 的基频和倍频与分子中的其它振动会产生了遍布整个近红外区域的合频吸收12。每个分子都会有许多个吸收带,吸收带的强弱还受分子浓度的影响,这是利用近红外光谱分析样品的浓度的化学基础13。2.1.2 油茶籽分子光谱特性 查找相关文献和化学分析方法,确定油茶籽中的主要成份为油酸1。根据红外光谱的波数范围为 1280010 cm-1(0.751000um)。近红外区处于可见区和中红外之间,吸收带主要是由低能电子跃进、含氢原子团(如 O-H、N-H、C-H)伸缩振动的倍频及组合频吸收。基于 O-H 伸缩振动的第一泛音吸收带出现在 7100 cm-1,可以测定各种试剂中的水分,以及甘油、肼、发烟硝酸等14,可以定量测定酚、醇、有机酸等。基于羟基伸缩的第一泛音吸收带出现在 33303600 cm-1,可以测定酯、酮。它的测量准确度与紫外、可见吸收光谱相当15。另外,漫反射可测定未处理的固体和液体试样,例如油茶籽16。4 在通常情况下,分子都处于基态振动,一般极性分子吸收红外光主要属于从基态到第一激发态之间的跃迁,其振动能量变化为 /2/khE (1)对应的谱带称为基频反射带或基本振动谱带,若用波数表示,可以表示成 /1370 k(cm-1)(2)其中由公式(2)可见键力常数 k 应采用 N.cm-1为单位,而 应采用原子质量单位(u)为单位。由公式(2)可见理论上油茶籽的油酸 C18H34O2的基频为:/k1370 =1370*sqrt(5.1/(18*12+34+32)*(18+34+2)=1353.873167 cm-1 根据这个公式可以测量各种类型的化学键力常数 k,一般来说单键常数的平均值约为 5N.cm-1,而双键和三键的键力常数分别大约是此值的两倍和三倍17。相反可以利用实验得到的键力常数的平均值估算吸收频率应为 2993cm-1而实际光谱实际测值为2885cm-1。由公式(2)可见化学键的力常数 k 越大,原子折合的质量 就越小,则原子间的振动频率就越高,吸收峰将出现在高波数区;反之,将出现在低波数区18。例如,叁键双键单键,吸收峰出现的位置不同;叁键(2222cm-1)双键(1667cm-1)单键(1429cm-1)此外多原子分子的振动,不仅包括双原子分子沿核-核的伸缩运动,还有键角渗入的各种可能的变形振动:伸缩运动和变形运动19。综上所述,油茶籽分子这种多原子分子,由于组成原子数目增多,加之分子原子排布情况的不同,及组成分子的键或基团和空间结构的不同,其振动光谱远比双原子复杂得多20,。故其光谱数据具有很多的变量。因此在分析油茶籽高光谱数据时,需对其进行优化,分离出相应分子的高光谱值,才能建立相应的模型。2.2 试验原理 本试验主要是检测油茶籽油脂肪酸含量。采用 NIR 数据结合气相色谱法测定的含量,建立高光谱与含油量的模型,从而达到快速用 NIR 测量油茶籽的含油量,甄别油茶籽的优劣属性20。高光谱的数据与油茶籽分子振动有密切的关系。分子的振动自由度可以通过红外光谱的吸收峰来体现。从原则上讲,每一个振动自由度相当于红外区的一个吸收峰,但实际的红外吸收峰的数目常少于振动自由度的数目。因为不伴随偶极变化的振动没 5 有红外吸收峰;振动频率相同的不同振动形式会重叠。在建立油茶籽模型之前,高光谱数据需要进行预处理,然后再利用优化之后光谱,分析出其相应的特性,建立高光谱数据与含油量的模型。检测未知油茶籽含油量,测量其光谱数据,并优化处理,进行模式识别即可得到含油量。2.3 试验方案 选取 27 种相同质量,不同品种的油茶籽并编号;在相同的光照、湿度和温度下,利用高光谱分析仪测量其对应的高光谱数据并记录;使用 ViewSpec 软件中的修正功能对数据进行修正,并生成.mat 文件;用 SPSS、SAS、MATLAB 等软件进行 PCA、NEWC、积分面积等分析,得到油茶籽的特性;使用气相色谱法对其进行含油量定标;结合实际油茶籽的含油量和高光谱数据特征值,用 BP 神经网络等进行建模分析,建立起高光谱与含油量的相关数据处理模型,从而实现利用高光谱对样品进行含油量的检测。图 1 总体方案框图 Fig.1 Diagram of the overall program 3 试验方法与过程 3.1 试验材料(1)样品筛选。27 组油茶籽样品(产自江西南昌、湖北武汉、江西平南、徐州、淮安等,部分样品产于长沙、常德市、益阳市、等地网购)。由于不同地区的生长条件诸如土壤、光照、温湿度、肥力、季节等因数的不同,所搜集的样品包括了含油量差别较大的品种。这样才能使茶油籽含油量的变幅尽可能包含待检测茶油籽的含油量,便于选出有代表性的样品参加标定计算。表 1 油茶籽的种类分布表 Table 1 Camellia species distribution table 编号 油茶籽产地 重量(500g)编号 油茶籽产地 重量(500g)1 江西南昌 1 15 湖北观音湖 2 2 湖北武汉 1 16 湖北仙居定顶 2 3 广西平南县 1 17 湖北木兰湖 2 4 徐州 1 18 湖北省阳新县 2 用已建的模型计算预测集样本的含油量 降维后的光谱和含油量建模 气相色谱法测量含油量 光谱数据 物理特性 27 组油茶籽样品 光谱使用SPSS、MATLAB等软件进行降维处理 模型的评价 6 5 淮安 1 19 湖北大悟山 2 编号 油茶籽产地 重量(500g)编号 油茶籽产地 重量(500g)6 山东日照 1 20 湖北小悟山 2 7 江苏宿迁 1 21 上海 1 8 广东沐阳 1 22 长沙县 14 9 广东梅州 1 23 长沙葵花山庄 4 10 江苏 1 24 长沙黄花机场 14 11 湖北随州 1 25 湖南绥宁 4 12 浏阳小河中学 1 26 广西柳州 1 13 江苏花卉种植园 1 27 福建 1 14 湖北悟峰 2 (2)样品制备。由于环境温度,特别是湿度对光谱测量有较大的影响,所以必须把环境温湿度控制在一定的范围内,以保证采集光谱过程中免受温湿度变化的影响。油茶籽中的水分对其他成分的标定的影响不可忽视,因为水的基频吸收带为 3650cm-1、3750cm-1(-OH 的对称与不对称伸缩振动)与 1595cm-1,而-OH 的合频吸收带为5160cm-1,故应使水分严格保持一致,才能获得稳定的光谱。其具体的实施办法是将待测的各组油茶籽在测量之前同时进行干燥。3.2 样品的光谱采集 试验采用 FieldSpec HandHeld 2 光谱仪(图 2)进行实验。图 2 FieldSpec HandHeld 2 光谱仪外表结构 Fig.2 Feature of the FieldSpec HandHeld 表 2 光谱仪的外部个接口 Table 2 Import and outport of the hyper spectrum instrument 序号 名称 序号 名称 1 25前视场角入光口 8 远处控制接口 2 激光瞄准器 9 电源接口 3 三角架连接口 10 操作屏(可转动)4 扳机连接口 11 电池槽,需 4 节 AA 电池 5 USB 迷你-B 接口,用于电脑控制光谱仪操作 12 选配瞄准镜连接处 6 USB 接口 13 电源接口 续表 1 7 7 USB 接口 14 操作屏(可转动)把光谱仪放到被测样品上方(注意:光谱仪的方位应当与采集白板参比光谱时相同),此时界面上显示的就是相对反射光谱;按拇指键存储当前的光谱曲线。保存完成后能够听到提示音;注意:保存数据时界面是否提示出现饱和。如果出现饱和则存储数据前必须重新优化。将光谱仪对准白板,并使得白板已经被最佳照明并且在镜头视场内只有白板。点击 OPT 图标优化光谱仪的积分时间。注意每间隔 15-20 分钟或者照明条件以及环境条件(比如云层覆盖、湿度变化、太阳移动等)改变时,重新优化对数据质量是有益处的。事实上,每次更换油茶籽采集光谱数据之前都重新优化;点击 DC/WR 图标,仪器会自动重新采集暗电流,几秒钟之后界面上显示一条反射率数值为1.00 的平直线,同时界面左上角显示R 字符如图 3;图 3 高光谱仪器界面 Fig.3 Workplace of the fieldSpec handheld 2 图 4 油茶籽含油量检测的现场图 Fig4.Scene of measuring the Camellia seeds oil content 8 3.3 采集的部分高光谱数据 表 3 五组高光谱 900930nm 数据 Table 3 Five groups of hyper spectral data through 900 to 930nm 波长 nm 第 1 组反射率(%)第 2 组反射率(%)第 3 组反射率(%)第 4 组反射率(%)第 5 组反射率(%)900 0.467 0.539 0.532 0.579 0.527 901 0.47 0.534 0.532 0.581 0.527 902 0.474 0.53 0.532 0.588 0.525 903 0.475 0.534 0.534 0.591 0.527 904 0.473 0.537 0.529 0.589 0.529 905 0.471 0.538 0.522 0.586 0.53 906 0.476 0.537 0.53 0.589 0.527 907 0.477 0.537 0.536 0.591 0.525 908 0.472 0.539 0.535 0.591 0.525 909 0.475 0.539 0.536 0.588 0.529 910 0.476 0.538 0.536 0.587 0.531 911 0.471 0.539 0.535 0.591 0.527 912 0.475 0.54 0.532 0.589 0.526 913 0.482 0.54 0.529 0.583 0.526 914 0.48 0.539 0.535 0.582 0.528 915 0.479 0.539 0.536 0.584 0.527 916 0.48 0.542 0.531 0.587 0.525 917 0.478 0.542 0.531 0.589 0.523 918 0.478 0.541 0.532 0.588 0.525 919 0.48 0.538 0.531 0.583 0.531 920 0.48 0.541 0.535 0.584 0.531 921 0.48 0.543 0.54 0.587 0.528 922 0.487 0.535 0.54 0.587 0.531 923 0.487 0.534 0.538 0.586 0.533 924 0.482 0.541 0.536 0.586 0.533 925 0.482 0.539 0.53 0.587 0.526 9 926 0.486 0.537 0.529 0.588 0.521 波长 nm 第 1 组反射率(%)第 2 组反射率(%)第 3 组反射率(%)第 4 组反射率(%)第 5 组反射率(%)927 0.489 0.538 0.534 0.588 0.526 928 0.489 0.541 0.534 0.59 0.529 929 0.489 0.54 0.531 0.591 0.527 930 0.474 0.53 0.532 0.588 0.525 注:其中光谱的反射率,为相对反射率,即测量的光谱值相对于白板校验光谱值的百分比。输入 MATLAB 后对其中的 4 组和 7 组直接描点。具体的程序如下:load(BP.mat)plot(P(:,4),:,LineWidth,2)hold on plot(P(:,7)%P 为优化后的 75127 矩阵的光谱数据 程序运行的结果如图 5 的左图所示。plot(P(:,5),:,LineWidth,2)hold on plot(P(:,6),LineWidth,3)hold on plot(P(:,8)程序运行如下图 5 的右图所示(其中横轴代表波长,纵轴代表相对反射率)。图 5 两组不同的高光谱数据 Fig.5 Two group of spectral data 续表 3 10 由图 5 的左图可见,第 4 组为实线表示的图形,而第 7 组数据为虚线表示的图形。可以看到高光谱子在 8001000nm 范围内,不同的波长段有不同的反射峰,具有很大的敏感度,能够利用相应的光谱特性来建立相应的模型。再由图 5 的右图可见,第 5 组为 2 号实线表示的图形,而第 6 组数据为 3 号实线表示的图形。第 8 组为最细的实线显示的图形,也可以看到高光谱子在 800900nm 范围内,有一个很明显的波峰,能够利用相应的此光谱特性来建立相应的模型。3.4 高光谱数据处理的必要性 1)在收集样品近红外光谱时,一些主要来自高频随机噪音、基线漂移、信号本底、样品颗粒大小和光散射等的噪音信息会随之带入光谱中,这将会严重干扰近红外反射强度与样品中各项指标的关系,并直接影响到近红外回归分析方程的可靠性和准确性。因此,在光谱分析时,应综合光谱预处理和数学处理来滤除这些噪音。本课题的油茶籽高光谱分析软件中,包括光谱预处理和数学处理,其中光谱预处理包括趋势变换法、标准正态变量转换(Transformation of Standard Normal Variable,简称 SNV)法等。趋势变换法是用一个人工模拟的模型(一般为多项式)来描述基线,然后将整个波长区每一点的光密度减去该点的基线值,用以消除基线的漂移。标准正态变量转换(SNV)即每个波长点处的光密度减去整个光谱区光密度的平均值,再除以整个波长区光密度的标准差,该转换方法可以减少非线性弯曲作用产生的偏差。数学处理主要有导数处理和平滑处理两种方法。其中导数处理可以提高光谱的分辨率以及减小基线的漂移,而平滑处理可以去掉高频噪音对光谱信号的干扰。对第 4 组的油茶籽数据的导数处理如图 6。图 6 一组高光谱数据的微分 Fig.6 Derivative of the reflection 由图 6 可见,光谱在短波和长波段,具有很够的离散性,具有很多光谱的特性。并且其导数也可以直接作为光谱的处理的原始数据,其抑制了对基线的漂移。11 2)光谱数据较大,例如每组油茶籽,采集 30 次光谱数据,每次采集 751 个数据,就是每组油茶籽对应 30751=22430 个值,每个值为四位浮点数。一般软件无法完成油茶籽高光谱数据计算,需要对其进行降维处理。本研究采用的算法有主成分分析方法、自竞争神经网络、积分面积等。采用降维处理后的数据,能够表征原谱图的特性,能够直接快速地使用这种特性进行分析研究。4 油茶籽光谱特性 4.1 分析软件和方法 近红外技术和其他分析技术一样有其长处,也有一定的局限性。例如因为近红外的反射率较低,不适宜做含量过低的样品、微量样品的显微分析。因为近红外光谱谱峰复杂重叠不宜进行官能团定性分析。因此,应注意近红外光谱分析技术的综合应用。例如为了实现对复杂物的综合品质性状的分析,需要运用多种仪器分析手段进行分析。对此可以运用“数据融合”(date fusion)技术,对多种仪器分析得到的信息在一定准则下加以综合、分析、过滤、相关与合成。本课题研究了 MLR(multiple linear regression,多元线性回归)、逐步回归(stepwise regression,SMR)、主成分分析(PCA)、主成分回归(principal component regression,PCR)与偏最小二乘法(PLS)、人工神经网络(ANN)和拓扑(Topological)等。MLR 和SMR 发在分析样品时只采用了一些特征波长点的光谱信息,其他点的信息被丢失,易产生模型的过适应性(over fitting)。PCR 和 PLS 的显著特点就是利用了全部的光谱信息,可以压缩所需要样品数量,将高度相关的波长点归于一个独立变量中,根据位数不多的独立变量建立回归方程,通过内部验证(cross validation)来防止过模型现象,比 MLR 和 SMR 分析精度高。油茶籽数据结果采用 SPSS 统计软件,其分析包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic 回归、Probit 回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程。SPSS 也有专门的绘图系统,可以根据数据绘制各种图形。很容易对光谱数据进行初步的处理,研究相关算法。因为油茶籽光谱的数据量很大,故使用MATLAB分析软件,使用Simulink Toolbox、Signal Processing Toolbox、神经网络工具箱等工具箱对光谱的数据进行分析处理。本研究是采用全波段进行回归分析构建回归方程,因此,需用一些标准来衡量回归方程的优劣。这些参数主要包括定标标准差、预测标准差、定标相关系数、预测相 12 关系数、定标决定系数、预测决定系数。构建回归方程时,一般要求相关系数与决定系数很高同时具有较小的各类标准差。4.2 光谱数据预处理 4.2.1 平滑处理提高信噪比 平滑技术是降低谱图噪声的一种方法,通过对数据做一定的数据平均计算,使误差重新分配,从而达到降低噪声的目的,尤其是降低高频噪声。可用于平滑技术的数学方法很多,本课题采用的是(Savitzky-Golay)法。它是根据最小二乘法而采用的多项式近似法,可选择不同的平滑点数。平滑点数又称平滑级数,必须是奇数值,如 5,7,9,11以 5 点平滑为例,它取第 15 个数据点的 5 个 Y值的平均值作为第 3 点的 Y 轴值;取第 26 点的 Y 值的平均值为第 4 点的 Y 值;取第 37 点的 Y 值的平均值为第 5 点的 Y 值;依次类推。这种平滑方法是将各数据点完全等同地进行处理,并不区分在峰尖与峰谷处的数据点的差别。这种数据处理方法可能会使谱峰变形,使峰值发生位移。平滑处理时所取级数愈高,信噪比得到改善的程度愈大,但是谱峰变形也愈严重,降低了光谱分辨率。、图 7 一组油茶籽光谱数据不同的平滑处理 Fig.7 Different scales of smoothing 图 7 的左图和右图是第四组油茶籽样品,分别采用的平滑级数为 5 和平滑级数为15 的时候对光谱的处理结果。从图中可以看出,左图光谱较右图显示更为精细的结构,平滑级数愈高,反射峰的失真愈多。但是平滑级数为 15 时同时反映了基本相同的特征信息,而且光谱较平滑,数据量较少。所以在相同有用信息的情况下,采用级数为 15,即右图的光谱。4.2.2 峰值及峰位(1)matlab 的拟合系数数目的选择。13 理论上一个振动的自由度,在红外光谱上相应产生一个基频反射带。实际上,绝大多数的化合物在红外光谱图上出现的波峰数,远小于理论上的波峰数,原因如下:没有偶极距变化的振动,不产生红外吸收,及非红外活性;相同频率的振动会重叠;仪器不能区别那些频率十分相近的振动,或因反射带很弱,仪器检测不出。峰值及反射峰峰尖的横坐标值,峰尖与峰谷的位置可通过多种数学方法计算出来。峰尖与峰谷的斜率变化均为 0,它们的位置可由一阶导数值确定,计算机由左到右对谱图逐步求导就可得到反射峰的峰尖和峰谷的位置。在红外光谱中常采用的坐标单位有横坐标以波数为单位的吸收峰、横坐标以波数为单位的投射谱、横坐标以波长为单位的吸收谱和横坐标以波长为单位的投射光谱四种情况。横坐标以波数为单位的吸收谱的横坐标值从左到右的波数值逐渐减小(例如中红外谱为 4000400cm-1),当计算机沿横坐标由左至右依次计算 dA/d 时,d 总是负值,在尖峰附近,dA 由正值变化为负值,一阶导数值相应的由负值变化为正值,其间导数值为 0 时相应横坐标值为吸收峰的峰值。当一阶导数值由正值变化为负值时,期间为 0值的相应横坐标值为峰谷的位置。横坐标以波数为单位的投射谱从左到右的 d 总是负值,当 dT/d 由正值变为负值,经过 0 值时所对应的横坐标值为峰位,一阶导数由负变正经 0 值时所对应的横坐标为峰谷位置。横坐标以波长为单位的吸收谱图从左到右其波长值逐渐增加,所以 d 总是正值,当一阶导数 dA/d 由正值变为负值其间经过 0值时所对应的横坐标为峰位,一阶导数由负值变正值经过 0 值时相应的横坐标值为峰谷位置。横坐标以波长为单位的投射谱的 d 总是正值。当一阶导数由负值变化为正值,经过导数值为 0 处相应的横坐标值为峰位;一阶导数由正值变化为负值,经过导数值为 0 处相应的横坐标为峰谷峰位。这些用一阶导数求峰值的方法对于连续函数是精确的,但是对于离散数据点组成的谱图就会有误差。数据点取得愈少,误差就愈大,即对于分辨率低的谱图,求出的峰值离真实值偏差越大。在油茶籽光谱处理中,计算机通过二次差值法找出峰值。对于一条油茶籽的光谱(采取平均采样间隔),用峰值附近的三个数据点的相应的强度1ia、ia与1ia就可以计算出峰强与峰位:)2(8)(11211iiiiiiMaaaaaaa (3)iiiiMaaa4)(11 (4)14 由式(3)(4)可见i是相应于 ai处的波长值,计算机通过每次取三个数据点、逐步右移一个数据点的方法比较每次求出的 aM值,最大的 aM值为峰强,其相应的波数值 M值为峰值(峰值位)。由于计算机不能区分噪声与反射峰,因此需输入一个阀值,凡大于该阀值的峰才被标出,这样可以避免噪声的干扰。例如 CH3(CH2)7CH=CH(CH2)7COOH 油酸为油茶籽的主要成份21。油酸 C18H34O2即 3(18+34+2)-6=318 个波峰,所以针对油茶籽的高光谱拟合的系数数目不能太少。(2)原始高光谱数据波峰的计算。编写程序计算单个原始数据波峰数目:for k=0 u=1:749%Y 中为油茶籽光谱的数据 b1=Y(u,1);b2=Y(u+1,1);b3=Y(u+2,1);%计算峰值点 if b2-b10&b3-b2k=k+1;end end k k=68(3)优化之后的波峰计算。Matlab 针对一个优化后的油茶籽高光谱数据进行波峰数目分析,得到的函数图像为图 8。相应的 matlab 程序为:clear load data x=325:1075;y=mean(P);%P 为优化之后的光谱矩阵 15 size(y)clear b m=1;n=1;for k=1:747 if y(1,k)y(1,k+2)&k-n5 b(m)=y(1,k+1);n=k;m=m+1;plot(x(k+1),y(1,k+1),o);hold on;end end plot(x,y,r)图 8 两组油茶籽波长和波峰图 Fig.8 Peak of two groups spectral data 图 8 为用近红外光谱扫描出的两组油茶籽样品的优化后的光谱图波峰分布图(波峰用图中的“O”表示,横坐标为光谱范围,纵坐标为反射强度)。从图中可见,在全光谱范围内,油菜籽在不同的波长段有不同的反射峰,这表明反射强度与所测定成分的含量成正比。因此,油茶籽的近红外光谱图可作为定量分析的依据。m=40 即有 m-1=39 个波峰,对应至少 39 种,优化后的 27 组光谱数据,其波峰数 16 目的处理结果(表 4)表 4 优化之后的每组油茶籽的光谱波峰数据 Table 4 Number of peaks after optimizing 组编号 波峰数目 组编号 波峰数目 组编号 波峰数目 1 53 10 48 19 43 2 53 11 45 20 51 3 47 12 42 21 40 4 56 13 40 22 52 5 55 14 35 23 52 6 48 15 46 24 57 7 48 16 47 25 43 8 51 17 54 26 54 9 56 18 54 27 48 由表 4 可知,27 组高光谱的光谱图的波峰数目大致相同,其主要原因是因为油茶籽的品质不同,其成分种类相差很大,从而导致不同的波峰数目。故可以从样品的波峰数据,进行相同的优化处理,分析其波峰数,就可以将光谱进行降维。综上所述,波峰数目反映了平滑处理后的数据特性。其表示了每组光谱的曲线拟合之后的,一阶导数的取值为的数目(见附录图 1),即待降维的光谱的基本特性。油茶籽的近红外光谱图可作为定量分析的依据。4.3 光谱数据降维 经典分析化学中利用标准曲线法进行浓度测定的过程仅以单点数据为测量点,如光谱以最大反射波长,而色谱则以面积等来表征仪器数据,这种方法失去很多有用数据。而且这种以单点测定的方法对油茶籽的矩阵型数据往往无能为力,对于较复杂的对象也往往是一筹莫展。另一方