红外光谱是利用物质分子对红外辐射的选择性吸收,用红外分光光度计测得的包含物质分子结构信息的光谱图。由于红外光谱具有特征性强、取样量小、简便迅速、准确等特点,近年来其应用得到较快的发展,各国药典都将红外光谱作为法定的药物鉴别的主要方法,与此同时也越来越多地应用于中药材的识别研究。
中医药是我国的传统医学宝库,中药药性理论是传统医药的核心理论之一,是中华医学理论体系中的一个重要组成部分。对中药药性的研究自古有之[1~3],并已成为指导中药的指导原则[4]。然而,中药药性的机理至今尚未被人们所彻底了解,一般认为,中药中的化学成分或某些药效团是中药药性的物质基础[5,6],但其与药性的相关性目前尚不为人知;由于红外光谱是利用物质的分子对红外辐射的吸收得到的与分子结构相应的红外光谱图,因此,如果中药中的化学成分或药效团确实与药性相关,那么其红外光谱与药性应具有一定的相关性。正是基于这种想法,本文尝试将主成分分析技术与支持向量机方法相结合,利用中药红外光谱数据进行建模分析,探讨中药红外光谱数据与药性的相关性,取得了较好的效果。现报道如下。
1基本原理简介
1.1支持向量机分类原理支持向量机[7](SupportVectorMachine,SVM)是从统计学习理论发展起来的一种机器学习方法,该方法不仅支持小样本情况下的识别分类,而且具有较好的泛化性,从上世纪90年代初提出以来已成为模式识别的一个重要方法,目前已广泛应用于生产实践与科学研究的各个领域,例如文本的分类与识别[8,9]、蛋白质功能的预测[10]和药材的分类与识别[11]等,其分类原理是通过定义适当的内积函数ψ(·)将数据从输入空间映射到高维解空间,然后在这个高维解空间中构造超平面
ω·ψ(x) b=0①
再利用结构风险原则,及Karush-Kuhn-Tucher条件,建立优异分类判别函数
y(x)=sign[∑xi∈SVαiyiK(xi,x) b]②
这里K(xi,x)=ψ(xi)Tψ(x)称为核函数,xi∈SV称为支持向量。通过判别函数②即可实现数据的分类。
1.2主成分分析将红外光谱原始数据作为支持向量机的输入,通常存在两个问题,优异,红外光谱数据一般都是高维向量,维数从几十到上千不等,导致向量变量与样本数的比值过大,直接影响支持向量机建模的可靠性;第二,红外光谱数据往往包含有大量的重叠信息,数据矩阵存在大量线性相关的变量向量。因此利用支持向量机进行建模前,SHOU先要对红外光谱数据进行压缩或降维,在保证不丢失光谱主要信息特征的前提下,将高维的光谱数据转化为低维数据,以作为支持向量机的输入。主成分分析法[12](principalcomponentanalysis,PCA)是目前使用广泛的线性降维方法之一,该方法的特点是对原数据进行线性变换,保留方差大、包含信息量多的变量,丢掉方差较小、包含信息量少的变量,然后通过重新线性组合求出新的分量,达到降低光谱数据维数的目的,其基本原理[13]是将被分析的数据矩阵Xm×n分解成下面形式:
X=TPT E③
其中Tm×a称为得分矩阵,Pn×a称为载荷矩阵,Em×n为残差矩阵,T、P均为正交矩阵。在所能容忍的残差范围内,X近似地表示为
X=TPT④
将④式得分矩阵T移至左边,得
T=XP⑤
从⑤式可以看出,通过载荷矩阵P可以将原数据矩阵X投影到一个a维子空间,一般情况下,a远远小于原向量的维数n,于是实现了数据的降维。通常,a称为主成分数。
2方法
2.1药材本研究使用的76味中药的药材名称、产地及药性见表1。其中,平性药36味,寒凉药20味,温热药20味。
表176味中药材药名、产地、药性列表
药名产地药性药名产地药性药名产地药性蒲黄山东平桑寄生广西平细辛吉林温热桃仁河北平牛膝河南平花椒四川温热合欢皮四川平秦艽甘肃平丁香广东温热川牛膝四川平仙鹤草浙江平高良姜广东温热血竭广西平大血藤河南平丹皮安徽寒凉三棱江苏平矮地茶广西平赤芍湖南寒凉王不留行江苏平大血藤江西平大黄甘肃寒凉苏木广西平大血藤湖南平丹参河北寒凉银杏叶广西平藕节湖南平益母草广西寒凉肿节风广西平丝瓜络江苏平薄荷湖南寒凉甘草内蒙古平川芎四川温热桑叶安徽寒凉红景天湖南平桂枝广西温热葛根河南寒凉卷柏广西平当归甘肃温热柴胡河北寒凉两面针广西平三七广西温热知母河北寒凉路路通广西平红花河南温热栀子江西寒凉木贼陕西平麻黄内蒙古温热夏枯草湖北寒凉芡实安徽平紫苏湖南温热板蓝根河北寒凉山药广西平荆芥江苏温热金银花湖南寒凉香附湖南平防风东北温热蒲公英河北寒凉仙鹤草广西平苍术河北温热大青叶湖南寒凉茯苓云南平厚朴四川温热穿心莲广东寒凉香附山东平砂仁云南温热龙胆草内蒙古寒凉太子参江苏平豆蔻广西温热苦参山西寒凉山药河南平附子四川温热玄参浙江寒凉枸杞宁夏平干姜四川温热半边莲安徽平吴茱萸湖南温热
2.2仪器与实验参数设置
2.2.1仪器NicoletNEXUS470FT-IR光谱仪(美国ThermoNicolet公司),FW-4型压片机(上海浦东荣丰科学仪器有限公司)。
2.2.2参数设置光谱扫描范围450~4000cm-1;分辨率4cm-1,等间隔采集数据,每味中药共采集1842个数据。扫描次数为16次。
2.3样品制备与测试在本研究的前期工作中,曾对20种不同药性中药的石油醚、醋酸乙酯、乙醇、水不同溶剂提取部位的提取物红外光谱与药性的相关性进行过初步分析,结果显示醋酸乙酯部位的提取物红外光谱与药性相关性优异,因此本实验主要对醋酸乙酯提取物的红外图谱进行分析,具体制样方法如下:取表1所示76种中药样品粉末各2g,分置于50ml锥形瓶中,分别加入醋酸乙酯20ml,,超声提取30min,滤过,取滤液水浴蒸干。将提取物以1∶50~1∶100的比例加入溴化钾研磨均匀,于压片机上压成透明的薄片,然后置于NicoletNEXUS470FT-IR光谱仪上扫描,测得各中药醋酸乙酯提取物的红外光谱及数据。
3数据处理与模型构建
3.1数据预处理为提高构建模型的健壮性,减少因实验误差、环境干扰等因素对分析对象的影响,本文每味中药均测定3次。构建模型前,SHOU先对每味中药各次测得的光谱数据加和平均,得到加和平均数据曲线后,选择正交小波函数系Symlets对数据进行小波消噪处理,并在此基础上对数据进行如下变换。
3.1.1极差尺度化针对每一个样品红外光谱数据极差尺度化,其变换公式如下:
χij=χij-χmin(i)χmax(i)-χmin(i)⑦
其中,Xij表示第i个样品的第j个属性。
在红外光谱测定中,通常较厚的材料样品比较薄的材料样品吸收更多的红外能量,结果表现为更高的谱峰,但峰值的比值却相对不变,因此,此操作可以补偿光程长造成的影响,消除由于样品厚度不同带来的测量误差,保持光谱的特征。
3.1.2数据中心化对光谱数据进行数据中心化处理。此操作目的是使光谱数据分布在零点两侧,不仅充分反映光谱的变化信息,而且使计算简便,从而提高区分中药药性的能力。
数据中心化就是从每个光谱数据中减去该样品的平均值,即:
χij=χij-—χi⑧
其中,χij表示第i个样品的第j个属性,—χi为第i个样品的平均值。
3.1.3数据标准化处理光谱数据标准化目的就是消除各味中药光谱数据间的量纲差异,使各中药图谱间的变化信息具有同等的表现力,既保持每味中药光谱的各自特征,又可以使各图谱之间具有比较的能力。本文使用的数据标准化公式如下:
χij=χij-—χi—χi⑨
其中—χi为第j个属性的平均值,—Sj为第j个属性的标准偏差。
3.2模型构建光谱数据预处理后,SHOU先使用主成分分析法对原光谱数据进行线性变换求出主成分,实现光谱数据的降维,降维后的维数由方差百分数判定,判定公式如下:
S2e=∑di=1λi∑pi=1λi
其中,S2e表示d个特征值与p个特征值加和的比值计算出的可被解释的累计方差。当取S2e=0.97时,可计算出主成分数为15,即使用15个主成分就可以解释97%以上的数据方差。
确定各中药红外光谱的主成分后,使用支持向量机构建模型。本文模型构建选择libsvm支持向量机[14],采用径向基函数为核函数。由于只选用76味中药红外光谱数据作为分类指标,故在对主成分数据进行分类训练时采用交叉验证法,即每次留出一个样本作为预测数据,其余样本参与模型训练,为了寻找优异参数,对求解空间进行网格搜索,以确定优异的惩罚参数C和径向基函数的参数γ。经反复实验,并对结果进行统计、比较,发现当惩罚参数C值为8,径向基函数的参数γ值为0.03125,平性药与非平性药的惩罚比例为1∶1时,分类效果优异。
3.3药性预测按照所求出的惩罚参数C和径向基函数的平滑参数γ建立模型,采用交叉验证法对药性进行预测。结果见表2。表2平性药与非平性药分类计算结果
4结果与讨论
从表2可以看出,采用主成分分析方法对中药光谱数据降维之后,用主成分作为支持向量机输入,构建得到的中药平性药和非平性药的识别模型,可以比较好的区分中药平性药与非平性药的药性,本方法对平性药识别率为83.33%,非平性药识别率为82.50%,总体识别率为82.89%。