有指导的正交投影技术结合斜率/截距校正法实现小试水分近红外定量模型向中试传递

2019-09-27 09:26吴春颖詹雪艳臧恒昌

分析测试学报 2019年9期

杨培，陈瑾，吴春颖，詹雪艳,2*，臧恒昌

(1.北京中医药大学中药学院，北京 102488；2.北京市科委中药生产过程控制与质量评价北京市重点实验室，北京 102400；3.山东大学药学院，山东济南 250012)

近红外光谱(Near infrared spectroscopy，NIRS)技术具有快速、无损、样品无需复杂的前处理和可进行多组分同时分析等优点，被广泛用于过程分析[1-3]。药物制剂过程按规模可分为小试、中试和生产过程。来源于小试过程中的样本所建立的近红外定量模型通常用于预测同规模的小试样本。由于仪器、环境、样品光谱背景等因素的影响[4]，不同规模制剂过程中样本间光谱差异的分散程度不同，导致小试制剂过程中建立的模型难以直接应用到中试或大生产中。但若直接采集中试或生产上的近红外数据建模，需要多批次重复制剂累积变异样本以扩大NIR定量模型的适用范围，造成人力、物力和时间成本的耗费。模型传递是通过一定数量的传递样本，采用数学方法在不同条件下的检测信号之间寻求一种变换关系，来增强光谱数据间的通用性和可比性[4-5]，使特定条件下建立的模型能够应用于新条件。模型传递的数据处理方法主要有3种类型：①基于光谱背景校正，如分段直接校正法(Direct standardization,DS)[6-7]、正交信号校正法(Orthogonal signal correction,OSC)[8]、直接正交信号校正法(Direct orthogonal signal correction,DOSC)[9]等；②基于模型预测值校正，如斜率/截距校正(Slope-bias correction，SBC)[10-11]法；③基于模型系数校正，即模型更新(Model update，MU)[5,12]。

本课题组[13]前期提出了将正交投影技术结合斜率/截距校正法(DOSC-SBC)的模型传递方法，在金银花水提和醇沉2个制剂过程中实现了绿原酸近红外定量模型在不同批次间的传递。然而，DOSC-SBC方法用于预测光谱背景差异很大的样本时(如不同制剂尺度下的样本)，难以取得好的校正效果。因此，本研究在前期研究基础上改进了DOSC-SBC方法，以小试和中试条件下流化床制粒过程中采集的多批次样本为研究对象，提出了以代表性中试样本为指导的正交投影技术(Directed direct orthogonal signal correction,DDOSC)结合SBC的方法(DDOSC-SBC)来实现水分近红外定量模型由小试到中试的跨尺度传递。

1 原理与方法

1.1 正交投影技术结合斜率/截距校正法(DOSC-SBC)

正交投影技术将光谱X矩阵向参考值Y矩阵投影，找到X中正交光谱得分矩阵T的权重矩阵W和载荷矩阵P，最大程度的去除与Y正交的光谱信息(XDOSC=X-TnewP′=X-XWP′)，增强光谱矩阵X与参考值Y的相关性，再根据Xnew,DOSC=Xnew-XnewWP′来校正未知样本光谱。

DOSC算法能去除光谱中的偶然误差，有效减少样本光谱由温度、批次波动引入的变异，但难以识别光谱中的系统误差，可能会过拟合导致预测值偏向一方[14]，结合斜率/截距校正(SBC)法对原预测值进行校正，能够提高近红外定量模型的预测准确度。

1.2 有指导的正交投影技术结合斜率/截距校正法(DDOSC-SBC)

与DOSC相同，DDOSC可能会放大系统误差，影响预测结果。本文以代表性样本的预测结果为指导，通过判断其初始预测值与参考值是否呈线性关系，结合SBC方法求出其函数关系，对待传递样本的预测值进行校正以提高模型的预测准确度。

2 实验部分

2.1 材料与仪器

药用糊精(来源于C1、C2、C3、C4 四个不同厂家)；羟丙甲纤维素(HPMC，安徽山河药用辅料股份有限公司)；SMA LGL 002小试流化床制粒机和SMA LGL 040中试流化床制粒机(山东新马制药装备有限公司)；MicroNIRTMPAT-U近红外光谱分析仪(美国，VIAVI公司)。

2.2 数据采集

以药用糊精为原料，HPMC为粘合剂，分别在小试和中试条件下模拟药物流化床制粒过程。在该制剂过程中，使用近红外光谱仪在线实时采集NIR光谱数据，同时通过流化床取样口装置进行取样，依据《中国药典》2015版中烘干法测定样品水分含量。每批制剂干燥100 min，干燥前期水分变化快，采样间隔短，后期水分变化趋势减缓，采样间隔延长，每批制剂采集35个样本，去除采样过程中的异常样本，分别在小试和中试条件下重复制剂，不同批次样本信息见表1。

表1 小试与中试所有批次数据采集情况Table 1 Data acquisition of all batches of small-test and pilot-test

2.3 模型的建立与评价

使用C1、C2、C3 三个厂家的小试Ⅰ～Ⅲ批为建模样本，采用Kennard-Stone(KS)方法[15-16]将其划分出71个建模样本，光谱经DOSC预处理，以水分含量为化学参考值，进行偏最小二乘回归(Partial least squares regression,PLSR)建立NIR定量模型，以剩余30个样本为内部验证集，小试Ⅳ批为小试外部测试集，将同样来源于C1、C2、C3厂家的中试Ⅰ～Ⅲ批作为中试测试集A，将来源于C4厂家的中试Ⅳ和Ⅴ批作为中试外部测试集B。用相关系数(R)、标准偏差与预测标准偏差的比值(Ratio of performance to standard deviate,RPD)[1]以及预测相对误差(Relative standard error of prediction,RSEP)为指标评价模型的预测性能。R是对模型拟合效果的整体评价，其值越接近于1，表明模型拟合效果越好。RPD越大，模型越稳健、分辨力越强。RSEP越小，预测结果越准确，通常要求过程分析中RSEP<10%。

本实验所涉及数据处理均在Unscrambler(Version 9.7，挪威CAMO公司)、MATLAB(Version 7.0，美国Math Works公司)以及SIMCA-P(Version 13.0，瑞典Umetrics公司)上完成。

3 结果与讨论

3.1 小试样本与中试样本的NIR光谱差异

小试71个建模样本的PC1-PC2主成分空间分布图见图1A，两个主成分达到98.3%的光谱解释率，将小试建模集按水分含量由大到小编号，在PC1方向上，水分含量从右向左依次递减，说明PC1包含了水分的主要信息，椭圆区域为小试建模集95%置信区间，图1B中的5个中试批次大多数样本落在了椭圆临界线外，说明仅从光谱角度来看，小试建模样本和中试测试样本近红外光谱差异大，中试样本的光谱变异程度超出了小试建模集的范围，小试模型难以直接应用于中试样本。

3.2 小试水分近红外定量模型对中试样本的预测与校正

将小试71个建模样本经DOSC预处理建立PLS定量模型，对其它批次进行预测(表2)。结果显示，小试模型对内部验证集和来源不同的小试外部验证Ⅳ批预测结果良好，说明DOSC预处理方法能有效减少小试样本中原料来源不同和批次间的光谱差异。

表2 小试NIR定量模型经DOSC方法对其它批次的预测结果Table 2 Results of test sets predicted by the small-test NIR quantitative model with DOSC method

对于光谱背景差异较大的中试A、B两个测试集，小试模型预测的水分RSEP值分别达到了51.04%和26.64%(表2)，超出了NIR定量模型所能接受的最大误差限度。

小试建模集经DOSC校正前后的光谱对比图见图2A，密集的原始光谱(实线)经DOSC校正后(虚线)变得分散，含水量不同的样本间光谱区别度增大。中试测试集以中试Ⅱ批为例，经DOSC校正后的光谱形状相对于原始光谱完全失真(图2B)，而通常来讲，DOSC方法应在维持光谱形状的前提下使吸光度更加分散[17]，这说明小试建模集的DOSC正交光谱校正参数不适用于光谱背景变异大的中试测试集。

本文使用KS算法分别从中试测试集A和B中挑选出1/5数量的代表性样本(A中挑选20个，B中挑选13个)，以其光谱为指导，对剩余的中试测试样本进行DDOSC光谱背景校正。校正后的中试Ⅱ批光谱维持了原光谱的形状(图2C)，避免了图2B经DOSC校正后光谱失真的现象，说明相比DOSC，DDOSC方法能够更加有效地校正中试测试集光谱干扰信息。

中试两测试集经DDOSC预处理后，由小试模型预测的RSEP值分别高达108.75%和100.04%，预测误差反而增大。图3A和B分别呈现了两个测试集的预测值与参考值的相关关系图，其中虚线代表预测值与参考值相等(y=x)的直线。图中样本点全部落在了y=x直线的下方，预测值均大于相应的参考值，原因可能是正交投影技术在应用过程中难以去除光谱中的系统误差，故小试建模样本经DOSC校正后的光谱仍保留了部分小试条件引入的系统误差，而中试测试样本光谱经DDOSC校正后仍保留了部分中试条件下的系统误差，最终导致预测结果偏向一侧。

表3 中试测试集A和B经DDOSC方法和DDOSC-SBC方法的预测结果Table 3 Results of pilot-test sets A and B predicted by the model with DDOSC or DDOSC-SBC

表4 两中试测试集经DOSC-SBC和MU模型传递方法得到的预测结果Table 4 Results of two pilot-test sets predicted by the model with DOSC-SBC or MU method

以测试集A为例，以其代表性样本为指导(图3A中圆点样本)，得到测试集A初始预测值与参考值的线性函数关系(图3A中实线)，结果显示，先前所划分出的代表性样本分布基本可涵盖剩余样本，所求出的函数方程具有代表性。经SBC方法对预测值校正后，本来偏向y=x直线一侧的样本点落在了y=x直线附近(图3C)，原预测值中的系统误差得到改善，校正后的RSEP值由原本的108.75%降至4.90%(表3)。同理，预测集B经DDOSC-SBC处理后预测值与参考值的相关关系如图3D所示，其RSEP值也由100.04%降至3.99%(表3)，预测准确度显著提高。

3.3 与其它模型传递方法结果比较

为确定本方法效果的可比性，本研究将上述从中试测试集中挑选的代表性样本分别用于DOSC-SBC和模型更新(表4)。结果显示，测试集A和B经DOSC-SBC校正后，RSEP值分别降至18.76%和15.81%，准确度有所提升，但仍超出10%的误差限度。2个测试集经DOSC-SBC校正后的预测值与参考值的相关关系图与只经DOSC的对比见图4，经SBC校正后，由DOSC产生的预测值偏向一侧的现象基本改善，但仍难以解决预测值分布宽的问题，表5中两测试集由DDOSC-SBC得到的初始预测值()与参考值的线性函数(r2)可达到0.99以上，而DOSC-SBC的r2在0.88左右，也可推断DOSC-SBC的校正效果不如DDOSC-SBC明显。使用MU方法后，两测试集预测的RSEP分别为5.66%和3.63%(表4)，预测结果与DDOSC-SBC相当，但该方法总是需要重新建立模型，且当建模样本数量大而测试集代表性样本数量小时，重新建立模型耗时较长，且模型系数难以取得好的校正效果。DDOSC-SBC可根据代表性样本的初始预测值与参考值的线性关系来预判测试样本的初始预测值是否适用SBC方法校正，在实际应用中更有指导意义。

表5 中试两个测试集分别对经DOSC和DDOSC处理后的预测值进行SBC的函数方程Table 5 The function equations of test set A and B acquired with SBC method after the spectrum processed by DOSC or DDOSC

4 结论

针对DOSC方法校正光谱背景变异大的待测样本时出现“光谱失真”的问题，本文提出DDOSC方法，利用代表性的变异样本有指导地校正待测样本的光谱，并通过SBC方法对经DDOSC校正后的初始预测结果中仍保留的系统误差进行校正，在流化床制粒过程小试样本水分近红外定量模型预测中试样本的应用中取得了很好的效果。与DOSC-SBC相比，DDOSC-SBC方法能够有效避开当制剂规模扩大时中试测试集光谱背景变异增大而导致的预测结果差的问题，更好地校正小试尺度下水分NIR定量模型对中试样本的预测，实现小试模型向中试制剂过程的传递，为今后NIR定量模型扩大应用提供了解决方案，促进NIR光谱技术在制剂过程中由实验室向中试以及生产过程中的应用。