硫酸羟氯喹颗粒水分近红外光谱在线定量模型的建立

2021-02-07 08:22朱振明张烁阳王薇青上海医药集团股份有限公司上海0000上海上药中西制药有限公司上海0806海军军医大学上海004

药学实践杂志 2021年1期

柯樱，朱振明，张烁阳，王薇青，陆峰（. 上海医药集团股份有限公司，上海 0000；. 上海上药中西制药有限公司，上海 0806；. 海军军医大学，上海 004）

过程分析技术（process analytical technology，PAT）通过对关键质量数据包括原始物料质量、中间物料质量和工艺过程参数进行实时监测以确保成品质量[1]。其中，近红外光谱（near infrared spectroscopy，NIRS）分析技术是PAT 的核心技术之一，其独特优势在于测试方便、分析速度快、分析效率高，非常适用于在线分析[2]。目前该技术在国外药企已有很多应用，如对流化过程中干燥终点的控制[3]、监测包衣过程[4]、测定片剂中原料药和辅料的含量[5]等。

硫酸羟氯喹是临床上治疗类风湿性关节炎、系统性红斑狼疮的常用药物[6-8]。硫酸羟氯喹制粒工艺为湿法制粒，而湿法制粒的产品质量控制主要在制粒过程中。为缩小批间差异和改善工艺，利用PAT 技术建立定量或定性模型以检测颗粒水分、混合均匀度和粒径等一系列指标，而水分含量既影响粒径分布也影响混匀程度，故需要优先测量[9]。目前，硫酸羟氯喹颗粒在干燥过程中使用快速水分测定仪测定水分含量，以监测干燥终点。这种分析方法在干燥过程中取样测定水分，会带来人为干扰因素，且水分测定仪的测量时间较长，在等待测量结果时，流化床内的物料水分仍在不断变化。使用NIR 分析技术对硫酸羟氯喹颗粒的水分含量进行实时监测，将有助于提高硫酸羟氯喹的生产效率、降低因等待测量结果时物料水分仍在不断降低带来的生产风险，以及提高产成品的质量，有助于向生产全自动化发展。目前，国内使用NIR 分析技术监测物料水分含量的报道以离线方式居多[10-13]。课题组之前建立了硫酸羟氯喹颗粒离线水分定量模型[10]，本研究在此基础上先在小试部分建立在线水分定量模型，并在试运行情况良好的基础上将模型转移到车间生产线。结果表明该模型能满足生产过程在线监测硫酸羟氯喹颗粒水分的需求。

1 仪器与材料

Thermo Antaris MX 近红外光谱仪、TQ Analyst 9.5 软件（美国Thermo Fisher 公司），HX204 卤素水分测定仪（瑞士Mettler-Toledo 公司），硫酸羟氯喹颗粒（上海上药中西制药有限公司），MATLAB 2014a（美国MathWorks 公司），DPL-0.5 型多功能制粒/包衣机（重庆精工制药机械有限责任公司），DG400 流化床（上海东富龙科技股份有限公司）。

2 方法与结果

2.1 颗粒在流化床中的干燥过程

在流化床锅体的下半部分安装蓝宝石窗口，并将Thermo Antaris MX 近红外光谱仪的探头固定于窗口上，取样口在流化床的另一侧。将制粒后的湿颗粒倒入流化床中进行干燥，实验所用样品是在流化床干燥过程中从取样口实时取出得到的样品：流化床开始进风干燥并开始连续采集样品光谱，光谱采集完成后立即取样。因物料温度在30 ℃前样品水分变化较快，故取样间隔时间较短，每隔30 s取一次样品；在物料温度高于35 ℃时水分变化较慢，取样的间隔时间延长，每隔2 min 取一次样品，待物料温度继续上升到55 ℃时停止干燥（覆盖了工艺范围以得到全面的样品光谱信息）。一批物料需分成4 锅流化床完成，每做一锅流化床采集约10 个样本，一批可采集约40 个样品，共12 批采集519 个样品建立模型。

2.2 水分参考值的测定

用水分测定仪测定样品的水分质量含量为1.00%～7.50%（涵盖了工艺优化值1.00%～4.00%）。

2.3 样品的光谱采集

使用近红外光谱仪以漫反射光纤探头的采集方式连续采集干燥过程中的样品的近红外光谱。光谱的扫描范围为10 000～4 500 cm-1，扫描次数为64 次，分辨率为8 cm-1，增益值为8×，每次采集光谱前均进行背景光谱的采集，采集得到的近红外光谱如图1 所示。

图1 硫酸羟氯喹颗粒近红外光谱对数图

2.4 定量模型的建立

利用TQ Analyst 9.5 软件结合化学计量学的PLS 算法，建立硫酸羟氯喹颗粒含水量的定量分析模型。首先采用Chauvenet 准则检验结合杠杆值-学生化残差图鉴别并剔除异常样本[14]，进而采用SPXY 分类算法将其余样本划分为校正集和验证集。通过一系列参数，包括校正集误差均方根(RMSEC)、验证集误差均方根（RMSEP）和相关系数R 等评价模型进行考察[15]。当模型相关系数R 越接近1，说明模型拟合效果好，分析准确度越高。当RMSEC 和RMSEP 值越小且越彼此接近，即|RMSEP-RMSEC|趋近0，表明模型具有好的稳定性，且当RMSEP 值较小时，模型具有较高预测能力。

2.4.1 异常样本的剔除

异常样本会对NIR 模型产生很大的影响，例如误导光谱变量的选择，影响模型的参数估计，降低模型的预测准确度和稳定性[16-18]。采用Chauvenet准则检验结合杠杆值-学生化残差图，鉴别并剔除13 个异常样本：23、58、61、70、79、95、96、97、139、223、276、350 和473。

2.4.2 样本集划分

在NIR 模型建立的过程中如何挑选具有代表性的样本，对最终模型的预测准确性与稳定性有很大影响。SPXY[19]分类方法是近红外样本分类中一种常用的方法，同时考虑了样本的光谱和浓度特征。进行模型建立的样本共有519 份，在“2.4.1”项下剔除了13 份样品，将剩余506 份样品使用SPXY分类法进行分类，344 份样品作为校正集，162 份样品作为验证集。主成分分析结果表明，样本的验证集均匀分布在校正集中。

2.4.3 光谱预处理

光谱预处理方法包括MSC、SNV 及求导等一系列算法。MSC 通过数学方法将光谱中的散射信号与化学信息进行分离，用于消除由于样品颗粒分布不均及颗粒大小不同所产生的散射对其光谱的影响。SNV 的作用与MSC 基本相同，均是用于消除由于颗粒散射及光程差异给光谱带来的影响[15]。

对光谱进行求导，同时运用Savitzky-Golay(SG)平滑滤波，或者Karl Norris 平滑滤波对光谱进行平滑。求导可以增强光谱信号，平滑可以滤除噪声。从表1 可以看出NIR 光谱经过MSC、一阶导数以及Karl Norris 平滑，能得到较好的数据处理结果。

2.4.4 建模波段的选择

选择合适的波段用于模型的建立，对最终所建模型的预测准确度和稳定性有重要的影响。为了得到NIR 光谱的特征信息，首先对前3 个主成分的载荷向量进行分析[20]，图2A 为前3 个主成分全光谱范围的载荷图。由PC1 载荷图可知，光谱在4 935～5 336 cm-1和6 911～7 297 cm-1附近的波段范围包含更多的特征信息。由PC2 和PC3 载荷图可知，在上述波段附近也包含较多的光谱信息。同时，与得到求导后的一阶光谱（图2B）相比较，确定上述两个波段与水分之间确实具有较强的相关性，是NIR 光谱中水分的主要吸收峰，可用于水分模型的建立。

表1 不同光谱预处理方法得到的模型参数

2.4.5 主因子数的选择

主因子数的选择在建立模型的过程中至关重要，选择正确的主因子数既能完全利用NIR 光谱信息，还能避免出现过拟合现象。根据TQAnlyst9.5中的PRESS 图，以RMSECV 和PRESS 最小时所对应的主因子数即为最佳主因子数（本研究中主因子数为6）。

2.4.6 NIR 模型的建立

根据SPXY 分类法得到的校正集建立模型，用验证集对模型进行验证。以MSC+一阶导数+Karl Norris 平滑为光谱的预处理方式，选择的建模波段为4 935～5 336 cm-1和6 911～7 297 cm-1，结合化学计量学中的PLS 算法建立NIR 定量分析模型（图3）：RMSEC 为0.408，相关系数为0.952 9；RMSEP为0.435，相关系数为0.936 6；主因子数为6。从图3 可以看出校正集和验证集的数据点在模型范围（1.00%～7.50%）内分布均匀，且校正集分布在验证集的范围内，表明用校正集建立的模型对验证集的验证有效，同时|RMSEP-RMSEC|的数值为0.027，趋近于0，以上结果均表明所建模型较为稳定。

2.4.7 模型准确度的评价

RPD 值是验证集标准偏差与预测集标准偏差的比值，即RPD=SDV/SEP。本研究以RPD 值对模型进行评价。其中，SDV 为验证集所有样本浓度值的标准偏差，SEP 为预测集标准偏差。验证集样本的性质分布越均匀，SEP 值越小，RPD 值越大。本研究中，通过计算得到RPD 值为5.18（大于5），表明模型的预测结果可以接受[10]。

图2 硫酸羟氯喹近红外光谱图

图3 硫酸羟氯喹颗粒定量模型

2.5 样品测定

将建立完成的模型应用于一批物料（PAT190601-6）的干燥过程，按“2.1”项下操作，采集所取样品光谱。将采集的光谱导入“2.4.6”项下建立的模型，得到光谱的预测值，用快速水分测定仪测定每份样品的参考值。预测集的RMSEP=0.265。将预测集样本的预测值与参考值进行配对样本t 检验，显著性水平设为0.05。检验结果|t|=0.195，小于t 双尾临界值1.990，F=1.10＜1.46，说明预测值与参考值之间无统计学差异。图4 为预测值与参考值水分变化曲线，从图中可以看出两个曲线的重合性较好，进一步表明模型的误差较小，稳定性较好（鉴于流化床体积，一个批次样品需要分为4 份进入流化床干燥）。

2.6 模型的应用

在模型已初步建立完成并应用情况较好的小试基础上，将仪器移入车间，开始对大生产过程中物料水分变化进行实时检测。将蓝宝石窗口置于流化床底部，探头切合于窗口，取样口于窗口的对面处。考虑到仪器所处环境的改变可能对光谱产生影响，包括吸收峰的偏移、展宽、吸收强度的非线性变化等[21]，需要对模型在车间的可应用性重新评价。

对一批物料（PAT-191223）进行干燥实验，该批样品需分两批进入流化床，每批采集3～4 g 样品后，用水分测定仪测定水分值。预测集的RMSEP=0.265。将预测集样本的预测值与参考值进行配对样本t 检验，显著性水平设为0.05。检验结果|t|=0.265，小于t 双尾临界值2.110，F=0.78＜3.18，说明预测值与参考值之间无统计学差异。

将模型导入Result Operation 软件，可实时反映物料（PAT-191223）的水分值变化，由图5 可见水分值平稳下降、直至趋于稳定。在干燥过程中，在线取出5 份样品，用水分测定仪测量参考值并标于图中（红色为参考值，黑色为预测值）。可见预测值与参考值的重合性较好，表明模型的误差较小且稳定性较好。

3 讨论

3.1 模型误差来源及解决办法

模型的误差有两个来源：①探头与取样口间隔较远，降低了采集得到的光谱与样品的空间对应性，对模型的准确度带来影响；②取样口的通道较窄，会造成湿物料堆积，对样品的水分值造成影响。解决方法：①光谱采集完成后立即取样，可以保证光谱与样品的时间对应性，对于提高空间对应性的解决方法是可在窗口附近安装取样口；②及时清理取样口堆积的物料，避免对样品水分值产生影响。

3.2 水分预测模型的建立

工艺要求硫酸羟氯喹颗粒水分值为1.00%～4.00%，模型预测范围为1.00%～7.50%，包含了工艺要求的范围，可应用此模型缩小批间的水分差异。例如，当预测值在2.00%时停止干燥，为工艺的改善和提高提供基础。从图5 可以看出，部分时间段的水分值上下波动，而非持续下降，且在接近干燥终点时，水分值在2.00%处波动，且无明显下降趋势。原因可能为采集得到的NIR 光谱反映的是表层样品的光谱，无法准确反映较深处即流化床锅体内部的物料水分情况，而下一张光谱有可能为内部的物料吹到窗口处采得，因此，预测的水分值略有升高。

图4 4 份样品预测值与参考值的水分变化曲线

图5 硫酸羟氯喹颗粒水分含量变化图

3.3 不同批次样品对水分模型的影响

本实验采集了11 批次药品用于含水量模型的建立。由于在硫酸羟氯喹的实际生产过程中，原辅料的不同批次之间存在批间差异，此外，生产过程中存在影响硫酸羟氯喹颗粒质量的其他因素，这也导致不同批次的硫酸羟氯喹颗粒之间也存在批间差异。故在建立模型时尽可能包含较多批次，以包含更多批间差异，虽然模型的误差可能会增加，但可提高后期模型在实际大生产中的可应用性。因此，在以后的生产过程中仍需不断累计数据，更新并完善模型。