基于核岭回归方法的恒星大气物理参数的自动测量

2020-05-07 09:18李航飞屠良平胡煜寒
光谱学与光谱分析 2020年4期
关键词:残差光谱误差

李航飞,屠良平,胡煜寒,刘 昊,赵 健

辽宁科技大学理学院, 辽宁 鞍山 114051

引 言

在天文学研究中,各类天体对应的物理参数对于研究天体的形成、结构以及演化具有极其重要的作用。 要想精确的测量天体的某一个物理参数如质量、大小及年龄,科学家往往要基于几十个精细物理系统来观测分析得到。 但在面对大型巡天计划如我国大科学工程LAMOST项目[1]时,这种方式就不适用了,在大样本统计天文学中,科学家也可以容忍精度稍低但计算效率更高的方法。 LAMOST这类项目可以获取数百万甚至上千万的天体光谱,这些数据为我国天文学家研究银河系和星系的形成与演化,提供了有力的基础性数据,也为许多天文学研究取得重大突破奠定了基础[2]。 而利用光谱数据研究快速高效的算法来测量天体目标的物理参数显然具有重要意义和价值。

基于LAMOST光谱数据,本文主要研究其中一类天体——恒星大气物理参数的自动测量。 恒星大气物理参数主要包含有效温度(Teff),金属丰度([Fe/H]),表面重力(Logg)。 这一课题吸引了一些学者进行了相关算法方面的研究,如王杰[3]等提出了线指数方法,即通过选择最佳的线指数来建立回归模型,进而进行回归预测。 潘儒扬[4]等提出的深度学习方法,也被应用在恒星大气物理参数测量方面,他指出深度学习在处理非线性数据的时候表现出比较好的特性。 Yang[5]等采用反馈型神经网络算法进行参数测量,通过采用自编码进行特征提取,之后建立模型进行参数测量。 Lu[6]等采用LASSO方法进行天体光谱参数测量,即通过小波变化进行降噪,采用支持向量回归(support vector regression, SVR)方法进行特征提取,测量结果在接受范围内。 Liu[7]等采用SVR模型进行天体表面重力的参数测量,实验结果表明该方法在巨行星的表面重力的参数测量准确度方面有提升,Li[8]等提出一种通过线性模式提取光谱的线性支持特征,能够定量的评估提取的特征贡献度,通过合理的选择特征,利用线性回归方法进行参数测量,预测结果的平均绝对误差在接受范围内。 而利用核思想的则有Xiang等[9]提出的基于核主成分思想的恒星参数测量方法,该方法在LAMOST信噪比大于50以上的恒星光谱数据中测量效果非常好。 本文采用的是核岭回归(kernel ridge regression,KRR)[10]算法,首次将该算法应用在天体光谱参数测量上面,实验结果表明该方法在天体光谱参数测量方面是可行的。

1 方法介绍

大多数变量之间都存在着这样或者那样的关系,而这些不确定的关系导致模型训练的时候参数趋向无穷大,影响模型的质量,其中影响比较大的就是多重共线性。 多重共线性是变量之间存在高度相关性,导致参数无法求出确定解。 在大数据时代,数据一般都是高维,所以共线性[11]问题不容忽视,而KRR方法在解决这一问题时具有优势。

本文要处理的光谱每条采样点有几千个,即相对应的数据高达数千维,所以在处理时通常要进行降维。 降维后的低维特征在常规方法上显示区分度不高,所以本文引入了具有核方法思想的KRR方法,该方法是先利用核函数将数据映射到高维空间,数据在高维空间数据间的特征会更容易区分,然后应用岭回归方法,对映射后的数据进行回归处理。 岭回归方法实际是最小二乘法(LSM)的变形,它是在LSM的基础上添加了一个正则化项,而KRR方法则是核函数和岭回归方法的结合体。 KRR方法在小样本数据上有较高的准确性,所以该方法从原理上来说适合在天体光谱参数测量方面的应用。

1.1 基础模型解释

对于线性回归模型

(1)

误差方程为

(2)

式(2)中y是真实值。

对误差方程中w求积分得

w=(XTX)-1XTy

(3)

式(3)中如果XTX逆矩阵不存在,这对参数的估计十分不利,无法求出一个准确的w值,最终的预测模型将无法建立。 因此为了解决这个问题,添加一个正常数的矩阵,只要保证λ的数值不为零,此时(XTX+λI)就不为零,从而有效解决了共线性的问题。 当岭回归参数λ=0,就是LSM,当岭回归参数λ趋向无穷大的时候,岭回归系数趋向于0。

岭回归是有偏回归,它的结果虽然使得残差平方和变大,但是会使系数检验变好,这样可以算出合理的系数。 岭回归虽然放弃了LSM的无偏性,损失了精度,但得到的回归系数却能够更加符合实际情况[12]。 在数据分析和建模中,当预测变量高度相关时,岭回归产生的系数比LSM预测的系数具有更好的稳定性[13]。

岭回归本质上是在LSM的基础上添加了一个二范数的正则化,岭回归的目标函数如式(4)

(4)

由于数据的多样性,单纯的线性回归可能不能更好的解决问题,因此,可以把数据通过核函数映射到一个高维空间,使得这些数据在这个高维空间更容易划分,具体的操作就是选取一个核函数,令x→F(x),原理和岭回归基本是一样的,目标函数如式(5)

(5)

函数需要满足的条件

s.t.ε=y-wΦ(xi)

(6)

引入Lagrange系数可得

L(w,Φ(x),α)=λ‖w‖2+∑ε2+α(y-wΦ(xi)-ε)

(7)

对式(7)进行微分可得

α=2ε

(8)

整理后得

y=(K+λI)α

(9)

最后的预测公式为

(10)

1.2 评价指标

本文采用均方误差(mean squared error, MSE)和平均绝对误差(mean absolute error, MAE)来作为光谱参数测量结果的评价标准,计算方式见式(11)和式(12)

(11)

(12)

2 实验部分

2.1 模型评价标准

模型训练好之后,对输入的数据会有对应的输出,该输出值就为预测值,一般预测值越接近真实值越好,误差是指预测值和真实值的差,模型的好坏在于预测新样本的时候有较小的误差,误差越小模型的泛化能力越强。 当数据量不足的时候,模型会出现欠拟合,反之则会出现过拟合现象。

常用的模型实验方法中,留出法比较常见,留出法随机保留一部分数据留作测试,其他用于模型训练,一般来说采用2/3或者4/5的样本数据用于训练,剩余的样本用于测试,若训练集数据太多,测试集数据太少评估结果往往不具备足够的可信度,若测试集过多,模型可能会欠拟合,数据集的特征拟合不完整,因此数据集的选择尤为重要,实验随机选择保留原始数据的30%作测试数据,其他数据作训练数据。

2.2 数据

采用LAMOST DR5光谱数据,从中随机选择了2万条恒星光谱,其中三个恒星大气物理参数值的范围为: 有效温度(Teff): 3 763.85~8 362.43 K,表面重力(Logg): 0.319~4.897 dex,金属丰度([Fe/H]): -2.477~0.62 dex,所有光谱g,r,i波段平均信噪比覆盖范围为6.7~793。

2.3 步骤

实验设计步骤如下:

(1)利用小波变换对光谱进行去噪,并进行流量归一化;

(2)采用主成分分析方法(principal component analysis, PCA)对光谱数据进行降维,通过实验分析本文选择降维至300维;

(3)利用留出法随机抽取样本中70%为训练数据,剩余30%为测试数据,共进行50次组合实验;

(4)应用KRR方法分别对三个参数进行模型训练及测试,进行误差分析。

(5)采用经典SVR方法在相同数据上进行训练测试,并与KRR方法的结果进行对比。

2.4 结果

(1)有效温度预测结果对比图

图1和图2中左侧图横轴为天体有效温度的真实值,纵轴为天体光谱有效温度的预测值,显然,数据点越靠近中心线y=x,预测结果越接近真实值,右侧图相应为误差统计直方图。 直观上可以看出,KRR方法有效温度的预测值比SVR方法有更多的点接近真实值,从直方图也可看出,图中误差值接近0的频数要远远大于SVR中误差接近0的频数。 KRR方法在有效温度方面的预测结果要优于SVR方法。

图1 KRR方法有效温度估计值和真实值一一对应图及误差对比图

图2 SVR方法有效温度估计值和真实值一一对应图及误差对比图

(2)表面重力预测结果对比图

从图3和图4左侧图可以看出,两种方法预测值和真实值形成的数据点分布类似,KRR方法中出现的异常点略多,SVR方法预测结果相对比较稳定。 从右侧图可以看出,KRR方法要比SVR方法略好,有更多的点接近真实值。 总体来说两种方法在表面重力方面的测量结果KRR方法在准确度上要好于SVR方法,但是在稳定性上稍差。

(3)金属丰度预测结果对比图

从图5和图6左侧图可以看出KRR方法个别预测值偏差比较大,部分数据点分布比较零散,SVR方法相对来说比较稳定。 右侧可以看出KRR方法优势更明显,符合理想要求的数据点比较多,误差值接近0的频数比较大。 整体来说,SVR方法比较稳定,KRR方法在精确度方面较好,但是预测不稳定,预测结果较容易出现大误差。

图3 KRR方法表面重力估计值和真实值一一对应图及误差对比图

图4 SVR方法表面重力估计值和真实值一一对应图及误差对比图

图5 KRR方法金属丰度估计值和真实值一一对应图及误差对比图

图6 SVR方法金属丰度估计值和真实值一一对应图及误差对比图

图7 有效温度残差对比图

图8 表面重力残差对比图

(4)残差对比图

正常情况下残差图上的点随机分布在以0为横轴的直线上下,表明预测值的随机性和不确定性,随机性和不可预测性是任何回归模型的关键组成部分。 越多的残差数据点越接近0轴表示相对误差越小,回归方法预测结果越准确。 从三个参数对应KRR和SVR两种方法的残差对比图(2.7,2.8,2.9)可以看出,在有效温度测量上,KRR方法数据点分布带要比SVR数据点分布带窄,说明KRR在有效温度测量上有较明显优势,而另外两个参数并没有明显区别。 不过从残差图中可以看到,KRR方法预测结果中残差较大的异常点相比SVR稍多,且在三个参数残差图中异常点有效温度的误差范围大多聚集在500K左右,表面重力的在3 dex左右,金属丰度的在1.5 dex左右,结合表1和表2的误差统计,这反过来说明KRR方法在非异常点处更加精确。

图9 金属丰度残差对比图

表1 KRR预测结果误差统计表

表2 SVR预测结果误差统计表

(5)误差结果统计分析表

表1是本文KRR方法50次组合实验总的误差统计表,从表中可以看到KRR方法有效温度的预测误差的平均绝对误差值为82.989 7,其结果要比SVR方法的144.230 8好很多,表面重力和金属丰度两个结果KRR稍微优于SVR方法。 本文实验数据中有效温度的数值覆盖范围是3 763.85~8 362.43 K数值比较大,而另外两个参数数值较小,说明KRR方法在大数值方面有较好的预测结果,在小数值上面预测结果和SVR相差无几。 但是在均方误差方面,由于KRR方法预测结果中存在较大的偏差,导致均方误差要大于SVR方法。 总体来说KRR方法更适合有效温度的预测。

3 结 论

将KRR方法应用于恒星大气物理参数测量,该方法能在天体光谱参数测量方面取得比较理想的预测结果,对高纬度小样本有较好的鲁棒性。 为了避免偶然数据的影响,本文将SVR方法和该方法作对比,实验结果发现KRR方法在有效温度的测量方面具有较高的预测精度,表面重力和金属丰度优势较小,但总体的预测结果是可以接受,因此该方法在天体光谱参数测量方面是可行的。 由于KRR方法添加了正则项,权值系数矩阵是不稀疏的,随着数据量的增加,模型训练时间越来越长,下一步将针对训练时间进行优化。

猜你喜欢
残差光谱误差
基于三维Saab变换的高光谱图像压缩方法
基于双向GRU与残差拟合的车辆跟驰建模
高光谱遥感成像技术的发展与展望
基于残差学习的自适应无人机目标跟踪算法
角接触球轴承接触角误差控制
Beidou, le système de navigation par satellite compatible et interopérable
基于递归残差网络的图像超分辨率重建
压力容器制造误差探究
九十亿分之一的“生死”误差
综合电离层残差和超宽巷探测和修复北斗周跳