地被植物引种气候指标相似性度量

2020-07-24 02:11甘诗润魏霖静
软件导刊 2020年6期
关键词:高维相似性度量

甘诗润 魏霖静

摘要:为提高园林绿植地被植物引种成功率,在高维数据聚类中采用相似性度量算法分析地被植物引种气候指标间相似度。选取原产于我国新疆维吾尔自治区的皱叶剪秋罗作为地被植物引种品种,新疆哈密地区为引种源地,兰州、武汉、北京、广州等市为目标引种地。以5座城市2015年气候年值数据中的8项气候指标作为分析指标,采用高维数据聚类分析相似性度量算法计算引种地和引种源地间气候环境相似度,依据相似度大小次序,分析遴选出与哈密地区气候环境接近的目标引种地.实验结果表明,基于高维数据聚类分析的相似性度量算法在地被植物引种气候相似性分析中可较好体现引种源地与目标引种地气候相似度,实验结果与实际情况相符。相似性度量算法可为地被植物异地引种提供辅助决策分析,使园林绿植引种更科学。

关键词:高维数据;相似性度量;地被植物引种;气候相似度

DOI:10.11907/rjdk.201270 开放科学(资源服务)标识码(OSID):

中图分类号:TP391文献标识码:A 文章编号:1672-7800(2020)006-0188-04

0 引言

随着人民生活质量不断提高、生态保护意识不断加强,公众对生活环境提出了新要求。为使资源利用更加高效、生态环境持续改善,打造生态宜居城市,使公众享受到优美的自然环境,使城市生态群落走上可持续发展道路,城市园林绿化建设工作任重道远。由于地被植物品类繁多,色彩季相纷繁多样,花果枝叶变化万千,可极大满足公众观赏需求;同时其适应性强、生长速度快、养护简便、栽植成本低,符合城市园林工程要求,在园林绿地应用中有良好的效果,因此地被植物成为城市绿植主要材料之一。

在地被植物栽植过程中,经常通过引进新品种以丰富园林色彩和景观。为更好丰富园林绿化观赏性、提高园林质量,首先需引种适合当地栽植的地被植物品种。目前,在物种引种中广泛采纳的是基于引种相似性原则的引种理论,即植物目标引种地区与引种源地区环境相似度越高、条件越接近,其引种成功可能性越大,其中气候与土壤是主要环境因素。

气候相似理论由德国著名林学家迈耶尔在树木引种研究中提出。气候相似理论的核心是作物引种成功取决于原产地与引种地影响作物生长的主要因素是否尽可能相似。中国农业大学魏淑秋等在气候相似理论研究方法的基础上,采用多维空间相似距离度量各地之间的相似程度(简称“相似距”);陈红星等利用相对欧氏距离相似优先比法对日本甜柿在我国气候生态适生区生长状况进行了初步分析;张燕燕等利用欧式距离聚类分析对我国三门峡烟区与国外烟区气候相似性进行分析,研究了三门峡市优质烤烟种植区域问题;张民等运用模糊相似优先比法在全球范围内分析与兰州气候相似的地方;李丽纯等采用相同方法分析闽台两地果树气候相似性。

现有研究大多利用基于欧式距离的相似性度量算法计算引种源地与目标引种地环境条件相似度,排出相似性序列,从而为植物引种提供辅助决策依据。在低维数据空间,采用传统相似度算法空间距离相似度表示数据对象差异,但由于高维空间中稀疏性及噪声的存在,使基于距离相似度量的传统算法在高维空间中表现不佳,无法稳定、准确地表示数据对象间的相似度。由于地被植物生长环境条件复杂,影响因素多且维度广,因此本文通过运用一种基于高维数据聚类分析的相似性度量算法对地被植物引种指标间的相似度进行分析,为地被植物在异地引种提供辅助决策分析,提高园林绿植引种效率。

1 材料与方法

1.1 材料

地被植物(Ground Cover Plants,GCP)指覆盖在地表的低矮植物,包括低矮的草本植物和一些适应性强的低矮匍匐型灌木或木本、藤本植物。地被植物皱叶剪秋罗花色缤纷艳丽,花期适逢春夏更替,此时正值花之淡季,是城市园林绿化优选材料。故选取原产于我国新疆维吾尔自治区的皱叶剪秋罗作为地被植物引种品种,新疆哈密地区为引种源地,兰州、武汉、北京、广州等市为目标引种地。以5座城市2015年气候年值数据最低气温、最高气温、平均气温、最大日降水量、20-20时降水量、日降水量≥0.1mm日数、日照时数、平均相对湿度等8项气候指标作为分析指标。本文实验气候数据资料摘自国家气象信息中心《中国地面国际交换站气候资料年值数据集(2015年)》。

1.2 气候相似性分析方法

首先确定分析哈密地区和兰州、武汉、北京、广州等城市8项气候指标相似性,采用高维数据聚类分析相似性度量算法計算引种地和引种源地间气候环境相似度,依据相似度大小次序,分析遴选出与哈密地区气候环境接近的目标引种地。

1.3 相似性度量函数

目前基于欧氏距离的相似性度量函数应用较为广泛,然而其在低维数据空间的良好表现在高维数据空间却无法延续。将其直接从低维扩展至高维空间中,由于高维空间存在特有的数据分布稀疏问题和空空间现象等特性,使Lp距离公式分辨能力下降,基于欧氏距离的相似性度量函数无法满足高维数据间相似性对比要求。由于植物生长环境条件复杂,影响因素多且维度较广,故植物生长环境数据为高维数据,无法用传统相似算法度量。该问题吸引了学者进行创新性研究,如杨风召等提出相似性度量函数Hsim(x,y),其表达式为:

其中,x,y为两个对象,d为对象数据维度数。该函数在相似性计算中相较于传统相似性度量函数效果有所改进,但仍存在两方面不足:一方面,函数对数据量级不敏感,难以发现差值相同的两个维度之间的区别,且对于数值较大的维度相似性度量效果差;另一方面,由于该函数在设计过程中未考虑属性之间的相似性,使其不适于度量分类属性数据相似性。

本文选取在相似性度量函数Hsim(x,y)基础上改进重构的高维数据相似性度量函数Sire(X,Y),其表达式为:

其中X和Y是d维空间中的两个向量,ai表示第i维的区间长度,即数据在第i维上的最大距离,目的是使相似性度量不仅依赖于X和Y,而且也依赖于全体数据,纵向考虑对应属性相对差值以及各维度分布特征。ε是极小的一个常数,可取值为0.001,以保证算法不被0除。

假设一个样本对象X在第n维的数据为2,与4个相似性进行比对,对象Y1、Y2、Y3、Y4在第n维上得数据分别是4、6、2、8。根据上述函数,在第n维这5个对象的区间长度ai=;为max-min,即8-6=2,并可得出在第n维上对象y1与样本对象X的相似度为(1-|2-4|÷(6+0.001))≈0.67(保留小数点后两位),对象Y2、Y3、Y4与样本对象X的相似度为0.33、1、0,故4个比对对象与样本对象在n维上的相似性次序为Y3>Y1>Y2>Y4。文献[18]验证了该函数在高维数据相似性度量中比传统基于各类距离函数的度量方式稳定性和准确性更高,且随着数据维度的增加,度量效果更好。该函数具有如下性质:①通过计算各维数据相似度,然后取平均值得出两个对象之间相似度,值域为[0,1],其值越大表示两个对象越相似;②函数最小值为0,表明在各维度上,对象X和Y的属性差值最大,此时X和Y相似性最小;③函数最大值为l,表明在各维度上,对象X和Y的属性值相同,故X和Y是两个重合的d维向量,此时X和Y相似性最高。

依据该函数特性,若在对象X和Y的数据中存在一些维度数值相似,则两对象间会表现出一定相似度;若两对象中的数据有更多维度数据表现出相似性,则两对象相似度更高。

2 结果与分析

在引种过程中,将原产于新疆的皱叶剪秋罗,引种到兰州、武汉、北京、广州4座城市,根据引种需要对引种地与引种源地气候条件进行分析比较,拟通过相似性度量分析选择最优目标引种地。利用5座城市2015年年值气候数据中的8项相关气候指标(见表1),通过Sim(X,Y)相似性度量函数分析得出目标引种地与原种地相似度序列。

如表2所示,设原种地城市哈密地区为样本对象X,兰州、武汉、北京、广州这4座目标引种地城市依次为对象Y1、Y2、Y3、Y4。最低气温(摄氏度(℃))、最高气温(摄氏度(℃))、平均气温(摄氏度(℃))、最大日降水量(mm)、20-20时降水量(mm)、日降水量≥0.1mm日数(日)、日照时数(h)、平均相对湿度(百分率)等8项气候指标依次记为5个对象的8个属性维度A-H。

计算在A属性维度上,Y1、Y2、Y3、Y4与样本对象X的相似度。首先数据对象在A属性维度的区间长度ai为4.8-(-18.4)=23.2。

故可得出在第A维上对象Y1与样本对象X的相似度为:

依此算法分别计算Y1、Y2、Y3、Y4与样本对象X在B~H属性维度上的相似度。

Y1、Y2、Y3、Y4各对象与样本对象X的整体相似度比对有两种方法:①相似度平均值法。即求同一对象Yi与样本对象X比对的不同属性维度相似度平均值;②相似度序数和法。将计算得出的各对象按照同一属性维度相似度进行排序,得到各对象与样本对象在同一属性维度的相似序数,然后求同一对象在不同属性维度的相似度序数和,序数和越小,则与样本对象越相似。

相似度平均值法可很好地表示各对象与样本对象的相似程度,相似度序数和排序法可很好地表现各对象与样本对象的相似度顺序。

Sim函数利用相似度平均值法計算得出Y1、Y2、Y3、Y4分别对于样本对象的整体相似度,如表3所示,Y1、Y2、Y3、Y4与样本对象X的相似度依次分别为0.67、0.21、0.68、0.09。与对象X的相似度顺序为Y3>Y1>Y2>Y4

同时也可利用相似度序数和法对结果进行辅助验算。在A属性维度上,Y1、Y2、Y3、Y4与样本对象X的相似度依次分别为0.94、0.49、0.66、0.06,故在A属性维度上,Y1、Y2、Y3、Y4样本对象X的相似性序数依次为1、3、2、4;同理,在B~H属性维度上所有对象相似性序数如表4所示,同时可得各对象与对象J的相似性序数和。Y3>Y1>Y2>Y4相似度序数和值依次为13、26、12、28,由于两个对象相似度越高,相似序数和数值越小,故相似度序数依次为2、3、l、4,即与对象X的相似度顺序为Y3>Y1>Y2>Y4。结果与相似度平均值法相同,即皱叶剪秋罗引种适应性为北京>兰州>武汉>广州。

北京市园林绿化局编制印发的《北京市绿地林地地被群落建植与养护指导书》明确指出皱叶剪秋罗为北京市推荐应用的地被植物种类。同时,李星耀等在适宜兰州地区推广应用的优良抗旱地被植物研究中,通过大量筛选,将皱叶剪秋罗列为5种推广优良抗旱地被植物之一。因此算法结果与实际引种栽植情况基本相符。

3 结语

本文基于改进的Sim(X,Y)相似性算法,通过计算哈密地区与北京、兰州、武汉、广州4座城市的8项气候指标相似度,得出4座城市与哈密地区气候条件相似度次序。其中北京气候条件与哈密地区最为接近,能为皱叶剪秋罗引种提供较原种地相似的气候条件,有利于植株引种成活;兰州气候相似度次之,气候条件较适宜邹叶剪秋罗生长;武汉、广州两座城市与原种地气候条件存在较大差异,不推荐引种。

引种成功率是多个影响因素复杂作用的结果,如气候、土壤、种质资源、微生物等。同时植物生态型也是引种考量的重要指标,生态型指在同一物种变种范围内,遗传结构基本相似的植物,其生物学特性、形态特征等均与当地主要生态条件相适应。在引种过程中,引种生态型相同的品种是提高引种成功率的有效手段。本文应用的相似性度量方法可有效明确目标引种地与原种地气候相似性,同时也可为地被引种其它指标相似性度量提供参考。

猜你喜欢
高维相似性度量
一类上三角算子矩阵的相似性与酉相似性
鲍文慧《度量空间之一》
模糊度量空间的强嵌入
浅析当代中西方绘画的相似性
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
一种改进的GP-CLIQUE自适应高维子空间聚类算法
基于加权自学习散列的高维数据最近邻查询算法
低渗透黏土中氯离子弥散作用离心模拟相似性
地质异常的奇异性度量与隐伏源致矿异常识别
一般非齐次非线性扩散方程的等价变换和高维不变子空间