基于K-S 统计检验方法的从化流溪河流域先秦时期遗址预测模型

2021-01-13 07:14曹耀文

黄河·黄土·黄种人(华夏文明) 2020年12期

曹耀文

一、前言

遗址预测研究，是基于对特定区域内已知遗址进行的环境因素分析，如高程、坡度、水系的距离、土壤类型等，找出遗址分布的统计性规律和特征。然后，在这个区域的其他地方用多变量判别函数对遗址存在的可能性进行评价，给出潜在遗址的概率分布[1]。该研究方法，始于20世纪80 年代的北美地区，是GIS 在考古学中开展得比较广泛和重要的研究方向[2]。 20 世纪90年代开始，GIS 方法在国内考古研究中不断得到运用和推广，近年有部分学者尝试运用GIS方法开展遗址预测研究，运用的方法有逻辑斯蒂回归分析方法[3]、BP 神经网络方法[4]、柯尔莫诺夫-斯米尔诺夫（Kolmogorov-Smirnov，简称K-S）统计检验方法[5]等。上述研究，以特定区域内已掌握的遗址点为基础，运用GIS 的空间分析和统计检验分析方法，计算其与自然地理环境要素之间的定量关系，进而构建可能的遗址分布概率模型。定量分析的运用，使得人地关系的研究更加准确和科学化。

本文尝试运用GIS 的空间分析功能，借助K-S 统计检验方法构建从化流溪河流域先秦时期遗址预测模型，开展从化流溪河流域先秦时期遗址分布的人地关系研究，同时希望通过模型的建立为岭南珠三角地区田野考古调查工作提供预测指导。

二、基础资料及数据处理

1.基础资料

流溪河，属珠江水系北江支流，发源于广州市东北部的从化区吕田镇桂峰山一带，流经从化全境。地势东北高西南低。东北部以山地、丘陵为主，中南部以丘陵、谷地为主，中下游沿岸两侧有小面积冲积平原。本文研究的遗址点资料，来源于2014 年6 月至2015 年3 月的调查：流溪河流域及从化东北部的连麻河流域和西部的潖江（二）河流域，共计发现各时期遗址361个，其中先秦时期遗址共计318 个[6]。

2.数据处理

首先，对先秦时期遗址的时代、文化内涵等信息进行量化处理。之后，将1:66000 从化行政区划图①分析所用底图——1:66000 从化行政区划图来源于从化市地方志编纂委员会编写的《从化市志（1997—2004）》。、90 米DEM 数字高程数据②数据来源于中国科学院计算机网络信息中心地理空间数据云平台(http://www.gscloud.cn)。导入地理信息系统，配准后制作从化河流水系、村镇位置、行政边界、路网等矢量图层。然后，根据行政区划边界图，对DEM 数字高程数据进行截取，利用DEM 数字高程数据获得高程、坡度、坡向数据，利用矢量化河流水系获得河流缓冲区数据，并根据研究需要对上述四要素进行区间划分。最后再将遗址点分布图与海拔高程、坡度、坡向和距河流距离等图层进行叠加提取，获取不同地理参数在不同区间的遗址分布数量。（图1～图4）

三、遗址预测模型建立

1.研究方法及参数选择

2.权重设置及模型建立

运用GIS 构建遗址概率分布图时，需对各环境参数及各参数内部各区间进行加权计算。K-S 统计检验分析中，Dmax-Dc 的差值大小，决定着该环境要素对遗址分布的影响性大小，差值越大，显著性越强。据此，根据海拔高程、坡度、坡向和距河流距离4 个环境参数的Dmax-Dc 差值大小，将差值最大的参数外部权重值设为5①，然后按照各参数Dmax-Dc 差值的大小等比例设置其外部权重。

内部权重，由各环境参数内部区间遗址点数量多少确定。运用GIS 重分类功能对各环境要素进行区间划分，根据遗址点与高程、坡度、坡向和距河流距离图层叠加分析，计算各区间的遗址点数量。将环境参数内部权重最大值设定为5①参照同类研究设置。见牛少静、彭淑贞、张伟等所撰写的《山东沂沭河流域龙山文化考古遗址分布与环境的关系》，从高到低依次等比例设置内部权重。

图1 先秦遗址海拔高程分布图

图2 先秦遗址河流缓冲区分布图

图3 先秦遗址坡度分布图

图4 先秦遗址坡向分布图

图5 遗址点数量及面积累积频率曲线

经过计算，Dc 值为0.0763。 Dmax-Dc 值，海拔高程＞坡度＞距河流距离＞坡向，其中前三者Dmax-Dc 值均大于临界值Dc，说明三要素是影响遗址分布的显著性因素，外部权重依次设定为5、4、3。而坡向Dmax-Dc 值小于0.05，未通过检验，说明显著性影响较差，外部权重设置为0。各环境要素内部权重依次设定为5～0。总权重由外部权重和内部权重的乘积得来。（见表1）

表1 各环境参数权重设置

在确定内部权重、外部权重以及总权重之后，利用ArcGIS10.0 软件的栅格计算器功能进行数学计算，最终获得从化流溪河流域先秦遗址分布概率图。（图6）

将遗址点与遗址分布概率图叠加分析，发现超过45%的遗址分布于高概率区，43%的遗址位于中概率区。综合来看，绝大多数遗址均位于中高概率分布区。

3.模型检验

为验证遗址预测模型精度，本文采取Kvamme 增益统计方法[7]。表述方式为Gain=1-Pa/Px。其中，Gain 为增益值，Pa 表示概率区占研究区面积的比例，Px 表示概率区内遗址点数量占研究区总遗址点数的比例。当增益值接近1 时，表示模型预测能力强；当增益值接近0 时，表明模型预测能力较弱；如为负值，则表示具有反向的预测能力，即为预测遗址不存在的概率。

图6 从化流溪河流域先秦遗址分布概率图

表2 遗址预测模型Kvamme 增益值统计表

运用GIS 重分类概率图与遗址点叠加分析，计算出不同概率区的Kvamme 增益值。（表2）

从表2 可知，高概率区面积占研究区域总面积的比例仅为13.64%，可是在调查中，却发现了45.28%的遗址，Kvamme 增益值高达0.7，在较小的面积里面发现了较多的遗址。这说明，该遗址预测模型可有效识别遗址高概率区。

四、分析讨论

1.从遗址分布概率图看，高概率分布区集中分布于从化流溪河中游干流及两侧大型一二级支流两岸。此外，流溪河下游部分一二级支流两岸，流溪河上游吕田盆地、安山盆地，潖江（二）河两侧支流两岸，也零星分布着高概率区。中概率分布区，集中于从化南部的流溪河下游平原区及潖江河远离河道的区域，此外，从化东北部山地丘陵地带的流溪河支流两岸，也是中概率分布区。低概率分布区，位于从化东北部远离河道的山地丘陵地带，中下游高山区也是低概率分布区。遗址概率的分布，与从化地形地貌及河流水文密切相关。

从已调查发现的遗址点分布情况来看，从化中北部高概率分布区的遗址点分布均较密集，说明本次从化流溪河流域田野考古调查工作覆盖面相对较高。反观从化流溪河下游南部及西部地区，遗址预测模型显示的高概率区却鲜有遗址发现，这与中北部遗址分布点与遗址预测高概率区高度重叠的现象存在较大差距。分析其原因：一是该遗址预测模型可靠性不高，对从化中北部地区的预测性较高，而不适用于南部及西部地区，可能存在未考虑的因素；二是流溪河下游南部及西部地区田野调查工作不充分，模型预测的遗址分布高概率区存在遗漏调查的情况，这些高概率区是未来考古工作的重点区域。

2.通过运用GIS 的空间分析和K-S 统计检验分析方法，计算出海拔高程等自然因素影响遗址分布的显著性定量关系，结果表明：从化流溪河流域先秦遗址分布，受自然因素影响显著。其中，海拔高程、坡度、距河流距离是影响遗址分布的显著性因素，而坡向则对遗址分布影响甚微。确定环境因素及权重比例后建立的遗址预测模型，经Kvamme 增益检验具有较高的有效性。通过遗址预测模型划定遗址分布高概率区，可有效指导田野实践，可有效节省人力、物力、财力，减少考古工作的盲目性，起到事半功倍的效果。

3.GIS 及统计检验方法的运用，使得考古学研究由定性分析向定量研究转变。数据分析的量化和科学性，为聚落考古研究提供了新的方法和视角。但也必须理性认识定量统计学方法在考古学研究中存在的不足。如本研究使用DEM 数字高程数据的精度为90米×90 米,分辨率较低。虽然本文纳入一部分自然环境因素分析研究，但需要注意的是，遗址分布不仅受海拔高程、坡度、距河流距离等自然环境因素影响，还会受降水、光照、植被、土壤、地质等地理要素影响。此外，社会、人文因素也是分析研究的重要参考。下一步，将在提高基础数据精确性的基础上，纳入更多的自然地理和社会人文方面的因素，提高遗址预测的准确性，为考古调查工作提供更为科学的参考。