基于计算机编程的洛特卡验证研究

2022-05-31 02:29刘友生
科技创新与应用 2022年15期
关键词:洛特定律构件

胡 浪,刘友生

(广东松山职业技术学院,广东 韶关 512126)

洛特卡定律(Lotka's Law)是美国统计学家Lotka于1926年在观察和统计化学及物理两个学科领域科学文献时发现的一个统计规律,其最初表达式是xny=C,即在一定时期内、某领域发表x篇论文的作者占作者总数的比例y与其所发表的论文篇数x的n次方成反比关系。Lotka通过频率对数分布得到的回归直线符合平方反比关系,因而他把这一统计规律称为“科学生产率平方反比律”,并算得C=0.6079,即发表一篇论文的作者数占作者总数的60.79%[1]。这是人们第一次从统计学角度揭示科学家的著述规律以及科学文献按著者的分布规律,因而被后人称为洛特卡定律。在之后的验证研究中人们发现,作为一个经验统计规律,这个定律本身存在较浓的经验色彩和相对准确性,其中n与C随学科的不同以及统计时间的长短而出现一定波动。上世纪70-80年代,Vlachy、Pao等学者对洛特卡定律的验证工作取得了新的进展,并且得到了n不为2时n与C的逼近估算公式,从而拓展了洛特卡定律的适用范围,因而也被称为广义洛特卡定律[2]。

洛特卡定律提出已近百年,国外对其的验证研究由来已久;而国内自上世纪80年代后期伴随着文献计量学的发展,对洛特卡定律的验证研究才逐步兴起。近年来,相关研究主要包括对一段时期的期刊文献[3]、专利文献[4]、某个学科或主题研究文献[5]等的验证。所有这些研究的验证全过程都是由人工对数据进行分步骤计算得来的,由于计算过程繁琐、数据运算量大,人工计算往往容易出错。为此,我们提出用计算机编程技术解决人工计算量大易错问题的思路,并设计出用于洛特卡验证的程序系统,同时在实际应用中得到验证和确立。本文简述了洛特卡验证的理论步骤、程序系统的设计框架以及基于C#语言的构件程序,以期对后续相关或相似研究有所裨益。

1 洛特卡验证步骤

1.1 参数n的估算

对洛特卡原始表达式xny=C两边取对数得到等式(1):ln y=ln C-n ln x;为使理论值与实际值最接近,在运用最小二乘法估算时,令(2)式Q=Σ(ln y-ln y′)2中Q值最小即可;将(1)式代入(2)式,并将Q分别对n和C取偏微分,整理后得到n的估算式:

1.2 参数C的估算

1985年M.L.Pao教授在《Lotka'law:a testing procedure》一文中提出C的逼近值算式(4):

同时指出,当P=20时,使用该式计算误差已小于1/110000[6],故P取值为20即可,将P=20代入(4)式得到C的简算式:

至此,可以初步得到广义洛特卡分布的表达式:

1.3 K-S检验

Pao指出,为校验计算得到的洛特卡表达式的理论分布与实际分布的拟合程度,须对其进行K-S检验,基本思路是比较观察数据对的累积占比率与估算的洛特卡分布理论值累积占比率之间的差值,取其最大值记作Dmax,若Dmax大于临界值,表明理论值与实际值存在显著差异;若Dmax小于临界值,则表明理论值与实际值无显著差异。在显著性水平α=0.01情况下,临界值由公式确定[6]。

2 系统设计框架及实现

2.1 系统设计框架

期刊论文与作者分布的洛特卡验证系统包括原始数据录入、参数n的估算、参数C的估算和K-S检验4个主要部分。其中,n的估算是按(3)式计算、所得n值保存至数据库中,C的估算按(5)式计算、所需n值从数据库中获取,所得C值同样保存至数据库中,以备K-S检验调用。整体系统的结构和框架如图1所示。

图1 期刊论文与作者分布的Lotka验证系统框架

2.2 系统框架实现基本步骤

2.2.1 参数n估算的实现

首先要计算论文数x与作者数yx的自然对数,根据结果,再计算ln x乘ln yx的积和计算ln x的平方;根据这3个结果再分别计算:(1)论文数自然对数的和Σln x;(2)论文作者数自然对数的和Σln yx;(3)由原始数据确定数据对N的值,并计算NΣ[(ln x)(ln yx)]和N[Σ(ln x)2];(4)计算论文数自然对数的和的平方(Σln x)2。最后计算n值将n的值保存至数据库,同时为C估算提供n的值。

2.2.2 参数C估算的实现

2.2.3 K-S检验的实现

K-S检验包括(1)首先按表1中实际分布计算实际累积占比率;(2)再通过f(yx)=C/xn计算x从1到N的f(yx)理论值,再计算其理论累积占比率;(3)计算理论累积占比率与实际累积占比率的差值,得到Dmax;(4)比较D临界与Dmax的大小,得出结论。

2.3 系统实现的构件编写举例

本系统是由不同构件组成,并按Lotka验证公式进行数学计算。由于相关构件较多,本文仅以n的估算中求某一数列对数的构件设计为例描述关键构件编程要点,其余构件则不在此一一赘述。为了使程序具有通用性,我们设计了一个能够计算某一列数据的自然对数的通用程序构件,该构件的核心代码如下。

///求某一列的对数

public void Countlnx(string SQL, string lnx_FileName,string ResltFileName)

{

连接数据库并打开数据库

while(objreader.Read())

{

int sid=Convert.ToInt32(objreader["ID"].ToString());

Int32 lnx_FileNameVaule= Convert.ToInt32(objreader[lnx_FileName].ToString());

try

{

UpdateNumberFieldValue("Filemanage",ResltFileName,

Math.Log(lnx_FileNameVaule).ToString(),sid);

}

catch(Exception e)

{

HttpContext.Current.Response.Write("<script>alert(’无法计算!’"+e.Message+");</script>");

}

}

}

该构件传入的参数包括SQL(执行数据查询的SQL语句);lnx_FileName(指定一个数据库中的需要计算的字段列的名称);ResltFileNam(显示结果的字段列的名称)。

传出结果:某一列lnx_FileName,将对数计算结果显示出来。

3 程序运行结果及结果分析

3.1 原始数据的获取与录入

首先使用期刊数据库做基础数据收集以统计期刊论文与作者分布,再通过数据录入程序,将所获原始数据论文数(x)与作者数(yx)录入系统,并保存至系统数据库中,如图1所示,可为后续参数n和C的估算以及K-S检验等程序调用,实现程序验证。本文以某图情期刊为例,通过中国知网收集、并用Citespace软件统计获得其近20年发表学术论文篇数x与发表x篇论文的作者人数yx,见表1。

表1 某图情期刊近20年发表论文篇数与作者数列表

3.2 n值估算

n值估算程序运行后,分别进行基本数据分析计算和单项计算以后的结果如图2所示。在代入表1基础数据后,通过系统运算,得到反映该数据条件下各分量的值,而其n=2.457 5(与手工计算结果一致,结果保留小数点后4位,下同)保存至数据库中。在以往的洛特卡验证研究中,Vlachy的工作证明,一般情况下1.2≦n≦3.5[3],洛特卡在对化学和物理领域文献的观察中得到n近似为2的结论,反映的是这两个学科领域的特性。本文中n=2.457 5,与邱均平等[7]关于图书馆学研究领域所得到的n=2.756相近,说明在图书情报领域研究中,n的取值范围应当在2~3之间,反映的也是该领域的学科特性。

图2 n估算程序基本数据分析计算结果

3.3 C值估算

C值估算程序运行后,分别计算分式中各个分量以及C估算基本指标数据以后的结果如图3所示,在代入n值后,系统可以得到C的估算值为0.735 6,同样保存至数据库中。

图3 C值估算程序运行结果

3.4 K-S验证

K-S检验程序运行,分别计算理论累积率和实际累积率及其差值,如图4所示。在本例中0.027 3,从图4可知Dmax=0.020 1,故有Dmax<D临界,可以判定:在显著性水平α=0.01情况下,该刊近20年所刊发的论文中,作者论文篇数与作者人数占比服从广义洛特卡分布,表达式为f(yx)=0.7356/x2.4575。

图4 K-S检验程序运行结果

4 结束语

运用洛特卡定律观察和研究作者分布情况,既能反映一个学科领域的科技劳动成果状况,也能科学估计科学研究生产规模,还能有效掌握科学论文的作者队伍,这是该选题历久弥新的根本所在。本文首次提出并实际运用计算机编程技术完成了洛特卡验证程序系统,解决了以往相关验证研究运算量大易错的问题,在国内文献中尚未得见,也为文献计量学与计算机科学交叉研究提供了一个成功的例证。

从实际数据的验证演示来看,本程序系统完全符合洛特卡验证要求,除期刊原始数据外,所有验证步骤皆由计算机程序运算实现;且在实例中当显著性水平为0.01时,所选图情期刊近20年所刊论文中论文篇数与作者人数服从广义洛特卡分布,所得到的洛特卡分布式与人工计算结果一致。显示该程序系统具有设计思路清晰明确、运算结果快速准确、实际应用广泛高效的特点,特别适合关于洛特卡分布参数n与C值随统计时间跨度变化而变化等需要反复计算的应用研究,期望本文能对后续相关研究有所帮助。

猜你喜欢
洛特定律构件
卡洛特水电站:清洁能源赋能“中巴经济走廊”
钢筋混凝土构件裂缝控制
多一盎司定律和多一圈定律
苏州高洛特电子科技有限公司
倒霉定律
专利名称:二硅化钼基陶瓷加热元件保持结构
西夏建筑构件——鸱吻
福尔摩斯·斑点带子(下)
耐人寻味的定律
BIM软件中构件与其附着层的关系探讨