无标度网络上异质性演化猎鹿博弈的研究

2023-07-11 08:33邹易君刘兴文
关键词:合作者标度异质性

邹易君,刘兴文,龙 勇

(西南民族大学电气工程学院,四川 成都 610225)

博弈论是研究理性个体之间冲突与合作的学科[1],广泛应用于逻辑学、系统科学和计算机科学等各个领域.早期博弈论研究的是双人零和博弈,以及利益冲突下的最优决策.自Smith 和Price 首次提出演化稳定策略并建立演化博弈理论以来,博弈论的研究范围从双人博弈扩大到群体博弈,不再假设博弈参与者完全理性,从有限理性的角度为博弈论寻找新的突破.不同于早期博弈论将重点放在静态均衡上,演化博弈论强调动态均衡,需要种群经过世代演化才能达到.在自然界的群体中,总是存在着合作者,而往往背叛者会获得更大收益,故群体合作行为一直是学术界关注的主要问题[2-3].网络演化博弈论为研究这一问题提供了有效的框架[4-5]. 在此框架下,囚徒困境博弈、雪堆博弈和猎鹿博弈等经典的博弈模型[6-8]在晶格网络、小世界网络、无标度网络以及ER 随机网络上得到了深入研究[9-12].

许多社会、生物和通信系统可以用复杂网络进行描述,网络的节点代表个体或组织,边表示它们之间的相互连接. Juran 根据十九世纪Pareto 对意大利进行的人口与财产分布调查结果,提出“二八定律”[13],即20%的人口拥有80%的财产. Zipf 在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系[14]. Price 研究发现论文引用网络的度分布规律符合幂律分布,用数学模型推导这一现象的产生原因,提出论文引用网络的增长具有优先连接机制,并提出了累积优势解释“富人更富”的现象[15].Albert-László Barabási 研究了一些常见网络,发现网络的“无标度”特性,并提出网络生长和偏好依附的模型以获得无标度网络[16-18].

演化博弈中个体的异质性是指个体之间由于年龄、财富、性别等因素的差异,使个体的风险态度以及偏好各不相同,导致个体间的交互也会在策略、收益等方面有不同的表现,从而产生不同的决策结果[19-20].异质性群体演化博弈广泛存在于现实生活中.

目前国内外的文献研究中,有关异质性演化博弈的相关研究如下:Fort 于2008 年提出一个没有支付参数的小型模型,从收益的随机异构分布开始,通过自然选择得到确定的收益矩阵[21];同年,Perc 等人研究了演化囚徒困境博弈,分别构建了异质性参数分布特性满足均匀分布、指数分布、幂律分布的晶格网络和能反应异质性影响的收益矩阵,得出财富分配在利己主义个体之间的合作演化中起着至关重要的作用[22];2009 年,Du 研究了无标度网络上非对称成本演化雪堆博弈,利用无标度网络的异质性,制定了一种新的雪堆博弈成本分配方式,得出新的成本分配方式能提高合作水平[23];2017 年,Cui 研究了演化囚徒困境,构建了具有异质性参数幂律分布特征的晶格网络,且异质性大小决定个体博弈次数,从而影响收益大小,得出了此机制提高族群合作水平的结论[24].

现有研究对相关实践具有较强的指导与借鉴价值,但是并未涉及到猎鹿博弈的异质性收益分配问题,也没有提出在更新策略时能消除网络异质性的方法.本文的创新和特色体现在以下两个方面:一是利用无标度网络的异质性量化集群中个体的异质性,并根据集群异质性制定了一种合理的收益分配方式.二是使用期望驱动更新规则与从众更新规则结合的组合策略更新规则,消除了网络异质性对策略更新的影响.

1 模型

1.1 猎鹿博弈收益矩阵

猎鹿博弈是传统的双人双策略博弈,每个个体有两种可供选择的策略:猎鹿和猎兔,猎鹿代表合作(C),猎兔代表背叛(D),两个个体同时决定选择合作还是背叛.当博弈双方均选择合作时,两人均获得收益R(reward);当双方均选择背叛时,两人均获得收益P(punishment);当一方选择合作而另一方选择背叛时,背叛者获得收益T(temptation),合作者获得收益S(sucker's payoff)[25]. 猎鹿博弈中,R>T>P>S[26].为了降低计算的复杂性,Zhang 等人将猎鹿博弈收益矩阵参数设置为R=1,T=r,S=0,P=1 -r,变量r取值范围为0.5 <r<1,以保证R>T>P>S.收益矩阵如下:

其中r是成本效益比[26].

1.2 异质性收益分配猎鹿博弈收益矩阵

无标度网络是一种异质性网络,网络中个体的度分布满足幂律分布.在无标度网络中,如果用P(k)表示网络中度为k的节点出现的频率,有

指数β满足2 <β<3[16-17].

无标度网络个体的度可自然量化网络个体的异质性.如果网络上个体i和个体j相互连接,其异质性指标λi,j和λj,i计算方式为

其中ki表示个体i的度,kj表示个体j的度,α表示异质性参数.

在传统猎鹿博弈模型中,两个合作者完成博弈后,每个个体所得收益为R=1.假设两合作者平均分配所得收益,则两人合作猎鹿总收益应为2R=2. 根据异质性指标的定义,为保持个体i和个体j合作时的总收益不变,异质性指标满足λi,j+λj,i=1,则2(λi,j+λj,i) =2. 根据个体间的异质性,收益会被两个个体不平等地分配[23],故对于个体i和邻居j间的猎鹿博弈,个体i的异质性收益分配猎鹿博弈收益矩阵改进如下:

(3)和(4)表明,当α<0,异质性指标越高的节点分得的收益越低,而异质性指标越低的节点反而分得更高的收益,这与现实社会中的合作背道而驰,不利于合作的演化,本文不进行相关讨论.α=0,博弈回归传统的同质性猎鹿博弈,合作的双方平分猎鹿所得收益.α>0,异质性指标更高的节点分得更多的收益,即按劳分配.且α越大,λi,j-λj,i越大,合作的双方经过异质性分配以后各自所得收益差别也就越大,分配的不均衡程度也就越大.

1.3 累积收益与期望累积收益计算

网络中,互相连接的两个个体互为邻居. 在第t轮博弈,每个个体与所有邻居博弈.在一轮博弈中,个体i与个体j确定各自的策略和,按照矩阵(4)计算各自的收益和. 个体i在某一轮的累积收益可以表示为

在猎鹿博弈中,根据猎鹿博弈收益矩阵参数关系:R>S且T>P,即无论个体i的策略是合作还是背叛,,可求得最大可能累积收益与最小可能累积收益.故在每一轮计算累积收益之后,保持个体i的策略不变,进行两次虚拟博弈.

在第一次虚拟博弈中,假设个体i的邻居均是合作者,用表示个体i与个体j虚拟博弈的收益,故个体i得到的虚拟最大累积收益公式如下

在第二次虚拟博弈中,假设个体i的邻居均是背叛者,用表示个体i与个体j虚拟博弈的收益,故个体i得到的虚拟最小累积收益公式如下

两次虚拟博弈完成后,将虚拟最大累积收益和虚拟最小累积收益求算术平均数,得到期望累积收益

1.4 策略更新

无标度网络上,影响收益大小的原因除了异质性收益分配方式以外,还有个体度的差异(度越大的个体参与博弈的次数也越多,收益会更大),个体的收益与邻居的收益失去了可比性.为消除网络异质性的影响,本文选用期望驱动更新和从众更新结合的组合策略更新规则进行策略更新,邻居的收益将不会参与到策略更新概率的计算中.

1.4.1 期望驱动更新规则

当个体累积收益和期望累积收益计算完毕,期望驱动更新方式中,个体i计算策略更新的概率公式如下[27-29]:

1.4.2 从众更新规则

从众更新规则代表了社会上大多数人的决策方式,大部分人只会采取身边最常见的策略,而不是追求高利益,从众更新方式中,个体i计算策略更新的概率公式如下[30]:

其中Nsi=sj表示邻居中与个体i策略相同的个体数.

1.4.3 组合策略更新规则

运用凸组合的方式将两种更新规则进行结合,最后得出个体i更新策略的概率公式如下

2 结果与分析

本文取α=0,α=1 和α=2 三个具有代表性的值研究异质性演化猎鹿博弈,α=0 表示收益平均分配,回归传统猎鹿博弈;α=1 表示收益按劳分配,多劳多得;α=2 表示贫富差距进一步扩大后的分配方式,富人更富,穷人更穷.

无标度网络构造方法采用文献[16].异质性收益分配演化猎鹿博弈实验在节点数为N=5 000,初始网络节点数为3,节点之间相互连接,每次新增节点与现有网络的连边数为2 的无标度网络上进行,演化代数为5 000 代,所有结果均采用异步蒙特卡洛模拟,每组参数实验30 次.每一轮计算合作频率

2.1 α=0

首先探究当α=0 时的演化博弈.此时网络上所有个体异质性指标均为,则当博弈双方均选择猎鹿时,平分所得总收益,异质性未纳入考量.

2.1.1 策略更新规则对fc的影响

如图1 所示,从图1 的(a) ~(d)各图中可以看出相同的趋势:当γ =0 时,策略更新概率的计算完全取决于从众更新机制,在此情况下,fc一直维持在比较低的水平;当γ轻微地增加0.2 后,即期望驱动更新机制参与到策略更新概率的计算中,合作率会出现大幅度的升高;γ继续增加到0.8,期望驱动更新机制占比愈来愈重,fc也会有提升,但提升的幅度会大大降低;当γ继续增加到1,fc却会大幅度降低,但是依然能够促进合作. 期望驱动更新规则能促进合作,种群内合作者增多,个体的邻居中合作者的占比增加,故当从众更新机制加入以后,个体学习邻居中占比大的策略的概率增加,即合作,集群的合作率进一步提高.而一开始只通过从众更新机制进行演化,fc不会提高,因为在第一轮博弈开始前,选择合作的个体数和选择背叛的个体数比例相同,个体的邻居中合作者和背叛者大致占比相同,根据从众更新规则,与自身策略相同的个体大致占总邻居数量的一半,计算得出的概率为,所有个体随机选择是否改变策略,故合作率得不到提升.

图1 当时,在不同r 值和不同的值下随时间演化博弈Fig.1 The time evolution offor different value of r and ()

2.1.2r对fc的影响

横向对比图1 的(a) ~(d),随着变量r的增加,族群稳定后的合作率会降低,因为r越大,1 -r越小,合作带来的收益优势越来越低,背叛的诱惑却越来越大,集群里的某些个体会选择背叛,导致合作率降低.同理,r的增大还会导致族群中合作者和背叛者个体数达到稳定状态时的演化代数推迟,从图1 的(a) ~(d)可以看出,r越大,集群中合作者和背叛者个体数达到稳定状态时的演化代数从30 代左右推迟到120代左右,即集群策略分布达到稳定状态就会越晚.r越大,加入从众更新机制后带来的fc提升就越明显,这说明从众更新规则的加入能提高集群的抗风险能力,从众更新机制下,当族群内相互合作所得收益不占优势的时候,族群依然可以利用之前累积的合作者基数进行从众更新,保障合作者数量不会出现断崖式下降.

2.2 α=1

当α=1 时,两人合作后将总收益按照异质性指标进行按劳分配,异质性指标越高,分配所得收益越多,演化博弈所得数据绘制成图如图2 所示. 对比图1,α=1 时,r和γ对于fc变化趋势的影响和α=0 相同.加入异质性以后,稳定状态后的fc相较于α=0 时有一定的提高(约5%),尤其是当的时候,即只依靠期望收益驱动进行策略更新,说明异质性收益分配对于使用期望收益驱动更新规则族群的fc提升有更好的效果;演化代数相较于α=0 时也有更加明显的推迟,图2(a) ~(d),从大约70 代到大约1 700 代,说明加入异质性收益分配方式以后,集群策略分布更难达到稳定状态.

图2 当α =1 时,在不同r 值和不同的γ值下随时间演化博弈Fig.2 The time evolution offor different value of r and γ(α =1)

2.3 α=2

当α=2 时,贫富差距进一步增大,异质性指标越大的个体将分得绝大部分的总收益,而异质性指标小的个体只能分得少部分收益. 从图3 中可以看出,合作率相较于之前的按劳分配没有太大的变化,甚至还出现了些许下降(大约2%). 演化代数相较于α=1时也有更加明显的推迟,图3(a) ~(d),从大约350代到大约2 100 代,集群达到稳定状态的时间更晚.这说明贫富差距越大,种群中的个体开始倾向于选择背叛策略.因为个体选择合作的风险提高,选择合作不仅可能颗粒无收,而且就算对方也选择合作,自己分得收益也不会比自己选择背叛策略所得收益高,财富会迅速向异质性指标高的个体累积,造成穷人越穷,富人越富的情况.

图3 当α =2 时,合作率在不同r 值和不同的γ值下随时间演化的情况Fig.3 The time evolution offor different value of rand γ(α =2)

3 结论

本文研究了无标度网络上的异质性收益分配演化猎鹿博弈,采用网络的异质性量化个体的异质性,加入了异质性收益分配机制,使演化博弈实验更符合实际生活中的博弈.通过期望驱动更新规则与从众更新规则结合的组合策略更新规则将邻居的收益排除在计算外,一定程度上消除了网络自身异质性的影响.

研究得出了如下结论:异质性的加入提高了合作率,α=1 的按劳分配与α=2 的扩大贫富差距式分配均对合作率有一定的提高,尤其在仅有期望驱动更新作为群体的策略更新方式时,提升更加明显;从众更新规则不能促进异质性收益分配演化猎鹿博弈的合作,而期望驱动更新规则能促进合作;两种机制结合能显著促进合作.

猜你喜欢
合作者标度异质性
有“德”的人
有“德”的人
基于可持续发展的异质性债务治理与制度完善
怎样是最好的合作者
加权无标度网络上SIRS 类传播模型研究
现代社区异质性的变迁与启示
基于多标度曲线的股市网络构造及其社区挖掘
1949年前译本的民族性和异质性追考
创新孵化网络演化无标度特征仿真分析
从EGFR基因突变看肺癌异质性