基于主从博弈的面向报童决策者的信息设计

2021-04-01 03:04沈琦琦王长军

东华大学学报（自然科学版） 2021年1期

沈琦琦, 王长军

(东华大学旭日工商管理学院, 上海 200051)

经典报童模型具有普遍适用性，被广泛应用于工业生产[1]、供应链协调[2]、拍卖竞价[3]和金融管理[4]等领域。Qin等[5]对报童模型的各种扩展和应用进行了详尽的综述。现有的报童相关研究均只考虑决策者面临不确定需求，而需求分布却是外生给定的，在现实情况中，诸如决策者面临的不确定需求等信息是可以被改变的。比如：Simchi-levi等[6]指出零售商可以通过释放需求信号，改变制造商对市场的信念，从而促使其多备货；Kamenica等[7]构造了广告设计的示例，由此影响消费者对产品质量的判断，促使其购买。此外，政府也可以通过各种宣传，影响企业对投资前景的信念，吸引其入驻投资。有相当的研究着眼于产品质量[8]，销售商促销的努力程度[9]以及市场需求[10-12]的认知表明，决策者对于未知市场信息的信念都是可以被改变的。在这一过程中，信息设计者可以通过改变市场中决策者的信念，继而影响其决策，使其做出有利于自己的行为。以改变需求认知为例，Wang等[10]研究了一个包含零售商和供应商的两级供应链，其中市场未来需求的状态有正常和中断两种，所有成员都共享需求状态的先验。但是，更靠近终端市场的零售商可通过需求信息共享，来影响供应商对市场需求的信念，继而影响其批发价决策。Jiang等[11]研究了制造商比下游零售商具有更好的需求信息时的共享问题，其中，市场需求状态分为高、低两种，双方共享需求先验，制造商可以事先预测需求信号，并根据博弈前选择的共享模式与零售商共享，以引导有利于自己的零售商价格决策。夏海洋[12]考虑供应商与现有零售商、新进入零售商缔结不同类型合约时泄露信息的问题，研究假定现有零售商可以观察到市场需求的真实值且据此向供应商下订单，而供应商可决定是否将现有零售商的订货量泄露给新进入零售商来改变后者的需求认知以获得更多收益。

以上研究关注了信息设计者通过改变另一方对需求的信念而获利，但在分析不确定市场需求时，如仅考虑极为有限的高、低需求状态，将难以充分描述现实中的复杂需求场景。此外，现有信息设计研究并未针对报童决策者展开[13-14]，这也限制了报童模型进一步在复杂信息环境下的应用。

本文考虑了一个具有信息优势的信息设计者，通过改变报童决策者对需求的认知，从而改变报童决策者的决策来实现自身的收益，其中，不确定的需求用一组离散场景来描述。本研究将该问题描述成一个包含信息设计者和报童决策者的Stackelberg主从博弈模型。处于模型上层的信息设计者决定其信息策略组合，在贝叶斯更新机制下，以此策略组合改变报童决策者的需求信念；而下层的报童决策者则根据更新后的需求后验分布制订订货量决策，该决策反过来会影响信息设计者的效益。考虑到构建的主从博弈模型在数学上是一个难以直接求解的双层规划问题，本文利用KKT(Karush-Kuhn-Tucker)条件将其转化为易求解的单层线性混合整数规划模型。本文不仅放宽了传统报童模型需求分布给定的要求，还考虑了面向一组需求离散场景的信息设计。此外，本文研究了信息设计者通过组合策略的方式影响报童决策者，并考虑了不同策略可能具有的成本。

1 模型建立

1.1 问题描述

本文研究由一个信息设计者L和一个报童决策者F组成的Stackelberg主从博弈问题。双方共享关于市场需求分布的先验。但是，处于信息优势的L可以在决策确定前，选择发送某种信息组合来影响F的信念，得到对于需求分布的后验，并由此影响F的报童决策结果。L要为发送信息组合付出相应的成本，而F的报童决策结果反过来会影响L的效用。模型假设包括：(1) 双方均为理性经济人；(2) 信念的更新遵循贝叶斯法则；(3) 不同信息对于F的信念的影响相互独立；(4) F按照后验分布做报童决策，而L收益由双方的策略选择共同决定。

L有n条可供选择的信息，且允许任意信息单独发送或组合发送。设每条信息发送与否的状态变量为a，当a=1表示该条信息被发送，否则，a=0。设标记n条信息全部发送状态的集合空间为Z，Z={a1,a2, …,an}，zj为其中第j组发送状态集合，即第j种策略组合，zj={aj1,aj2, …,ajn}，zj∈Z，j为信息状态集合编号，j={1, …, 2n}。ct表示第t条信息的发送成本，t={1, …,n}。L的决策是选择一个能使自己利益最大化的信息发送集合，因此，引入0或1变量xj，xj=1表示设计者选择发送zj策略组合，xj=0表示不发送该策略组合。发送信息的成本约束记为W。

具体博弈次序如下：首先，L和F共享市场随机需求θi的先验概率P(θi)；其次，L根据真实状态，选择发送给F的信息组合zj，并为此支付一定成本；最后，F依照贝叶斯法则更新对需求的后验，并做出订货量决策y，双方实现收益。

1.2 模型建立

根据上述变量，当最终的市场需求为θ(θ∈Θ)时，报童决策者F的利润函数为

(1)

考虑到市场需求θ不确定性，由上文对策略组合zj(zj∈Z)、策略发送状态xj以及关于市场需求的后验概率h(θi|zj)的定义，则F的期望利润函数为

UF=UF(x,y,θ)E(θ, x)[H(y)]=

E(θ, x)[(q-d)y-(q-s)(y-θ)+]=

(q-s)(y-θi)+]

(2)

L传递信息需要付出成本为

(3)

式中：cT={c1,c2, …,cn}T。因此，L的期望收益为

(4)

综上，可得Stackelberg主从博弈模型：

(5)

(6)

(7)

xj∈{0, 1},j=1, 2, …, 2n

(8)

(9)

(10)

其中：式(5)代表L的效用最大化目标；式(6)代表信息发送预算约束；式(7)代表只能选择一种策略方案；式(9)代表下层F的目标是期望利润最大化；式(8)和(10)限定了决策变量选取范围。

由于这一模型为双层规划，其在数学上难以直接求解[15]，因此，需对模型进行转化。

2 模型等价转化与求解

为简化上文的Stackelberg主从博弈模型，引入辅助变量gi，其定义为gi=(y-θi)+。由式(2)可知，目标函数式(9)可等价转化为

(11)

s.t.gi≥y-θi,gi≥0,i=1, 2, …,m

(12)

故双层规划模型转化为

(13)

式(6)～(8), (10), (12)

在双层规划中，上层决策决定下层的解函数。由于整数变量的存在，这个解函数既不是线性的也不是可微的，求解非凸且不可微的双层规划问题是很难的，即便是最简单的双层线性规划问题也是NP-hard(non-deterministic polynomial-hard)问题[15]。注意到本模型中，下层的报童决策被描述为一个形如式(11)和(12)的线性规划。因此，可考虑利用KKT条件等价代替下层优化问题，从而将双层问题转化为相对易求解的单层问题。为此，针对下层问题的目标函数式(12)构造相应的拉格朗日函数，引入拉格朗日乘子u、v、λi、ηi，有

(14)

对y和gi求一阶偏导，令导数为0，则有

故原模型等价转化为如下形式的单层规划模型：

(15)

(16)

λi(y-θi-gi)=0,i=1, 2, …,m

(17)

ηigi=0,i=1, 2, …,m

(18)

(19)

(20)

y,λi,ηi,u,v≥0,i=1, 2, …,m

(21)

式(6)～(8), (10), (12)

通过引入一个充分大的常数M，以及ri、ki、t1、t2等辅助参数，将上式中非线性互补条件变为线性约束，从而得到如下形式的混合整数线性规划问题：

(22)

y-θi-gi≤M(1-ri),i=1, 2, …,m

(23)

ηi≤Mki,i=1, 2, …,m

(24)

gi≤M(1-ki),i=1, 2, …,m

(25)

u≤Mt1

(26)

(27)

υ≤Mt2

(28)

(29)

ri,ki,t1,t2∈{0, 1},i=1, 2, …,m

(30)

式(6)～(8), (10), (12), (15), (16), (21)

在模型计算方面，求解器CPLEX已经在诸多领域的混合整数线性规划问题求解中得到了广泛应用[16-17]。因此，本文采用CPLEX计算转化后模型。

3 算例分析

图1 3种需求先验Fig.1 Three kinds of prior information

表1 给定贝叶斯条件概率

基于以上数据，通过CPLEX求解器计算可得3种先验情况下的均衡解，如图2所示。其中，允许考虑两种信息发送成本c1和c2在[0, 15]离散变化。

(a) 需求预期较差

(b) 需求预期一般

由图2(a)可知，F需求先验中对市场需求预期较差。当信息发送成本c1和c2较大时，L选择z1={0, 0}。此时，F的决策结果是基于需求先验的报童决策结果(y=50；UF=104)。随着c1和c2的减小，L会根据两个信息发布成本变化，选择单信息发布方式。发布信息修改了F对需求信息的后验，导致其改变报童决策结果，做出更大的订货量y决策。当信息发布成本足够小时，L选择组合策略z4={1, 1}，此时，F的报童决策得到最大程度的修正。

图2(b)显示F需求先验对市场预期一般，此时L可通过信息设计将F的订货量y由60提升至80，但难有进一步提升。图2(c)显示F需求先验对市场预期较好，这与L试图通过信息设计引导的结果是一致的。因此，L的最优选择是不进行信息设计，除非信息设计的成本为0。

观察信息策略对报童决策者预期收益的影响，组合策略z4={1, 1}的优化影响效果最佳，但成本也相对最高，只有在单位信息发送成本较低的情况下(图2(a)、(c))，或者先验与L偏差过大时(图2(b))，才会使用该策略。在对F的期望收益UF的影响方面，单策略{0, 1}明显强于{1, 0}，这是由于在增加F对于较大需求的信念时，A2强于A1(见表1)，因此在相同的成本下会优先选择发送A2。

此外，进一步观察信息设计者L的收益UL随信息发布成本的变化情况，如图3所示。由图3可知，UL随信息发送成本c1、c2的增加呈现先减小后不变的状态。这是因为信息发布的成本和F的报童决策共同支配着UL。具体来说：对于给定c1，随着c2的增加，信息发布的成本增加，故UL随之线性下降；当c2增加至一定程度时，均衡解中的L信息策略变为z2={1, 0}，故随后UL保持不变。

(a) 需求预期较差

(b)需求预期一般

进一步，观察成本d的变化对结果的影响，如表2所示，其中售价q=10和残值s=3不变。由表2可知，d的变化直接影响到边际成本MC(MC=q-d)和边际收益MP(MP=d-s)的大小。由报童模型基本原理可知，MP与MC比值变小会导致最优订货量y*的下降。因此，要在不同的信息设计方式和成本下，通过对d的灵敏度分析，观察并分析所得结论。

此处，信息发送成本{c1,c2}分别选取[{0, 0}, {2, 2}, {4, 4}, {6, 6}, {8, 8} {10, 10}]，在图1所示3种需求先验中选择极端的2种，即需求预期较差和较好的先验下展开仿真，计算所得的均衡结果如图4所示。

表2 随d变化的边际收益(MP)与边际成本(MC)

(a) 需求预期较差

(b)需求预期较好

图4 不同需求预期下考虑不同d的最优订货量Fig.4 Optimal order quantity under different d and different demand expectation

由图4可知，订货量y随着定价d和{c1,c2}的增加而减少。比较d对y的影响，当d≥7时，L会更多选择信息策略z4={1, 1}。这是由于MP小于MC时，组合策略能够带来更好的优化效果，特别是在发送成本也相对较低时。相反，当MP/MC大于1时，订货量y已然处在较高的水平，信息设计所能带来的改善有限，因此，发送单一策略或不发送信息的情况出现更多。比较不同需求预期对信息策略的选择可发现：在相同的{c1,c2}水平下，需求预期较差时L采用策略{1, 1}的情况(图4(a))多于需求预期较好时(图4(b))。这是由于需求预期较差时，y可优化的空间更大，信息设计优化效果更明显。

图5给出了报童决策者的期望收益。由图5可知，F的期望利润UF与定价d变化呈负相关，这是由报童模型性质决定的。在相同的需求预期和d的前提下，由于组合策略{1, 1}比单一策略{1, 0}或{0, 1}对于UF的优化效果更好，故在较低成本时，L优先选择{1, 1}，随着{c1,c2}的提高，L退而选择单一策略以降低成本，UF随之降低，直至L选择策略{0, 0}，UF下降到最低。

(a) 需求预期较差

(b)需求预期较好

图5 不同需求预期下考虑不同d的报童决策者期望收益Fig.5 Expected return of newsvendor decision maker under different d and different demand expectation

信息设计收益UL与信息发送成本{c1,c2}、定价d和策略选择zj之间的关系如图6所示。由图6可知，随着d的递增，UL递减。d的递增会导致边际成本MP与边际收益MC的比值逐渐变小，结合报童原理，形成y的减少，UL也会相应减少。此外，随着{c1,c2}的增加，成本过大将导致设计者不再发送信息，UL先递减后不变。此时，UL完全由y决定。未来需求预期较好时的UL普遍比预期较差时的UL高，这是由报童模型机理所造成的。

(a) 需求预期较差

(b)需求预期较好

图6 不同需求预期下考虑不同d的信息设计者收益Fig.6 Information designer profit under different d and different demand expectation

以上结果表明：(1) 当信息设计者与报童决策者对于需求的先验存在明显偏差时，利用信息设计的方式能够有效引导报童决策者的决策，使之有利于信息设计者；(2) 报童决策者的边际收益和边际成本关系会影响信息设计的选择，当边际收益小于边际成本时，信息设计可通过改变其需求信念而发挥作用；(3)信息发送成本的存在会弱化信息设计的效果，减弱信息设计的动力。为杜绝拥有信息优势的企业传递不实信息，市场监管者可以通过影响成本，加大其信息设计代价，以实现市场的健康发展。

4 总结与展望

本文放宽了传统报童模型需求分布给定的假设，研究了面向报童决策者的组合信息设计问题，构建了描述这一问题的主从博弈模型：主问题为信息设计者的策略选择，从问题为报童决策。将这一双层规划问题转化为单层的混合整数规划。仿真表明：信息设计模型是否能有效改善报童决策解，取决于信息发送的成本和报童决策者自身先验的性质。当报童决策者先验具有较高期望时，信息设计模型优化效果不显著；当先验期望一般或较差时，信息设计模型优化效果取决于信息发送成本的多少，成本越低，优化效果越高；当信息发送成本过大时，信息设计模型不发生作用。仿真结果揭示了如下启示：具有信息优势的企业可以就市场预期情况决定是否发送信息以及发送何种信息，以给自己带来更多收益；市场监管者可以通过对信息发送成本的影响，限制虚假信息的传播，稳定市场预期，引导其健康发展。

考虑到信息设计理论中的贝叶斯理性约束可以保证先验与后验均值的一致性，因此将其考虑在本文模型中是未来研究的方向之一。为求解的便利，本文考虑了离散的需求场景，将离散需求值连续化并展开对解析模型和结果研究是未来另一个重要的研究方向，将研究结果应用于具体场景也是未来需要关注的问题。