「博弈论」耶鲁大学公开课笔记

入门结论

1.不要选择严格劣势策略（不管对方选择什么，你的选择都比另一个选择更劣）

2.理性选择导致次优结果

3.汝欲得之，必先知之（知道你的目的

4.学会换位思考对手

5.耶鲁大学学生都是自私鬼（娱乐向

经典案例：囚徒困境

[egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & 3,-1 \ β & -3,1 & 1,1 \ end{array}]

如上选择及打分条件（每个位置前一个数字是(A)得分，后一个是(B)得分），那么(A)和(B)的最优策略应该选(α)，因为无论对方选什么，选(α)都比选(β)收益更大

得出了结论(1)：不要选择严格劣势策略

大家都选(β)每人都能得到(1)分，但因为心理黑暗等原因理性的人们趋向于选(α)，所以结论(2)：理性选择导致次优结果

若你是(A),由于情绪、喜好等因素，你眼中的得分变成了如下情况

[egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & -1,-3 \ β & -3,-1 & 1,1 \ end{array}]

此时你要做出选择的话，要先知道自己的选择在考虑了各种因素后的最终收益（表2），而不是开始时给出的表面收益（表1）

结论(3)：汝欲得之，必先知之

若你的对手没有心，它的表仍然是(1)，而你是善良美少女，你的表已经变成了(2)，那么在你的对手眼中，评分表如下：

[egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & 3,-3 \ β & -3,-1 & 1,1 \ end{array}]

此时你的对手一定会选择(α)

在你的眼中，评分表如下：

[egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & -1,-1 \ β & -3,1 & 1,1 \ end{array}]

由于你知道你的对手没有心，必定会选择(α)，那么为了让自己收益更高，你也应该选择(α)，结论(4)：学会换位思考对手

博弈要素

参与人(表述法)(i)、策略(s_i)，策略集合(S_i)，某一次博弈(s)，策略组合（某次博弈中所有人的策略）、收益(U_i(s))

(s-i) 除了(i)之外所有人的策略

严格优势策略：(U(s_i，s-i)>U(s_{i'},s-i))对所有(s-i)成立

弱优势：(U(s_i,s-i)≥U（s_{i'},s-i）)对所有(s-i)成立，(U(s_i,s-i)>U（s_{i'},s-i))对至少一个(s-i)成立

共同知识

数字游戏：在(1—100)中选择一个数字写下，最接近所有人写下数字的平均数的(frac{2}{3})的人可以获得奖励

那么在任何情况下，(67)以上的数字都不应该被选择，因为他们是严格劣势策略

如果你是理性的，而且你知道和你同台竞技的人都是理性的，那么(67)以上的数字已经出局了，现在再审视这个游戏，(45)以上的数字同样不应该被选择

在进行迭代剔除后，最后理性人之间的游戏应该都选择(1)

在这个游戏中，剔除(45)以上数字的前提是，你知道(67)以上的数字不应该选，你知道你的同伴是理性的他们不会选(67)以上的数字，你的同伴知道你是理性的不会选(67)以上的数字，你知道你的同伴知道你是理性的……

我们称这种相互知道的事情为共同知识

注意以下情况：

给两个人分别戴上一顶粉色帽子，每个人能看见对方帽子颜色但不能看见自己的，那么，游戏中至少有一顶粉色帽子是共同知识吗？

实际上不是

因为比如(A)知道(B)是粉色帽子，他知道游戏中至少有一顶粉色帽子这个事实，但是他也许会认为自己是一顶蓝帽子，他会认为(B)因为只能看到自己的蓝帽子而不认为游戏中至少有一顶粉色帽子，所以(A)知道而(A)不能确定(B)知道的事情不是共同知识

迭代剔除与中位选民定理

有两个候选人与十种立场(1——10)，每个立场有(10\%)支持，每个立场的支持者会支持与他们立场最相近的候选人，候选人如何选择立场使得自己获得的选票更多？

容易发现立场(2)相比与立场(1)来说，是一个弱优势策略，相比之下我们是不会选择立场(1)的(立场(10)同理)

在剔除了立场(1)的选择之后，我们发现立场(3)相较立场(2)又是一个弱优势策略，我们同样不会选择立场(2)

要注意的是这个假设是建立在立场(1)已经排除的情况下，否则若立场(1)未被排除，在对手选择立场(1)的情况下立场(2)要优于立场(3)，也就是要确保立场(1)是劣势策略是共同知识

在迭代剔除后，我们的选择只剩下了立场(5)和(6)

这是中位选民定理，越中立的候选人越能获得大多数支持

现实中影响因素很多，不完全符合模型

但并不意味着模型是无意义的，我们可以通过添加因素看看模型预测结果的变化，来理解因素对结果的影响是如何体现的

最佳对策

(1.)

参与人(i)的策略(hat{s_i})是对手的策略(S-i)的最佳对策（(BR)）

(U(hat{s_i},S-i)≥U(s_{i'},S-i))对参与人的所有(s_{i'})都适用

或(hat{s_i}—>max{U(s_i,S-i)})

(2.)

参与人(i)的策略(hat{s_i})是对对手的可能采取的策略(P)时的最佳对策（(BR)）

(EU(hat{s_i},P)≥EU（s_{i'},P))对参与人的所有(s_{i'})都适用

或(hat{s_i}—>max{EU(s_i,P)})

不要选择非最佳对策的策略

例如：

[egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 9,-9 & 4,-4 \ β & 6,-6 & 6,-6 \ γ & 4,-4 & 9,-9 \ end{array}]

函数

可以发现在对手的任何策略下，(β)都不是最佳对策，所以(β)应该被排除

纳什均衡

假设一家公司利润两人平分，每个人可以选择为公司贡献(s=[0,4])的工作时间（注意此处的策略是连续的，可以选择(0)到(4)间的任何数字）

公司总收益为(w=4*(s_1+s_2+b*s_1*s_2))

若无(b*s_1*s_2)项，合作将无意义

收益：(U_1=(s_1,s_2)=frac{w}{2})，成本(s_1^2)

由于决策连续，我们不能对每个决策列出一条曲线

(U(s_1,s_2)=2(s_1+s_2+b*s_1*s_2)-s_1^2)

求导

(U'=2(1+b*s_2)-2hat{s_1}=0)

为了确定它是最大值还是最小值需要求二阶导

(U''=-2<0)说明上述是最大值

解出一阶导

(hat{s_1}=1+b*s_2=BR_1(s_2))

同理

(hat{s_2}=1+b*s_1=BR_2(s_1))

假设此时(b=frac{1}{4})

(hat{s_1}=1+frac{s_2}{4}=BR_1(s_2))
(hat{s_2}=1+frac{s_1}{4}=BR_2(s_1))

对二者列出函数

根据不要选非最佳对策，任何人都不会选择小于(1)和大于(2)的部分

所以我们的视线缩小到1*1范围的框内

在迭代剔除后，最终的最佳对策是两函数交点

即

(hat{s_1*}=hat{s_2*}=frac{1}{1-b})

交点被称作纳什均衡点

任何人都不愿意偏离纳什均衡点

在偏离纳什均衡点的过程中，比如上述合作，偏离的越远，那么玩家的边际效应递减

有时结果会趋近纳什均衡点

如我们多次玩猜数字游戏，在不提及纳什均衡点的前提下，结果会不断趋近(1)

正式定义：

纳什均衡(（NE）)：

一个策略集合(S=（s_1*,s_2*……s_m*）)对于任意参与其中的玩家(i)所选择的策略(s_i*)是其他参与人所选策略的最佳对策(（S*-i）)

实施纳什均衡的动机（听不懂）

(1.)不后悔

(2.)纳什均衡可以被想象成自我实施的信念（几个人都认为事情会向纳什均衡发展，那么事情就一定会向纳什均衡发展）

找纳什均衡点：

[egin{array}{c|lcr} A/B & ext{a} & ext{b} & ext{c} \ hline α & 0,2 & 2,3 & 4,3 \ β & 11,1 & 3,2 & 0,0 \ γ & 0,3 & 1,0 & 8,0 \ end{array}]

(BR(a)=β,BR(b)=β,BR(c)=γ)
(BR(α)=c,BR(β)=b,BR(γ)=a)

那么((b,β))是纳什均衡点，因为在这一点，两个玩家都选择了最佳对策

严格劣势策略不会出现在纳什均衡里，弱劣势策略不一定

投资博弈

先猜后证：人数很多策略不多

预测：如果一开始投资概率超过阈值，那么博弈将会趋近于较优的纳什均衡，如果一开始低于阈值，那么博弈将会趋近于较劣的纳什均衡

但较劣的纳什均衡和囚徒困境不同，因为这里没有严格劣势策略

协调博弈，如果协调成功就到了较优的纳什均衡没有人会反悔，但经常有协调谬误

银行挤兑：

银行有两种纳什均衡，较优均衡是大家对银行有信心而存钱

较劣均衡是人们对银行失去信心疯狂提款

协同谬误不同，仅凭沟通而非合同就可以改善结果

交流可以改变纳什均衡，约束才能改变囚徒困境

这和领导力紧密联系，协调博弈是领导力的用武之地

在投资中别人越投资你就越想投资

这种别人付出越多你就付出越多的博弈叫做策略互补博弈

性别大战

[egin{array}{c|lcr} A/B & ext{a} & ext{b} & ext{c} \ hline a & 2,1 & 0,0 & 0,-1 \ b & 0,0 & 1,2 & 0,-1 \ c & -1,0 & -1,0 & -2,-2 \ end{array}]

选(c)电影是严格劣势策略

而两人都看(a)或(b)电影都是纳什均衡

这是一个每参与者爱好不同的纳什均衡，这很容易导致协调失败

古诺双寡头模型

前提：学习过怎么在参与者较少且策略不多的博弈中找到纳什均衡

这个博弈介于经济学导论的两种极端情况之间：完全竞争和垄断

研究市场如何发展对消费者有利还是生产者有利

策略：同质商品的产量，连续，用(q)来表示策略

生产成本(:c*q)，边际成本是常数(c)

市场价格(:p=a-b(q_1+q_2))

利润(:w=p*q_1-c*q_1=aq_1-bq_1^2-bq_1q_2-cq_1)

当(2)的生产数量确定时我们要找出(1)的最佳产量

求导后令导数等于零之类的

(hat{q_1}=frac{a-c}{2b}-frac{q_2}{2})
(hat{q_2}=frac{a-c}{2b}-frac{q_1}{2})

边际收入等于边际成本的那点是垄断产量

根据纳什均衡定义大力找函数交点