「博弈论」耶鲁大学公开课笔记

入门结论

1.不要选择严格劣势策略(不管对方选择什么,你的选择都比另一个选择更劣)

2.理性选择导致次优结果

3.汝欲得之,必先知之(知道你的目的

4.学会换位思考对手

5.耶鲁大学学生都是自私鬼(娱乐向

经典案例:囚徒困境

[egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & 3,-1 \ β & -3,1 & 1,1 \ end{array}]

如上选择及打分条件(每个位置前一个数字是(A)得分,后一个是(B)得分),那么(A)(B)的最优策略应该选(α),因为无论对方选什么,选(α)都比选(β)收益更大

得出了结论(1):不要选择严格劣势策略

大家都选(β)每人都能得到(1)分,但因为心理黑暗等原因理性的人们趋向于选(α),所以结论(2):理性选择导致次优结果

若你是(A),由于情绪、喜好等因素,你眼中的得分变成了如下情况

[egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & -1,-3 \ β & -3,-1 & 1,1 \ end{array}]

此时你要做出选择的话,要先知道自己的选择在考虑了各种因素后的最终收益(表2),而不是开始时给出的表面收益(表1)

结论(3):汝欲得之,必先知之

若你的对手没有心,它的表仍然是(1),而你是善良美少女,你的表已经变成了(2),那么在你的对手眼中,评分表如下:

[egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & 3,-3 \ β & -3,-1 & 1,1 \ end{array}]

此时你的对手一定会选择(α)

在你的眼中,评分表如下:

[egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 0,0 & -1,-1 \ β & -3,1 & 1,1 \ end{array}]

由于你知道你的对手没有心,必定会选择(α),那么为了让自己收益更高,你也应该选择(α),结论(4):学会换位思考对手

博弈要素

参与人(表述法)(i)、策略(s_i),策略集合(S_i),某一次博弈(s),策略组合(某次博弈中所有人的策略)、收益(U_i(s))

(s-i) 除了(i)之外所有人的策略

严格优势策略:(U(s_i,s-i)>U(s_{i'},s-i))对所有(s-i)成立

弱优势:(U(s_i,s-i)≥U(s_{i'},s-i))对所有(s-i)成立,(U(s_i,s-i)>U(s_{i'},s-i))对至少一个(s-i)成立

共同知识

数字游戏:在(1—100)中选择一个数字写下,最接近所有人写下数字的平均数的(frac{2}{3})的人可以获得奖励

那么在任何情况下,(67)以上的数字都不应该被选择,因为他们是严格劣势策略

如果你是理性的,而且你知道和你同台竞技的人都是理性的,那么(67)以上的数字已经出局了,现在再审视这个游戏,(45)以上的数字同样不应该被选择

在进行迭代剔除后,最后理性人之间的游戏应该都选择(1)

在这个游戏中,剔除(45)以上数字的前提是,你知道(67)以上的数字不应该选,你知道你的同伴是理性的他们不会选(67)以上的数字,你的同伴知道你是理性的不会选(67)以上的数字,你知道你的同伴知道你是理性的……

我们称这种相互知道的事情为共同知识

注意以下情况:

给两个人分别戴上一顶粉色帽子,每个人能看见对方帽子颜色但不能看见自己的,那么,游戏中至少有一顶粉色帽子是共同知识吗?

实际上不是

因为比如(A)知道(B)是粉色帽子,他知道游戏中至少有一顶粉色帽子这个事实,但是他也许会认为自己是一顶蓝帽子,他会认为(B)因为只能看到自己的蓝帽子而不认为游戏中至少有一顶粉色帽子,所以(A)知道而(A)不能确定(B)知道的事情不是共同知识

迭代剔除与中位选民定理

有两个候选人与十种立场(1——10),每个立场有(10\%)支持,每个立场的支持者会支持与他们立场最相近的候选人,候选人如何选择立场使得自己获得的选票更多?

容易发现立场(2)相比与立场(1)来说,是一个弱优势策略,相比之下我们是不会选择立场(1)的(立场(10)同理)

在剔除了立场(1)的选择之后,我们发现立场(3)相较立场(2)又是一个弱优势策略,我们同样不会选择立场(2)

要注意的是这个假设是建立在立场(1)已经排除的情况下,否则若立场(1)未被排除,在对手选择立场(1)的情况下立场(2)要优于立场(3),也就是要确保立场(1)是劣势策略是共同知识

在迭代剔除后,我们的选择只剩下了立场(5)(6)

这是中位选民定理,越中立的候选人越能获得大多数支持

现实中影响因素很多,不完全符合模型

但并不意味着模型是无意义的,我们可以通过添加因素看看模型预测结果的变化,来理解因素对结果的影响是如何体现的

最佳对策

(1.)

参与人(i)的策略(hat{s_i})是对手的策略(S-i)的最佳对策((BR)

(U(hat{s_i},S-i)≥U(s_{i'},S-i))对参与人的所有(s_{i'})都适用

(hat{s_i}—>max{U(s_i,S-i)})

(2.)

参与人(i)的策略(hat{s_i})是对对手的可能采取的策略(P)时的最佳对策((BR)

(EU(hat{s_i},P)≥EU(s_{i'},P))对参与人的所有(s_{i'})都适用

(hat{s_i}—>max{EU(s_i,P)})

不要选择非最佳对策的策略

例如:

[egin{array}{c|lcr} A/B & ext{α} & ext{β} \ hline α & 9,-9 & 4,-4 \ β & 6,-6 & 6,-6 \ γ & 4,-4 & 9,-9 \ end{array}]

函数

可以发现在对手的任何策略下,(β)都不是最佳对策,所以(β)应该被排除

纳什均衡

假设一家公司利润两人平分,每个人可以选择为公司贡献(s=[0,4])的工作时间(注意此处的策略是连续的,可以选择(0)(4)间的任何数字)

公司总收益为(w=4*(s_1+s_2+b*s_1*s_2))

若无(b*s_1*s_2)项,合作将无意义

收益:(U_1=(s_1,s_2)=frac{w}{2}),成本(s_1^2)

由于决策连续,我们不能对每个决策列出一条曲线

(U(s_1,s_2)=2(s_1+s_2+b*s_1*s_2)-s_1^2)

求导

(U'=2(1+b*s_2)-2hat{s_1}=0)

为了确定它是最大值还是最小值需要求二阶导

(U''=-2<0)说明上述是最大值

解出一阶导

(hat{s_1}=1+b*s_2=BR_1(s_2))

同理

(hat{s_2}=1+b*s_1=BR_2(s_1))

假设此时(b=frac{1}{4})

(hat{s_1}=1+frac{s_2}{4}=BR_1(s_2))
(hat{s_2}=1+frac{s_1}{4}=BR_2(s_1))

对二者列出函数

根据不要选非最佳对策,任何人都不会选择小于(1)和大于(2)的部分

所以我们的视线缩小到1*1范围的框内

在迭代剔除后,最终的最佳对策是两函数交点

(hat{s_1*}=hat{s_2*}=frac{1}{1-b})

交点被称作纳什均衡点

任何人都不愿意偏离纳什均衡点

在偏离纳什均衡点的过程中,比如上述合作,偏离的越远,那么玩家的边际效应递减

有时结果会趋近纳什均衡点

如我们多次玩猜数字游戏,在不提及纳什均衡点的前提下,结果会不断趋近(1)

正式定义:

纳什均衡((NE))

一个策略集合(S=(s_1*,s_2*……s_m*))对于任意参与其中的玩家(i)所选择的策略(s_i*)是其他参与人所选策略的最佳对策((S*-i))

实施纳什均衡的动机(听不懂)

(1.)不后悔

(2.)纳什均衡可以被想象成自我实施的信念(几个人都认为事情会向纳什均衡发展,那么事情就一定会向纳什均衡发展)

找纳什均衡点:

[egin{array}{c|lcr} A/B & ext{a} & ext{b} & ext{c} \ hline α & 0,2 & 2,3 & 4,3 \ β & 11,1 & 3,2 & 0,0 \ γ & 0,3 & 1,0 & 8,0 \ end{array}]

(BR(a)=β,BR(b)=β,BR(c)=γ)
(BR(α)=c,BR(β)=b,BR(γ)=a)

那么((b,β))是纳什均衡点,因为在这一点,两个玩家都选择了最佳对策

严格劣势策略不会出现在纳什均衡里,弱劣势策略不一定

投资博弈

先猜后证:人数很多 策略不多

预测:如果一开始投资概率超过阈值,那么博弈将会趋近于较优的纳什均衡,如果一开始低于阈值,那么博弈将会趋近于较劣的纳什均衡

但较劣的纳什均衡和囚徒困境不同,因为这里 没有严格劣势策略

协调博弈,如果协调成功就到了较优的纳什均衡没有人会反悔,但经常有协调谬误

银行挤兑:

银行有两种纳什均衡,较优均衡是大家对银行有信心而存钱

较劣均衡是人们对银行失去信心疯狂提款

协同谬误不同,仅凭沟通而非合同就可以改善结果

交流可以改变纳什均衡,约束才能改变囚徒困境

这和领导力紧密联系,协调博弈是领导力的用武之地

在投资中别人越投资你就越想投资

这种别人付出越多你就付出越多的博弈叫做策略互补博弈

性别大战

[egin{array}{c|lcr} A/B & ext{a} & ext{b} & ext{c} \ hline a & 2,1 & 0,0 & 0,-1 \ b & 0,0 & 1,2 & 0,-1 \ c & -1,0 & -1,0 & -2,-2 \ end{array}]

(c)电影是严格劣势策略

而两人都看(a)(b)电影都是纳什均衡

这是一个每参与者爱好不同的纳什均衡,这很容易导致协调失败

古诺双寡头模型

前提:学习过怎么在参与者较少且策略不多的博弈中找到纳什均衡

这个博弈介于经济学导论的两种极端情况之间:完全竞争和垄断

研究市场如何发展 对消费者有利还是生产者有利

策略:同质商品的产量,连续,用(q)来表示策略

生产成本(:c*q),边际成本是常数(c)

市场价格(:p=a-b(q_1+q_2))

利润(:w=p*q_1-c*q_1=aq_1-bq_1^2-bq_1q_2-cq_1)

(2)的生产数量确定时我们要找出(1)的最佳产量

求导后令导数等于零之类的

(hat{q_1}=frac{a-c}{2b}-frac{q_2}{2})
(hat{q_2}=frac{a-c}{2b}-frac{q_1}{2})

边际收入等于边际成本的那点是垄断产量

根据纳什均衡定义大力找函数交点

原文地址:https://www.cnblogs.com/knife-rose/p/15082998.html