RandomLog: 自私倾向

前两天看到的一个现象.

对于这样一张损益表:
+---------------+---------------+---------------+
| choice | red | black |
+---------------+---------------+---------------+
| 6 red 0 black | +64 | 0 |
+---------------+---------------+---------------+
| 5 red 1 black | -4 | +64 |
+---------------+---------------+---------------+
| 4 red 2 black | -8 | +32 |
+---------------+---------------+---------------+
| 3 red 3 black | -16 | +16 |
+---------------+---------------+---------------+
| 2 red 4 black | -32 | +8 |
+---------------+---------------+---------------+
| 1 red 5 black | -64 | +4 |
+---------------+---------------+---------------+
| 0 red 6 black | 0 | -64 |
+---------------+---------------+---------------+
给定6人决策,red/black分别为对于决策的reward.

比如5人选择red,1人选择black的话.
结果就是选择red的分别得到-4的reward,black的得到+64的reward.

对应的最终winning是maximize reward并且有reward >= 0的约束.

这个本来觉得应该是没有什么悬念的.
选择black是相对唯一的理性选择.

因为选择red的话,最好的结果也只是最后equally rewarded,没有一个winning存在.
而对应的,这个是选择black的最差结果.

尤其如果以等概率考察等话,black的 strategy期望正的.
即使考虑到有概率偏差.
Earning = W_1*64 + W_2*32 ....
->
Earning = W_positive*Positive_constant + W_negative*(-64)
->
Earning_black = W_positive*Positive_constant + W_negative*(-64)
Earning_red = W_positive*(-Positive_constant) + W_negative*(64)

要使得red dominate black的话,就需要
Earning_red > Earning_black
-> W_positive*(-Positive_constant) + W_negative*(64) > W_positive*Positive_constant + W_negative*(-64)
-> W_positive*(-Positive_constant) + W_negative*(64) > 0
-> Earning_red > 0
这就是只有cooperate的时候才优于black,但此时并不存在满足winning情况(ordered reward)的可能.

所以,这个直觉上来说应该是没有人会选择red的.

但实际看到的结果是首轮甚至第二轮都是全员选择red的情况.

这个就有意思了.

补充一点就是,这里其实还有个隐藏要素.
就是,在某几轮的reward会有penalty／amplify.
但这个对于基本的逻辑不会有什么实质影响.

这里大概问了下对应人员的思考思路.

一个点就是这里的strategy的focus点在于先保障最终reward>0这点.

也就是在给定的有限轮博弈中,先试图保障一个比较安全的正向收益,然后在择机削减对手.

所以这个思路实际上是对winning条件加了一个新的约束.
至少让social reward>0.

这点在后面的培训鸡汤解释中反馈除了这歌隐含假设.

这样的话,对应的social损益表就变为:
+---------------+---------------+
| choice | social reward |
+---------------+---------------+
| 6 red 0 black | +384 |
+---------------+---------------+
| 5 red 1 black | +44 |
+---------------+---------------+
| 4 red 2 black | +32 |
+---------------+---------------+
| 3 red 3 black | 0 |
+---------------+---------------+
| 2 red 4 black | -32 |
+---------------+---------------+
| 1 red 5 black | -44 |
+---------------+---------------+
| 0 red 6 black | -384 |
+---------------+---------------+
单纯看这个的话,选择red的gradient是偏向对于reward positive的.

也就是单纯只看social optimal的话,选择red应该是属于dominated的decision.

考虑复合情况.

选择红的动机在于用personal winning去tradeoff social optimal.
放一起就是
+---------------+---------------+---------------+---------------+
| choice | social reward | trade off + effective |
+---------------+---------------+---------------+---------------+
| 6 red 0 black | +384 | +64 + +448 |
+---------------+---------------+---------------+---------------+
| 5 red 1 black | +44 | -4 | +40 |
+---------------+---------------+---------------+---------------+
| 4 red 2 black | +32 | -8 | +24 |
+---------------+---------------+---------------+---------------+
| 3 red 3 black | 0 | -16 | -16 |
+---------------+---------------+---------------+---------------+
| 2 red 4 black | -32 | -32 | -64 |
+---------------+---------------+---------------+---------------+
| 1 red 5 black | -44 | -64 | -108 |
+---------------+---------------+---------------+---------------+
| 0 red 6 black | -384 | 0 | -384 |
+---------------+---------------+---------------+---------------+

这样的话,对于某一轮来说的game setting情况就是.
一个共同的social reward值,和一个差异化的 personal reward分布P.

对于一个分布P靠后的参与者来说,是没有修复social reward的动机的.
因为让social reward>0并不会对winning有任何帮助.

而同时,由于选择red的gradian是趋向于正的.
因此,这时候依然会是选择black成为一种dominated的strategy.

这样的话,动态地考虑,只要出现了一个暂时的winer的话,其他人就会迅速地切换到black strategy.
而在没有winner的时候,black strategy本身就是一个dominated的情况.

因此,即便是加入了这个social constrain,最终的趋势也依然是负收益.

也就是说,即使是加入了这个约束,理性情况下,也不会有人选择red strategy.

但事实就是出现了不但存在并且是全员red的情况.

即便是考虑到有轮数限制,但从上面的策略上来说,也依然不存在选择red的情况.

所以这大概就是为什么人类社会比较复杂难以描述的原因.
而且考虑到即便都是理性的,由于各自的模型和隐含约束不一定一致,也可能导致结果的不确定性和偏差.

于是,从这个角度上来说,social optimal本身就算是一个伪命题.
形式上来说,是不太存在可解性的.

RandomLog

2017-07-01

自私倾向

没有评论:

发表评论

反之亦然