晚上看到18if在B站的第二话选择性下架了.
然后追述了下原因看到知乎上的这个话题.
https://zhihu.com/question/62443727
然后想了几点.
如果把这些回答/猜测/解释作为广电的一种官方意见放出来的话.
是一种什么样的感受.
这里的一个点其实是自我审查与审查的区别.
形态上来说,自我审查和审查其实算是同一类决策思路.
不同的只是一种半主动半被动和主动的区别.
自我审查被人诟病的一点就是审查范围的无限制和边界的浮动.
当然,这一点可以说是审查制度本身的主观性太强客观尺度不成文造成的.
但从客观上来说,也反映了审查不管是主动还是被动都存在一种尺度飘忽的问题.
也就是应该审查什么的问题.
或者说什么是应该被审查的问题.
审查的目的是什么呢?
某种程度上来说,审查是一种对内容的剪裁技术.
广义上来说,导演的剪辑以及重剪版本都可以算是一种审查.
目的是对内容的重新规划和限定.
就像东邪西毒原版和后来的重新剪辑版一样.
前者是用零碎表征零碎.
后者则是纯粹的故事线索梳理.
所试图呈现的侧面和重点的区别.
当然,用这个类比多少是有些诡辩味道的.
但不管怎么样,内容操纵这点是共同的.
那么内容操控的目的是什么呢.
像剔除血腥暴力色情等.
具体来说是剔除什么呢?
这个某种程度上来说也是伪命题.
因为就表现手法和目的来说,有些恰恰就是为了表现这些想要控制的内容.
如果说剔除这部分算是制度正确的话.
那么对于那么并不以表现血腥暴力色情等内容为目的,而只是恰巧使用了对应手法的类别呢?
退一步来说,也可以说因为不是必要手段,可以使用其他表现方式.
那么这里有什么问题么?
问题在于执行的尺度.
就色情来说.
什么程度算色情呢?
就好像某段子一样.
内衣和泳衣的区别界限.
这个虽然调侃意味比较浓,但也多多少少能说明一些问题.
由于存在个体的接受广度深度方面的差异,人与人之间对内容的容忍和划分程度也是不同的.
即使是放大到人群当中,群体之间的差异也是明显的.
就像所谓的二次元文化,甚至于这些二次元文化下面的各层次的次级文化之间,也常常有冲突.
所以客观上来说,可能并不存在一个所谓的广泛的社会道德层面的尺度agreement.
有人觉得分级制度可能解决审查问题的.
需要考虑的矛盾点也就在此.
纯粹以年龄层面来分级的话,对于各种不同的表现手法适用度是有限的.
而且对于作品思想的表达接受能力,可能并不跟年龄有直接关系.
如果使用含代考核评测性质的分级制度的话,可能又不是一些群体认可的符合普世价值的解决方案.
因此,分级制度的矛盾点在于,制度可以很好地解决内容接受度和定向传播.
但问题在于,它的核心在于将如何控制内容的定向传播转变为了如何对内容进行定向分级.
一个类似纯粹的概念变换.
并没有提供具体真实的解决方案.
回到审查本身.
审查的目的是一种内容控制.
从形式上来说,是一种过滤机制.
过滤本质上来说,是一种选择性的内容许可.
借用generative adversary network的思路的话.
其实就是用审查过滤这种negative sampling去辅助objective function的拟合.
也就是说内容审查和过滤只是作为内容定向的一种实现方式realization而已.
反过来说,实际目的其实是定向的内容输送.
中立地说,纯字面意义的中国梦正能量爱国情怀等并不是什么难堪的东西.
如果社会确实这个所述的话也并没什么太大的问题.
那么,这里的问题冲突在哪里呢?
一方的强行灌输也就意味着一方的抵抗.
抵抗的点无非在于不切实际或者说有些自欺欺人或者其他因素带来的不现实性.
某种形式的所谓的人民群众日益增长的物质文化需求与落后生产力之间的矛盾.
形式上来说.
就是如何将两种objective function约束在一起求解的问题.
比如要复兴国学礼义廉耻,那么在教育层面作为一种升学指标.
解决人口结构附带的社会抚养问题,那么可以将社保公积金组合加在房地产方面.
科研自主能力方面,就附带地提升国内期刊的地位和重要性等.
所以,与其说是一种objective function的糅合.
不如说是一种政治经济学上的拉格朗日乘数.
在一个社会国家层面,给定一个目标之后.
剩下的不过是一种诱导变化.
2017-07-23
2017-07-16
信用货币与计划经济
考虑货币作为一种信用媒介.
比较传统或者所古典的理论当中,货币是当作一种所谓一般等价物处理的.
也即使作为交易当中的一个通用中介符号.
现代理论中,货币的产生是作为一种信贷扩张的结果.
它跟传统的区别在于,前者的产生或者说需求数量依赖的是交易的频率/频度.
或者说货币乘数周转率之类的.
体现在交易过程中的出现频率.
而信贷理论的基础是一种借记关系.
或者所谓的记账式.
一个可能比较贴切的例子就是所谓的月饼券.
在一定周期内完成的纯记账式的债务权利交割.
至于里面有没有涉及到具体的实物清算或者说参与,则不在理论框架范围内.
这里有一个问题.
那就是这种定义下的货币的存在意义.
考虑AB两方参与的一个交易.
最后的结果无非是AB交换一下账目所有.
"货币"在里面的作用不过是一个价格计量性质的单位.
把它去掉并不会影响交易的成功与否.
本质上,就是原始的以物易物.
放在任何双方参与的合理理性的交换行为当中,这种交易里面的"货币"存在意义是很微弱的.
因为在这种情况下,都可以规约回两两交易的对等交换情况下.
这种情况下的货币不过是一种公共计价方式.
但公允么?
考虑物品X从A到B到C的一个交易链条.
以物物交换的角度看,不过是X的所有权由A->C的一个转换过程.
考虑.
A->B的交换是B以一个溢价Y得到的.
即在A->B的实际交易价格是X+Y.
B->C的交换是C以一个溢价Z得到的.
即在B->C的实际交易价格是X+Z.
那么考虑,X+Y = X+Z
->
Y = Z么.
不一定.
因为B C对溢的private valuation并不总是相同.
也就是说,如果把货币考虑为这些信用交换过程中的一个计量单位的话.
可能并不具有任何现实意义.
因为价值估计是一个个体差异相当大的东西.
也就是说,这种计量并不具有公允性.
也就是说,存在C直接跟A交换X的话,付出的要比通过B交换来得少或者多.
这个会有什么问题呢?
只要交易始终是你情我愿的,那么这种计量浮动/偏差有什么影响呢?
考虑公允价值的市场性质.
公允价值或者说具体价值是作为一个某种特定商品交换的计价的一个体现.
简单说,就是一种类似的平均价格的存在.
它的作用是为同类交易做一种计量锚定作用.
约束同类交易尽可能地在同水平附近浮动.
在纯信用记账的范畴内,这个问题在于平均水平是受制于具体的交易的.
也就是说,这个平均价格是以某个时期内的实际发生的交易作为一个参照系得出的.
一个直观的例子就是股票市场的交易价格的形成.
里面价格的波动除了受买卖双方的预期影响之外,更多的是由实际的买卖行为决定的.
一个极端的例子就是,即便说都预期某个股票的价值应该低于某一点的话.
但只要有足够的买入流动性,也依然能够推高价格.
所以,如果以信贷作为货币理解的基础的话,那么流动性是一个隐含的必要因素.
另外一个极端的例子就是,当市场上某种产品只有一次交易成立的话.
那么其价格就有可能被认为是一种公允/平均价格.
这点是跟传统的一般等价物概念有很大区别的.
某种程度上来说,货币在这里不过是一个复杂的记账传递网络里的一个数值化体现.
它并不需要一定是对等的,或者说反映供需关系.
本质上来说,有点类似于一个单向的拟合预测函数.
基于过去的数据给出当前的一个估计.
至于是否符合实际的曲线,那就是另外一回事了.
然后基于这个思路考虑一下信贷扩张问题.
或者更确切地说固定资产或者说房地产的问题.
一个成交就意味着对市场公允价格的一次加权调整.
以资产证券或者数值化的角度看的化,随之而来的就是同等/同类资产所有者的一次重新计量过程.
也就是说,但一个200w的房子以300w的价格成交的时候,拥有同等同类房子的人资产就增加的100w.
换算成百分比的化就是50%.
那么,以记账方式考虑的话,全社会的货币就相应地在账目上增加了50%.
具体的实现方式可能是抵押/在抵押贷款等,创造出新的货币账目.
当然,实际是并不是所有的增加账目都会马上变现进入流动.
但从纯账目上来说,以公允价值计量的话,就是相当于再发行了50%的货币.
而也正因为并不是所有的新发行都会马上变成现金流进入传统意义的流通领域,所以才没有通胀的事实感觉.
某种形式的滞后效应.
考虑变现的一部分.
如果把没有进入流通的"增发"考虑为实际的增发的话,即假设只有N%的进行了变现.
那么流通领域就增加了这N%的现金.
对于这部分人来说,就是实现了固定资产向现金资产的一个转换.
假设市场永远是滞后的或者说变现的永远是少数一部分人.
那么这部分人相当于在不断的自行发新钞.
因为实际上的效果就相当于把账目推入流动领域.
那么,能无限的增发下去么?
实际上的货币供应量还是受制于对应的货币政策的.
也就是说,这里存在一个转移的上限.
因为上面的增发游戏本质上是对现有资产负债表做的一种定向腾挪.
由买房者向房产所有者做的一个现金和固定资产的交换.
一个极端的结果就是代表流动性的现金资产集中在一部分人手里.
而另一部分人持有的是等额的低流动性资产.
也就是一种事实上的一部分人有资产而无现金.
于是,考虑经济发展的信贷扩张理论.
它要求的是通过提高负债率,提高消费周转的效率,进而带动经济链条的发展.
然而上面的无流动资产的情况则是,扩张信贷的对无现金人群并无任何实际刺激.
而对于现金持有者来说,边际效用是递减的.
因此这种情况下的一个必然现象就是扩张的疲惫或者说所谓的滞涨.
即无论如何宽松,也没办法再对经济周转效率产生积极的影响.
而由于缺乏现金,各个资产层级之间理论上就存在一个"增发"能力的上限.
也就是说,由于资产数量的差异,和现金的缺乏,使得到了阶层内的一定位置之后.
拥有的现金不在具有往上一层级靠拢的趋势.
或者说,存在一个"增发"能力的效率/增长率差异带来的曲线上的分段函数表征.
即所谓的阶级固化.
这会有什么问题么?
由于存在现金流动资产的层级隔离,而由于没个层级内的现金资产的边际效用是递减的.
那么理论上就存在一个分布使得每个层级的天花板层级对"增发"的追逐动机依次下降.
这样的话,动态地考虑,层级内和层级间从长期来看是不太可能有一个稳态的.
所谓的经济周期变动.
回过头来.
这里问题的本质是信用机制下面,货币记账的不对等性造成的.
即脱离了一般等价物锚定的货币,更多的是受到各个零碎交易结果影响的.
而且由于交易的不对称性和人的决策最优解定义的差异性,整个动态系统基本上是很难可控可预测的.
所有,某种程度上来说.
求解于计划经济的某些思路,也不是一件离谱的事情.
比较传统或者所古典的理论当中,货币是当作一种所谓一般等价物处理的.
也即使作为交易当中的一个通用中介符号.
现代理论中,货币的产生是作为一种信贷扩张的结果.
它跟传统的区别在于,前者的产生或者说需求数量依赖的是交易的频率/频度.
或者说货币乘数周转率之类的.
体现在交易过程中的出现频率.
而信贷理论的基础是一种借记关系.
或者所谓的记账式.
一个可能比较贴切的例子就是所谓的月饼券.
在一定周期内完成的纯记账式的债务权利交割.
至于里面有没有涉及到具体的实物清算或者说参与,则不在理论框架范围内.
这里有一个问题.
那就是这种定义下的货币的存在意义.
考虑AB两方参与的一个交易.
最后的结果无非是AB交换一下账目所有.
"货币"在里面的作用不过是一个价格计量性质的单位.
把它去掉并不会影响交易的成功与否.
本质上,就是原始的以物易物.
放在任何双方参与的合理理性的交换行为当中,这种交易里面的"货币"存在意义是很微弱的.
因为在这种情况下,都可以规约回两两交易的对等交换情况下.
这种情况下的货币不过是一种公共计价方式.
但公允么?
考虑物品X从A到B到C的一个交易链条.
以物物交换的角度看,不过是X的所有权由A->C的一个转换过程.
考虑.
A->B的交换是B以一个溢价Y得到的.
即在A->B的实际交易价格是X+Y.
B->C的交换是C以一个溢价Z得到的.
即在B->C的实际交易价格是X+Z.
那么考虑,X+Y = X+Z
->
Y = Z么.
不一定.
因为B C对溢的private valuation并不总是相同.
也就是说,如果把货币考虑为这些信用交换过程中的一个计量单位的话.
可能并不具有任何现实意义.
因为价值估计是一个个体差异相当大的东西.
也就是说,这种计量并不具有公允性.
也就是说,存在C直接跟A交换X的话,付出的要比通过B交换来得少或者多.
这个会有什么问题呢?
只要交易始终是你情我愿的,那么这种计量浮动/偏差有什么影响呢?
考虑公允价值的市场性质.
公允价值或者说具体价值是作为一个某种特定商品交换的计价的一个体现.
简单说,就是一种类似的平均价格的存在.
它的作用是为同类交易做一种计量锚定作用.
约束同类交易尽可能地在同水平附近浮动.
在纯信用记账的范畴内,这个问题在于平均水平是受制于具体的交易的.
也就是说,这个平均价格是以某个时期内的实际发生的交易作为一个参照系得出的.
一个直观的例子就是股票市场的交易价格的形成.
里面价格的波动除了受买卖双方的预期影响之外,更多的是由实际的买卖行为决定的.
一个极端的例子就是,即便说都预期某个股票的价值应该低于某一点的话.
但只要有足够的买入流动性,也依然能够推高价格.
所以,如果以信贷作为货币理解的基础的话,那么流动性是一个隐含的必要因素.
另外一个极端的例子就是,当市场上某种产品只有一次交易成立的话.
那么其价格就有可能被认为是一种公允/平均价格.
这点是跟传统的一般等价物概念有很大区别的.
某种程度上来说,货币在这里不过是一个复杂的记账传递网络里的一个数值化体现.
它并不需要一定是对等的,或者说反映供需关系.
本质上来说,有点类似于一个单向的拟合预测函数.
基于过去的数据给出当前的一个估计.
至于是否符合实际的曲线,那就是另外一回事了.
然后基于这个思路考虑一下信贷扩张问题.
或者更确切地说固定资产或者说房地产的问题.
一个成交就意味着对市场公允价格的一次加权调整.
以资产证券或者数值化的角度看的化,随之而来的就是同等/同类资产所有者的一次重新计量过程.
也就是说,但一个200w的房子以300w的价格成交的时候,拥有同等同类房子的人资产就增加的100w.
换算成百分比的化就是50%.
那么,以记账方式考虑的话,全社会的货币就相应地在账目上增加了50%.
具体的实现方式可能是抵押/在抵押贷款等,创造出新的货币账目.
当然,实际是并不是所有的增加账目都会马上变现进入流动.
但从纯账目上来说,以公允价值计量的话,就是相当于再发行了50%的货币.
而也正因为并不是所有的新发行都会马上变成现金流进入传统意义的流通领域,所以才没有通胀的事实感觉.
某种形式的滞后效应.
考虑变现的一部分.
如果把没有进入流通的"增发"考虑为实际的增发的话,即假设只有N%的进行了变现.
那么流通领域就增加了这N%的现金.
对于这部分人来说,就是实现了固定资产向现金资产的一个转换.
假设市场永远是滞后的或者说变现的永远是少数一部分人.
那么这部分人相当于在不断的自行发新钞.
因为实际上的效果就相当于把账目推入流动领域.
那么,能无限的增发下去么?
实际上的货币供应量还是受制于对应的货币政策的.
也就是说,这里存在一个转移的上限.
因为上面的增发游戏本质上是对现有资产负债表做的一种定向腾挪.
由买房者向房产所有者做的一个现金和固定资产的交换.
一个极端的结果就是代表流动性的现金资产集中在一部分人手里.
而另一部分人持有的是等额的低流动性资产.
也就是一种事实上的一部分人有资产而无现金.
于是,考虑经济发展的信贷扩张理论.
它要求的是通过提高负债率,提高消费周转的效率,进而带动经济链条的发展.
然而上面的无流动资产的情况则是,扩张信贷的对无现金人群并无任何实际刺激.
而对于现金持有者来说,边际效用是递减的.
因此这种情况下的一个必然现象就是扩张的疲惫或者说所谓的滞涨.
即无论如何宽松,也没办法再对经济周转效率产生积极的影响.
而由于缺乏现金,各个资产层级之间理论上就存在一个"增发"能力的上限.
也就是说,由于资产数量的差异,和现金的缺乏,使得到了阶层内的一定位置之后.
拥有的现金不在具有往上一层级靠拢的趋势.
或者说,存在一个"增发"能力的效率/增长率差异带来的曲线上的分段函数表征.
即所谓的阶级固化.
这会有什么问题么?
由于存在现金流动资产的层级隔离,而由于没个层级内的现金资产的边际效用是递减的.
那么理论上就存在一个分布使得每个层级的天花板层级对"增发"的追逐动机依次下降.
这样的话,动态地考虑,层级内和层级间从长期来看是不太可能有一个稳态的.
所谓的经济周期变动.
回过头来.
这里问题的本质是信用机制下面,货币记账的不对等性造成的.
即脱离了一般等价物锚定的货币,更多的是受到各个零碎交易结果影响的.
而且由于交易的不对称性和人的决策最优解定义的差异性,整个动态系统基本上是很难可控可预测的.
所有,某种程度上来说.
求解于计划经济的某些思路,也不是一件离谱的事情.
2017-07-01
自私倾向
前两天看到的一个现象.
对于这样一张损益表:
+---------------+---------------+---------------+
| choice | red | black |
+---------------+---------------+---------------+
| 6 red 0 black | +64 | 0 |
+---------------+---------------+---------------+
| 5 red 1 black | -4 | +64 |
+---------------+---------------+---------------+
| 4 red 2 black | -8 | +32 |
+---------------+---------------+---------------+
| 3 red 3 black | -16 | +16 |
+---------------+---------------+---------------+
| 2 red 4 black | -32 | +8 |
+---------------+---------------+---------------+
| 1 red 5 black | -64 | +4 |
+---------------+---------------+---------------+
| 0 red 6 black | 0 | -64 |
+---------------+---------------+---------------+
给定6人决策,red/black分别为对于决策的reward.
比如5人选择red,1人选择black的话.
结果就是选择red的分别得到-4的reward,black的得到+64的reward.
对应的最终winning是maximize reward并且有reward >= 0的约束.
这个本来觉得应该是没有什么悬念的.
选择black是相对唯一的理性选择.
因为选择red的话,最好的结果也只是最后equally rewarded,没有一个winning存在.
而对应的,这个是选择black的最差结果.
尤其如果以等概率考察等话,black的 strategy期望正的.
即使考虑到有概率偏差.
Earning = W_1*64 + W_2*32 ....
->
Earning = W_positive*Positive_constant + W_negative*(-64)
->
Earning_black = W_positive*Positive_constant + W_negative*(-64)
Earning_red = W_positive*(-Positive_constant) + W_negative*(64)
要使得red dominate black的话,就需要
Earning_red > Earning_black
-> W_positive*(-Positive_constant) + W_negative*(64) > W_positive*Positive_constant + W_negative*(-64)
-> W_positive*(-Positive_constant) + W_negative*(64) > 0
-> Earning_red > 0
这就是只有cooperate的时候才优于black,但此时并不存在满足winning情况(ordered reward)的可能.
所以,这个直觉上来说应该是没有人会选择red的.
但实际看到的结果是首轮甚至第二轮都是全员选择red的情况.
这个就有意思了.
补充一点就是,这里其实还有个隐藏要素.
就是,在某几轮的reward会有penalty/amplify.
但这个对于基本的逻辑不会有什么实质影响.
这里大概问了下对应人员的思考思路.
一个点就是这里的strategy的focus点在于先保障最终reward>0这点.
也就是在给定的有限轮博弈中,先试图保障一个比较安全的正向收益,然后在择机削减对手.
所以这个思路实际上是 对winning条件加了一个新的约束.
至少让social reward>0.
这点在后面的培训鸡汤解释中反馈除了这歌隐含假设.
这样的话,对应的social损益表就变为:
+---------------+---------------+
| choice | social reward |
+---------------+---------------+
| 6 red 0 black | +384 |
+---------------+---------------+
| 5 red 1 black | +44 |
+---------------+---------------+
| 4 red 2 black | +32 |
+---------------+---------------+
| 3 red 3 black | 0 |
+---------------+---------------+
| 2 red 4 black | -32 |
+---------------+---------------+
| 1 red 5 black | -44 |
+---------------+---------------+
| 0 red 6 black | -384 |
+---------------+---------------+
单纯看这个的话,选择red的gradient是偏向对于reward positive的.
也就是单纯只看social optimal的话,选择red应该是属于dominated的decision.
考虑复合情况.
选择红的动机在于用personal winning去tradeoff social optimal.
放一起就是
+---------------+---------------+---------------+---------------+
| choice | social reward | trade off + effective |
+---------------+---------------+---------------+---------------+
| 6 red 0 black | +384 | +64 + +448 |
+---------------+---------------+---------------+---------------+
| 5 red 1 black | +44 | -4 | +40 |
+---------------+---------------+---------------+---------------+
| 4 red 2 black | +32 | -8 | +24 |
+---------------+---------------+---------------+---------------+
| 3 red 3 black | 0 | -16 | -16 |
+---------------+---------------+---------------+---------------+
| 2 red 4 black | -32 | -32 | -64 |
+---------------+---------------+---------------+---------------+
| 1 red 5 black | -44 | -64 | -108 |
+---------------+---------------+---------------+---------------+
| 0 red 6 black | -384 | 0 | -384 |
+---------------+---------------+---------------+---------------+
这样的话,对于某一轮来说的game setting情况就是.
一个共同的social reward值,和一个差异化的 personal reward分布P.
对于一个分布P靠后的参与者来说,是没有修复social reward的动机的.
因为让social reward>0并不会对winning有任何帮助.
而同时,由于选择red的gradian是趋向于正的.
因此,这时候依然会是选择black成为一种dominated的strategy.
这样的话,动态地考虑,只要出现了一个暂时的winer的话,其他人就会迅速地切换到black strategy.
而在没有winner的时候,black strategy本身就是一个dominated的情况.
因此,即便是加入了这个social constrain,最终的趋势也依然是负收益.
也就是说,即使是加入了这个约束,理性情况下,也不会有人选择red strategy.
但事实就是出现了不但存在并且是全员red的情况.
即便是考虑到有轮数限制,但从上面的策略上来说,也依然不存在选择red的情况.
所以这大概就是为什么人类社会比较复杂难以描述的原因.
而且考虑到即便都是理性的,由于各自的模型和隐含约束不一定一致,也可能导致结果的不确定性和偏差.
于是,从这个角度上来说,social optimal本身就算是一个伪命题.
形式上来说,是不太存在可解性的.
对于这样一张损益表:
+---------------+---------------+---------------+
| choice | red | black |
+---------------+---------------+---------------+
| 6 red 0 black | +64 | 0 |
+---------------+---------------+---------------+
| 5 red 1 black | -4 | +64 |
+---------------+---------------+---------------+
| 4 red 2 black | -8 | +32 |
+---------------+---------------+---------------+
| 3 red 3 black | -16 | +16 |
+---------------+---------------+---------------+
| 2 red 4 black | -32 | +8 |
+---------------+---------------+---------------+
| 1 red 5 black | -64 | +4 |
+---------------+---------------+---------------+
| 0 red 6 black | 0 | -64 |
+---------------+---------------+---------------+
给定6人决策,red/black分别为对于决策的reward.
比如5人选择red,1人选择black的话.
结果就是选择red的分别得到-4的reward,black的得到+64的reward.
对应的最终winning是maximize reward并且有reward >= 0的约束.
这个本来觉得应该是没有什么悬念的.
选择black是相对唯一的理性选择.
因为选择red的话,最好的结果也只是最后equally rewarded,没有一个winning存在.
而对应的,这个是选择black的最差结果.
尤其如果以等概率考察等话,black的 strategy期望正的.
即使考虑到有概率偏差.
Earning = W_1*64 + W_2*32 ....
->
Earning = W_positive*Positive_constant + W_negative*(-64)
->
Earning_black = W_positive*Positive_constant + W_negative*(-64)
Earning_red = W_positive*(-Positive_constant) + W_negative*(64)
要使得red dominate black的话,就需要
Earning_red > Earning_black
-> W_positive*(-Positive_constant) + W_negative*(64) > W_positive*Positive_constant + W_negative*(-64)
-> W_positive*(-Positive_constant) + W_negative*(64) > 0
-> Earning_red > 0
这就是只有cooperate的时候才优于black,但此时并不存在满足winning情况(ordered reward)的可能.
所以,这个直觉上来说应该是没有人会选择red的.
但实际看到的结果是首轮甚至第二轮都是全员选择red的情况.
这个就有意思了.
补充一点就是,这里其实还有个隐藏要素.
就是,在某几轮的reward会有penalty/amplify.
但这个对于基本的逻辑不会有什么实质影响.
这里大概问了下对应人员的思考思路.
一个点就是这里的strategy的focus点在于先保障最终reward>0这点.
也就是在给定的有限轮博弈中,先试图保障一个比较安全的正向收益,然后在择机削减对手.
所以这个思路实际上是 对winning条件加了一个新的约束.
至少让social reward>0.
这点在后面的培训鸡汤解释中反馈除了这歌隐含假设.
这样的话,对应的social损益表就变为:
+---------------+---------------+
| choice | social reward |
+---------------+---------------+
| 6 red 0 black | +384 |
+---------------+---------------+
| 5 red 1 black | +44 |
+---------------+---------------+
| 4 red 2 black | +32 |
+---------------+---------------+
| 3 red 3 black | 0 |
+---------------+---------------+
| 2 red 4 black | -32 |
+---------------+---------------+
| 1 red 5 black | -44 |
+---------------+---------------+
| 0 red 6 black | -384 |
+---------------+---------------+
单纯看这个的话,选择red的gradient是偏向对于reward positive的.
也就是单纯只看social optimal的话,选择red应该是属于dominated的decision.
考虑复合情况.
选择红的动机在于用personal winning去tradeoff social optimal.
放一起就是
+---------------+---------------+---------------+---------------+
| choice | social reward | trade off + effective |
+---------------+---------------+---------------+---------------+
| 6 red 0 black | +384 | +64 + +448 |
+---------------+---------------+---------------+---------------+
| 5 red 1 black | +44 | -4 | +40 |
+---------------+---------------+---------------+---------------+
| 4 red 2 black | +32 | -8 | +24 |
+---------------+---------------+---------------+---------------+
| 3 red 3 black | 0 | -16 | -16 |
+---------------+---------------+---------------+---------------+
| 2 red 4 black | -32 | -32 | -64 |
+---------------+---------------+---------------+---------------+
| 1 red 5 black | -44 | -64 | -108 |
+---------------+---------------+---------------+---------------+
| 0 red 6 black | -384 | 0 | -384 |
+---------------+---------------+---------------+---------------+
这样的话,对于某一轮来说的game setting情况就是.
一个共同的social reward值,和一个差异化的 personal reward分布P.
对于一个分布P靠后的参与者来说,是没有修复social reward的动机的.
因为让social reward>0并不会对winning有任何帮助.
而同时,由于选择red的gradian是趋向于正的.
因此,这时候依然会是选择black成为一种dominated的strategy.
这样的话,动态地考虑,只要出现了一个暂时的winer的话,其他人就会迅速地切换到black strategy.
而在没有winner的时候,black strategy本身就是一个dominated的情况.
因此,即便是加入了这个social constrain,最终的趋势也依然是负收益.
也就是说,即使是加入了这个约束,理性情况下,也不会有人选择red strategy.
但事实就是出现了不但存在并且是全员red的情况.
即便是考虑到有轮数限制,但从上面的策略上来说,也依然不存在选择red的情况.
所以这大概就是为什么人类社会比较复杂难以描述的原因.
而且考虑到即便都是理性的,由于各自的模型和隐含约束不一定一致,也可能导致结果的不确定性和偏差.
于是,从这个角度上来说,social optimal本身就算是一个伪命题.
形式上来说,是不太存在可解性的.
订阅:
博文 (Atom)
爽文
去看了好东西. 坦白说,多少是带着点挑刺的味道去的. 毕竟打着爱情神话和女性题材的气质,多多少少是热度为先了. 看完之后倒是有些新的想法. 某种程度上来说,现在的年轻人或者说声音就像小叶. 只要说点贴心的话就能哄好. 也是那种可以不用很努力了. 留在自己的舒适区避难所小圈子抱团就...
-
最近尝试了下海淘. 当然,方向上来说是从国内到新加坡. 先是买了个iPhone,算上运费和双重征税,到手比官方还是便宜个一两百新的. 换算回来也不多事10%的纯粹价格因素差异. 当然,之类有电商促销的因素. 也有比较基准是新加坡Apple Store售价的原因. 但如果同样比较A...
-
这两天看完了Netflix版的三体. 某种程度上来说,完成度还是不错的. 尽管开始的时候对于第一集片头有些争论,但整体如果带入当下去看的话,还是有些梗的. 比如三体对于地球科技的发展速率的担忧,由此衍生的智子. 以及现有力量对比上的压倒性优势. 如果带入中美关系以及各自的历史阶段...
-
前几天Sora出来后才仔细看了下diffusion,发觉确实算挺取巧的. 按照naive的intuition或者说不那么现代的方式的话,可能需要segmentaion为基础的composite的方式去生成图片,即使扯点deep learning/network的,可能也是类似一些...