RandomLog: 博弈

显示标签为“博弈”的博文。显示所有博文

2017-07-01

自私倾向

前两天看到的一个现象.

对于这样一张损益表:
+---------------+---------------+---------------+
| choice | red | black |
+---------------+---------------+---------------+
| 6 red 0 black | +64 | 0 |
+---------------+---------------+---------------+
| 5 red 1 black | -4 | +64 |
+---------------+---------------+---------------+
| 4 red 2 black | -8 | +32 |
+---------------+---------------+---------------+
| 3 red 3 black | -16 | +16 |
+---------------+---------------+---------------+
| 2 red 4 black | -32 | +8 |
+---------------+---------------+---------------+
| 1 red 5 black | -64 | +4 |
+---------------+---------------+---------------+
| 0 red 6 black | 0 | -64 |
+---------------+---------------+---------------+
给定6人决策,red/black分别为对于决策的reward.

比如5人选择red,1人选择black的话.
结果就是选择red的分别得到-4的reward,black的得到+64的reward.

对应的最终winning是maximize reward并且有reward >= 0的约束.

这个本来觉得应该是没有什么悬念的.
选择black是相对唯一的理性选择.

因为选择red的话,最好的结果也只是最后equally rewarded,没有一个winning存在.
而对应的,这个是选择black的最差结果.

尤其如果以等概率考察等话,black的 strategy期望正的.
即使考虑到有概率偏差.
Earning = W_1*64 + W_2*32 ....
->
Earning = W_positive*Positive_constant + W_negative*(-64)
->
Earning_black = W_positive*Positive_constant + W_negative*(-64)
Earning_red = W_positive*(-Positive_constant) + W_negative*(64)

要使得red dominate black的话,就需要
Earning_red > Earning_black
-> W_positive*(-Positive_constant) + W_negative*(64) > W_positive*Positive_constant + W_negative*(-64)
-> W_positive*(-Positive_constant) + W_negative*(64) > 0
-> Earning_red > 0
这就是只有cooperate的时候才优于black,但此时并不存在满足winning情况(ordered reward)的可能.

所以,这个直觉上来说应该是没有人会选择red的.

但实际看到的结果是首轮甚至第二轮都是全员选择red的情况.

这个就有意思了.

补充一点就是,这里其实还有个隐藏要素.
就是,在某几轮的reward会有penalty／amplify.
但这个对于基本的逻辑不会有什么实质影响.

这里大概问了下对应人员的思考思路.

一个点就是这里的strategy的focus点在于先保障最终reward>0这点.

也就是在给定的有限轮博弈中,先试图保障一个比较安全的正向收益,然后在择机削减对手.

所以这个思路实际上是对winning条件加了一个新的约束.
至少让social reward>0.

这点在后面的培训鸡汤解释中反馈除了这歌隐含假设.

这样的话,对应的social损益表就变为:
+---------------+---------------+
| choice | social reward |
+---------------+---------------+
| 6 red 0 black | +384 |
+---------------+---------------+
| 5 red 1 black | +44 |
+---------------+---------------+
| 4 red 2 black | +32 |
+---------------+---------------+
| 3 red 3 black | 0 |
+---------------+---------------+
| 2 red 4 black | -32 |
+---------------+---------------+
| 1 red 5 black | -44 |
+---------------+---------------+
| 0 red 6 black | -384 |
+---------------+---------------+
单纯看这个的话,选择red的gradient是偏向对于reward positive的.

也就是单纯只看social optimal的话,选择red应该是属于dominated的decision.

考虑复合情况.

选择红的动机在于用personal winning去tradeoff social optimal.
放一起就是
+---------------+---------------+---------------+---------------+
| choice | social reward | trade off + effective |
+---------------+---------------+---------------+---------------+
| 6 red 0 black | +384 | +64 + +448 |
+---------------+---------------+---------------+---------------+
| 5 red 1 black | +44 | -4 | +40 |
+---------------+---------------+---------------+---------------+
| 4 red 2 black | +32 | -8 | +24 |
+---------------+---------------+---------------+---------------+
| 3 red 3 black | 0 | -16 | -16 |
+---------------+---------------+---------------+---------------+
| 2 red 4 black | -32 | -32 | -64 |
+---------------+---------------+---------------+---------------+
| 1 red 5 black | -44 | -64 | -108 |
+---------------+---------------+---------------+---------------+
| 0 red 6 black | -384 | 0 | -384 |
+---------------+---------------+---------------+---------------+

这样的话,对于某一轮来说的game setting情况就是.
一个共同的social reward值,和一个差异化的 personal reward分布P.

对于一个分布P靠后的参与者来说,是没有修复social reward的动机的.
因为让social reward>0并不会对winning有任何帮助.

而同时,由于选择red的gradian是趋向于正的.
因此,这时候依然会是选择black成为一种dominated的strategy.

这样的话,动态地考虑,只要出现了一个暂时的winer的话,其他人就会迅速地切换到black strategy.
而在没有winner的时候,black strategy本身就是一个dominated的情况.

因此,即便是加入了这个social constrain,最终的趋势也依然是负收益.

也就是说,即使是加入了这个约束,理性情况下,也不会有人选择red strategy.

但事实就是出现了不但存在并且是全员red的情况.

即便是考虑到有轮数限制,但从上面的策略上来说,也依然不存在选择red的情况.

所以这大概就是为什么人类社会比较复杂难以描述的原因.
而且考虑到即便都是理性的,由于各自的模型和隐含约束不一定一致,也可能导致结果的不确定性和偏差.

于是,从这个角度上来说,social optimal本身就算是一个伪命题.
形式上来说,是不太存在可解性的.

2016-11-17

精英悖论

下午吃某吉野家.
恰好旁边有店员招聘面试,就旁听了下.

发觉有个比较有趣的点.

提到.
如果表现比较好的话,会多给机会安排加班.

这个刚开始听到的瞬间挺奇怪的.
因为按照既有逻辑来说,加班并算不上是一种福利或者说激励.
甚至于算不上是一种受欢迎的东西.

然后听到店员说到了时薪制和固定月薪的区别理论.

大概就是时薪讲究的是多劳多得.
不像月薪是固定收入.
更看中的个人的进取心云云

这里不管它这套理论的对错与否.
先看下两种形式的收益.

假定时薪形式下单位时间收益为paid.
那么收益就是一个关于时间hours和paid的函数
f(paid,hours) = paid*hours

假定月薪形式下收益为earn.

另两者收益相等则有:
earn = paid * hours.

对于paid和标准hours是fair的前提下.
也就是说不存在时薪不合理和过长工时的前提下.
在时薪模式对于个人来说,存在通过提高hours来增加收益的激励方式.

这也就是被当作福利的一种解释.

对于企业来说.
给定一定的公时需求,在月薪和时薪模式下付出成本是没有区别的.
但是效用上就存在一定差异了.

因为月薪模式下对个人是不存在激励方式的.
也就是说相对地,单位时间的效用是没有竞争机制的.

而在时薪模式下,轮值是某种竞争优胜的结果.
所以一定程度上来说,公司层面的效用是增强提高的.

某种形式上来说,时薪制就像一个LRU cache.
是一种overload的weighted eviction/selection strategy.
或者gradient descent的search过程.

在有限的budget constrain下面,寻求一个较优解.

从效率效用方面来说,确实是一个非常优秀的方案.

广义上来说,无论是时薪还是月薪还是年薪以及其他时间周期性质的薪酬支付方式都只是粒度上的差异.
细粒度对于粗粒度来说,都存在一种技术上的效率效用优势.

抽象层面来说,时间性质的支付也不过是一种记件支付方式.

本质上是企业对需求单元/期望产出的效用优先的收购策略.

所以理论上来说,如果对于企业运转成本的方方面面能够做到尽可能细粒度的量化的话.
就存在一个渐进效用增强的过程.

也就是实现成本收益层面的效用优化.

所以如果以这个角度考量KPI/OKR之类的量化考量方案.

这些方案或者说制度的问题在于只提供的了量化方式.
但是缺乏相应的"激励"机制.

之所以用"激励",是因为这里所指的并不是对于结果的奖励策略.

记件支付的核心在于它的竞争属性.

它跟纯粹淘汰制度的区别在于,它关心的不是总体排序的排位问题.
而是在满足基准要求的前提下的优先级选择问题.

前者存在即使淘汰机制正常运作,但也不能保证基准要求能够被满足.
因为它考察但是整个产出分布.
而竞争机制是只考虑基准线以上但产出分布.

尽管可能竞争属性被动地会成为淘汰机制的一个基准线之上的特例.
但本质上来说,两者但出发点不同.
"淘汰"只是个被动的副作用.

竞争属性隐含的另一个特征就是参与者的不唯一性.

而大多数量化考核方案里隐含的一个假设就是参与者唯一.
所以结果只是对最终表现的performance的一个评分体系.

面对的结果要么就是支付约定的费用,要么就是支付高于约定的费用.

而参与者不唯一的话,无论结果如果.
都只是支付约定的费用.
但得到的参与者当中效益最大化的一个.

所以,理想情况下,效用优化的核心不在于量化的方式粒度.
而是内生的竞争导致的效率优化.

某种形式上的弱肉强食的进化论.

而在现实中,可能由于各种因素可能并不能都保证一个期望产出有多个竞标者的存在.
更常见的情景是集结一些优势的力量去做纯粹的奖励激励.

但有时也可以看到有些公司会在内部存在一些所谓但内耗.
即使存在不同的团队在做类似的事情的情况.

尤其是某些知名公司的后来的知名产品.

于是这里就存在一个可能很有趣的观察结果.
即是,一个可能平均素质不算特别好的团队作出了一款跟平均素质高很多的团队差不多好的产品.

这里从结果上来说,可以有很多解释.

但从前面所述效用成本优化的角度来说,只是因为在给定budget的前提下,前者是竞争体系下幸存的性比高的一方.
而后者只是fair value.

某种层面上来说,后者更是under performance的.
而前者是near optimistic.

所以实际上来说,这个"差不多好的产品"其实是两个成本区间的上下限的交集区域.
因此也就不难理解为什么会有这种观察结果了.

所以某种程度上来说,一定的人员冗余反而可能是一种成本效用方面的优势.

2012-07-25

晓之以利

北京一场雨,倒也冲刷出些有意思的现象.

暴雨当夜,微博上除了惯例的就人扩散之类的话,当然也少不了各类有依据没依据的评论批评.
虽说一个现代社会,允许人发表自己的言论是种权力,尤其在批评政府和谴责不道德现象上.
但这并不构成谴责即是正义或合理的理由.

无端的指责其实并一定能起到积极的作用,尤其是规模化之后,更显人群的无理取闹和不冷静.

比如雨后贴违章罚单这件事.
尽管从道义上来说,众所周知的都是由于天气原因导致车子开不走.
但是从规章制度上来说,无论是执行的人员或者机构都没有义务一定要免去罚单.
在政府没有明确指导的情况下照章办事也不无合理.

况且,即便要指责政府的不作为,但在法律流程走完之前,该付出的照样付出.
这才是一个应该有的所谓法制/契约社会.

尽管,实际上几乎没什么可操作性.
但无论怎么说,现在的法案至少都还是在经过合法流程的.
会是今天这个样子,个人也难辞其咎.

然后是关于所谓遇难37人的说法.
对于稍有统计基础或者熟悉使用搜索引擎的人来说,很容易理解不过是种大样本下的“巧合”而已.

只不过由于自觉不自觉的心里和所谓公信力的丧失,人们只会接受自己希望的“事实”.
也就是某些人所谓的当代的“分裂社会”.

各个阶层都只相信自己觉得是真相的事实,而对之外的都抱有或多或少的敌意.

尤其在一些各种目的的刻意造谣的情况下,更是契合某某党惯用以形容的“不明真相”和“煽动”.
比如某社科院研究员对北京民政局的刻意造谣.

而像谴责出租车雨天涨价之类的事情,从动机上来说,这是完全的市场驱使,而且出租公司自然有相关的规章可供投诉和操作.
对于司机而已也很自然地是有收益才会这么做的.
尤其非正规渠道的所谓黑车.

总之,这整件事情就像中国当前社会意识的一个缩影.

人们渐渐地有了权力意识,开始追求自己的所谓正义,尽管还是属于原始的”自私“的状态.
但至少有了这个意识,懂得去谴责.

剩下的就是的真正的公共意识的觉醒.
毕竟,懂得自私之后,就知道什么是自己应得的.
那么到懂得并做到什么是自己不应得的也为时不远.

或者说,当人懂得了用利益决策行为的时候,那么这个社会就简单多了.

晓之以利.
如此而已.

2012-06-26

关于Dutch Auction

dutch auction,简单地说,就是首先出价的人获得竞拍品.
因此在假设所有人都是理性的并且目标是最大化收益的时候,对卖家而言dutch auction较english auction有利.

因每个竞争者都是有自己的心里价位的,dutch auction保证了实际上心里付出最多的人得到.
而English auction实际上是对次高的心里价格.

实际起源的dutch auction可能稍微复杂些,因为对于一批鲜花,首个叫价者并不需要完全承诺买下所有的鲜花,而可以只认购一部分,余下的继续拍卖,直到所有鲜花都被承诺购买之后,所有成功竞买的人以最后那个价格买入,而不是承诺之时的价格.

这里,如果所有人都只买入当前的一部分的话,看似是有可能以接近于零的价格买入鲜花的.
但是稍微算下.

假设有S数量的花,n个人竞争.m是市场卖出价,L为合作时能压低的最低价格,p为个体优于合作临界拍卖价格.
那么m-L就是合作时每单位花的收益,以均摊的方式的,合作情况下每个人的收益是(m-L)*S/n.
非合作收益则是S*(m-p)
则只要S*(m-p)>=(m-L)*S/n有解,即p<=m-(m-L)/n的时候,不合作优于合作.

上面,如果认为L趋于零,n无限大的情况下,近似地p是接近市场价格m的.
更进一步地,接近于某个个体对市场价格的估计.

剩下的问题是,当某人在价格p的时候,是否存在一个k买入数使得合作还是有益的.因上述只是简单的均分结果.

对于价格p,则不合作的收益是确定的(m-p)*S,而合作的单位收益是(m-p)*k,明显退化回不合作的收益了.

在信息对称的情况下它的成交价格跟市场平均价格相关,在不对称的情况下,它自然筛选出了最不利的参与者,对于拍卖者而言,最大化了收益.

简单来说,dutch auction更偏向于强调损失.
而english auction倾向与保证收益.

2012-04-16

山寨城与山景城

网易借新闻客户端的事情又把腾讯的抄袭问题提到台面上了.

于是不少人又开始出来对这种赤裸裸的抄袭义愤填膺.
且不管其中有多少人自己也曾经或者正在"借鉴"别人的作品.

有人说国外创意的命运是或成为巨人或被巨人收购,而国内的下场要不是悄悄死掉,要么就是被腾讯山寨.

仔细想想,好像缺了点什么.

如果一个产品,仅仅靠类似的UI和体验就能够被人取代的话,那至少说明它本身多少存在缺点.
居然会让人轻易地带走艰难培养起来的用户.

或者直接说,用户本身的认可和忠诚度不高.
对于使用者来说只不过是两杯白开水的区别.

也许有人会说,腾讯还有可怕的用户基数.

但用户基数这种问题,有时候其实意义不大.
腾讯的用户基础是IM基础上的各个生态区的缠绕系统,看上去确实人数众多.
但是细分的话,其实是多个交集不多的子系统.
即是说,整个看似整体的群落,实际上是不同功能的受众的集合.

一个产品的目标用户估计也不可能是所有人.
因此,从功能出发的话,基数问题其实腾讯并没有那么明显的优势.

当然也不是完全没有,连接腾讯各枝干的毕竟是最原始的IM系统,即使不是IM用户,也是纳入在腾讯的Social network里的.

但前面说了,这个social graph并不是一个非常完整强壮的连通图,多多少少还是有明显的聚类的.

因此,如果说腾讯仅仅利用用户基数就能够超越模仿对象,那么也应该归结于用户并不具有很高的认同感.
先行者的迁移成本低于后来者,这本来就算一种失败了吧.

那么,如果以资源优势论处呢?

腾讯在资源上有什么优势?

资本的能力体现在研发和市场上.
研发方面的开销在于人才和和必要的物理支出.

如果是输在人才上,那也从侧面证明是技不如人,产品不及对方从而被市场而不是腾讯淘汰的.

市场方面,如果说是因为原有用户流失,那同样的,这是因为产品本身不如别人.
消费者总是选择对其来说更符合需求的东西.

所以,如果是资本差距的话,那么应该是体现在物理支出和新市场开拓的成本支撑能力上面.

于是,应对所谓抄袭的策略就相对明显了.
物理支出是跟外界无关的.
它的开销应该属于可控范围.

毕竟如果是因为不能支付服务器成本之类的原因而从市场消失,这也不能怪腾讯.

引申的一个问题就是“盈利”的方式.
当然,如果没有明确清晰的盈利方式,又没有足够的钱烧到有头绪为止,这也不能怪腾讯.
大家都只是在烧钱探索而已.

如果成本在初期就确定不能够负担或者有明确的警戒日期,那么这其实是已有的死亡预告而已.

因此,在开始诅咒腾讯钱多之前,务必查看钱包,如果即使没有腾讯也会在明天饿死的话,那也就不要装作满腹委屈的乌江样了.

在确定物理支出没问题之后,考察剩下的新市场开辟问题.

就宣传推广而言,确实腾讯虽然有大而不紧密的结构系统可供借用,在媒体接触率上有天然的优势.
因此,如果是同等功能和体验的产品,自然是先入为主.

这里如果有信心认为体验功能什么的是腾讯模仿不过来的,那自然,影响不大.
因为就现代的传播速度来看,优劣替换的速度还是相对能体现公平的.

但有时候不是产品始终都能优于对方的.

因此,需要换一个角度思考.
想想主动开辟新市场是否是盈利的必经之路.

换句话说,盈利的基础是否在于尽可能广的用户基础.
如果不是,那么推广能力的所谓弱势问题就不是什么问题了.

如果盈利方式是依靠所谓的长尾的话,那么就只能自求多福了.
从另一个角度来说,这也算是主动"挑衅"腾讯了.
毕竟,虽然业务没有直接交叉,但最终市场确实直接兵戎相见了.

所以,要免于说被腾讯抄袭所累,那只是得让自己有些"与众不同"才行.

2012-02-19

倾斜的制度

动笔的起因是看到国内某招聘网站的一个广告,大致意思是还的工作等价于月薪8k.

无意讨论所谓好工作的定义,只说既然能做得出8k这个水平,那么大概也是有所根据的.
也许是自己用户的数据,也许是从所谓的公开统计渠道获得.

这里想说的其实跟以上关系不大.
只是缘起又想到了所谓的薪酬保密制度.

这是一个很明显的贸易不对等,或者说信息不对称问题.
当然,作为一种博弈手段来说,于用人方来说,也不失为一个好的临时对策,毕竟博弈比拼的其实是谁更了解谁.

雇员间的相互薪酬保密也不能说就没有积极作用.
但作为制度固话下来就不能说是尊重隐私之类的问题了.

说到底,还是为了避免不平衡引起的各种问题.

但是回过头来看,这种不期然的结果,本因是最初的不平等交易所致.
它的牢固性建立在信息能坚守多久不被公开.

所以,要打破的话,其实很简单,而正因为此,所以有颇多人把它立为天条.

那么这种模式一定对于公司来说是较优的选择么?

未必.
前面提到,这种制度的可靠性建立在信息私密的时间长度.
换句话说,就是看雇员需要花多长的时间来填补这个信息缺口,然后开始重新博弈.

注意到一般来说,在公司内,这类信息的流动其实是受限的.但是公司外则是一个相对开放的场所.
于是,实际上,这种信息的私密程度的可靠性保证其实没有想象中那么牢固.
壁垒的效果多数时候屏蔽的只是公司个体情况,而非行业状况.

那么,在屏障消失后的新一轮博弈里,也就是所谓的跳槽决策中,决定胜负的关键一点就是动态的薪资差额和其他诸如人脉经验等固定资产的计算结果了.
如果浮动的薪资差值小于其他附属价值,那么跳槽是很自然的事情.

所以,为了维护这种依靠不透明而运作的制度,那么一家公司就必须投入更多的,能够在二次博弈时添加有利计算的砝码.
诸如技术,诸如文化,诸如氛围,诸如理想等.

而这些东西大概是因人而异的.
虽然从统计观点来说的话,总有些是比较共同且廉价的方面.
比如工作环境等,算是一次性廉价投入,惠及的还包括未来加入的员工.

到目前为止的话,貌似这套系统运行地还颇有效果.
最直接的是用了相对少的投入,获得了同等程度的收益.
加上通过对跳槽率等的考察,将填补薪资差额的周期人为筛选后拉长了.

如果不树立这种坚壁呢?
虽然并不影响上述提到的一些好处,但是有一个明显的成本缺陷.
而这个对于一个企业来说不能说是不敏感的.

所以,这是一种好的制度么?
对于企业单方面来说,只要能够延迟跳槽的时间,减少次数,增加无形的跳槽成本,那么答案很明显.

反正现代多数企业崇尚的是流程标准化,方便随时替换,而不影响机构的运作.

于是,自谋多福吧.

2012-01-03

起司猫的买卖

  想想,肯德基起司猫的流行也是件挺有意思的事情.
  为什么能流行?

  起司猫本身的品牌因素应该不是原因之一.
  尽管,之前过诸如哆啦A梦之类的周边营销活动,但是起司猫的应该还算是小众.

  从各处timeline上看到的情况,大概是因为其造型的原因.

  造型可爱是一个因素,但是,从销售上来说,它其实是作为四款套餐的一个附属品.
  尽管从实际的销售上来说,可能它才是消费的主要目的.

  那么,如果把它单独销售呢?
  还能有如此的流行度么?

  所谓流行,也就是扩散到了比较广泛的人群中.
  换句话说,就是人们比较容易地就接触到了相关渠道.
  
  假设一下,如果发行商不是肯德基这种在一二线城市的各个角落都随处可见的商家,而是一些规模较小,分布没那么密集的,其结果会如何?
  至少从人获取的成本上来说,增加了许多.
  而由于接触的人少了,自然能扩散的程度就低了.
  
  那么回到刚刚的问题.
  如果是单独销售呢?

  人购买的目的是因为造型能引起某种共鸣,而售卖的便利性使得购买这个行为付出的成本相对较低.
  但低成本就意味着利于销售么?

  明显,促使人产生购买行为的根本还是需求.
  或者说,对物品的价值估计.
  
  不论是理性消费还是非理性消费,都不过是某种形式的决策.
  而影响人作出决定的因素在于,如何尽可能地最大化收益.
  
  所以,买不买起司猫取决于,对于买这个行为带来的收益价值到什么程度.
  试想一下,如果它价格高到一个很离谱的水平,买的人或许就没那么多.
  
  但多高才算是高呢?
  这个或许就是该模式一个有趣的地方之一了.

  起司猫的价值其实你对它的喜欢程度.
  而"喜欢程度"这种东西是很难精确量化的,且因人而异
  换句话说,它具有一个比较宽泛的浮动范围.
  
  所谓的可接受程度在于对基础成本的估计,加上自己对于自己可接受范围的一个加成.
  某种程度上可以近似地认为是对该类物品可以接受的最高定价.

  也就是说,在这种非功能性消耗里,商家可以腾挪的空间更多.

  但非功能性也就意味着非必要性.
  能让土司猫变成必要的么?
  
   即使能,那么就不是非功能性消费了,于是决策的时候将会更趋于理智,"溢价"空间也就自然变小.

  于是换个思路.
  所谓的必要性消费,通常也具有一定的周期性.或者说消耗是持续的.

  于是,把套餐和起司猫放在一起,持续性需求和非功能性溢价搭售在一起,似乎就很完美地糅合了两者的长处.

  用起司猫的溢价空间,变相地拉升或者说摊平差价.
  用套餐这种功能性消耗夹带扩散所带来的额外收益.
  
  想想,交易这种行为还真地很难说理性.

  所谓的理性,不过是所感知的条件的多寡差别罢了.

订阅：博文 (Atom)