想起上周跟某人吃饭时候谈到的一个问题. 之前一直很模糊Data Mining这东西. 后来,做了些不算Data Mining的,但是需要类似思路的东西之后貌似有点头绪了. 原本以为的DataMining嘛,如字面意思. 数据挖掘. 也就是说,你期望从数据中得到一些意外的东西. 犹如被引用及神话很多的,关于纸尿片的案例. 如果不深入想的话,会觉得数据挖掘是一件很美好的事情. 你不知道的事情,通过挖掘会整齐地出现在你面前. 而现在的想法是,其实数据挖掘. 挖掘这个词已经概括了目前的认知. 所谓挖掘,其实就是你原本知道那里可能会有什么,才会去所谓挖掘. 某种程度上来说,数据挖掘其实只是通过结果来说明你猜测的准确度如何. 换句话说,其实是你已经知道了结果是什么,只不过是通过这种手段来证明而已. 于是说到数据驱动. 所谓的数据驱动,就是让数据说话. 而要让数据说话的前提是,你知道数据是什么意思 换个角度来说,其实是你已经有各种预期了,然后通过对比数据,找出比较符合的一个. 也就是所谓的fitting. 这在某种程度上来说,其实也只是利用数据来验证自己的想法. 于是,退一步想. 这种数据挖掘其实是可有可无的. 它依赖的还是人本身. 它需要一种直觉,然后人通过这种直觉把它具象化. 于是,把之前的认知推翻. 数据挖掘其实就是检验你想法与现实符合到了什么程度. 也就是一个model fitting的问题. 而说符合到什么程度,这个其实也是很主观的问题. 且不说它受你的预期条件的约束,更不用说它还受各种你可能不知道的因素的综合影响. 结果可能只是恰好而已. 也就是说,它依赖的还是人的建模水平. 能排除多少干扰因素,能设想多少影响关系,能估计多少波动范围. 极端点说,这其实跟空想一个idea然后实行没什么太本质的区别. 原因在于,它始终是supervise的. 有了一定预期,然后用结果解释结果. 这看上去多少有些变扭. 至少,纯学术上来说,并不优雅. 而unsupervised的东西,看上去更复杂更优雅. 但是实现程度和效果可能并不理想. 尤其是,unsupervised也很容易地,在先期设计思维上陷入supervise的陷阱里. 你还是需要知道某些特定的规律. 毕竟,机器还是按照规则运作的. 非确定性中,还是带有某种"确定性"的味道的. 所以,试图依靠了解全部运作机制而做出相应决策的想法,感觉有些过于天真了. 尤其是在数据涉及到人的行为的时候. 人本身的不确定性,很多时候都是非理性的. 意味这你对人的一个行为的结果,或者决策思路很难捉摸. 如果不清楚输入输出的可能组合,也就很难有一套有效的规则来模拟这种行为. 所以,还是觉得,在Social Network等涉及到人的地方. 还是不要想着建造一个僵硬的规则,然后让人顺着这条规则走下去. 而应该是构建一个开放的世界观. 至于这个世界到底是怎样的,应该让参与到里面的人自己去营造. 而不是创世者自己规划好了,然后让里面的人一步步走下去. 这无论是对于造物主还是里面的生物来说,都是乏味的. 未来可预测. 这不能不让人觉得索然无味. 而只有让用户自己去做三体运动,去通过复杂的不可描述的相互作用去构建的世界才能足够有趣. 以及足够的强壮. 而这时候的所谓"数据挖掘"才算是有点意义. 因为你能了解这个"世界"的唯一途径就是数据. 就像现实的人类社会一样. 通过数学,去了解这个世界. 去猜测这个世界. 你完全不清楚你所创造的那个"世界"到底是怎样的. 而此时的你,也才有兴趣去通过数据猜测这个你所创造的,但永远无法进去体验的世界,是如何的. 即便,它最后并不能反馈给你"真实"的信息. 但是,对于神来说,已经足够了. 因为这个时候,创世已经是一件永远在进行的事情. 而不是短短的"七天".
2011-10-28
歧途的思维
订阅:
博文评论 (Atom)
爽文
去看了好东西. 坦白说,多少是带着点挑刺的味道去的. 毕竟打着爱情神话和女性题材的气质,多多少少是热度为先了. 看完之后倒是有些新的想法. 某种程度上来说,现在的年轻人或者说声音就像小叶. 只要说点贴心的话就能哄好. 也是那种可以不用很努力了. 留在自己的舒适区避难所小圈子抱团就...
-
最近尝试了下海淘. 当然,方向上来说是从国内到新加坡. 先是买了个iPhone,算上运费和双重征税,到手比官方还是便宜个一两百新的. 换算回来也不多事10%的纯粹价格因素差异. 当然,之类有电商促销的因素. 也有比较基准是新加坡Apple Store售价的原因. 但如果同样比较A...
-
这两天看完了Netflix版的三体. 某种程度上来说,完成度还是不错的. 尽管开始的时候对于第一集片头有些争论,但整体如果带入当下去看的话,还是有些梗的. 比如三体对于地球科技的发展速率的担忧,由此衍生的智子. 以及现有力量对比上的压倒性优势. 如果带入中美关系以及各自的历史阶段...
-
前几天Sora出来后才仔细看了下diffusion,发觉确实算挺取巧的. 按照naive的intuition或者说不那么现代的方式的话,可能需要segmentaion为基础的composite的方式去生成图片,即使扯点deep learning/network的,可能也是类似一些...
Machine Learning是一门伪科学,用现象解释现象而已。
回复删除