想起上周跟某人吃饭时候谈到的一个问题. 之前一直很模糊Data Mining这东西. 后来,做了些不算Data Mining的,但是需要类似思路的东西之后貌似有点头绪了. 原本以为的DataMining嘛,如字面意思. 数据挖掘. 也就是说,你期望从数据中得到一些意外的东西. 犹如被引用及神话很多的,关于纸尿片的案例. 如果不深入想的话,会觉得数据挖掘是一件很美好的事情. 你不知道的事情,通过挖掘会整齐地出现在你面前. 而现在的想法是,其实数据挖掘. 挖掘这个词已经概括了目前的认知. 所谓挖掘,其实就是你原本知道那里可能会有什么,才会去所谓挖掘. 某种程度上来说,数据挖掘其实只是通过结果来说明你猜测的准确度如何. 换句话说,其实是你已经知道了结果是什么,只不过是通过这种手段来证明而已. 于是说到数据驱动. 所谓的数据驱动,就是让数据说话. 而要让数据说话的前提是,你知道数据是什么意思 换个角度来说,其实是你已经有各种预期了,然后通过对比数据,找出比较符合的一个. 也就是所谓的fitting. 这在某种程度上来说,其实也只是利用数据来验证自己的想法. 于是,退一步想. 这种数据挖掘其实是可有可无的. 它依赖的还是人本身. 它需要一种直觉,然后人通过这种直觉把它具象化. 于是,把之前的认知推翻. 数据挖掘其实就是检验你想法与现实符合到了什么程度. 也就是一个model fitting的问题. 而说符合到什么程度,这个其实也是很主观的问题. 且不说它受你的预期条件的约束,更不用说它还受各种你可能不知道的因素的综合影响. 结果可能只是恰好而已. 也就是说,它依赖的还是人的建模水平. 能排除多少干扰因素,能设想多少影响关系,能估计多少波动范围. 极端点说,这其实跟空想一个idea然后实行没什么太本质的区别. 原因在于,它始终是supervise的. 有了一定预期,然后用结果解释结果. 这看上去多少有些变扭. 至少,纯学术上来说,并不优雅. 而unsupervised的东西,看上去更复杂更优雅. 但是实现程度和效果可能并不理想. 尤其是,unsupervised也很容易地,在先期设计思维上陷入supervise的陷阱里. 你还是需要知道某些特定的规律. 毕竟,机器还是按照规则运作的. 非确定性中,还是带有某种"确定性"的味道的. 所以,试图依靠了解全部运作机制而做出相应决策的想法,感觉有些过于天真了. 尤其是在数据涉及到人的行为的时候. 人本身的不确定性,很多时候都是非理性的. 意味这你对人的一个行为的结果,或者决策思路很难捉摸. 如果不清楚输入输出的可能组合,也就很难有一套有效的规则来模拟这种行为. 所以,还是觉得,在Social Network等涉及到人的地方. 还是不要想着建造一个僵硬的规则,然后让人顺着这条规则走下去. 而应该是构建一个开放的世界观. 至于这个世界到底是怎样的,应该让参与到里面的人自己去营造. 而不是创世者自己规划好了,然后让里面的人一步步走下去. 这无论是对于造物主还是里面的生物来说,都是乏味的. 未来可预测. 这不能不让人觉得索然无味. 而只有让用户自己去做三体运动,去通过复杂的不可描述的相互作用去构建的世界才能足够有趣. 以及足够的强壮. 而这时候的所谓"数据挖掘"才算是有点意义. 因为你能了解这个"世界"的唯一途径就是数据. 就像现实的人类社会一样. 通过数学,去了解这个世界. 去猜测这个世界. 你完全不清楚你所创造的那个"世界"到底是怎样的. 而此时的你,也才有兴趣去通过数据猜测这个你所创造的,但永远无法进去体验的世界,是如何的. 即便,它最后并不能反馈给你"真实"的信息. 但是,对于神来说,已经足够了. 因为这个时候,创世已经是一件永远在进行的事情. 而不是短短的"七天".
2011-10-28
歧途的思维
订阅:
博文评论 (Atom)
何乐不为
去看了长安的荔枝. 前半段还可以,尤其像荔枝林里不知道是笑还是哭的几个镜头表演算是相当出色了. 结合人物背景的那种对目标的绝望与对当下人际环境的希望的交叉矛盾心理. 后半段就有些过滤潦草了. 如果说整片是对于一骑红尘妃子笑,无人知是荔枝来的解构的话. 带入民生潦倒涂炭这点是没问题...
-
下午查了下关于仿制药的一点东西. 首先是关于一致性定义的相关文件. 简单的Google一般会指向NMPA/国家药监局的一些关于 化学药品注射剂仿制药质量和疗效一致性评价技术要求 的相关政策公告或者是更早期一些的关于这个文件起草意见稿. 一般理解的西药就是指化学药品. 这个文件本...
-
去看了好东西. 坦白说,多少是带着点挑刺的味道去的. 毕竟打着爱情神话和女性题材的气质,多多少少是热度为先了. 看完之后倒是有些新的想法. 某种程度上来说,现在的年轻人或者说声音就像小叶. 只要说点贴心的话就能哄好. 也是那种可以不用很努力了. 留在自己的舒适区避难所小圈子抱团就...
-
看完死侍与金刚狼. 倒也不是有什么太大的粉丝热情,只是有些感慨. 算一下,人生也差不多过半了. 有些想法可能也在不知不觉中变化. 就像想用随着年纪增长这个表达的时候,也会犹豫退却下. 尝试用随着时间之类的表达. 年龄是个什么意义? 可能更多的是一种经历与日渐消失的新鲜感之间的拉锯...
Machine Learning是一门伪科学,用现象解释现象而已。
回复删除