RandomLog: Twitter和Google bot

  Google bot把整个互联网都爬了个遍.
  于是Google的搜索引擎在互联网上变得近乎无所不知.

  但是,现在的互联网已经不是纯粹的互联网了.
  web2.0的持续进化.facebook的SNS,twitter的微博客,互联网已经不是单纯的电子网络.

  如今的互联网,是一个柔和了真实人物性格的social network.
  那个著名的互联网狗理论也许就要被打破了.

  这并不是不可能.
  
  想想.SNS和微博的扩散.每个人都在网络中有意无意地流下了许多痕迹.
  最终一个人的成本变得不再高.

  你的每一个like,每一个share都是你真实意识的反映.
  它的准确度是潜意识范围上的.
  某种程度上说,这比面对面的调查或者问卷可能更准确地反映了一个人的特征.

  当年Google用爬虫征服了互联网.
  但如今的Google却必须想办法守住互联网.

  如今的互联网已经不是简单的机器所能推倒预算的了.
  当人的活动愈发地和互联网结合,也就意味这互联网的信息流向将会变得更加复杂和不可预测.

  因为人本身的行为是很情绪化的.
  有时候甚至是非理性的.
  尽管,有时候这是可以引导的,但并不意味这你能够准确预知最终信息的流向.

  机器味十足的互联网,google可以通过算法来认识.
  而对于高度复杂和不稳定的social network,google目前显然有些难以应付.
  
  这里不谈google.
  而是换个思路认识这个莫测的互联网.

  还是foursquare.

  其实还是twitter.
  foursquare只不过像是一个实验模型,用来证明twitter有能力掌握social network.

  foursquare的checkin机制其实跟google的bot很像.
  
  用户的每一次checkin算是一种加权行为.
  也算是一种network的追踪描绘过程.
  checkin的人越多,checkin的次数越多,那么个人的特征也就越明显,群体的趋势也就更有能力把握.

  针对每一个个体,每一次foursquare的checkin其实都算是生活轨迹的一次快照.
  如同google的爬虫对网页的每一次抓取.

  checkin的频率越高,就代表着某个人越活跃.
  某个地方的chekin总数越高,也就意味这某个地方的权重更高.
  
  至少,从浅层来看,foursquare有能力绘制一张动态的流量图.
  来表明人群的趋势热点以及习惯.

  这对于social network来说,其实是人生生活当中,行为轨迹的一种分析数据.
  通过checkin的数据,特征化人的行为方式,地方的集散特征.
  
  如果在综合个人的SNS情况,将LBS信息结合起来,那么,得到的就不是单纯一个地方一个人的特征信息.而是一个群体的活动模式.
  
  换回google的bot来说,这便是pagerank和search.
  
  了解了人的活动方式,其他的也就顺水推舟了.

  Foursquare所体现的只不过是twitter信息聚合抽象能力的一部分.
  它可以看作是twitter这个平台上的一个实例.
  
  或者放宽一点来考虑.
  facebook的open graph.
  这其实也是对人的一种信息聚合能力.

  尽管,在facebook的connect已经遍布许多地方.
  但是,这还不够.
  facebook以及facebook的生态圈依靠的是无休止的扩散.

  就像Google的爬出必须爬满整个互联网一样,facebook也必须把自己遍布全球的每一个角落,这样才能更广泛地抽象出用户行为,从而从中提取商业价值.

  但twitter和这两个稍微有点区别.
  google和facebook目前所做的有一个共同点就是,尽可能地把用户的数据收集到自己门下,作为数据挖掘统计的基础.
  更一般的共同点是,他们依赖的是已经存在在互联网上的内容.
 
  twitter与facebook和google一样,也在尽力挖掘这个social network的流向模型.
  但是,twitter采取了一个很开放的状态.

  注意到twitter上产生的内容.
  它不能说不是互联网的内容.
  但跟普通的blog和新闻文章等有一个区别就是它可能看上去meaning less.
  或者说,它的内容无意识的成分更多.
  
  反过来,也就是说它浓缩了更多的人的行为.

  facebook的like虽然也很无意识,但它比较被动.
  它依靠的依然是现有互联网的输出.

  buzz和twitter相似,但是问题在于用户量不多.
  
  因此twitter的优势在于既有用户多,信息种类足够多样性.

  但与此同时,过于杂乱的信息也让不是twitter本身能够消化吸收的.
  面多诸多的混乱信息,twitter不可能象google一样用机器去解决分析归类.
  因为twitter面对的不是固定的语义明确的网页,而是不可测的,语义复杂的人类思维.

  也许,正因为twitter认识到这点,所以它才没有想google那样急忙地拓宽影响力,也没有像facebook一样拼命地扩展.
  twitter想做的是一个信息平台.
 
  如同现在的google一样,做一个信息入口.

  twitter想要的应该是无数的像foursquare一样的,某个独立侧面的挖掘应用的存在.
  一个基于twitter复杂数据的生态环境.

  或者说,twitter的目标是成为一个social network的数据仓库.

  就像google的爬虫一样.
  twitter所做的是不停地收集.
  
  而分类的事情,交给想foursquare那样的应用去做吧.

  所以,从这个层面上来看的话,twitter比google和facebook走得都更远.
  因为它更早地明白了这个social network的特质.
  
  海量的信息,杂乱无序的状态.
  这不是任何一家或者几家公司所能力并掌握的.
RandomLog

2010-05-03

Twitter和Google bot

没有评论:

发表评论

聊聊增值税