2016-12-22

关于神经网络的一点想法

以前谈过的一个问题.

比如经典的数字识别问题.
给定feature和对应的结果,实际上就是一个拟合问题.

当时基于的考虑和思路就是,即使给定feature空间并不是全息的.
或者说并不是事实上的对现实的足够描述.
但理论上也可以找到一个从低维空间project回高维空间的matrix.

同样的,在project回的高维表示下,就存在一个对output space的projector.

于是在这个思路下就变成了一个纯粹的解矩阵乘的问题了.
所以当时觉得activation function意义不是很大.

但这里有几个问题.

一个是project回高维的向量未必是正确或者说有意义的.
另一个是高维project回低维的时候也同样.

而且从等式层面来说,两者可以合并.

也就是说从结果上来说,即便有解,解也可能是无限的.
这样的话,其实就没意义了.

而且理论上来说,也不一定有解.

虽然对于output space的单一维度来说.
理解为一组weighted local minimum的方式也没什么太大的问题.

比如针对是否是数字0的一组regression.

但这里还是有个比较致命的隐含假设.
也就是因果性.

因为这个思路暗含的是output space是input space的一个因果性变换.
或者说在某种程度上,input是可以涵盖/推导出output的.

但实际上,对于手写数字识别这个来说,并不是.

它并不存在一个确定性的从手写到数字的映射关系.
更多的只是一种习惯性.

从人的直觉上来说,认为一个手写字体是数字几的过程实际上是一个认为它"应该"是几的过程.

所以本质上来说,这是一个概率问题.

更明确地说,是给定一组feature vector,如何把它变换到一个概率空间的问题.
也就是如何把一个向量变成一个概率描述.

所以多项式变化或者说某种标量化之后,再做某种density性质的函数分布变换就变地很有意义了.

因此从这个角度来说,training的过程不过是在给定的activation function的特性/density性质曲线上,把vector scale过去.

于是,从某种程度上来说,neural network本质上就是某种probability machine.
不同结构的neural network不过是概率组合思路的不同罢了.


聊聊卡布里尼

最近看了部片叫卡布里尼,算是可能这段时间来比较有意思的一部电影. 故事也不算复杂,就是一个意大利修女去美国传教,建立慈善性质医院的故事. 某种程度上来说,也很一般的西方普世价值主旋律. 但是如果换一套叙事手法,比如共产国际的社会主义革命建立无产阶级广厦千万间的角度来看的话,也不是...