一个set是partially order的,也就是任意地,a b不一定是comparable的.
imply的就是min/max是一个undefined的问题.
那么在此基础上做的minimize/maximize就是无意义的.
因为实际上可能并不存在这么一个可比性.
cost function可能引入了一个并不存在或者说错误的关系.
比如给定a 由于cost function一般是well defined的.
所以一定会引出a
但实际的ground truth可能是c
所以,某种程度上来说regression/statistics本质上算是一种偷换概念的行为.
因为原则上来说,这是两种不同的表达式.
或者说,实际上只是,而且只能是一个近似.
如果对这个partial order做个partition,使得其subset是well defined的.
那么它可能是完全描述的么?
也不一定.
因为subset不一定是bounded的.
所以这种近似并不能做到100%的等价.
那么它的意义在哪里呢?
给定足够多的数据和足够细的partition方式.
每一个well defined subset的近似度越高,整体的近似度也就越高.
理论上来说,是有可能完全表达训练集/样本数据的.
当存在一个partition方式,使得每个子集都是well defined的话.
如果把order关系看作一个directed graph的话.
那么就可能存在一个non-well defined的三角关系,使得不能存在一个拆分方式能够保留完全的关系表述.
一个例子就是上面提到的a
所以如果单纯是为了匹配准确度的话,拆分子集分别计算可能是最intuitive的方式.
而且考虑给定cost function去estimate效果的话,拆分本身也可以做随机化取最优方式.
或者按某种搜索方式剪裁拆分复杂度.
而如果是为了generalize的话呢?
其实可能也差不多.
因为所谓generalize只不过是对于样本之外的一种外延预期.
也就是对于ground truth的可能会是怎样,应该会是怎样的一种合理假设.
基于这个假设的分布特性,通过已有的样本空间去生成模拟空间.
然后对这个模拟空间做fitting.
从这个角度看meta learning的话,也不过是经典的search和feature engineering的组合而已.
所不同的可能是feature engineering更多是一种对概率分布的估计方法.
没有评论:
发表评论