数据标准化的确会带来许多方便,像消除量纲、拉低不同数量级指标的差异等等,但是这种标准化有没有消极影响?体现在哪些方面?请求大神的解惑

中心化 (centering) 一般都可以做. 不过几乎没有用处. 因为对于适应性足够好的方法, 做与不做中心化最后得到的结果一般是完全相同的.

某些含有特殊物理意义的数据, 比如谱数据, 往往不适合做标准化 (scaling). 标准化的物理意义是对数据在空间中做缩放, 对于这样变量量纲相同而且有物理意义的数据做标准化, 数据中的一些结构 (可以理解为信号) 相当于被弱化, 再用某些方法效果就会变差.

谢谢2楼。也就是说,某些数据经过标准化这种映射之后,原本所包含的显著信息在一定程度上被缩放了,原有问题用这种数据来分析所产生结果就会发生偏离,可以这样理解吗?

还有就是在主成分分析中,标准化和未经标准化的数据得出的结果有时差异挺大的,而主成分分析是通过方差来衡量所包含原始变量的信息的多少的,那么这种标准化还合理吗?继续求教

一定程度上可以这么想吧。这事和你的方法也有关系。有的有监督方法对标准化之类的不敏感,有些更敏感。

和上面一样,结合数据本身性质以及具体应用考虑吧。如果说 PCA 本身可以看成是无监督的距离度量学习,同样是对数据做变换,那么在假设你的程序本身内部没有捣鬼做标准化的情况下,先做一步变换再做一步变换和直接只做一步变换的结果是会有区别的。而且做还是不做标准化,出发点本身就不一样。

标准化这种变换,本身就是有一定主观和假设的,也就是相当于对观测之间的距离关系做了一定的假设,那个变换矩阵对角线元素是 1/sigma 这样,而事实上这样的假设并不一定合理。

回复 第3楼 的 1009:如果涉及预测,标准化也有缺陷,建模的指标是在现有数据基础上的标准化,如需要对进行标准化处理的X进行预测,这时的标准化就不容易实现了,得同时预测X的均值和标准差。线性模型中有时候标准化也是因为参数估计方法(比如OLS)的限制。做标准化处理,参考楼上说的,得结合三点:数据本身的含义和特征(是要反映绝对量变化还是相对位置),采用的分析方法或参数估计方法,具体应用(估计参数、预测、PCA之类的分析)

好像理解了一点,多谢两位大神的热情帮助,我再多找点有关这方面的资料看看[s:19]