谁能用一两句话说清楚切片逆回归的思想呢？

xiongxi

RT

比如对于偏最小二乘，maximize the covariance

between the response variable y and the original predictor variables X.

多谢[s:11]

nan.xiao

同学拿着写了25页的关于USB技术的论文上去答辩，老师开口就问：“请你用一句话介绍一下USB技术”，同学立即怒：“一句话？一句话可以说清楚我写25页干嘛？一句话可以说清楚我站在这里干嘛？”整个答辩场集体沉默2分钟。。。

导师：解释一下原理。学生：太复杂了说了你也不懂。。。导师：哦~那算了，下一个。。。

同求。。。 [s:11]

itellin

只知道患有癌症了，医院要给病人做切片来化验检查，谁知道切片还能做逆回归，好奇，求解答。

ilikewjb

lz同学，请问你这个切片逆回归名字是不是记错了，应该叫倒向随机微分方程吧。请查证。。。。

cloud_wei

回复第4楼的 ilikewjb：怎么和BSDE扯上了啊？

ilikewjb

回复第5楼的 Cloud Wei：切片不就是微分的思想么，逆回归不就是从未来向现在做微分么。况且倒向随机微分方程需要一步一步做，和切片有异曲同工之妙啊

cloud_wei

回复第6楼的 ilikewjb：你真幽默，你是彭老师那边的吗？

ilikewjb

回复第7楼的 Cloud Wei：老兄听说过彭实戈院士？呵呵我是山大数学系的

cloud_wei

回复第8楼的 ilikewjb：听了很多年了啊。能扯到BSDE和G期望之类的应该只有山大彭老那边的了，呵呵

ilikewjb

回复第9楼的 Cloud Wei：我也是刚刚考上，现在在读龚光鲁老师的随机微分。倒向随机微分实在是太难了。老兄是哪个学校的呢

cloud_wei

回复第10楼的 ilikewjb：我是群大的。BSDE我们这边很少有人做，曾经做过的也都毕业了。想来BSDE是个稀罕物事，岂是人人都能做得了的。我只不过粗略的看过几眼Oksendal的SDE，在COS灌过一千多次水罢了。

兄台的方向是小g还是大G？

ilikewjb

回复第11楼的 Cloud Wei：大g小g？兄台我不懂啊。我是xmu毕业的，去年考人大木有考上。本来想再考一年人大的，家里逼我考了山大。刚刚录取，还没有开始学习呢。老兄群大？

cloud_wei

回复第12楼的 ilikewjb：小g指倒向随机微分方程那一块，大G指非线性期望那一块；都是山大概率的主打，目前山大做大G更多一些，我们乱叫惯了[s:12]

群众就是人民的意思啦

ilikewjb

回复第13楼的 Cloud Wei：哦太感谢了老兄其实你的水平也很高啊。

autoban

看标题进来，还以为会有SIR的讨论呢，结果。。。。（或许是我没看懂吧）

yihui

回复第15楼的 remember, discover, invent： I saw your name in the post and thought you would say something on this topic, so I came in but... [s:12][s:11]

justin_M

回复第8楼的 ilikewjb：为毛我一听到“倒向随机微分方程”就想到彭实戈老师，虽然不知道“倒向随机微分方程”。

ilikewjb

回复第17楼的 justin_M：不知道啊，老兄我不知道为何一提到bsde就想到彭老师，我是在山大面试时才听过bsde，然后借了几本关于sde的书，发现我本科学的就是菜

autoban

回复第16楼的谢益辉：关心SIR是因为曾经一直想找时间写完variable selection的两篇paper，现在看来task queue只能越来越长。。。paper几乎又要无限期延后、夭折了。。。

回复第1楼的 Tracy X：一两句话，我做不到。条条大路通罗马，说一种对不喜欢数学的人(e.g., me)来说可能比较直观的解释吧：

做SIR的目的是降维，更重要是的它仅仅为了降维；这一点跟其他方法有很大区别，因为其他方法（比如你所说的PLS）往往做的比降维要多一些。

三个字母一个一个说吧：

第三个字母R: 对于(X,Y)，通常关心的是它们之间的dependency（这点跟copulas的思想有少许类似），这个dependency也就是SIR中的R。那么P(X,Y)既可以当做P(Y|X)P(X)来考虑，也可以当做P(X|Y)P(Y)来考虑。显然两者之间是等同的，而且P(X)和P(Y)都没有dependency的信息；但是我们却有两个不同的描述X与Y之间dependency的quantities: P(Y|X) vs. P(X|Y).

第二个字母I: 通常的回归考虑的是P(Y|X)，当X是高维的时候，数据量相对于维度来说总是太小，因此这种回归很难做。于是SIR里面的I考虑使用更加容易的P(X|Y)。

第一个字母S: 我们关心P(X|Y)，其实最主要的是关心E(X|Y)。E(X|Y)是一个曲面，他描述了在平均情况下X随Y的变化而改变的方式。降维所要寻找的，就是这个曲面在哪些方向上变异最大（甚至于在其他方向上X不随Y而改变），也就是说，在哪些方向上X最容易受Y影响。如果知道这个曲面，那么找方向比较容易，只要我们计算这个曲面的协方差，做个principal component就搞定了。于是问题变长了怎么找这个曲面的协方差。SIR里面的S所完成的就是帮助找到这个曲面。假如我有足够多的数据，那么把所有具有相同的Y值的X平均在一起，就得到了E(X|Y)。而通常Y是连续的，所以一种近似办法就是把具有相似的Y值（也就是S)的X平均在一起来近似得到E(X|Y)。这里可以和MANOVA放在一起类比一下：如果把Y切成片，可以认为Y就是MANOVA里面的分组变量(design)；如果切成很多小片，那么组内变异就可以忽略不计，剩下的就是组间变异。而组间变异也就是我们所要找的E(X|Y)的协方差了。

用这个组间变异做PCA，找到变异最大的subspace，然后back-transform回原来的P(Y|X)的情况，也就是完整的SIR了。

aubonj

回复第2楼的 nan.xiao：

也许老师就是想让学生把USB技术的最基本，最初的想法，通用规格和结构吧……[s:12]