1、如何基于非参数核密度估计得到的概率密度函数计算分布的均值/标准差/区间范围?
通过非参数核密度估计(KDE)对1000个样本点进行拟合,得到的总体分布的概率密度函数,因为是非参数估计没有具体函数形式,请问怎么计算分布的均值/标准差/区间范围?补充:KDE,核函数选择的高斯核函数,带宽依据Scott’s method。
2、如何基于非参数核密度估计得到的概率密度函数计算分布在某区间[a,b]上的概率?
3、上述问题是对一个变量的1000个样本点进行的估计和计算,那么现在有多个变量,变量间彼此存在关联,但关系没法用一个明确的函数形式表示出来,是非线性相关的。可以用上述方法同时拟合出各变量的分布,发现变量分布之间存在交叉/重叠,请问如何计算一个变量大于另一个变量的概率?(难点:变量点相关但没有明确的函数形式表达,第二非参数估计得到的分布)补充:如果通过数点(即1000组样本点)是可以统计出一个变量大于另一个变量的概率,但请问能否通过概率分布函数进行计算,怎么样更加科学合理?
如何基于非参数核密度估计的概率密度函数进行统计量的计算和大小对比?
1和2一言以蔽之的话,可以通过数值计算的方式去做。
3 看你的描述是用一维KDE一个一个变量去做得到的各变量的边际分布的估计,那么并不能直接使用。在变量维数不高的时候,可以考虑用多维KDE,然后根据定义去用数值计算的方式来估计变量A大于变量B的概率,不过这个的效果受维数的影响应该很明显。
fenguoerbian 感谢您的解答,请问数值计算具体指什么意思?是基于1000个值进行计算?还是?因为是非参没有函数形式,我目前了解到的是用积分,但积分时每个点的宽度怎么选择,只是近似等于?
对于问题3,目前遇到的维度是4维(4个变量),请问可以用多维核密度估计吗,假设估计出了4维核密度概率分布函数,请问怎么进行后续的数值计算?请问有没有相关资料参考?十分谢谢!