请教一个关于聚类分析的小问题

xfh · 2011年8月23日

大家好，我不是数学出身，对统计不太擅长，请教大家。

我有几个样本，测得基因组DNA甲基化，数据是这样的：

每个样本的数据是这样的，

染色体起始坐标终止坐标甲基化值

chr1 1121 1621 100

chr1 2000 2500 68

... ... ... ...

chr2 ... ... ...

...

...

各个样本间的坐标区域个数不一定一样，并且有许多不同的区域，我想问一下，做聚类前，数据要先处理成什么标准。谢谢！！！！！

aegeansea · 2011年8月23日

你要做什么的聚类？看你的描述各样本间的聚类很困难了各样本所共有的区域做聚类倒是有可能吧

xfh · 2011年8月23日

回复第2楼的 aegeansea：我看到有人好像是什么模糊聚类分析，我也感觉应该把共有的区域提取出来，只是第一次做，想找找个人问问。

kissthefuture · 2011年8月23日

我是这样做的,先算出中点,再聚类,这样近似考虑了起始位置和长度,尽管不是很准确,但是数据还可以

xfh · 2011年8月24日

回复第4楼的 kissthefuture：那具体的聚类算法该怎么选择呢

wanhongshen · 2011年12月28日

统计出所有样本的测到的甲基化位点，材料间有这个甲基化位点的读1,没有这个甲基化位点的读0,然后进行聚类分析。

如在你所有材料测得甲基化位点有如 chr1 68 100 1121 1621 2000 2500

那么第一个样则为 chr1 0 1 1 1 0 0

第二个样则为 chr1 1 0 0 0 1 1

然后用NTsys 或者其他聚类分析