大家好,我不是数学出身,对统计不太擅长,请教大家。

我有几个样本,测得基因组DNA甲基化,数据是这样的:

每个样本的数据是这样的,

染色体 起始坐标 终止坐标 甲基化值

chr1 1121 1621 100

chr1 2000 2500 68

... ... ... ...

chr2 ... ... ...

...

...

各个样本间的 坐标区域个数不一定一样,并且有许多不同的区域,我想问一下,做聚类前,数据要先处理成什么标准。谢谢!!!!!

你要做什么的聚类?看你的描述各样本间的聚类很困难了 各样本所共有的区域做聚类倒是有可能吧

回复 第2楼 的 aegeansea:我看到有人好像是什么模糊聚类分析,我也感觉应该把共有的区域提取出来,只是第一次做,想找找个人问问。

我是这样做的,先算出中点,再聚类,这样近似考虑了起始位置和长度,尽管不是很准确,但是数据还可以

回复 第4楼 的 kissthefuture:那具体的聚类算法该怎么选择呢

4 个月 后

统计出所有样本的测到的甲基化位点,材料间有这个甲基化位点的读1,没有这个甲基化位点的读0,然后进行聚类分析。

如在你所有材料测得甲基化位点有如 chr1 68 100 1121 1621 2000 2500

那么 第一个样则为 chr1 0 1 1 1 0 0

第二个样 则为 chr1 1 0 0 0 1 1

然后用NTsys 或者其他聚类分析