感觉lz想的问题有点简单了, 或者是篇幅有限没能表述完全. 读过楼主的描述后还有点地方不太清除:
1. 这个分析方法具体是一个什么方法?筛选biomarker,或者是一个利用已知biomarker进行预测的新算法, 或者是利用数据对一个已知算法的cutoff进行优化, 还是这几种的组合?
2. LZ理想中的数据是什么类型, 高通量数据还是底通量试验方法的数据? biomarker是什么, 基因突变? mRNA? 蛋白质? 小分子化合物? ...
3. LZ是想要对健康人预测疾病的发生还是某些疾病的预后, 比如对药物敏感性的问题. 这个问题关系到数据应该从患者体内得到或者是健康人体内得到.
4. 这个研究是注重实用还是方法验证, 注重实用的话则应该使用血液, 唾液, 尿液等易于得到的组织. 但是如果仅仅需要方法验证的话, 取得样品的困难程度就不需要有太多考虑.
5. LZ是想通过误诊率为指标来优化 cutoff 吗? 如果用误诊率来判定疾病预测算法是毫无意义的. 对于少见疾病来说, 只需要永远预测疾病不发生误诊率就不会高于 5%, 因为疾病发生的概率本身就小于 5%, 所以至少要用 ROC 来选择 cutfoff.
数据多的是, 但是要先弄明白这些基本问题之后, 才能找到合适的数据.