拿一个关于基因复制的统计学问题给大家玩

xshang · 2013年1月8日

我的问题是关于基因复制的，我尽量转换成数学的语言描述吧。

现有A,B,B,B（A:B=1:3）四个因子，我需要对他们不断的做倍增，但是每次的反应效率只有50%。比如做第一次倍增，也就是实际我只对这四个因子中的两个做了倍增，比如取到了A,B，那我得到的结果就是A,A,B,B,再加上之前已有的，现在就是A,A,B,B,B,B六个；如果这一步取到的是B,B，那么就得到四个B，这一步结束就得到A,B,B,B,B,B。然后在此基础上再次倍增，要么从A,A,B,B,B,B中任意取三个倍增，要么从A,B,B,B,B,B中间取三个倍增。然后不断重复，一共做30次这样的倍增，请问30次倍增结束后，A:B的比例可能是多少？

另外，如果我知道起始A:B的比值，知道30次倍增之后的比值，可以计算中间倍增的效率吗？

不知道我描述清楚没有，希望大家喜欢。

micro@ · 2013年1月8日

看题目还以为是gene duplication，结果发现内容越看越像是模拟PCR。

xshang · 2013年1月8日

回复第2楼的 micro@：嗯，就是PCR的问题。

xshang · 2013年1月9日

回复第2楼的 micro@：

我直接说PCR的问题吧，我现在在做多重PCR，即同一引物可以扩增多个基因，现在得到的是扩增后的基因比例，但是无法推算原始样本中的各基因的比例。

我现在的想法是，首先用定量的模板比例（自己合成几个基因模板，定量混合）进行PCR扩增，扩增后再测序得到扩增后的各基因的比例，然后计算PCR扩增的效率。然后根据这个效率，以及我们实验中扩增得到的基因比例，去推算原样本中的各基因含量。

听说你是高手，请有空的时候帮忙看看，给点统计学知识方面的提醒也行，我可以自己学习了再讨论。

谢谢！

youngtf · 2013年1月9日

回复第4楼的 xshang：如果这个“效率”是原始比例的函数的话，这个思路可能就行不通了。

xshang · 2013年1月9日

回复第5楼的 youngtf：这个效率不是原始比例的函数，就是独立的一个常数。

youngtf · 2013年1月9日

回复第6楼的 xshang：好奇你是如何确定这一点的？

xshang · 2013年1月10日

回复第7楼的 youngtf：PCR反应效率主要跟聚合酶，引物的各种参数，缓冲液相关吧，因为目的基因在引物结合部位是一样的，所以只要保证PCR条件一致，样本的起始比例是不影响PCR效率的。

请问有没有统计学模型可以解决这个问题？

youngtf · 2013年1月10日

回复第8楼的 xshang：既然你可以确认这一点，加上不同基因的反应效率相同且相互独立，那是不是就是单纯的指数增长了？想知道准确的值的话，上定量PCR？否则怕估计的方差是会不小吧。

xshang · 2013年1月10日

回复第9楼的 youngtf：嗯，明白了。定量PCR不能确定 PCR产物的拷贝数，可以用高通量测序。

估计的方差确实会很大。

micro@ · 2013年1月10日

回复第4楼的 xshang：

我现在在做多重PCR--->我印象中，只把多个引物多个基因的情况叫多重PCR。不过这个对你的问题不重要了。

即同一引物可以扩增多个基因--->多到什么程度？next-gen sequencing级别的还是几个或者十几个？

感觉你后面说测序，应该是很多的；但是你又说可以按比例调配，貌似又只有很少几个基因。

我觉得的如果你只有几个基因，按你说的做实验确定一下扩增的bias然后calibrate一下，统计上基本上就是inverse regression或者reverse regression(possibly multivariate versions)。

如果你有几万个基因，我很好奇你怎么按比例调配那么多。如果你还是只配几个基因，你怎么知道其他基因的bias多大？It sounds like that, in order to build a model, you have to have "enough" information about what sequences are preferred by the reactions and to what extent, which seems to me rather difficult, and even if possible, will probably involve many strong assumptions that can hardly be assessed.

如果想用1楼思路解决4楼的问题，个人感觉难度很大。第一，每个sequence都有至少一个sampling probability做参数吧？第二，sampling probability每个cycle应该都在变吧？这么多参数，你有多少prior信息可以用来建模？

感觉不是玩儿统计，而是玩儿assumptions。

回复第9楼的 youngtf："加上不同基因的反应效率相同且相互独立"---> If life is as great as this, there is no need for a God to be dreamed of.

从生物技术的角度来说，可以考虑Helicos之类的单分子测序避免这种问题，可惜人家申请破产了。。。不过3rd-gen的相当多应该都是single molecule的。

最后的问题是，我想知道为什么需要大规模的知道这个比例。A metagenomic study?

youngtf · 2013年1月10日

回复第11楼的 micro@：哈哈，的的确确如你所说，理想情况的问题就在于它只是理想情况。这句话是按照1楼的描述来说的。

youngtf · 2013年1月10日

回复第11楼的 micro@：用其他技术的话，Real-time PCR是否更方便呢，可以更方便地得到定量的结果。

xshang · 2013年1月10日

回复第11楼的 micro@：metagenomic是我们正在做的，但是还没有得到数据。

我们现在在做的是抗体库(或TCR库)，http://www.sciencedaily.com/releases/2011/02/110223171232.htm ，

http://www.homolog.us/blogs/2012/07/31/an-elegant-use-of-sequencing-in-immunology-finding-t-cell-diversity/

这儿有介绍。每个人的抗体有百万到千万种。抗体可以分成很多家族，一个家族可以用一对引物来扩增。扩增整个库，也是用了几十种引物。我只是先简化了一下提出的问题。

我的想法是，在起始模板扩增的时候，人为加进去定量比例的一系列特征序列，比如1:5:10:50:100:500:1000：5000:10000，然后根据测序得到的最终比例，当然，这个内参可以设置更多一些。但我想确实应该是比较难的一件事。

单分子应该是解决这个问题的最佳方案，但技术暂时还不成熟，值得关注。

谢谢！可否给个email？

我的email是shangxiaoyun at gmail.com

xshang · 2013年1月10日

回复第13楼的 youngtf：Real-time PCR无法确定不同模板间序列的差异，在这个体系也就无法定量了。

youngtf · 2013年1月11日

回复第15楼的 xshang：不好意思我知识欠缺劳您解释。是因为引物相同所以无法区分么？

xshang · 2013年1月11日

回复第16楼的 youngtf：是我没有讲清楚的。我的PCR模板可能有成千上万种不同的序列，只是引物部分序列相对保守，差异小的两个模板之间只差一个碱基。所以定量PCR无法区分产物序列中间的差异。

youngtf · 2013年1月11日

回复第17楼的 xshang：多谢解释。