用R清洗复杂临床数据的几个问题

Studyup

如题，举个例子如下：

ID       name    A     B   
1         赵        1     10 
1         赵        1     11
1         赵        2      8
2         钱        1     21
2         钱        1     19
3         孙        1     13
4         李        1     12
4         李        2      7
4         李        2      4
4         李        3      6

想根据ID和A列数据，相同的行合并为一行，比如第一行和第二行合并，整个第二行放到第一行的后面形成新的一行，原来的第二行删除；下面的数据也是如此规则。可不可以用R做到？是不是要用循环语句啊？求助各位大侠！！好人一生平安，谢谢！
--------------------------------------------------------------------------------------------------------------------------------------------------------------------此为分割线。
既然想请教大家，我就把问题尽量阐述清楚一点吧。
鉴于患者隐私问题，我把我数据的一部分拿出来，姓名删掉了，sample如下：

blh	or_time	fet_time	age	pre_strategy	fet_embno	cryono	fet_outcome	lb_weeks	complications
16	2015/1/18	2015/3/19	40	人工周期	2	4	未妊娠		
16	2015/1/18	2015/5/20	40	自然周期	2	4	未妊娠		
16	2015/1/18	2015/9/14	41	促排卵周期	2	4	未妊娠		
16	2015/1/18	2016/1/22	41	人工周期	2	4	未妊娠		
20	2015/9/6	2016/3/25	37	人工周期	1	2	未妊娠		
21	2015/4/28	2015/12/22	40	人工周期	2	2	未妊娠		
25	2015/1/7	2015/9/24	30	促排卵周期	2	5	未妊娠		
25	2015/1/7	2015/11/4	31	人工周期	1	5	足月产	40周0天	糖尿病
38	2015/4/30	2015/10/30	32	人工周期	2	3	足月产	39周0天	正常
44	2015/7/5	2015/9/7	28	人工周期	2	4	晚期流产	22周4天	
44	2015/7/5	2017/6/22	29	促排卵周期	2	4	临床妊娠		
61	2015/7/31	2016/1/7	45	降调节+替代	2	0	未妊娠		
65	2015/4/27	2015/7/6	28	人工周期	2	5	未妊娠		
65	2015/4/27	2015/10/23	28	人工周期	0	5	未妊娠		
71	2015/3/27	2015/7/29	42	人工周期	1	0	早期流产		
81	2015/7/6	2015/12/22	32	人工周期	2	2	未妊娠		
81	2015/7/6	2016/6/3	33	促排卵周期	2	2	未妊娠		
92	2015/9/16	2016/5/24	29	人工周期	1	11	临床妊娠	36周3天	正常
100	2015/8/15	2015/12/29	34	人工周期	2	3	足月产	38周4天	正常
116	2015/8/16	2015/12/18	42	促排卵周期	2	4	未妊娠		
120	2015/1/3	2015/5/4	39	人工周期	2	2	未妊娠		
120	2015/1/3	2015/12/10	39	人工周期	1	2	未妊娠		
128	2015/3/17	2015/6/30	27	人工周期	2	2	未妊娠		
132	2015/1/23	2015/3/25	41	人工周期	1	1	未妊娠		
176	2015/8/17	2015/12/31	35	人工周期	1	1	生化妊娠流产		
247	2015/9/30	2015/11/24	32	人工周期	2	4	早产	36周4天	正常
250	2015/5/6	2015/7/7	38	人工周期	2	5	未妊娠		
250	2015/5/6	2015/10/27	38	自然周期	2	5	早产	36周1天	正常
251	2015/3/24	2015/6/8	33	人工周期	2	1	未妊娠

临床背景知识：
进入试管周期一般大致分为如下过程：
促排卵--取卵--受精--鲜胚移植（若不鲜胚移植，或移植后有剩余胚胎，则冷冻胚胎，择期冻胚移植）--随访。
一个取卵周期即一次取卵（可以获得0-25个以上的卵子）后，包括其鲜胚移植及后续的冻胚移植（所用胚胎均来自这次取卵），一个患者可以有多个取卵周期。
一个冻胚移植周期仅仅指一次冻胚移植，一次取卵周期可以有多次冻胚移植周期。
1. 数据的解释：
我有两张源数据表，一个是所有人的所有鲜胚移植周期，一个是所有人的所有冻胚移植周期。上面为所有冻胚移植周期，每一行为一次冷冻胚胎移植，变量依次为：病历号（每个病历号代表一个人），（所用胚胎）取卵时间，冻胚移植时间，年龄，内膜准备方案，移植冻胚数，剩余冻胚数，妊娠结局，活产孕周，孕期并发症（变量还有很多，为了呈现，上图是我筛选后的一部分）。
2. 我要做分析主要是：
（1）.筛选与最后活产与否相关的影响因素有哪些？
（2）.在第一个分析基础上，建一个可以预测活产几率的模型。
3. 我需要解决的问题：
（1）.临床上来说，观察活产与否应该是以一个病例为单位，每取卵周期为一行，即每个病历号可以对应多个取卵周期，每个取卵周期（即一行）包括其鲜胚移植和后续冻胚移植，这样的表格是最清晰的。但会造成每一行长度不一样（因为一次取卵周期所包括的冻胚移植周期数不一定一样，取决于冻胚数），另外，一个病例可以有几行（一个人前一取卵周期都失败了，她可能会进入下一个取卵周期），这样的话做统计分析就有困难。所以我就不知道要做上面的统计分析，就不知道该清洗成怎样的数据表。
（2）.要做上面2.(2)分析的话，不知该选什么样的统计方法，以什么样的模型建模好一点？Logistic？广义线性模型？广义估计方程？似乎都不太对，因为像3.(1)所说，每个人有几行，每行有不一样长。。。所以我想到了分层，即分为经历1次取卵周期的病人，经历2次取卵周期的病人，经历3次取卵周期的病人，以此类推，分别分析相关因素并建立预测模型。这样虽说解决了“每个人有几行”的问题，但仍没有解决“每行不一样长”的问题。

以上。感谢@tctcab, @xieshichen
希望大家能帮帮我出出建议，或者指出我可以去参考的方向也可以，谢谢了！

上面数据的首行变量名似乎没有对应下面的观测值，手动改不了，但是挨个对应过去是可以的~斜眼儿的自动跳过???

tctcab

Studyup

可是可以不过我并没有看出来这样做有什么好处…

library(dplyr)


df <- data.table::fread(
"ID name A B 
1 赵 1 10 
1 赵 1 11
1 赵 2 8
2 钱 1 21
2 钱 1 19
3 孙 1 13
4 李 1 12
4 李 2 7
4 李 2 4
4 李 3 6"
)


df$text<- apply(df, 1, paste, collapse = " ")

df %>%
  group_by(ID, A) %>%
  summarise(text2 = paste(text, collapse=" "))
#> # A tibble: 7 x 3
#> # Groups:   ID [?]
#>      ID     A text2              
#>   <int> <int> <chr>              
#> 1     1     1 1 赵 1 10 1 赵 1 11
#> 2     1     2 1 赵 2  8          
#> 3     2     1 2 钱 1 21 2 钱 1 19
#> 4     3     1 3 孙 1 13          
#> 5     4     1 4 李 1 12          
#> 6     4     2 4 李 2  7 4 李 2  4
#> 7     4     3 4 李 3  6

Created on 2018-10-12 by the reprex package (v0.2.1)

wglaive

Studyup 每取卵周期为一行
Studyup 一个取卵周期即一次取卵（可以获得0-25个以上的卵子）后，包括其鲜胚移植及后续的冻胚移植（所用胚胎均来自这次取卵），一个患者可以有多个取卵周期。

有点不太明白这个过程，取卵周期是指一次完整的流程，取卵+移植+随访，然后就有一个response 代表是否着床成功的吗？如果不成功的话就继续重复这个过程所以会有多个取卵周期吗？

Studyup 筛选与最后活产与否相关的影响因素有哪些？

活产的意思是不是在胚胎移植成功（出现某些指标）以后，到最后成功产下婴儿这个过程？response 表示在移植成功的条件下，成功生产，或者流产？亦或者量化的婴儿生长水平什么的。

Studyup 但会造成每一行长度不一样（因为一次取卵周期所包括的冻胚移植周期数不一定一样，取决于冻胚数）

冻胚移植周期数是什么意思感觉没太看懂。。是指在一个完整流程里面，尝试冻胚移植（手术？）可能是多次所以有很多次吗？如果所有胚胎都试完了还是没怀上就得进行下一个取卵周期的意思吗？

Studyup 4. 临床上不断重复也是不断更换治疗策略的过程，也是不断暴露影响因素的过程，最终妊娠并不仅仅是次数多造成的。所以我才想到尽可能的多纳入治疗过程中的可能变量（取卵和冻胚移植次数也纳入），模型的质量我们可以后续检验它的效力，

感觉这个是不是有点像survival analysis，只不过把分析的停止条件从治愈/死亡，变成妊娠成功？然后同理类似的就从5年生存率变成几次/治疗周期妊娠成功率？这样同样也能把手术治疗啥的纳入到模型中去。（这个想法比较不成熟，如果没看懂就请忽略吧。。。）

感觉一次性把所有数据纳入模型有一定困难。

Studyup

tctcab 在临床上是很有用的，鉴于隐私问题，我没法贴出源数据。谢谢你的指导我先研究研究你写的

tctcab

Studyup

能帮到忙就好，数据的话像你问题里那样的样本数据就相当不错啦。

一个建议是下次有问题的话记得标题里别用 “急！”

另外代码块用3个反引号

```
包起来
```

Studyup

tctcab 我是新来的战友，谢谢，下次注意标题和内容用词方式。

Studyup

tctcab 我回去研究了一下，放到我自己的数据里是可以实现的。不过，这样就把text2部分当成一个变量了呀。。我希望的最终结果是，允许每行的长度不一样，但要每个值都是单独的一个单元格。这样可以实现么？
或者，为了方便后面统计分析，弄成每行长度相等，但原本较短的行所缺的数据用NA表示，这样可以实现么？谢谢

xieshichen

可以只用data.table，语法非常简洁

    library(data.table)
    
    dt = fread("
ID       name    A     B   
1         赵        1     10 
1         赵        1     11
1         赵        2      8
2         钱        1     21
2         钱        1     19
3         孙        1     13
4         李        1     12
4         李        2      7
4         李        2      4
4         李        3      6")
    
    dt[, lapply(.SD, function(x) paste(x, collapse = ",")), by=.(ID, A)]
#>    ID A  name     B
#> 1:  1 1 赵,赵 10,11
#> 2:  1 2    赵     8
#> 3:  2 1 钱,钱 21,19
#> 4:  3 1    孙    13
#> 5:  4 1    李    12
#> 6:  4 2 李,李   7,4
#> 7:  4 3    李     6

Studyup

xieshichen 谢谢，你的方式也很好。可惜我需要区分B的观测值，每一行代表一个周期，不同周期的同一变量观测值需要分开研究的。不过，万分感谢

tctcab

Studyup

数据框(data.frame)是不行了, list是可以，但个人觉得那是个错误的方向，因为后期的统计分析会十分不好做。

你给出的示例数据已经是整洁(tidy)的形式，不需要做额外的整理。如果按你的想法将数据转换成各行长度不一致的形式反而不利于后续的数据分析。关于tidy data可以参考R4DS里的这个章节

如果能解释一下数据并说明下想要做什么样的分析，我们可以更进一步地讨论怎么做，这样你就可以实际对比一下tidy data在数据分析里的优势了。

tidy， "long" data.frame

ID       name    A     B   
1         赵        1     10 
1         赵        1     11
1         赵        2      8
2         钱        1     21
2         钱        1     19
3         孙        1     13
4         李        1     12
4         李        2      7
4         李        2      4
4         李        3      6

not tidy, "wide" data.frame

#>      ID     A text2                 
#> 1     1     1 1 赵 1 10 1 赵 1 11
#> 2     1     2 1 赵 2  8          
#> 3     2     1 2 钱 1 21 2 钱 1 19
#> 4     3     1 3 孙 1 13          
#> 5     4     1 4 李 1 12          
#> 6     4     2 4 李 2  7 4 李 2  4
#> 7     4     3 4 李 3  6

Studyup

tctcab 我更新原文了，给了源数据和要做的分析，您帮忙看一下呗，谢谢了

tctcab

Studyup

看明白了，这是我对数据清理的理解：

可以以病例为单位，病例的取卵周期为单位，或者病例的冻胚移植周期为单位组织数据，研究对象不一样，不过应该都可以让表格长度一致。比如以病例的取卵周期为研究对象的话就不必把所有冻胚周期的信息塞进去。

不过有几个疑问…

数据看下来我的感觉除了年龄/内膜准备方案，其他变量感觉跟妊娠结局关系不大，不过也许样本数据只是真实数据的一部分？
将病人按照经历1次/2次...取卵周期进行细分的话可能会导致样本量不够统计效力下降？
blh 65号的第二次移植，移植冻胚数为0是没有移植的意思吗…
整体感觉试管婴儿技术本身的成功与否随机性很大，所以采取了多次重复提高妊娠成功率的策略，所以要做预测活产模型的话模型质量不好说…

另外对3.(2), 要做模型的之前可以先初步探索性分析一下数据，画几个散点图分布图找到可能的与预测结果有关的属性。你提的模型都可以试试， R里做起来也容易。

Studyup

tctcab 不好意思，门诊一直呆到现在。
先说您的疑问：
1. 样本数据只是一部分，剩余的变量还有比如，移植胚胎卵裂期/囊胚期，移植胚胎评价，内膜厚度，内膜血流分型等，移植胚胎数也很重要。
2. 样本量是足够的，病人数有近万。
3. 0就是没移植的意思
4. 临床上不断重复也是不断更换治疗策略的过程，也是不断暴露影响因素的过程，最终妊娠并不仅仅是次数多造成的。所以我才想到尽可能的多纳入治疗过程中的可能变量（取卵和冻胚移植次数也纳入），模型的质量我们可以后续检验它的效力，但我觉得做这个还是有必要滴，如果做出来，对病人做决策和临床上制定治疗方案有很大的作用（虽然预测效力不一定高，但这值得后续探索，让它变高）~你觉得呢？
此外，说说昨晚睡觉前我突然想到的。
1. 如果以取卵周期为单位，仅把末次冻胚移植数据放进去，这样应该是可以做到表格长度一致，而且末次冻胚移植是不是比前几次的更有预测效力？
2. 如果做到以取卵周期为单位且表格长度一致的话，我后面作统计的时候R可以做到分别提取“1个取卵周期病人数据”、“2个取卵周期病人数据”、“3个取卵周期病人数据”等吗？
3. 如果R能做到第2点，那>=2个取卵周期的数据是不是还是该做成以病例为单位的表格，即把每个病例的第2及后续取卵周期数据合并到第1取卵周期的后面（合并后的第2及后续取卵周期数据各自保持原形式，而不是总体作为一列）？R能做到么？
PS. 后面遇到问题可不可以继续问你嘞？我会先自己想解决办法，实在想不出来再来提问，但还是怕把你问烦了??。。。再谢。

tctcab

Studyup

有意思的问题当然不会烦啦。这样的数据量感觉有希望，下面是我的想法

如果以取卵周期为单位，仅把末次冻胚移植数据放进去，这样应该是可以做到表格长度一致，而且末次冻胚移植是不是比前几次的更有预测效力

有意思的想法，可以尝试

如果做到以取卵周期为单位且表格长度一致的话，我后面作统计的时候R可以做到分别提取“1个取卵周期病人数据”、“2个取卵周期病人数据”、“3个取卵周期病人数据”等吗

可以

如果R能做到第2点，那>=2个取卵周期的数据是不是还是该做成以病例为单位的表格，即把每个病例的第2及后续取卵周期数据合并到第1取卵周期的后面（合并后的第2及后续取卵周期数据各自保持原形式，而不是总体作为一列）？R能做到么？

以病例为单位作为研究对象的话，我的想法是模型里考虑的重点就是病人本身的特征而不是第一/第二/第三取卵周期这样的细节。

另外个人推荐一个用R做机器学习建模的小tutorial, 作者那本 'machine learning mastery with R'书也不错：

https://machinelearningmastery.com/machine-learning-in-r-step-by-step/

Studyup

tctcab 谢谢推荐，有空去拜读一下。

tctcab 以病例为单位作为研究对象的话，我的想法是模型里考虑的重点就是病人本身的特征而不是第一/第二/第三取卵周期这样的细节。

是的，只不过病人的baseline characteristics我并没有列出来，有一长串的，如下：
固定不随取卵周期变化的：BMI，不孕原因，孕产史，基础激素水平（PRL, LH, E2，P, TSH, T0）等
不固定随取卵周期变化的：年龄，不孕年限，促排方案，HCG日激素水平，获卵数，等等（一长串）
所以既要分第一、第二、第三取卵周期，又有固定不变的baseline
以病例为单位的话，还是要区分不同取卵周期的，因为不同取卵周期病人本身特征有些是在变化的。

Studyup

wglaive

wglaive 有点不太明白这个过程，取卵周期是指一次完整的流程，取卵+移植+随访，然后就有一个response 代表是否着床成功的吗？如果不成功的话就继续重复这个过程所以会有多个取卵周期吗？

胚胎移植手术基本都能成功，手术成不成功无需考虑。有无活产实际就是response。验孕没怀孕就知道不会有活产了，怀上了就继续随访，如果流产、宫外孕、胎停等都算无活产，临床上的活产是分娩后存活28天就算活产~另，如果无活产就会继续用这次取卵周期剩余的胚胎，直至用完（或获得活产，不考虑生二胎的情况的话）。用完还没活产，就继续下个取卵周期（中间会不断更换治疗策略，纳入的变量也在变化的），所以会有多个取卵周期。

wglaive 活产的意思是不是在胚胎移植成功（出现某些指标）以后，到最后成功产下婴儿这个过程？response 表示在移植成功的条件下，成功生产，或者流产？亦或者量化的婴儿生长水平什么的。

上面说的清楚了应该。

wglaive 冻胚移植周期数是什么意思感觉没太看懂。。是指在一个完整流程里面，尝试冻胚移植（手术？）可能是多次所以有很多次吗？如果所有胚胎都试完了还是没怀上就得进行下一个取卵周期的意思吗？

是的。

wglaive 感觉这个是不是有点像survival analysis，只不过把分析的停止条件从治愈/死亡，变成妊娠成功？然后同理类似的就从5年生存率变成几次/治疗周期妊娠成功率？这样同样也能把手术治疗啥的纳入到模型中去。（这个想法比较不成熟，如果没看懂就请忽略吧。。。）

是很像，可以用survival做的，只不过处理缺失数据的时候要注意很多，因为跟癌症不一样，缺失值（也就是没活产但没继续治疗的）很多是临床上认为获得活产几率很低就不继续，或者因为经济问题不继续等（毕竟试管婴儿费用挺高的）。

wglaive

Studyup 谢谢！解释的非常明白了。

看到随访就想起来longitudinal data analysis，这样也能和多次取卵周期对应上，repeat measurement什么的。
那然后和survival结合一下，感觉就是最近听说的的一个叫survival time-to-event joint model，把survival和longitudinal的东西组合一下的模型，难说会有用。。。
毕竟随访丢失啥的在longitudinal 纵向数据分析里面应该有比较成熟的处理方法？不过

Studyup 临床上认为获得活产几率很低就不继续

这个感觉很难处理。不知道在记录上这种missing data和经济问题不继续的missing data有啥指标能区分开来吗？

Studyup

wglaive

wglaive 看到随访就想起来longitudinal data analysis，这样也能和多次取卵周期对应上，repeat measurement什么的。
那然后和survival结合一下，感觉就是最近听说的的一个叫survival time-to-event joint model，把survival和longitudinal的东西组合一下的模型，难说会有用。。。

我去看看文献，研究一下你说的这个模型。

wglaive 这个感觉很难处理。不知道在记录上这种missing data和经济问题不继续的missing data有啥指标能区分开来吗？

没有指标区分。所以说嘛，医学真的很需要其他学科来帮忙，有太多数据和现象需要别的学科来帮助阐明了。

CMCai0104

第一感觉还是logistics回归吧，原始数据挺好的，不过个人不建议吧数据这么合并，还是应该再构造特征（变量），例如：一次卵个数、冻的环境啊等等（不懂瞎编的），然后再建模；

如果按上面这么合并的话有点像神经网络的处理方法（有点像把图像拉成一个向量），可以参考下，当然神经网络解释原因可能比较麻烦一点；

最后，个人认为跟生存分析有点区别，毕竟生存分析一个样本不会有多个个体（看问题这里一个病人会有多个胚胎）

Studyup

CMCai0104 是的，跟survival analysis是有区别的，现今也是存在争议。“再构造特征（变量）”是指什么意思呢？我现在遇到的问题就是怎么把这个表格设计好，然后用R去实现。你有什么好办法么？