如题,举个例子如下:
ID name A B
1 赵 1 10
1 赵 1 11
1 赵 2 8
2 钱 1 21
2 钱 1 19
3 孙 1 13
4 李 1 12
4 李 2 7
4 李 2 4
4 李 3 6
想根据ID和A列数据,相同的行合并为一行,比如第一行和第二行合并,整个第二行放到第一行的后面形成新的一行,原来的第二行删除;下面的数据也是如此规则。可不可以用R做到?是不是要用循环语句啊?求助各位大侠!!好人一生平安,谢谢!
--------------------------------------------------------------------------------------------------------------------------------------------------------------------此为分割线。
既然想请教大家,我就把问题尽量阐述清楚一点吧。
鉴于患者隐私问题,我把我数据的一部分拿出来,姓名删掉了,sample如下:
blh or_time fet_time age pre_strategy fet_embno cryono fet_outcome lb_weeks complications
16 2015/1/18 2015/3/19 40 人工周期 2 4 未妊娠
16 2015/1/18 2015/5/20 40 自然周期 2 4 未妊娠
16 2015/1/18 2015/9/14 41 促排卵周期 2 4 未妊娠
16 2015/1/18 2016/1/22 41 人工周期 2 4 未妊娠
20 2015/9/6 2016/3/25 37 人工周期 1 2 未妊娠
21 2015/4/28 2015/12/22 40 人工周期 2 2 未妊娠
25 2015/1/7 2015/9/24 30 促排卵周期 2 5 未妊娠
25 2015/1/7 2015/11/4 31 人工周期 1 5 足月产 40周0天 糖尿病
38 2015/4/30 2015/10/30 32 人工周期 2 3 足月产 39周0天 正常
44 2015/7/5 2015/9/7 28 人工周期 2 4 晚期流产 22周4天
44 2015/7/5 2017/6/22 29 促排卵周期 2 4 临床妊娠
61 2015/7/31 2016/1/7 45 降调节+替代 2 0 未妊娠
65 2015/4/27 2015/7/6 28 人工周期 2 5 未妊娠
65 2015/4/27 2015/10/23 28 人工周期 0 5 未妊娠
71 2015/3/27 2015/7/29 42 人工周期 1 0 早期流产
81 2015/7/6 2015/12/22 32 人工周期 2 2 未妊娠
81 2015/7/6 2016/6/3 33 促排卵周期 2 2 未妊娠
92 2015/9/16 2016/5/24 29 人工周期 1 11 临床妊娠 36周3天 正常
100 2015/8/15 2015/12/29 34 人工周期 2 3 足月产 38周4天 正常
116 2015/8/16 2015/12/18 42 促排卵周期 2 4 未妊娠
120 2015/1/3 2015/5/4 39 人工周期 2 2 未妊娠
120 2015/1/3 2015/12/10 39 人工周期 1 2 未妊娠
128 2015/3/17 2015/6/30 27 人工周期 2 2 未妊娠
132 2015/1/23 2015/3/25 41 人工周期 1 1 未妊娠
176 2015/8/17 2015/12/31 35 人工周期 1 1 生化妊娠流产
247 2015/9/30 2015/11/24 32 人工周期 2 4 早产 36周4天 正常
250 2015/5/6 2015/7/7 38 人工周期 2 5 未妊娠
250 2015/5/6 2015/10/27 38 自然周期 2 5 早产 36周1天 正常
251 2015/3/24 2015/6/8 33 人工周期 2 1 未妊娠
临床背景知识:
进入试管周期一般大致分为如下过程:
促排卵--取卵--受精--鲜胚移植(若不鲜胚移植,或移植后有剩余胚胎,则冷冻胚胎,择期冻胚移植)--随访。
一个取卵周期即一次取卵(可以获得0-25个以上的卵子)后,包括其鲜胚移植及后续的冻胚移植(所用胚胎均来自这次取卵),一个患者可以有多个取卵周期。
一个冻胚移植周期仅仅指一次冻胚移植,一次取卵周期可以有多次冻胚移植周期。
1. 数据的解释:
我有两张源数据表,一个是所有人的所有鲜胚移植周期,一个是所有人的所有冻胚移植周期。上面为所有冻胚移植周期,每一行为一次冷冻胚胎移植,变量依次为:病历号(每个病历号代表一个人),(所用胚胎)取卵时间,冻胚移植时间,年龄,内膜准备方案,移植冻胚数,剩余冻胚数,妊娠结局,活产孕周,孕期并发症(变量还有很多,为了呈现,上图是我筛选后的一部分)。
2. 我要做分析主要是:
(1).筛选与最后活产与否相关的影响因素有哪些?
(2).在第一个分析基础上,建一个可以预测活产几率的模型。
3. 我需要解决的问题:
(1).临床上来说,观察活产与否应该是以一个病例为单位,每取卵周期为一行,即每个病历号可以对应多个取卵周期,每个取卵周期(即一行)包括其鲜胚移植和后续冻胚移植,这样的表格是最清晰的。但会造成每一行长度不一样(因为一次取卵周期所包括的冻胚移植周期数不一定一样,取决于冻胚数),另外,一个病例可以有几行(一个人前一取卵周期都失败了,她可能会进入下一个取卵周期),这样的话做统计分析就有困难。所以我就不知道要做上面的统计分析,就不知道该清洗成怎样的数据表。
(2).要做上面2.(2)分析的话,不知该选什么样的统计方法,以什么样的模型建模好一点?Logistic?广义线性模型?广义估计方程?似乎都不太对,因为像3.(1)所说,每个人有几行,每行有不一样长。。。所以我想到了分层,即分为经历1次取卵周期的病人,经历2次取卵周期的病人,经历3次取卵周期的病人,以此类推,分别分析相关因素并建立预测模型。这样虽说解决了“每个人有几行”的问题,但仍没有解决“每行不一样长”的问题。
以上。感谢@tctcab, @xieshichen
希望大家能帮帮我出出建议,或者指出我可以去参考的方向也可以,谢谢了!
上面数据的首行变量名似乎没有对应下面的观测值,手动改不了,但是挨个对应过去是可以的~斜眼儿的自动跳过???