求教词频统计的问题

yewuti

各位前辈好，最近我在处理一些基因序列的东西，每条序列我都将其命名为‘AF-CAM01-A5-2002’的形式，AF表示非洲，CAM表示国家，01表示该国家的第几条序列，A5是基因分型，2002是测序时间。由于序列有1000多条，我现在想在一个txt文本中，统计每个国家该基因的每种亚型的频数，不知道在R中有什么便捷的方式没有？谢谢各位了。

jianzhiying

# 读入数据
# 示例
gen <- c('AF-CAM01-A5-2002','AF-CAM01-A5-2002','AF-CAM01-A5-2002')
# 从txt读
# gen <- read.table('...txt',...)
# 转换类型至data.frame
gen <- as.data.frame(gen)
# 命名列
names(gen) <- c('gen_info')
# 转换字段类型，默认读取是factor类型，也可以在read.table指定参数stringsAsFactors=FALSE
gen$gen_info <- as.character(gen$gen_info)

# 安装sqldf包
install.packages('sqldf')
library(sqldf)

# 提取国家和基因信息，并赋予新的字段名
gen$country <- substr(gen$gen_info,4,6)
gen$gen_type <- substr(gen$gen_info,10,11)

# 分组统计
gen_stat <- sqldf('select country, gen_type, count(1) as num
from gen group by country, gen_type ')
`

yewuti

谢谢回复。是我问题没有说清楚，我的txt文本中除了序列名，每条序列名后面还有一大串的序列，就是AGCTAGTCGTCA……，所以。您说的方法好像无法实现。

enthumelon

[未知用户]

假设字段长度固定就用read.fwf
假设字段长度不定,你的数据既然是-分隔符,你为啥不用read.table(...,sep='-')注意options中stringasfactor变成F.