luzifer

  •  
  • 2014年4月11日
  • 注册于 2007年12月12日
  • 回复 第1楼 的 alick101:

    <br />
    library(grid)<br />
    'MVEAILRSTLGARTTVMAALSYLSVLCFVPLLVDRDDEFVYFHAKQGLVIWMWGVLALFALHVPVLGKWIFGFSSMGVLVFSLLGLVSVVFQRAWKLPVVSWVADRI'->todo<br />
    #i代表膜内,<br />
    #o代表膜外,<br />
    matrix(c('1-14','gray','15-34','red','35-46','green','47-65','red','65-68','gray','69-91','red','92-107','green'), ncol=2,byrow=T)->mat<br />
    rep(mat[,2],0-sapply(mat[,1],function(xxx) eval(parse(text=xxx[1]))))->inter.col<br />
    head(seq(0,1,length.out=nchar(todo)+2)[-1],nchar(todo))->wei<br />
    png('try.png', width=1200, height=400, type='cairo')<br />
    grid.newpage()<br />
    pushViewport(viewport())<br />
    grid.rect(x=wei,width=1/nchar(todo),height=0.1,default='npc',gp=gpar(col=inter.col,fill=inter.col))<br />
    grid.text(x=wei,label=unlist(strsplit(todo,NULL)),gp=gpar(fontface='bold'))<br />
    dev.off()</p>
    <p>
    </p>

    47-65是红色,65-68是黑色,改成:

    47-65是红色,66-68是黑色

  • 忘了说q值了

    <br />
    q=0.7<br />
    sapply(7:3442, function(ii) choose(3442, ii) * (q^ii) * ((1 - q)^(3442 - ii)))<br />

  • 请教个问题,R处理big number时的问题

    sapply(7:3442, function(ii) choose(3442, ii) * (q^ii) * ((1 - q)^(3442 - ii)))

    为什么中间很多NAN

    , 如何解决?

  • 用R翻_墙调取网页数据,能否用goagent 的代理, 比如download.file 函数

    或者 RCurl package中的getURL 函数,如何设置代理?

  • 1、企业代码是15位数字

    length(grep("^\\d+$",xxx)) & nchar(xxx)==15

    2、企业贷款是否违约分别用FS1,FS2来表示

    yyy %in% c('FS1','FS2')

    3、贷款利率是0.25-6.55之间的数

    zzz>=0.25 & zzz<=6.55

  • 利用XML package来读取数据,

    有2000个左右的文件。

    随着文件读入的越来越多,电脑的内存越耗越多。

    如何解决?

    google了一下,有类似的问题,【比如http://stackoverflow.com/questions/9220849/serious-memory-leak-when-iteratively-parsing-xml-files

    又比如:http://r.789695.n4.nabble.com/memory-leak-using-XML-readHTMLTable-td4643332.html

    谢老大还在里面吱了一声,:-) 】

    但是看了上面的网页后,仍然不知道如何解决.

    有人碰到过这样的问题,并解决了吗?

    > sessionInfo()

    R version 2.15.1 (2012-06-22)

    Platform: i386-pc-mingw32/i386 (32-bit)

    locale:

    [1] LC_COLLATE=Chinese_People's Republic of China.936 LC_CTYPE=Chinese_People's Republic of China.936 LC_MONETARY=Chinese_People's Republic of China.936

    [4] LC_NUMERIC=C LC_TIME=Chinese_People's Republic of China.936

    attached base packages:

    [1] stats graphics grDevices utils datasets methods base

    other attached packages:

    [1] lifi_0.0.1 RCurl_1.91-1.1 bitops_1.0-4.1 XML_3.9-4.1

  • 三个反引号,怎么只显示一个,呵呵。搞不懂

  • 怎么显示只有一个, 我输入的是啊。

    `{r just_for_try,tidy=FALSE}

    cat('this string contain "quote"')

    `

    `{r just_for_try2,tidy=TRUE}

    cat('this string contain "quote"')

    `

  • 乱掉了,看下面:

    `{r just_for_try,tidy=FALSE}

    cat('this string contain "quote"')

    `

    `{r just_for_try2,tidy=TRUE}

    cat('this string contain "quote"')

    `

  • 还是一个knitr的问题

    <br />
    <code></code>`{r just_for_try,tidy=FALSE}<br />
    cat('this string contain "quote"')<br />
    <code></code>`</p>
    <p><code></code>`{r just_for_try2,tidy=TRUE}<br />
    cat('this string contain "quote"')<br />
    <code></code>`</p>
    <p>
    </p>

    是不是tidy为TRUE的时候,单引号都会处理成双引号?

    有没有办法,又要tidy,又要保留单引号?

    谢谢!

  • 这两天开始试着用knitr来写点文档,碰到个小问题。

    `{r just_for_try, tidy=TRUE}

    cat('this is a very longlonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglonglong character')

    `

    当字符串很长时(如上),输出的html文档中,字符串会超出文本框。

    有没有option可以控制?

    谢谢

  • 回复 第2楼 的 itellin:

    直接reverse一下数字行吗。比如reverse(123)返回321,

    <br />
    a = prime(99)<br />
    a[nchar(a)==2]->a<br />
    reverse = function(x) as.integer(paste(rev(unlist(strsplit(as.character(x),NULL))),collapse=''))<br />
    cbind(a,sapply(a, reverse))->tob<br />
    tob[tob[,2] %in% tob[,1],]->tob</p>
    <p>
    </p>
  • 回复 第1楼 的 robinyu:

    原来有篇文章:

    《R语言在Pubmed数据库文献检索方面的应用》

    pubmed database,可以用entrez utils的esearch来获得结果,可以获得XML格式的结果,然后用XML packge 的xmlTreeParse一下结果就行了。

    efetch等可以看出文献能不能拿到全文,全文的链接等,用download.files

    可以自动下载文献。

  • 我想用RCurl和XML下载和处理在售二手房的数据(价格/地理位置等)

    以徐汇区的为例:

    安居客:http://shanghai.anjuke.com/sale/xuhui/

    搜房网:http://esf.sh.soufun.com/house-a019/

    但是以上两个网站只提供了100页的数据,其余的就没有了。

    如何那得全部的数据呢?比如搜房网上徐汇的全部二手房的信息?

  • 回复 第3楼 的 itellin:

    <br />
    a <- 100:999<br />
    sapply(a, function(xxx)<br />
    {<br />
    sapply(as.integer(unlist(strsplit(as.character(xxx),NULL))),factorial)->inter<br />
    sum(inter)==xxx<br />
    }<br />
    )->mm<br />
    which(mm)</p>
    <p>
    </p>
  • 回复 第8楼 的 波波头一头:呵呵。好玩。

  • 回复 第3楼 的 yang19890612:

    这样的椭圆有很多,你想要的可能是这样的:

    Bounding ellipse for any set of points, specially 'minimum volume enclosing ellipsoid'

    可以参考:http://article.gmane.org/gmane.comp.lang.r.general/224164/match=ellipse+containing+points

    画出的图如下所示:

    [attachment=234421,1968]

  • 回复 第5楼 的 wuxian2r:

    可以利用 Gotools package.

    topGO package 等等...

  • 回复 第5楼 的 nan.xiao:

    学习!

  • 回复 第3楼 的 wuxian2r:

    这个要分成两部分:

    (1) 得到数据

    首先你要确定你的GOids要map到GO的哪个level,一般来说map到BP/MF/CC的直接children就可以了。

    比如你的:GO:0000122,一直往上map (找它的parents,再parents...,一直到BP/MF/CC的直接children的level),它属于如下四个GOterms (MF的直接child)

    metabolic process

    cellular process

    negative regulation of biological process

    regulation of biological process

    如此,把你的所有的GO ids都map到到BP/MF/CC的直接children

    (2) 画图

    从1) 你可以得到数据,类似如下:

    [,1] [,2]

    catalytic activity 0.0 0.2

    binding 0.4 0.6

    enzyme regulator activity 0.0 0.2

    membrane 0.4 0.2

    cell junction 0.0 0.2

    membrane-enclosed lumen 0.2 0.2

    macromolecular complex 0.2 0.4

    organelle 0.4 0.6

    organelle part 0.4 0.2

    membrane part 0.4 0.2

    cell part 0.4 0.6

    metabolic process 0.2 0.4

    immune system process 0.2 0.2

    viral reproduction 0.0 0.2

    cellular process 0.2 0.6

    death 0.2 0.2

    biological adhesion 0.0 0.2

    signaling 0.0 0.4

    developmental process 0.2 0.2

    positive regulation of biological process 0.2 0.2

    negative regulation of biological process 0.2 0.2

    regulation of biological process 0.2 0.4

    response to stimulus 0.2 0.4

    localization 0.2 0.2

    establishment of localization 0.2 0.0

    multi-organism process 0.2 0.2

    biological regulation 0.2 0.4

    cellular component organization or biogenesis 0.2 0.2

    NotFound 0.4 0.4

    这个数据是两个GO lists得到的结果。

    然后画图就行了。

    图的话除了右边的坐标轴不太好搞定(注意是两套ticks),其与的好做的。