最近自己在做一些东西,貌似需要接触到这样的情景,对于连续变量需要离散化。之前都只是简单的划分连续变量区间来做的,应该有更多方法能更减少连续变量在离散化时信息丢失,想问下各位大大有什么相关资料可以推荐下吗?
- 联系方式和地点呢?
- memory.limit() 有用么。
- 参见“stringsAsFactors = F”,这个在很多function里都能用。
- [未知用户]
非常感谢你详细的回答,嗯,我会思考下这方面的东西,我这边也有在用卡方检验做特征的抽取。 - [未知用户]
感谢您的回复。
我在一些论文上看到说SVM在高纬稀疏数据上,尤其是样本数量远小于维数的情况下有较好的性能。因为我没啥数学背景,没法在数学上理解这个意思,只是知道下。
另外关于我的这个分类流程你有什么建议或意见吗?是否符合现在工业界做文本自动化分类的标准? - 再补充一些信息,
1.3W篇文本的数据量总共有17个类别标签。
2.SVM分类是做的二项分类。对每一个类别进行一次判别。 - 最近在做文本分类,用到的模型是SVM,大致流程如下:
1.从新浪、腾讯、网易这些门户网站全网抓爬新闻,数据量在3W篇左右。
2.将新闻正文分词,去停用词。
3.1 直接转换成dtm,权重为tf,维度在3W X 30W的样子。训练SVM模型,参数kernel为radial,type为C-classification,其他默认,交叉验证为10阶。
3.2 转化为dtm,权重为tf,同时计算词的tfidf,并将tfidf值过小的词去掉,得到新的dtm维度大概在2W7 X 2W5,进行SVM训练,参数和3.1种一致。
不论是3.1还是3.2交叉验证的准确率基本都在95-99之间,最低的也有89。可以实际从以上三个网站中拿一篇文章就会发现一个问题,基本上都无法分出这些文章的类别。这个让我非常的苦恼,到底是哪一步出了问题?还是我对整个分类流程认识不够深刻,一些细节工作没做到位?
希望有实际经验的大大们能给一些意见,欢迎各种打脸,越响越好。 - 楼上的不错,或者saveRDS(dtm, "dtm.rds")
导入也比较简单,readRDS("dtm.rds") - 你只要吧A[[1]]当做那个matrix就行了,之后的元素赋值还需要matrix的下标。
所以应该是A[[1]][x, y]的形式。 - 现在在玩shiny,遇到个问题,本地调试都没问题,能够正常运行,但是publish到shinyapp上就是灰色的,没法操作,也没有数据显示,请问这个是什么问题呢?
需要上传哪部分代码请指出,我是ui和server分开来写的。 - [未知用户]
你好,想请问下一个问题,jiebaR,总是报错Error: std::bad_alloc
是什么问题呢?内存分配吗? - windows http://cran.rstudio.com/bin/windows/base/old/
- 感觉用不到算法吧,排序就可以了啊,你想按看的次数作为依据就按次数排,想要用总时间来排就按总时间来排,单位时间来排就按单位时间来排。不是说用算法就一定能得出好结果,就像楼上说的,SQL都能满足你的需求,简单有效的方法是最好的。。
- windows下默认打开都不是utf-8的,转下字符呗。
- 于 中文分词[未知用户]
可以通过再套一层list的方法在高版本解决这个问题,只是每个list的第一个单词会有一个c,需要sub去掉。
xx <- list(xx) corpus = Corpus(VectorSource(xx)) dtm_psy = TermDocumentMatrix(corpus) tdm = DocumentTermMatrix(corpus,control = list(wordLengths = c(1, Inf))) inspect(tdm)
- 在做关联分析前需要将数据转换为相应的格式输入,用到了
,过程没有问题,也没有报错,但是用y <- as(x, 'transactions')
的时候报错,错误信息如下:apriori(y)
。类别为“ngCMatrix”的对象不对: row indices are not sorted within columns
查不到相关资料,有遇到这个问题的同志给讲解下原因么? - 还是自己文档没看仔细,write可破。麻烦版主删帖吧。
- 最近在学习关联分析,发现其在R中是S4对象的,输出的结果用inspect查看后发现用一般的赋值没办法储存比如我想要一些频繁项时就只能人工记录,并再输入到R中用作其他。
请问各位大神,有没有什么方法能将其inspect(rules)得到的写成文本文件,或者赋值给新变量呢? - [未知用户]
网上查到也有说crontab执行R脚本报错的问题,里面提到了环境变量的问题。用那里面提到的方法写到.sh里然后直接运行倒是没有报错,可以正常运行。