这熟悉机器学习算法,R语言到什么程度啊。主要是一直学算法,没接触过实际项目,不知道我这样的能找到工作吗?最近也看校招,有点不太自信。
- [未知用户]
抱歉,这么长时间没回。英文版书的另外一句话说:
In other words, the model should capture all
the systematic variance present in the data, leaving nothing but random noise。
按你所说,如何解释这句话。systematic variance 是系统方差,还是系统误差。
- 第八章回归,8.3.1 OSL回归统计假设里的线性:若因变量与自变量线性相关,那么残差值与预测(拟合)值就没有任何系统关联。
自己的理解:由残差平方和最小得到回归系数,由回归系数得到预测值,这里的因果关系不是很明白。 - baseball数据集里有5个变量
baseball[c("Year","RA","RankSeason","NumCompetitors","WorldSeries")]
我想用WorldSeries做因变量,其余任意2个做自变量,用sapply循环得到逻辑回归模型,代码该怎么写呢? - 哦,已经解决了
- 有一个数据集qualityTrain, 99个观测值,14个变量,需要其中3个变量,自变量:OfficeVisits,Narcotics,因变量:PoorCare, binomial类型.
具体如下:
QualityLog = glm(PoorCare ~ OfficeVisits + Narcotics, data=qualityTrain, family=binomial)
predictTrain = predict(QualityLog, type="response")
然后我直接打开predictTrain:
predictTrain
得到130个小数(小于1)按道理应该得到99个值啊,用模型匹配qualityTrain,应该有相同数量的观测值啊,有些不太明白,看predict的帮助列表也不是很清楚。
然后:
tapply(predictTrain, qualityTrain$PoorCare, mean)
我的疑问是: tapply的前两个参数应该在同一数据框里啊,怎么这样也行?
os:win7, R: 3.13