M_beyond

  •  
  • 2015年9月11日
  • 注册于 2015年5月13日
  • 这熟悉机器学习算法,R语言到什么程度啊。主要是一直学算法,没接触过实际项目,不知道我这样的能找到工作吗?最近也看校招,有点不太自信。
  • [未知用户]
    抱歉,这么长时间没回。英文版书的另外一句话说:
    In other words, the model should capture all
    the systematic variance present in the data, leaving nothing but random noise。
    按你所说,如何解释这句话。systematic variance 是系统方差,还是系统误差。
  • 第八章回归,8.3.1 OSL回归统计假设里的线性:若因变量与自变量线性相关,那么残差值与预测(拟合)值就没有任何系统关联。
    自己的理解:由残差平方和最小得到回归系数,由回归系数得到预测值,这里的因果关系不是很明白。
  • baseball数据集里有5个变量

    baseball[c("Year","RA","RankSeason","NumCompetitors","WorldSeries")]

    我想用WorldSeries做因变量,其余任意2个做自变量,用sapply循环得到逻辑回归模型,代码该怎么写呢?
  • 有一个数据集qualityTrain, 99个观测值,14个变量,需要其中3个变量,自变量:OfficeVisits,Narcotics,因变量:PoorCare, binomial类型.
    具体如下:
    QualityLog = glm(PoorCare ~ OfficeVisits + Narcotics, data=qualityTrain, family=binomial)
    predictTrain = predict(QualityLog, type="response")
    然后我直接打开predictTrain:
    predictTrain
    得到130个小数(小于1)按道理应该得到99个值啊,用模型匹配qualityTrain,应该有相同数量的观测值啊,有些不太明白,看predict的帮助列表也不是很清楚。
    然后:
    tapply(predictTrain, qualityTrain$PoorCare, mean)
    我的疑问是: tapply的前两个参数应该在同一数据框里啊,怎么这样也行?
    os:win7, R: 3.13