## Book-R数据分析方法与案例详解
前面我们探讨了连续型的因变量建模分析,但实际上,并非所有的变量都是连续型的数据,有时因变量是离散型的数据,这时我们就需要用广义线性模型(Generalized Linear Model,GLM)。
离散因变量(Discrete Dependent Variable)是指取值为0、1、2……等离散值的变量。在多数情况下,这些取值一般没有实际的意义,仅代表某一事件的发生,或者是用于描述某一事件发生的次数。根据取值的特点,离散因变量可以分为二元变量(Binary Variable)、多分变量和计数变量(Count Variable)。二元变量一般取值为1和0,当取值为1时表示某件事情的发生,取值为0则表示不发生,如信用卡客户发生违约的记为1,不违约的记为0。因变量为二元变量的模型称为二元选择模型(Binary Choice Model)。
在R中可以用glm()函数拟合广义线性模型,包含Probit模型和Logit模型。glm()函数的形式与lm()函数类似,只是多了一些参数。函数的基本形式为:
glm(formula, family=family(link=function), data=)
其中,formula是模型表达式,与lm()函数的表达式一致。family参数设置模型连接函数对应分布族,如gaussian分布、Poisson分布等。glm()函数的参数如下表:
名称 | 分布族(family) | 连接函数 |
---|---|---|
二项式 | binomial | (link= “logit”、“probit” 或 “cauchit”) |
高斯 | gaussian | (link= “indentity”) |
伽玛 | gamma | (link= “inverse”、“identity” 或 “log”) |
逆高斯 | inverse.gaussian | (link= “1/mu^2”) |
泊松 | poisson | (link= “log”、“identity” 或 “sqrt”) |
准 | quasi | (link= “identity” ,variance= “constant”) |
准二项 | quasibinomial | (link= “logit”) |
准泊松 | quasipoisson | (link= “log”) |
分析线性回归模型时,与lm()函数连用的许多函数在glm()函数中也有对应的形式,其中常用的连用函数如下表:
函 数 | 用 途 |
---|---|
summary() | 展示拟合模型的详细结果 |
coefficients() | 列出拟合模型的模型参数(截距项和斜率) |
confint() | 提供模型参数的置信区间(默认95%) |
residuals() | 列出拟合模型的残差值 |
anova() | 生成一个拟合模型的方差分析表,或者比较两个或更多拟合模型的方差分析表 |
AIC() | 输出赤池信息统计量() |
plot() | 生成评价拟合模型的诊断图 |
predict() | 用拟合模型对原有数据进行拟合或者对新数据集进行预测(响应变量值) |