## Book-R数据分析方法与案例详解


简介

  前面我们探讨了连续型的因变量建模分析,但实际上,并非所有的变量都是连续型的数据,有时因变量是离散型的数据,这时我们就需要用广义线性模型(Generalized Linear Model,GLM)。

  离散因变量(Discrete Dependent Variable)是指取值为0、1、2……等离散值的变量。在多数情况下,这些取值一般没有实际的意义,仅代表某一事件的发生,或者是用于描述某一事件发生的次数。根据取值的特点,离散因变量可以分为二元变量(Binary Variable)、多分变量和计数变量(Count Variable)。二元变量一般取值为1和0,当取值为1时表示某件事情的发生,取值为0则表示不发生,如信用卡客户发生违约的记为1,不违约的记为0。因变量为二元变量的模型称为二元选择模型(Binary Choice Model)。

方法详解

  在R中可以用glm()函数拟合广义线性模型,包含Probit模型和Logit模型。glm()函数的形式与lm()函数类似,只是多了一些参数。函数的基本形式为:

      glm(formula, family=family(link=function), data=)

  其中,formula是模型表达式,与lm()函数的表达式一致。family参数设置模型连接函数对应分布族,如gaussian分布、Poisson分布等。glm()函数的参数如下表:

名称 分布族(family) 连接函数
二项式 binomial (link= “logit”、“probit” 或 “cauchit”)
高斯 gaussian (link= “indentity”)
伽玛 gamma (link= “inverse”、“identity” 或 “log”)
逆高斯 inverse.gaussian (link= “1/mu^2”)
泊松 poisson (link= “log”、“identity” 或 “sqrt”)
quasi (link= “identity” ,variance= “constant”)
准二项 quasibinomial (link= “logit”)
准泊松 quasipoisson (link= “log”)

  分析线性回归模型时,与lm()函数连用的许多函数在glm()函数中也有对应的形式,其中常用的连用函数如下表:

函 数 用 途
summary() 展示拟合模型的详细结果
coefficients() 列出拟合模型的模型参数(截距项和斜率)
confint() 提供模型参数的置信区间(默认95%)
residuals() 列出拟合模型的残差值
anova() 生成一个拟合模型的方差分析表,或者比较两个或更多拟合模型的方差分析表
AIC() 输出赤池信息统计量()
plot() 生成评价拟合模型的诊断图
predict() 用拟合模型对原有数据进行拟合或者对新数据集进行预测(响应变量值)