探索性数据分析

Created by 银河统计工作室Code BaoRui
August 10, 2016

Loading...

请导入待分析数据文件:


数据概览


分布描述


异常噪声


缺失插补






简介

  探索性数据分析所谓探索性数据分析( Exploratory Data Analysis )以下简称EDA,是指对已有的数据( 特别是调查或观察得来的原始数据 )在尽量少的先验假定下进行探索通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

目录

 1. 探索性数据分析的简要介绍

 2. 探索性数据分析的必要性和意义

 3. 探索分析的内容和考察方法

1. 探索性数据分析的简要介绍

  探索性数据分析的简要介绍探索性数据分析的简要介绍探索性数据分析的简要介绍探索性数据分析(Exploratory Data Analysis, EDA)首先由 J.W.Tukey提出的。Tukey从生物学家那里学了许多分析数据的方法,并引入统计学中。1977年,Tukey出版了他的名著《探索性数据分析》(UNDERSTANDING ROBUST AND EXPLORATORY DATA ANALYSIS),引起了统计学界的关注,成为探索分析的第一个正式出版物。80年代后期,我国一些统计学者将这本著作介绍给我国统计学界,对我国统计学理论研究和统计事业的实践起到了积极作用。此后,国内也有不少关于探索性数据分析方法的文章发表到各种统计刊物。

  随着计算机技术的飞跃发展,以及数据的复杂性越来越强,实施探索性数据分析成为数据分析中不可替代的一部分,从而在统计分析的过程中发挥着越来重要的作用。

2. 探索性数据分析的必要性和意义

  统计学原理告诉我们,搜集到的数据在建立数据文件以后,并非立即投入统计分析,因为数据结构、数据中隐含的内在统计规律等尚不清楚,需要对数据进行考察和探索。

  因此,应用数据分析的整个操作步骤大体可以划分为两大阶段:探索阶段和证实阶段。探索性数据分析分分离出数据的模式和特点,把他们有力地显示给分析者。常常,分析者现对数据做探索性数据分析,而后才能有把握地选择结构分量或随机分量的模型;探索性数据分析还可以用来揭示:数据对于常见模型的意想不到的偏离。探索性方法的要点是灵活性:它既要灵活适应数据的结构,也要对后续分析步骤揭露的模式灵活反应。 证实性数据分析评估观察到的模式或效应的再现性。传统的统计推断提供显著性或置信性陈述,证实性分析它。可是,证实阶段通常还包括:(1)将其他密切有关数据的信息结合进来;(2)通过收集和分析新数据确认结果。

  总之,探索性数据分析强调灵活探求线索和证据;而证实性数据分析则着重评估现有证据。探索性数据分析与证实性数据分析在具体运用上可交叉进行, 探索性数据分析不仅可用在正式建立统计分析模型之前, 而且还可用在正式建立统计分析模型之后, 对所拟合的统计模型进行进一步的检查、验证, 提高统计分析的质量。

3. 探索分析的内容和考察方法

  • 3.1 探索分析的内容

  检查数据是否有错误:过大过小的数据均有可能是奇异值、影响点或错误数据。要找出这样的数据,并分析原因,然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大,不能真实反映数据的总体特征。

  获得数据分布特征:很多分析方法对数据分布有一定的要求,例如很多检验就需要数据分布服从正态分布。因此检验数据是否正态分布,就决定了它们是否能用只对正态分布数据适用的分析方法。

  对数据规律的初步观察:通过初步观察获得数据的一些内部规律,例如两个变量间是否线性相关。

  • 3.2 探索分析的考察方法

  探索分析一般通过数据文件在分组与不分组的情况下,获得常用统计量和图形。一般以图形方式输出,直观帮助用户确定奇异值、影响点、进行假设检验,以及确定用户要使用的某种统计方式是否适合。


数据缺失统计分析


                



数值型数据被重新转换到[0, 1]区间,并用灰度来表示大小:浅色表示值小,深色表示值大。默认缺失值为红色。



Outliers Description


                

缺失值插补结果



下载数据


                

R Example

描述性统计分析1

主要从数据描述、离群值探索、双变量数据分析、多变量数据的分析几个方面介绍探索性数据分析

描述性统计分析2

主要从数据化探索、可视化探索两个方面介绍探索性数据分析


Python Example

data for example

描述性统计分析1

描述性统计分析2