EHandbook翻译

EDA介绍

Posted by john on June 27, 2018

什么是EDA

  EDA(Exploratory Data Analysis)是一种使用了下面几种技巧的数据分析方法:

  • 最大化洞察数据集合
  • 揭示数据底层的结构
  • 抽取重要的变量
  • 发现离散点或者异常点
  • 验证一些假设
  • 决定一些最优因素设置

三种经典的数据分析方法:

  • 经典分析法:

    问题=>数据=>模型=>分析=>结论

  • EDA:

    问题=>数据=>分析=>模型=>结论

  • 贝叶斯分析法:

    问题=>数据=>模型=>先验分布=>分析=>结论

经典分析法和EDA之间的区别

  • 模型

    经典分析法在数据上提出模型,包括确定性模型或者概率性模型

  • 聚焦点

    经典分析法聚焦模型参数评估以及预测结果, EDA聚焦数据结构、离散点等。

  • 技术

    经典分析法通常是定量的,包括方差分析,t检验,卡方检验和F检验;EDA技术偏向于图形化的。

图形化的作用

统计和数据分析的流程一般可以分为两个部分:定量和图形化的。EDA非常依赖于图形化的技术。

EDA的假设

  • 基本假设(Underlying Assumptions)

    1. 完全随机
    2. 来自固定的分布
    3. 固定的位置
    4. 固定的方差

    验证基本假设的四种技术:

    1. 序列图,左上角
    2. 延迟图,右上角
    3. 直方图,左下角
    4. 正态概率绘图,右下角

    4-plots的解释:

    1. 如果是固定位置的,序列图将是平和无漂移的。
    2. 如果是固定方差的,序列图在上下抖动基本是相同的
    3. 如果是完全随机的,延迟图将是无结构的和随机的
    4. 如果是固定分布的,特别如果是正态分布的,直方图将是鈡形的,正态概率绘图将是线性的
  • 重要性(Importance)
  • 验证假设(Testing Assumptions)
  • 绘图的重要性(Importance of Plots)
  • 结果(Consequences)