什么是EDA
EDA(Exploratory Data Analysis)是一种使用了下面几种技巧的数据分析方法:
- 最大化洞察数据集合
- 揭示数据底层的结构
- 抽取重要的变量
- 发现离散点或者异常点
- 验证一些假设
- 决定一些最优因素设置
三种经典的数据分析方法:
-
经典分析法:
问题=>数据=>模型=>分析=>结论
-
EDA:
问题=>数据=>分析=>模型=>结论
-
贝叶斯分析法:
问题=>数据=>模型=>先验分布=>分析=>结论
经典分析法和EDA之间的区别
-
模型
经典分析法在数据上提出模型,包括确定性模型或者概率性模型
-
聚焦点
经典分析法聚焦模型参数评估以及预测结果, EDA聚焦数据结构、离散点等。
-
技术
经典分析法通常是定量的,包括方差分析,t检验,卡方检验和F检验;EDA技术偏向于图形化的。
图形化的作用
统计和数据分析的流程一般可以分为两个部分:定量和图形化的。EDA非常依赖于图形化的技术。
EDA的假设
-
基本假设(Underlying Assumptions)
- 完全随机
- 来自固定的分布
- 固定的位置
- 固定的方差
验证基本假设的四种技术:
- 序列图,左上角
- 延迟图,右上角
- 直方图,左下角
- 正态概率绘图,右下角
4-plots的解释:
- 如果是固定位置的,序列图将是平和无漂移的。
- 如果是固定方差的,序列图在上下抖动基本是相同的
- 如果是完全随机的,延迟图将是无结构的和随机的
- 如果是固定分布的,特别如果是正态分布的,直方图将是鈡形的,正态概率绘图将是线性的
- 重要性(Importance)
- 验证假设(Testing Assumptions)
- 绘图的重要性(Importance of Plots)
- 结果(Consequences)