Data Wrangling, EDA

Recording

Slides

Type

Lecture

先简单介绍了EDA的概念，然后介绍了EDA过程种需要关注的一些问题，最后展示了一个Demo.

GPT: EDA是指在对数据集进行初步探索之前，通过可视化、统计和计算手段进行数据探索，了解数据集的基本特征、数据之间的关系以及数据的分布情况等。通常，EDA包括数据的描述性统计量、数据可视化、缺失值和异常值检测、特征相关性分析等内容。通过EDA，数据科学家可以更好地理解数据集中的信息，从而为后续的数据建模和分析提供指导和支持。

简介数据结构文件格式变量类型多文件（主键和外键）粒度、范围、时间性缺失值和忠诚度Faithfulness (and Missing Values)

简介

Wrangling 有争论争吵的含义在内。通常是把原始的数据转化为可供后续分析处理的数据，通常解决如下一些问题：

结构化、格式化

缺失值异常值

单位转化

字符类型数据编码

EDA (Exploratory Data Analysis) 是对数据进行转换、可视化和总结的过程，以：

建立/确认对数据和其来源的理解。（数据的来源；产生数据的方法）

识别并解决数据中的潜在问题

为后续分析提供信息

发现潜在的假设......（要小心......）

DA is an open-ended analysis. EDA is like detective work:Exploratory data analysis is an attitude, a state offlexibility, a willingness to look for those things thatwe believe are not there, as well as those thatwe believe to be there.

数据结构

探索了几种数据类型的存储，以及变量的类型，最后简单讲了主键。

文件格式

所看到的数据类型一般都是 Rectangular Data （矩形数据）主要原因是易于操作。

矩形数据的主流的存储格式包括 TSV(Tab separated values), CSV( Comma separated values) JSON

Tips: 快速的看有多少行数据


with open() as f:
	print(sum(1 for l in f))

tsv 中列与列数据分隔符为 \t，因此用pd.read_csv文件打开时需要指定参数 delimiter='\t'

json数据类型python的字典，该类型数据的优点是可以存储meta data 。一般先通过肉眼观察存储规律，然后再尝试转为矩形数据。

当然，还有别的类型的数据，比如 XML (Extensible Markup Language) 和 Log data (usually .txt)

变量类型

多文件（主键和外键）

在多个数据文件下，主键是那种通过一个字段便可以把所有文件串起来的字段。

粒度、范围、时间性

粒度 -- 数据的细度 / 粗度，所有数据的粒度是否相同，如果要降低数据的粒度，是抽样还是取平均。

范围 -- 数据的（不）完整性如何。所获得的数据是否正好是我感兴趣的。这部分和抽样框架高度相关，回顾抽样框架是对数据进行抽样的分布。请注意，这可能不是所关注的分布。框架（及其数据）的完整性/不完整性如何？框架/数据是如何定位的？框架/数据对现实的捕捉程度如何？框架/数据在时间上是如何定位的？

时间性 -- 数据在时间上是如何定位的。数据何时更新，何时收集。理清楚时间字段代表的含义是事件发生的时间还是传感器采集的时间

缺失值和忠诚度Faithfulness (and Missing Values)

Faithfulness：数据中是否包含不现实的数据或者错误的数值。

检查拼写错误、错误的电话号码、email 等