数据工程流程

news2025/3/11 17:51:33

数据工程流程图

各步骤详解与具体实现

1. 数据采集

数据采集是获取数据的第一步。以下是常见的采集方式及其实现示例：

具体实现：

通过 API 采集数据：

示例：从公开 API 获取天气数据。

import requests

api_url = "http://api.weatherapi.com/v1/current.json"
params = {
    "key": "your_api_key",
    "q": "London"
}
response = requests.get(api_url, params=params)
if response.status_code == 200:
    data = response.json()
    print(data)
else:
    print("Failed to fetch data")

爬取网页数据：

示例：使用 BeautifulSoup 抓取新闻标题。

import requests
from bs4 import BeautifulSoup

url = "https://news.ycombinator.com/"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

titles = [title.get_text() for title in soup.find_all('a', class_='storylink')]
print(titles)

注意事项：

确保数据来源合法，遵守隐私和数据采集政策。
针对大规模数据采集，考虑使用并发工具如 aiohttp 或 scrapy。

2. 数据清洗

数据清洗是数据工程中的关键环节，用于提升数据质量，便于后续分析。

具体实现：

去重与填充缺失值：

import pandas as pd

data = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Alice', None],
    'Age': [25, 30, 25, 29],
    'Score': [90, None, 90, 85]
})

# 去除重复值
data = data.drop_duplicates()

# 填充缺失值
data['Score'] = data['Score'].fillna(data['Score'].mean())
data['Name'] = data['Name'].fillna("Unknown")

print(data)

格式转换与异常值处理：

# 转换日期格式
data['Date'] = pd.to_datetime(data['Date'], errors='coerce')

# 检测异常值
z_scores = (data['Score'] - data['Score'].mean()) / data['Score'].std()
data = data[z_scores.abs() < 3]  # 去除 Z-score 超过 3 的异常值

注意事项：

缺失值的填充策略应根据业务需求选择（如均值、插值、特定值填充）。
异常值检测可以使用统计方法（如箱型图或 Z-score）。

3. 数据分析

数据分析包括探索性数据分析（EDA）和统计建模，目的是挖掘数据特征，为决策提供依据。

具体实现：

生成数据统计报告：

import pandas as pd

data = pd.read_csv('data.csv')
print(data.describe())  # 生成统计摘要

可视化分析：

示例：使用 Seaborn 绘制数据分布图。

import seaborn as sns
import matplotlib.pyplot as plt

sns.histplot(data['Score'], bins=30, kde=True)
plt.show()

相关性分析：

correlation = data.corr()
sns.heatmap(correlation, annot=True)
plt.show()

注意事项：

分析应紧密围绕业务目标，避免冗余或无关分析。
数据可视化可以提高结果的直观性。

4. 人工标注

人工标注用于生成有监督学习所需的数据集。高质量标注是构建模型的重要基础。

具体实现：

使用 Label Studio 配置标注任务：
- 安装与启动：
```
pip install label-studio
label-studio start
```
示例：文本分类标注：
- 在 Label Studio 中上传数据集，设置分类任务（如情感分类）。

注意事项：

确保标注人员对任务有清晰的理解，提供标注标准。
对复杂任务，建议进行多轮校对以提高标注一致性。

5. 数据构造

数据构造包括特征工程、数据增强和数据集划分。

具体实现：

数据划分：

from sklearn.model_selection import train_test_split

train, test = train_test_split(data, test_size=0.2, random_state=42)
print("训练集大小：", len(train))
print("测试集大小：", len(test))

数据增强：

示例：图像翻转与旋转。

from torchvision import transforms

transform = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomRotation(10)
])
augmented_image = transform(image)

特征工程：

示例：提取日期特征。

data['Year'] = data['Date'].dt.year
data['Month'] = data['Date'].dt.month

注意事项：

数据增强适用于深度学习任务，需避免引入噪声。
特征构造应基于业务逻辑，确保对模型有正向贡献。

流程关键点总结

步骤	核心任务	工具与技术
数据采集	从数据源获取原始数据	`requests`、`Scrapy`
数据清洗	提高数据质量，处理缺失与异常值	`Pandas`、`Numpy`
数据分析	挖掘数据特征，生成统计与可视化	`Seaborn`、`Matplotlib`
人工标注	标注数据，为模型提供训练集	Label Studio
数据构造	特征工程、数据增强、划分数据集	`sklearn`、`torchvision`