AI数据分析:用DeepSeek做数据清洗

news2025/4/21 12:12:10

在当今数据驱动的时代,数据分析已成为企业和个人决策的重要工具。随着人工智能技术的快速发展,AI 驱动的数据分析工具正在改变我们处理和分析数据的方式。本文将着重介绍如何使用 DeepSeek 进行数据清洗。

数据清洗是数据分析的基础,其目的是确保数据的准确性、完整性和一致性。常见的数据问题包括:

  1. 缺失值:数据中的某些字段为空。

  2. 重复值:数据中存在重复记录。

  3. 异常值:数据中存在明显偏离正常范围的数值。

  4. 不一致性:数据格式或单位不统一。

如果不进行数据清洗,这些问题会导致分析结果偏差,甚至误导决策。

以下是一个使用 DeepSeek 清洗销售数据的实际案例。

假设我们有一个销售数据表

订单ID商品ID商品名销量销售额(元)
1001101商品A10500
1002102商品B5250
1003103商品C201000
1004101商品A15750
1005104商品D1005000
1006105商品E1500
1007102商品B8400
1008103商品C251250
1009106商品F00
1010101商品A12600
1011104商品D301500
1012105商品E2100
1013107商品G502500
1014108商品H20010000
1015102商品B6300
1016103商品C18900
1017109商品I00
1018101商品A9450
1019104商品D402000
1020105商品E3150
1021107商品G60
1022108商品H1507500
1023102商品B7350
1024103商品C221100
1025109商品I150
1026101商品A11550
1027104商品D351750
1028105商品E4200
1029107商品G552750
1029107商品G552750
1030108商品H1809000

接下来我们用PromptIDE-提示词开发工具帮我们生成一个数据清洗的提示词。

生成的提示词如下:


# 角色: 
数据分析与数据预处理专家

## 背景: 
用户在处理数据时遇到数据质量问题,需要对数据进行清洗以确保数据的准确性、完整性和一致性,从而为后续的数据分析或机器学习模型训练提供高质量的数据基础

## 注意:
1、数据清洗是一个复杂且耗时的过程,但它是确保数据质量的关键步骤。
2、通过有效的数据清洗,可以显著提高数据分析的准确性和可靠性。

## 技能:
1、熟悉数据清洗的常用技术和工具。
2、具备强大的数据处理和分析能力。
3、能够识别和处理数据中的异常值和缺失值。
4、能够设计和实施数据清洗流程。

## 目标:
1、识别并处理数据中的异常值。
2、填补或删除数据中的缺失值。
3、标准化数据格式,确保数据一致性。
4、去除重复数据。
5、验证数据清洗后的质量。

## 约束:
1、确保数据清洗过程不会引入新的错误。
2、遵守数据隐私和安全的相关规定。
3、在数据清洗过程中保持数据的原始结构和含义。


## 输出:
1、清洗后的数据应以结构化表格形式输出。
2、数据清洗报告,包括详细记录清洗过程、问题发现及解决方法。
3、建议的进一步数据预处理步骤。

## 工作流:
1、接收并分析用户提供的数据集和清洗规则。
2、识别数据中的异常值和缺失值。
3、根据清洗规则处理异常值和缺失值。
4、标准化数据格式,去除重复数据。
5、验证数据清洗后的质量,生成清洗报告。


## 初始化:
Initialization: 在第一次对话中,请直接输出以下:欢迎使用数据清洗服务。请提供您需要清洗的数据文件,我将按照数据隐私和安全原则,为您进行高效、透明的数据清洗。您可以上传数据文件,告诉我您关注的数据质量问题,我将为您提供专业的解决方案。

接下来我们将这个提示词发给大模型看看效果。

数据清洗报告

1. 数据问题识别

通过初步分析,发现以下数据质量问题:

  1. 重复值:订单ID为 1029 的记录出现重复。
  2. 缺失值:订单ID为 1021 的记录中,销售额(元) 缺失。
  3. 异常值
    • 销量 为 0,但 销售额(元) 也为 0(订单ID:1009 和 1017),可能是无效记录。
    • 销量 和 销售额(元) 的比例异常(例如:订单ID:1006,销量为 1,销售额为 500,可能存在输入错误)。

2. 数据清洗过程
2.1 删除重复值

删除订单ID为 1029 的重复记录。

2.2 填充缺失值

对于订单ID为 1021 的缺失值,根据商品G的平均单价进行填充:

  • 商品G的销售额 = 销量 × 单价
  • 计算商品G的平均单价:(2500 + 2750) / (50 + 60) ≈ 48.18
  • 订单ID 1021 的销售额 = 60 × 48.18 ≈ 2891 元

填充后:

订单ID商品ID商品名销量销售额(元)
1021107商品G602891
2.3 标准化异常值处理
  1. 销量为 0 的记录

    • 删除订单ID为 1009 和 1017 的记录,因为其销量和销售额均为 0,属于无效数据。
  2. 比例异常记录

    • 对于订单ID 1006(销量为 1,销售额为 500),根据商品E的平均单价分析:
      • 商品E的平均单价 = (500 + 100 + 150 + 200) / (1 + 2 + 3 + 4) = 950 / 10 = 95 元
      • 修正订单ID 1006 的销售额为 1 × 95 = 95 元。

修正后:

订单ID商品ID商品名销量销售额(元)
1006105商品E195

3. 数据清洗结果

清洗后的数据集如下:

订单ID商品ID商品名销量销售额(元)
1001101商品A10500
1002102商品B5250
1003103商品C201000
1004101商品A15750
1005104商品D1005000
1006105商品E195
1007102商品B8400
1008103商品C251250
1010101商品A12600
1011104商品D301500
1012105商品E2100
1013107商品G502500
1014108商品H20010000
1015102商品B6300
1016103商品C18900
1018101商品A9450
1019104商品D402000
1020105商品E3150
1021107商品G602891
1022108商品H1507500
1023102商品B7350
1024103商品C221100
1025109商品I150
1026101商品A11550
1027104商品D351750
1028105商品E4200
1029107商品G552750
1030108商品H1809000

4. 下一步建议
  1. 数据验证:对清洗后的数据进行统计分析,确保数据分布合理,无异常值。
  2. 特征工程:如果需要构建机器学习模型,建议进一步对数据进行特征提取和标准化。
  3. 数据监控:建议建立数据质量监控机制,定期检查数据中的异常情况。


总之,我们借助PromptIDE+deepseek就可以轻松帮我们完成数据清洗了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2308568.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

把GB型材库放入solidwork中点击库无法应

1、文件夹的位置要选择对,如下图: 2、文件夹一定要嵌套三层,如下图

IP-----动态路由OSPF(2)

这只是IP的其中一块内容,IP还有更多内容可以查看IP专栏,前一章内容为动态路由OSPF ,可通过以下路径查看IP-----动态路由OSPF-CSDN博客,欢迎指正 注意!!!本部分内容较多所以分成了两部分在上一章 5.动态路…

《HelloGitHub》第 107 期

兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 Python、…

计算机毕业设计Python+DeepSeek-R1大模型游戏推荐系统 Steam游戏推荐系统 游戏可视化 游戏数据分析(源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

网络流算法: Dinic算法

图论相关帖子 基本概念图的表示: 邻接矩阵和邻接表图的遍历: 深度优先与广度优先拓扑排序图的最短路径:Dijkstra算法和Bellman-Ford算法最小生成树二分图多源最短路径强连通分量欧拉回路和汉密尔顿回路网络流算法: Edmonds-Karp算法网络流算法: Dinic算法 环境要求 本文所用…

Spring Boot 3.x 基于 Redis 实现邮箱验证码认证

文章目录 依赖配置开启 QQ 邮箱 SMTP 服务配置文件代码实现验证码服务邮件服务接口实现执行流程 依赖配置 <dependencies> <!-- Spring Boot Starter Web --> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spr…

PostgreSQL10 物理流复制实战:构建高可用数据库架构!

背景 PostgreSQL 10 在高可用架构中提供了物理复制&#xff0c;也称为流复制&#xff08;Streaming Replication&#xff09;&#xff0c;用于实现实例级别的数据同步。PostgreSQL 复制机制主要包括物理复制和逻辑复制&#xff1a;物理复制依赖 WAL 日志进行物理块级别的同步&…

从零开始开发纯血鸿蒙应用之语音朗读

从零开始开发纯血鸿蒙应用 〇、前言一、API 选型1、基本情况2、认识TextToSpeechEngine 二、功能集成实践1、改造右上角菜单2、实现语音播报功能2.1、语音引擎的获取和关闭2.2、设置待播报文本2.3、speak 目标文本2.4、设置语音回调 三、总结 〇、前言 中华汉字洋洋洒洒何其多…

奔图Pantum M7165DN黑白激光打印一体机报数据清除中…维修

故障描述: 一台奔图Pantum M7165DN黑白激光打印一体机开机自检正常,自检过后就不能工作了,按键面板无任何反应一直提示数据清除中…,如果快速操作的话也能按出菜单、功能啥的,不过一会又死机了,故障请看下图: 故障检修: 经分析可能是主板数据出现了问题,看看能不能快速…

TP-LINK路由器如何设置网段、网关和DHCP服务

目标 ①将路由器的网段由192.168.1.XXX改为192.168.5.XXX ②确认DHCP是启用的&#xff0c;并将DHCP的IP池的范围设置为排除自己要手动指定的IP地址&#xff0c;避免IP冲突。 01-复位路由器 路由器按住复位键10秒以上进行重置操作 02-进入路由器管理界面 电脑连接到路由器&…

神经网络代码入门解析

神经网络代码入门解析 import torch import matplotlib.pyplot as pltimport randomdef create_data(w, b, data_num): # 数据生成x torch.normal(0, 1, (data_num, len(w)))y torch.matmul(x, w) b # 矩阵相乘再加bnoise torch.normal(0, 0.01, y.shape) # 为y添加噪声…

TCP/IP 5层协议簇:网络层(IP数据包的格式、路由器原理)

目录 1. TCP/IP 5层协议簇 2. IP 三层包头协议 3. 路由器原理 4. 交换机和路由的对比 1. TCP/IP 5层协议簇 如下&#xff1a; 2. IP 三层包头协议 数据包如下&#xff1a;IP包头不是固定的&#xff0c;每一个数字是一个bit 其中数据部分是上层的内容&#xff0c;IP包头最…

echarts柱状图不是完全铺满容器,左右两边有空白

目录 处理前&#xff1a;echarts柱状图不是完全铺满容器&#xff0c;左右两边有空白处理前&#xff1a;通过调整 grid 组件配置处理后效果修改代码&#xff1a;1. 调整 grid 组件配置原理解决办法 2. 处理 xAxis 的 boundaryGap 属性原理解决办法 3. 调整 barMaxWidth 和 barMi…

ArcGIS Pro技巧实战:高效矢量化天地图地表覆盖图

在地理信息系统&#xff08;GIS&#xff09;领域&#xff0c;地表覆盖图的矢量化是一项至关重要的任务。天地图作为中国国家级的地理信息服务平台&#xff0c;提供了丰富且详尽的地表覆盖数据。然而&#xff0c;这些数据通常以栅格格式存在&#xff0c;不利于进行空间分析和数据…

西门子S7-1200比较指令

西门子S7-1200 PLC比较指令学习笔记 一、比较指令的作用 核心功能&#xff1a;用于比较两个数值的大小或相等性&#xff0c;结果为布尔值&#xff08;True/False&#xff09;。典型应用&#xff1a; 触发条件控制&#xff08;如温度超过阈值启动报警&#xff09;数据筛选&…

【AD】3-6 层次原理图

自上而下 1.放置-页面符号&#xff0c;并设置属性 2.放置-端口 可通过如下设置将自动生成关掉 3.放置-添加图纸入口&#xff0c;并创建图纸 自下而上 1.子图的原理图页设计 设计资原理图&#xff0c;复制网络标签&#xff0c;智能粘贴未PORT 2.新建主图原理图 创建框…

精品整理-2025 DeepSeek核心技术解析与实践资料合集(24份)

2025 DeepSeek核心技术解析与实践资料合集&#xff0c;共24份。 2025 DeepSeek 火爆背后的核心技术&#xff1a;知识蒸馏技术.pdf 2025 DeepSeek-R1详细解读&#xff1a;DeepSeek-R1-Zero和DeepSeek-R1分析.pdf 2025 DeepSeek-V3三个关键模块详细解读&#xff1a;MLAMoEMTP.pd…

【三维分割】LangSplat: 3D Language Gaussian Splatting(CVPR 2024 highlight)

论文&#xff1a;https://arxiv.org/pdf/2312.16084 代码&#xff1a;https://github.com/minghanqin/LangSplat 文章目录 一、3D language field二、回顾 Language Fields的挑战三、使用SAM学习层次结构语义四、Language Fields 的 3DGS五、开放词汇查询&#xff08;Open-voca…

【HarmonyOS Next】鸿蒙应用折叠屏设备适配方案

【HarmonyOS Next】鸿蒙应用折叠屏设备适配方案 一、前言 目前应用上架华为AGC平台&#xff0c;都会被要求适配折叠屏设备。目前华为系列的折叠屏手机&#xff0c;有华为 Mate系列&#xff08;左右折叠&#xff0c;华为 Mate XT三折叠&#xff09;&#xff0c;华为Pocket 系列…

数据库基础二(数据库安装配置)

打开MySQL官网进行安装包的下载 https://www.mysql.com/ 接着找到适用于windows的版本 下载版本 直接点击下载即可 接下来对应的内容分别是&#xff1a; 1&#xff1a;安装所有 MySQL 数据库需要的产品&#xff1b; 2&#xff1a;仅使用 MySQL 数据库的服务器&#xff1b; 3&a…