我用AI做数据分析之数据清洗

news2025/3/15 14:35:41

我用AI做数据分析之数据清洗

AI与数据分析的融合效果怎样?
这里描述自己在使用AI进行数据分析(数据清洗)过程中的几个小故事:

1. 变量名的翻译

有一个项目是某医生自己收集的数据,变量名使用的是中文,分析的时候一般会变化成英文更方便一些,传统的手段需要查找变量名的中文,然后使用代码替换原来的列名,不复杂,无奈变量名较多,处理起来还是会花费不少的时间。

这种情况下,我尝试着将数据表格提交给AI,使用自然语言让它把“列名翻译成英文全称并符合python的命名方式”,效果可以说是非常不错,返回的新数据表中,正确地给出了符合要求的列名,也很效率。

2. 英文缩写改全称

另外一个项目,列名是缩写,有一些我自己都不知道什么含义,在我没有详细提供上下文的情况下,让AI把缩写改成英文全称。
AI也很好地完成了这个工作,并在对话框中解释了变量名的含义。
在这里插入图片描述

3. 纠正录入错误

在另外的一个项目中,部分的变量里面误录入了制表符-“\tyes”等,平时不太处理这种情况,一个一个检查也很繁琐,所以尝试使用AI来处理这个问题。与AI交流过程中,我并没有具体指出是什么样的录入错误,只说检查可能的录入错误,AI就能够将这些错误检查出来并进行纠正。

令人意外的是AI还检测出一个数值型数据的录入错误,这是没有专业知识,不容易发现的。

类似的情况,还有在自己收集的一些数据中,录入不统一的情况,比如有的中文“是”,有的是英文“yes”, 自然语言描述起来很容易,代码写起来就很复杂,我觉得AI也可以处理。
在这里插入图片描述
以上体验是基于豆包AI数据分析模块的体验,总体来说都属于语言相关的范畴,感觉是AI可以表现很好的环节,因为AI本身是LLM(大语言模型)。这一部分,严格说没有涉及LLM生成代码的部分,因为代码是在AI发现了问题之后,用来修改数据表使用的。
结论是在这一部分上AI的表现是相当合格的。AI的能力在逐步增强,如何改变即有的数据分析流程,让我们拭目以待,我也会通过一些具体的小例子来向大家描述AI在数据分析过程中的表现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2295879.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

备战蓝桥杯:双指针(滑动窗口)算法之逛花展

P1638 逛画展 - 洛谷 | 计算机科学教育新生态 这道题我们只要用一个kind和一个mp[N]的数组就能解决了 我们的解法1就是暴力枚举,先固定2,从2开始找连续的满足所有种类的最短的子数组,然后固定5,3,1,3&…

collabora online+nextcloud+mariadb在线文档协助

1、环境 龙蜥os 8.9 docker 2、安装docker dnf -y install dnf-plugins-core dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sed -i shttps://download.docker.comhttps://mirrors.tuna.tsinghua.edu.cn/docker-ce /etc/yum.repos.…

深度学习中的Checkpoint是什么?

诸神缄默不语-个人CSDN博文目录 文章目录 引言1. 什么是Checkpoint?2. 为什么需要Checkpoint?3. 如何使用Checkpoint?3.1 TensorFlow 中的 Checkpoint3.2 PyTorch 中的 Checkpoint3.3 transformers中的Checkpoint 4. 在 NLP 任务中的应用5. 总…

用深度学习模型构建海洋动物图像分类保姆教程

使用深度学习模型构建深度学习海洋动物图像分类模型的完整步骤如下,分为关键阶段和详细操作说明: 1. 数据准备与预处理 1.1 数据集组织 按类别分文件夹存储图像,例如:dataset/train/class1/class2/...val/class1/class2/...test…

npm无法加载文件 因为此系统禁止运行脚本

安装nodejs后遇到问题: 在项目里【node -v】可以打印出来,【npm -v】打印不出来,显示npm无法加载文件 因为此系统禁止运行脚本。 但是在winr,cmd里【node -v】,【npm -v】都也可打印出来。 解决方法: cmd里可以打印出…

知识库升级新思路:用生成式AI打造智能知识助手

在当今信息爆炸的时代,企业和组织面临着海量数据的处理和管理挑战。知识库管理系统(Knowledge Base Management System, KBMS)作为一种有效的信息管理工具,帮助企业存储、组织和检索知识。然而,传统的知识库系统往往依…

蚂蚁爬行最短问题

初二数学问题记录 分析过程 考点:2点之间直线最短。 思考过程:将EBCF以BC为边翻折,EF边翻折后为,则A为蚂蚁需要爬行的最小距离。

【电机控制器】STC8H1K芯片——低功耗

【电机控制器】STC8H1K芯片——低功耗 文章目录 [TOC](文章目录) 前言一、芯片手册说明二、IDLE模式三、PD模式四、PD模式唤醒五、实验验证1.接线2.视频(待填) 六、参考资料总结 前言 使用工具: 1.STC仿真器烧录器 提示:以下是本…

【专题】2024-2025人工智能代理深度剖析:GenAI 前沿、LangChain 现状及演进影响与发展趋势报告汇总PDF洞察(附原数据表)

原文链接:https://tecdat.cn/?p39630 在科技飞速发展的当下,人工智能代理正经历着深刻的变革,其能力演变已然成为重塑各行业格局的关键力量。从早期简单的规则执行,到如今复杂的自主决策与多智能体协作,人工智能代理…

SAP-ABAP:SAP的第一行REPORT后面后缀作用详解

在SAP ABAP中&#xff0c;REPORT 语句是定义报表程序的核心语句&#xff0c;其后可以跟多个后缀&#xff08;参数&#xff09;&#xff0c;用于控制报表的行为和属性。以下是常见的 REPORT 后缀及其作用的详解&#xff1a; 程序名称 • 语法&#xff1a;REPORT <program_nam…

25/2/8 <机器人基础> 阻抗控制

1. 什么是阻抗控制&#xff1f; 阻抗控制旨在通过调节机器人与环境的相互作用&#xff0c;控制其动态行为。阻抗可以理解为一个力和位移之间的关系&#xff0c;涉及力、速度和位置的协同控制。 2. 阻抗控制的基本概念 力控制&#xff1a;根据感测的外力调节机械手的动作。位置…

Sparse4D v3:推进端到端3D检测和跟踪

论文地址&#xff1a;2311.11722 (arxiv.org) 代码地址&#xff1a;HorizonRobotics/Sparse4D (github.com) 在自动驾驶感知系统中&#xff0c;3D 检测和跟踪是两项基本任务。本文在 Sparse4D 框架的基础上更深入地探讨了这一领域。作者引入了两个辅助训练任务&#xff08;Temp…

python 语音识别方案对比

目录 一、语音识别 二、代码实践 2.1 使用vosk三方库 2.2 使用SpeechRecognition 2.3 使用Whisper 一、语音识别 今天识别了别人做的这个app,觉得虽然是个日记app 但是用来学英语也挺好的,能进行语音识别,然后矫正语法,自己说的时候 ,实在不知道怎么说可以先乱说,然…

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

在这个数字化飞速发展的时代&#xff0c;图像与视频合成技术正以前所未有的速度重塑着我们的生活&#xff0c;尤其在在线零售领域&#xff0c;一场关于购物体验的革命正在悄然上演。想象一下&#xff0c;无需亲自试穿&#xff0c;仅凭一张照片或一段视频&#xff0c;就能精准预…

【Git】ssh如何配置gitlab+github

当我们工作项目在gitlab上&#xff0c;又希望同时能更新自己个人的github项目时&#xff0c;可能因为隐私问题&#xff0c;不能使用同一′密钥。就需要在本地电脑上分别配置两次ssh。 1、分别创建ssh key 在用户主目录下&#xff0c;查询是否存在“.ssh”文件&#xff1a; 如…

音频进阶学习十二——Z变换一(Z变换、收敛域、性质与定理)

文章目录 前言一、Z变换1.Z变换的作用2.Z变换公式3.Z的状态表示1&#xff09; r 1 r1 r12&#xff09; 0 < r < 1 0<r<1 0<r<13&#xff09; r > 1 r>1 r>1 4.关于Z的解释 二、收敛域1.收敛域的定义2.收敛域的表示方式3.ROC的分析1&#xff09;当 …

使用Redis解决使用Session登录带来的共享问题

在学习项目的过程中遇到了使用Session实现登录功能所带来的共享问题&#xff0c;此问题可以使用Redis来解决&#xff0c;也即是加上一层来解决问题。 接下来介绍一些Session的相关内容并且采用Session实现登录功能&#xff08;并附上代码&#xff09;&#xff0c;进行分析其存在…

STM32F1学习——USART串口通信

一、USART通用同步异步收发机 USART的全称是Universal Synchronous/Asynchronous Receiver Transmitter &#xff0c; 通用同步异步收发机&#xff0c;但由于他主要以异步通信为主&#xff0c;所以他也叫UART。它遵循TTL电平标准&#xff0c;是一种全双工异步通信标准&#xff…

Docker 部署 MinIO | 国内阿里镜像

一、导读 Minio 是个基于 Golang 编写的开源对象存储套件&#xff0c;基于Apache License v2.0开源协议&#xff0c;虽然轻量&#xff0c;却拥有着不错的性能。它兼容亚马逊S3云存储服务接口。可以很简单的和其他应用结合使用&#xff0c;例如 NodeJS、Redis、MySQL等。 二、…

【R语言】相关系数

一、cor()函数 cor()函数是R语言中用于计算相关系数的函数&#xff0c;相关系数用于衡量两个变量之间的线性关系强度和方向。 常见的相关系数有皮尔逊相关系数&#xff08;Pearson correlation coefficient&#xff09;、斯皮尔曼秩相关系数&#xff08;Spearmans rank corre…