欢迎来到雲闪世界。欢迎回到我的系列文章的第二部分,ChatGPT、Claude 和 Gemini 在数据分析方面的比较!在本系列中,我旨在比较这些 AI 工具在各种数据科学和分析任务中的表现,以帮助其他数据爱好者和专业人士根据自己的需求选择最佳的 AI 助手。如果您错过了第一篇文章(利用 OCR 和强大的 GPT-4o 迷你模型对收据进行信息提取),我比较了它们在编写和优化 SQL 查询方面的表现 — 请务必查看! 虽然 2024 年奥运会已经结束,但我们的 AI 竞赛才刚刚开始。到目前为止,Claude 3.5 Sonnet 已经领先!但它能保持自己的地位吗,还是 ChatGPT 和 Gemini 会赶上来?🏆 在第二篇文章中,我们将重点介绍他们独立进行探索性数据分析 (EDA) 的能力。作为一名数据科学家,想象一下拥有一个 AI 工具的便利性,它可以立即为新数据集提供数据洞察和建议,以指导高级分析和建模。让我们看看哪种模型可以提供最佳的 EDA。
添加图片注释,不超过 140 字(可选)
什么是 EDA 探索性数据分析 (EDA) 是检查和分析数据集以了解其主要特征的过程,通常使用视觉技术。它涉及数据清理、汇总统计数据以及识别数据中的模式、趋势和关系。目标是发现指导进一步分析或建模的见解,确保在进行更复杂的任务之前彻底了解数据。EDA 的关键组成部分包括:
-
数据检查:了解数据集的结构(例如,行数、列数、数据类型)并预览样本数据。
-
数据清理:纠正数据类型、处理缺失值和验证数据(例如,确保在必要时值是唯一的)。
-
单变量分析:使用可视化对单列执行描述性统计(例如平均值、中位数、分位数)。
-
双变量和多变量分析:探索成对或多组变量之间的关系。
-
见解和建议:产生见解和可行的建议,以提供进一步的分析或建模。
评估标准 我们将在“自动驾驶”模式下评估这三种工具,仅提供一个提示来进行 EDA,看看它们能走多远。评估将基于五个关键方面: 1.完整性(5分): EDA报告是否涵盖了数据检查、数据清理、单变量分析、多变量分析和洞察等五个基本方面? 2. 准确性(4 分):报告中的统计计算、可视化以及得出的见解或结论有多准确? 3. 可视化质量(4 分):可视化是否清晰、可解释且与报告相关? 4. 洞察力(4 分):报告是否根据已识别的模式、趋势或关系产生洞察力? 5. 可重复性和文档(3 分):报告是否有详尽的文档记录,以便其他人可以重复该分析? 请参阅下表中的详细评分标准:
添加图片注释,不超过 140 字(可选)
问题设置 这是我们用于本次评估的数据集:来自 Kaggle 的客户性格分析数据集(CC0:公共领域许可证)。 这是我的提示:
您是一家连锁杂货店的数据科学家。 您有一个数据集,其中包含客户的人口统计信息、 购买数据和营销活动历史记录。您今天的目标是对该数据集 进行彻底的探索性数据分析 (EDA),并提供必要的数据清理、分析和可视化、清晰的见解和可行的建议。 您的 EDA 将用于更好地了解客户、根据客户行为影响产品策略,并为进一步的客户细分分析和建模提供信息。 以下是各列的说明: 1. 人员-ID:客户的唯一标识符 -Year_Birth:客户的出生年份 -Education:客户的教育程度 -Marital_Status:客户的婚姻状况 -Income:客户的家庭年收入 -Kidhome:客户家庭中的儿童数量 -Teenhome:客户家庭中的青少年数量 -Dt_Customer:客户在公司注册的日期 -Recency:自客户上次购买以来的天数 -Complain:如果客户在过去 2 年内投诉过,则为 1,否则为 0 2. 产品 -MntWines:过去 2 年在葡萄酒上的花费 -MntFruits:过去 2 年在水果上的花费 -MntMeatProducts:过去 2 年在肉类上的花费 -MntFishProducts:过去 2 年在鱼上的花费 -MntSweetProducts:过去 2 年在糖果上的花费-MntGoldProds:过去 2 年在黄金上花费的金额3. 促销 -NumDealsPurchases:使用折扣进行的购买次数-AcceptedCmp1:如果客户接受了第一个活动中的优惠,则为 1,否则为 0 -AcceptedCmp2:如果客户接受了第二个活动中的优惠,则为 1,否则为 0 -AcceptedCmp3:如果客户接受了第三个活动中的优惠,则为 1,否则为 0 -AcceptedCmp4:如果客户接受了第四个活动中的优惠,则为1,否则为 0 -AcceptedCmp5:如果客户接受了第五个活动中的优惠,则为 1,否则为 0 -Response:如果客户接受了上一个活动中的优惠,则为 1,否则为 0 4. 地点 -NumWebPurchases:通过公司网站进行的购买次数 -NumCatalogPurchases:使用目录进行的购买次数 -NumStorePurchases:直接在商店购买的商品 -NumWebVisitsMonth:上个月访问公司网站的次数
聊天GPT-4o 总得分:19/20 1. 完整性(5/5) ChatGPT 的 EDA 响应首先概述了其将采取的步骤,涵盖了 EDA 的所有五个关键组件。
-
数据检查:使用 ChatGPT 进行数据分析的一个优点是,它可以通过直接在界面中扩展数据集来轻松预览数据集。
添加图片注释,不超过 140 字(可选)
-
数据清理:ChatGPT 执行了必要的步骤,包括填充缺失值和更正数据类型。对于缺失值,它仔细评估了分布,income并决定用中位数收入来填补,从而提供了合理的推理。
添加图片注释,不超过 140 字(可选)
-
单变量分析age:ChatGPT 分析了包括、、和在内income的主要特征的分布,并提供了研究结果的摘要。marital statuseducation
添加图片注释,不超过 140 字(可选)
-
双变量和多变量分析:ChatGPT 探索了特征对之间的关系,例如收入与总支出之间的相关性,以及按产品类别划分的平均支出。它再次从这些分析中得出了关键见解。
添加图片注释,不超过 140 字(可选)
-
见解和建议:ChatGPT 在每个可视化部分之后提供了关键见解,并得出了明确且可操作的建议。
添加图片注释,不超过 140 字(可选)
2. 准确度(4/4) 所有数据清理、可视化和分析步骤均由 Python 代码支持。在手动运行代码并将其结果与 Claude 和 Gemini 的结果进行比较后,ChatGPT 的输出是准确的。它的见解也与分析结果非常吻合。 3. 可视化(3/4) ChatGPT 创建的可视化图表标记清晰,图表类型恰当,并附有见解。您还可以轻松下载图表以用于文档和演示文稿。 我唯一的抱怨是,虽然一些简单的可视化是交互式的(允许您将鼠标悬停在它们上面以查看值),但大多数都不是。因此,我扣了一分,以表示有待改进 :)
添加图片注释,不超过 140 字(可选)
4. 洞察力(4/4) 如上面的截图所示,ChatGPT 提供了超过 4 条见解,并给出了具体、可操作的建议,在此获得了满分。 5. 可重复性和文档(3/3) ChatGPT 的报告结构直观,每个部分后面都附有代码片段,以确保可重复性。因此,此处授予全部荣誉。
添加图片注释,不超过 140 字(可选)
克劳德 3.5 十四行诗 总得分:16/20 1. 完整性(4/5) Claude 的报告比 ChatGPT 短得多,主要是因为它没有显示可视化,而只显示文本报告。但它仍然涵盖了 EDA 的大部分关键组件。
-
数据检查:虽然可以点击上传的 CSV 文件,但预览只是文本格式,不太容易理解。Claude 也没有提供任何数据结构的文本描述。因此,我认为这一步并不完整。
添加图片注释,不超过 140 字(可选)
-
数据清理:Claude 的报告以“数据质量和清理”部分开始,包括删除缺失值、创建新列和清理分类值等步骤。您可以在附加的代码片段中清楚地看到这些步骤。与选择用中位数估算缺失收入值的 ChatGPT 不同,Claude 只是删除了有缺失值的行。考虑到只有 24 行,我认为这两种方法都是合理的。
添加图片注释,不超过 140 字(可选)
-
单变量分析:Claude 在其 Python 脚本中包含了单变量分析代码,并在其报告中混合了见解。
添加图片注释,不超过 140 字(可选)
-
双变量和多变量分析:同样,在下面的屏幕截图中,您可以看到 Claude 从双变量分析和相应的代码中得出的发现。
添加图片注释,不超过 140 字(可选)
-
见解和建议:列出见解之后,克劳德提供了一套全面的可行建议以及合理的后续步骤。
添加图片注释,不超过 140 字(可选)
2. 准确度(3/4) 我查看了 Claude 生成的 Python 脚本并手动运行了它。虽然大部分代码都是准确的,但由于包含非数字列,相关矩阵部分出现了错误。我与 Claude 分享了此错误的屏幕截图,它通过df.select_dtypes(include=[np.number])仅添加数字列过滤器来纠正此问题。 这个小错误导致扣一分。
添加图片注释,不超过 140 字(可选)
3. 可视化(2/4) 与 ChatGPT 和 Gemini 不同,Claude 并不直接显示可视化效果,而是提供 Python 脚本。这是因为它无法在 UI 中执行 Python 代码。但它确实支持运行 JavaScript 和其他一些编程语言。我要求它显示可视化效果,它编写了带有图表预览的 JavaScript 代码——但脚本中的硬编码数字与数据集不一致,导致混乱…… 我手动运行了 Python 脚本,虽然它们生成了准确的可视化效果(除了上面的相关矩阵错误),但与其他工具相比,整体体验不太友好。因此,我因为这个限制扣除了两分。
添加图片注释,不超过 140 字(可选)
4. 洞察力(4/4) 尽管缺乏可视化,Claude 的建议仍然富有洞察力且可操作,涵盖产品重点战略、活动优化、高价值客户保留和交叉销售机会等领域。洞察力和建议的质量获得了满分。 5. 可重复性和文档(3/3) Claude 的回复结构清晰,要点按照数据清理、见解、建议和后续步骤的顺序列出。底层 Python 代码可通过右侧的“Artifact”窗口访问。Artifact可轻松查看和迭代代码,将其与左侧的文本报告进行协调,甚至发布代码与他人共享。
添加图片注释,不超过 140 字(可选)
双子座高级版 总得分:19/20 1. 完整性(5/5) Gemini 提供了详尽的 EDA,全面覆盖了所有关键组件。
-
数据检查:您可以在 Gemini 中打开 CSV 文件来仔细查看数据集(尽管不像 ChatGPT 那样具有交互性)。Gemini 还包含一段描述数据结构的段落。
添加图片注释,不超过 140 字(可选)
-
数据清理:与 Claude 类似,Gemini 纠正了数据类型,计算了新列(例如age和enrollment period),并删除了缺少值的行。
添加图片注释,不超过 140 字(可选)
-
单变量分析:Gemini 进行了详尽的单变量分析,并打印了 10 多个直方图和箱线图来探索单个变量。
添加图片注释,不超过 140 字(可选)
-
双变量和多变量分析:Gemini 采取了非常彻底的方法,在多个网格中生成了超过 50 个可视化效果,探索了几乎所有可能的变量对。
添加图片注释,不超过 140 字(可选)
-
见解和建议:在展示所有可视化效果之后,Gemini 提供了清晰的见解,然后提供了结构良好的建议。
添加图片注释,不超过 140 字(可选)
2. 准确度(4/4) Gemini 附带了清晰易懂的 Python 代码。查看并运行代码后,一切都正常。其洞察也与可视化相符,准确性获得满分。 3. 可视化(3/4) 与使用经典 Python 可视化包的 ChatGPT 和 Claude 不同matplotlib,seabornGemini 使用altairJSON 格式保存图表,并将其嵌入聊天机器人 UI。这使得图表具有高度交互性。 然而,如上图所示,其相似图表数量众多(超过 50 张),再加上标签重叠,使得数据难以有效解读。因此,我在可视化方面扣了一分。 4. 洞察力(4/4) Gemini 总结了主要发现,并在“产品策略”和“客户细分和营销”两个主要类别下提供了可行的建议。这些见解切实可行,与数据高度吻合,在洞察力方面获得了满分。
添加图片注释,不超过 140 字(可选)
5. 可重复性和文档(3/3) 尽管由于可视化数量众多,Gemini 的响应比其他模型更长,但其报告结构良好,并且附带的 Python 代码确保可以轻松重现分析。这为其重现性赢得了满分。 最终结果
添加图片注释,不超过 140 字(可选)
获胜者是......🥁 ChatGPT-4o和Gemini Advanced — — 我们打平了! 三个模型的最终得分非常接近,甚至排名第三的 Claude 3.5 Sonnet 也获得了 20 分中的 16 分,占总分的 80%。值得注意的是,我只用一个提示就进行了这次比赛!在数据专业人员的指导下,这些工具的功能可以得到显著增强。
-
ChatGPT-4o和Gemini Advanced:两种模型各只丢了一分。ChatGPT-4o 因其可视化的交互性有限而被扣分,而 Gemini Advanced 则因其可视化的混乱性质而丢了一分。
-
Claude 3.5 Sonnet:Claude 的主要缺点是无法运行 Python 代码并直接显示可视化效果,并且 Python 脚本中有一个小错误。但是,由于它能够运行 JavaScript 等其他编程语言,我们可能很快就会看到它支持 Python 可视化效果!
其他注意事项 选择 EDA 助手时,还需要考虑以下几点:
-
选择性 EDA 与详尽性 EDA:有趣的是,ChatGPT 和 Claude 倾向于专注于他们认为重要的选定列,从而提供更易理解、更集中的报告;另一方面,Gemini 提供详尽的分析,生成各种图表。每种方法都有其优缺点:选择性分析更容易理解,而详尽分析提供全面的覆盖范围,这可能会让人不知所措。所以,你喜欢哪种风格取决于你。
-
输出稳定性:我在每个工具中使用相同的数据集运行了相同的提示三次,这样我的评估就不会偏向于单次运行——考虑到 LLM 的性质,它们的响应每次都会发生变化。这也让我注意到它们不同的输出稳定性水平。Gemini 显示出最高的方差,每次运行的报告结构和内容都不同。它在三次运行中的一次生成了相关矩阵热图,在另一次运行中,它甚至进行了 K 均值聚类。与此同时,ChatGPT 和 Claude 更加一致,尽管他们在可视化和见解的选择上也有所不同。因此,如果您依赖 LLM 来生成见解,最好多次运行相同的提示以确保获得最佳输出(当然,您可以随时跟进并明确要求提供任何缺失的内容)……
-
响应速度:在这三者中,ChatGPT-4o 是最快的——它几乎立即开始响应。Claude 稍慢一些,大约需要 10 到 20 秒才能启动。Gemini 的启动和完成时间最长,因为它生成的图表数量巨大,但仍低于 3 分钟。
结论 如果您正在寻找快速、清晰的 EDA 报告,ChatGPT-4o是您的不二之选。但如果您更喜欢对数据集进行详尽的探索,并且可以容忍不太精致的可视化,Gemini Advanced可能是您的更好选择。
感谢关注雲闪世界。(Aws解决方案架构师vs开发人员&GCP解决方案架构师vs开发人员)