ChatGPT、Claude 和 Gemini 在数据分析方面的比较（第 2 部分）

欢迎来到雲闪世界。欢迎回到我的系列文章的第二部分，ChatGPT、Claude 和 Gemini 在数据分析方面的比较！在本系列中，我旨在比较这些 AI 工具在各种数据科学和分析任务中的表现，以帮助其他数据爱好者和专业人士根据自己的需求选择最佳的 AI 助手。如果您错过了第一篇文章（利用 OCR 和强大的 GPT-4o 迷你模型对收据进行信息提取），我比较了它们在编写和优化 SQL 查询方面的表现 — 请务必查看！虽然 2024 年奥运会已经结束，但我们的 AI 竞赛才刚刚开始。到目前为止，Claude 3.5 Sonnet 已经领先！但它能保持自己的地位吗，还是 ChatGPT 和 Gemini 会赶上来？🏆 在第二篇文章中，我们将重点介绍他们独立进行探索性数据分析 (EDA) 的能力。作为一名数据科学家，想象一下拥有一个 AI 工具的便利性，它可以立即为新数据集提供数据洞察和建议，以指导高级分析和建模。让我们看看哪种模型可以提供最佳的 EDA。

添加图片注释，不超过 140 字（可选）

什么是 EDA 探索性数据分析 (EDA) 是检查和分析数据集以了解其主要特征的过程，通常使用视觉技术。它涉及数据清理、汇总统计数据以及识别数据中的模式、趋势和关系。目标是发现指导进一步分析或建模的见解，确保在进行更复杂的任务之前彻底了解数据。EDA 的关键组成部分包括：

数据检查：了解数据集的结构（例如，行数、列数、数据类型）并预览样本数据。
数据清理：纠正数据类型、处理缺失值和验证数据（例如，确保在必要时值是唯一的）。
单变量分析：使用可视化对单列执行描述性统计（例如平均值、中位数、分位数）。
双变量和多变量分析：探索成对或多组变量之间的关系。
见解和建议：产生见解和可行的建议，以提供进一步的分析或建模。

评估标准我们将在“自动驾驶”模式下评估这三种工具，仅提供一个提示来进行 EDA，看看它们能走多远。评估将基于五个关键方面： 1.完整性（5分）： EDA报告是否涵盖了数据检查、数据清理、单变量分析、多变量分析和洞察等五个基本方面？ 2. 准确性（4 分）：报告中的统计计算、可视化以及得出的见解或结论有多准确？ 3. 可视化质量（4 分）：可视化是否清晰、可解释且与报告相关？ 4. 洞察力（4 分）：报告是否根据已识别的模式、趋势或关系产生洞察力？ 5. 可重复性和文档（3 分）：报告是否有详尽的文档记录，以便其他人可以重复该分析？请参阅下表中的详细评分标准：

添加图片注释，不超过 140 字（可选）

问题设置这是我们用于本次评估的数据集：来自 Kaggle 的客户性格分析数据集（CC0：公共领域许可证）。这是我的提示：

您是一家连锁杂货店的数据科学家。您有一个数据集，其中包含客户的人口统计信息、购买数据和营销活动历史记录。您今天的目标是对该数据集进行彻底的探索性数据分析 (EDA)，并提供必要的数据清理、分析和可视化、清晰的见解和可行的建议。您的 EDA 将用于更好地了解客户、根据客户行为影响产品策略，并为进一步的客户细分分析和建模提供信息。以下是各列的说明： 1. 人员-ID：客户的唯一标识符 -Year_Birth：客户的出生年份 -Education：客户的教育程度 -Marital_Status：客户的婚姻状况 -Income：客户的家庭年收入 -Kidhome：客户家庭中的儿童数量 -Teenhome：客户家庭中的青少年数量 -Dt_Customer：客户在公司注册的日期 -Recency：自客户上次购买以来的天数 -Complain：如果客户在过去 2 年内投诉过，则为 1，否则为 0 2. 产品 -MntWines：过去 2 年在葡萄酒上的花费 -MntFruits：过去 2 年在水果上的花费 -MntMeatProducts：过去 2 年在肉类上的花费 -MntFishProducts：过去 2 年在鱼上的花费 -MntSweetProducts：过去 2 年在糖果上的花费-MntGoldProds：过去 2 年在黄金上花费的金额3. 促销 -NumDealsPurchases：使用折扣进行的购买次数-AcceptedCmp1：如果客户接受了第一个活动中的优惠，则为 1，否则为 0 -AcceptedCmp2：如果客户接受了第二个活动中的优惠，则为 1，否则为 0 -AcceptedCmp3：如果客户接受了第三个活动中的优惠，则为 1，否则为 0 -AcceptedCmp4：如果客户接受了第四个活动中的优惠，则为1，否则为 0 -AcceptedCmp5：如果客户接受了第五个活动中的优惠，则为 1，否则为 0 -Response：如果客户接受了上一个活动中的优惠，则为 1，否则为 0 4. 地点 -NumWebPurchases：通过公司网站进行的购买次数 -NumCatalogPurchases：使用目录进行的购买次数 -NumStorePurchases：直接在商店购买的商品 -NumWebVisitsMonth：上个月访问公司网站的次数

聊天GPT-4o 总得分：19/20 1. 完整性（5/5） ChatGPT 的 EDA 响应首先概述了其将采取的步骤，涵盖了 EDA 的所有五个关键组件。

数据检查：使用 ChatGPT 进行数据分析的一个优点是，它可以通过直接在界面中扩展数据集来轻松预览数据集。

添加图片注释，不超过 140 字（可选）

数据清理：ChatGPT 执行了必要的步骤，包括填充缺失值和更正数据类型。对于缺失值，它仔细评估了分布，income并决定用中位数收入来填补，从而提供了合理的推理。

添加图片注释，不超过 140 字（可选）

单变量分析age：ChatGPT 分析了包括、、和在内income的主要特征的分布，并提供了研究结果的摘要。marital statuseducation

添加图片注释，不超过 140 字（可选）

双变量和多变量分析：ChatGPT 探索了特征对之间的关系，例如收入与总支出之间的相关性，以及按产品类别划分的平均支出。它再次从这些分析中得出了关键见解。

添加图片注释，不超过 140 字（可选）

见解和建议：ChatGPT 在每个可视化部分之后提供了关键见解，并得出了明确且可操作的建议。

添加图片注释，不超过 140 字（可选）

2. 准确度（4/4）所有数据清理、可视化和分析步骤均由 Python 代码支持。在手动运行代码并将其结果与 Claude 和 Gemini 的结果进行比较后，ChatGPT 的输出是准确的。它的见解也与分析结果非常吻合。 3. 可视化（3/4） ChatGPT 创建的可视化图表标记清晰，图表类型恰当，并附有见解。您还可以轻松下载图表以用于文档和演示文稿。我唯一的抱怨是，虽然一些简单的可视化是交互式的（允许您将鼠标悬停在它们上面以查看值），但大多数都不是。因此，我扣了一分，以表示有待改进 :)

添加图片注释，不超过 140 字（可选）

4. 洞察力（4/4）如上面的截图所示，ChatGPT 提供了超过 4 条见解，并给出了具体、可操作的建议，在此获得了满分。 5. 可重复性和文档（3/3） ChatGPT 的报告结构直观，每个部分后面都附有代码片段，以确保可重复性。因此，此处授予全部荣誉。

添加图片注释，不超过 140 字（可选）

克劳德 3.5 十四行诗总得分：16/20 1. 完整性（4/5） Claude 的报告比 ChatGPT 短得多，主要是因为它没有显示可视化，而只显示文本报告。但它仍然涵盖了 EDA 的大部分关键组件。

数据检查：虽然可以点击上传的 CSV 文件，但预览只是文本格式，不太容易理解。Claude 也没有提供任何数据结构的文本描述。因此，我认为这一步并不完整。

添加图片注释，不超过 140 字（可选）

数据清理：Claude 的报告以“数据质量和清理”部分开始，包括删除缺失值、创建新列和清理分类值等步骤。您可以在附加的代码片段中清楚地看到这些步骤。与选择用中位数估算缺失收入值的 ChatGPT 不同，Claude 只是删除了有缺失值的行。考虑到只有 24 行，我认为这两种方法都是合理的。

添加图片注释，不超过 140 字（可选）

单变量分析：Claude 在其 Python 脚本中包含了单变量分析代码，并在其报告中混合了见解。

添加图片注释，不超过 140 字（可选）

双变量和多变量分析：同样，在下面的屏幕截图中，您可以看到 Claude 从双变量分析和相应的代码中得出的发现。

添加图片注释，不超过 140 字（可选）

见解和建议：列出见解之后，克劳德提供了一套全面的可行建议以及合理的后续步骤。

添加图片注释，不超过 140 字（可选）

2. 准确度（3/4）我查看了 Claude 生成的 Python 脚本并手动运行了它。虽然大部分代码都是准确的，但由于包含非数字列，相关矩阵部分出现了错误。我与 Claude 分享了此错误的屏幕截图，它通过df.select_dtypes(include=[np.number])仅添加数字列过滤器来纠正此问题。这个小错误导致扣一分。

添加图片注释，不超过 140 字（可选）

3. 可视化（2/4）与 ChatGPT 和 Gemini 不同，Claude 并不直接显示可视化效果，而是提供 Python 脚本。这是因为它无法在 UI 中执行 Python 代码。但它确实支持运行 JavaScript 和其他一些编程语言。我要求它显示可视化效果，它编写了带有图表预览的 JavaScript 代码——但脚本中的硬编码数字与数据集不一致，导致混乱…… 我手动运行了 Python 脚本，虽然它们生成了准确的可视化效果（除了上面的相关矩阵错误），但与其他工具相比，整体体验不太友好。因此，我因为这个限制扣除了两分。

添加图片注释，不超过 140 字（可选）

4. 洞察力（4/4）尽管缺乏可视化，Claude 的建议仍然富有洞察力且可操作，涵盖产品重点战略、活动优化、高价值客户保留和交叉销售机会等领域。洞察力和建议的质量获得了满分。 5. 可重复性和文档（3/3） Claude 的回复结构清晰，要点按照数据清理、见解、建议和后续步骤的顺序列出。底层 Python 代码可通过右侧的“Artifact”窗口访问。Artifact可轻松查看和迭代代码，将其与左侧的文本报告进行协调，甚至发布代码与他人共享。

添加图片注释，不超过 140 字（可选）

双子座高级版总得分：19/20 1. 完整性（5/5） Gemini 提供了详尽的 EDA，全面覆盖了所有关键组件。

数据检查：您可以在 Gemini 中打开 CSV 文件来仔细查看数据集（尽管不像 ChatGPT 那样具有交互性）。Gemini 还包含一段描述数据结构的段落。

添加图片注释，不超过 140 字（可选）

数据清理：与 Claude 类似，Gemini 纠正了数据类型，计算了新列（例如age和enrollment period），并删除了缺少值的行。

添加图片注释，不超过 140 字（可选）

单变量分析：Gemini 进行了详尽的单变量分析，并打印了 10 多个直方图和箱线图来探索单个变量。

添加图片注释，不超过 140 字（可选）

双变量和多变量分析：Gemini 采取了非常彻底的方法，在多个网格中生成了超过 50 个可视化效果，探索了几乎所有可能的变量对。

添加图片注释，不超过 140 字（可选）

见解和建议：在展示所有可视化效果之后，Gemini 提供了清晰的见解，然后提供了结构良好的建议。

添加图片注释，不超过 140 字（可选）

2. 准确度（4/4） Gemini 附带了清晰易懂的 Python 代码。查看并运行代码后，一切都正常。其洞察也与可视化相符，准确性获得满分。 3. 可视化（3/4）与使用经典 Python 可视化包的 ChatGPT 和 Claude 不同matplotlib，seabornGemini 使用altairJSON 格式保存图表，并将其嵌入聊天机器人 UI。这使得图表具有高度交互性。然而，如上图所示，其相似图表数量众多（超过 50 张），再加上标签重叠，使得数据难以有效解读。因此，我在可视化方面扣了一分。 4. 洞察力（4/4） Gemini 总结了主要发现，并在“产品策略”和“客户细分和营销”两个主要类别下提供了可行的建议。这些见解切实可行，与数据高度吻合，在洞察力方面获得了满分。

添加图片注释，不超过 140 字（可选）

5. 可重复性和文档（3/3）尽管由于可视化数量众多，Gemini 的响应比其他模型更长，但其报告结构良好，并且附带的 Python 代码确保可以轻松重现分析。这为其重现性赢得了满分。最终结果

添加图片注释，不超过 140 字（可选）

获胜者是......🥁 ChatGPT-4o和Gemini Advanced — — 我们打平了！三个模型的最终得分非常接近，甚至排名第三的 Claude 3.5 Sonnet 也获得了 20 分中的 16 分，占总分的 80%。值得注意的是，我只用一个提示就进行了这次比赛！在数据专业人员的指导下，这些工具的功能可以得到显著增强。

ChatGPT-4o和Gemini Advanced：两种模型各只丢了一分。ChatGPT-4o 因其可视化的交互性有限而被扣分，而 Gemini Advanced 则因其可视化的混乱性质而丢了一分。
Claude 3.5 Sonnet：Claude 的主要缺点是无法运行 Python 代码并直接显示可视化效果，并且 Python 脚本中有一个小错误。但是，由于它能够运行 JavaScript 等其他编程语言，我们可能很快就会看到它支持 Python 可视化效果！

其他注意事项选择 EDA 助手时，还需要考虑以下几点：

选择性 EDA 与详尽性 EDA：有趣的是，ChatGPT 和 Claude 倾向于专注于他们认为重要的选定列，从而提供更易理解、更集中的报告；另一方面，Gemini 提供详尽的分析，生成各种图表。每种方法都有其优缺点：选择性分析更容易理解，而详尽分析提供全面的覆盖范围，这可能会让人不知所措。所以，你喜欢哪种风格取决于你。
输出稳定性：我在每个工具中使用相同的数据集运行了相同的提示三次，这样我的评估就不会偏向于单次运行——考虑到 LLM 的性质，它们的响应每次都会发生变化。这也让我注意到它们不同的输出稳定性水平。Gemini 显示出最高的方差，每次运行的报告结构和内容都不同。它在三次运行中的一次生成了相关矩阵热图，在另一次运行中，它甚至进行了 K 均值聚类。与此同时，ChatGPT 和 Claude 更加一致，尽管他们在可视化和见解的选择上也有所不同。因此，如果您依赖 LLM 来生成见解，最好多次运行相同的提示以确保获得最佳输出（当然，您可以随时跟进并明确要求提供任何缺失的内容）……
响应速度：在这三者中，ChatGPT-4o 是最快的——它几乎立即开始响应。Claude 稍慢一些，大约需要 10 到 20 秒才能启动。Gemini 的启动和完成时间最长，因为它生成的图表数量巨大，但仍低于 3 分钟。

结论如果您正在寻找快速、清晰的 EDA 报告，ChatGPT-4o是您的不二之选。但如果您更喜欢对数据集进行详尽的探索，并且可以容忍不太精致的可视化，Gemini Advanced可能是您的更好选择。

感谢关注雲闪世界。（Aws解决方案架构师vs开发人员&GCP解决方案架构师vs开发人员）