关于AI数据分析可行性的初步评估

news2025/4/20 5:25:32

一、结论：可在部分环节嵌入，无法直接处理大量数据

1.非本地部署的AI应用处理非机密文件没问题，内部文件要注意数据安全风险。

2.AI（指高规格大模型）十分适合探索性研究分析，对复杂报告无法全流程执行，主要应用于快速搭建分析框架辅助人工分析，例如：提供背景需求→生成分析大纲（人工修订）→根据大纲统计各维度数据（人工执行：提供统计模板→生成统计脚本/AI执行：直接统计源数据需注意验证）→数据解读（人工修订）。

3.AI不完全适合固定模版的统计分析，对复杂模板的生成稳定性不足，大模型对同一指令的多次输出都会有偏差，在复杂的清洗环节有一定可行性，无法全流程执行。对简单模板的生成算力消耗高、性价比对于传统自动化程序而言不高，但在非本地化部署、非自主开发的情况下，某些场景使用各大模型商的产品或许能达到不错的效果。

4.目前体验有潜力的适合非技术人员使用的工具是WPS AI，对标OFFICE 365+Copilot？非广告，先说结论：难以适应实战（= 。=），优点是集成对WPS接口的调用，可直接操作文档和表格，相比各网页版大模型上传EXCEL后进行问答分析，或输出公式、脚本，省去了间接学习操作和复制粘贴的步骤。缺点是还比较弱智。

5.大模型分析（含清洗、统计、解读）表格数据主要有三种模式，一是提供方法教学（模拟专家，只教不做），自己再去用别的工具来实现（比如教你用Excel和Python）。二是用大模型的原生能力（直接做），本质是把数据降维，类似转换文本向量，相当于长文档总结，但因大模型幻觉、未在垂直领域微调、源数据未清洗等，不能保障分析质量，且对用户的prompt工程能力要求也较高。三是自动执行脚本（Agent，集成其他工具的工作流），类似WPS AI，理解用户需求后生成清洗、统计和可视化脚本，在底层调用插件（解释器）执行代码，再将结果返回页面展示，好处是数据清洗和统计是准确的，大模型主要负责设计分析思路和对统计结果进行解读。个人可按情况选用，企业级开发应按Agent方向。
在这里插入图片描述

二、数据分析流程替代率预估

分析大纲设计（30%至60%，AI提供分析思路、制定报告大纲，但初级分析师不主动思考可能会过于依赖AI）

→采集（3%至10%，绝大部分结构化数据还是需要定制爬虫程序，但如“近十年XX产业重点企业清单”这类需求可用AI联网搜索，或者是去收集需要爬的目标网站）

→清洗（5%至30%，规则较模糊、传统程序处理精度不高的用AI效果会好一点，例如：对大段口水话描述文本进行分类、提取）

→统计（10%至30%，适合非技术人员使用，对具备技术基础的分析人员而言，清洗质量高的数据用python统计有显著的速度优势）

→分析解读（10%至30%，对已经统计好的数据进行解读，表述上优于初级分析师，对源数据直接分析也可提供总结框架）

→各类交付形式（10%至30%，稳定输出有难度，还需人力修正，若需求方对格式模板无严格要求就比较好用）

三、主要难题

1.基于数据安全，理论上不应将内部业务数据上传给非本地AI进行分析。
解决方向：（非要上传的话）脱敏用密文表示分析对象，上传AI分析输出后再转换回来？更复杂的体系，如结合隐私计算有一定技术门槛。或勇敢相信各大模型商的安全协议？

2.个人现有条件下本地部署大模型性能表现不及官方API。
解决方向：emmm调优？分析师不必在这上面硬磕，交给研发团队吧，让老板买服务器吧。

3.简单的模拟数据处理效果尚可，暂无法适应复杂的真实分析任务，审核成本高，计算精度、输出稳定性、流程可验证性不足，长期使用可能哪天出错了也发现不了，因为AI最擅长的就是一本正经的胡说八道。把AI比作实习生，它可能要很久才能转正（随着技术进步也可能很快），总是不能放心直接使用它输出的东西。
解决方向：长期试验调优。