关于AI数据分析可行性的初步评估

news2025/3/9 10:19:35

一、结论:可在部分环节嵌入,无法直接处理大量数据

1.非本地部署的AI应用处理非机密文件没问题,内部文件要注意数据安全风险。

2.AI(指高规格大模型)十分适合探索性研究分析,对复杂报告无法全流程执行,主要应用于快速搭建分析框架辅助人工分析,例如:提供背景需求→生成分析大纲(人工修订)→根据大纲统计各维度数据(人工执行:提供统计模板→生成统计脚本/AI执行:直接统计源数据需注意验证)→数据解读(人工修订)。

3.AI不完全适合固定模版的统计分析,对复杂模板的生成稳定性不足,大模型对同一指令的多次输出都会有偏差,在复杂的清洗环节有一定可行性,无法全流程执行。对简单模板的生成算力消耗高、性价比对于传统自动化程序而言不高,但在非本地化部署、非自主开发的情况下,某些场景使用各大模型商的产品或许能达到不错的效果。

4.目前体验有潜力的适合非技术人员使用的工具是WPS AI,对标OFFICE 365+Copilot?非广告,先说结论:难以适应实战(= 。=),优点是集成对WPS接口的调用,可直接操作文档和表格,相比各网页版大模型上传EXCEL后进行问答分析,或输出公式、脚本,省去了间接学习操作和复制粘贴的步骤。缺点是还比较弱智。

5.大模型分析(含清洗、统计、解读)表格数据主要有三种模式,一是提供方法教学(模拟专家,只教不做),自己再去用别的工具来实现(比如教你用Excel和Python)。二是用大模型的原生能力(直接做),本质是把数据降维,类似转换文本向量,相当于长文档总结,但因大模型幻觉、未在垂直领域微调、源数据未清洗等,不能保障分析质量,且对用户的prompt工程能力要求也较高。三是自动执行脚本(Agent,集成其他工具的工作流),类似WPS AI,理解用户需求后生成清洗、统计和可视化脚本,在底层调用插件(解释器)执行代码,再将结果返回页面展示,好处是数据清洗和统计是准确的,大模型主要负责设计分析思路和对统计结果进行解读。个人可按情况选用,企业级开发应按Agent方向。
在这里插入图片描述

二、数据分析流程替代率预估

分析大纲设计(30%至60%,AI提供分析思路、制定报告大纲,但初级分析师不主动思考可能会过于依赖AI)

→采集(3%至10%,绝大部分结构化数据还是需要定制爬虫程序,但如“近十年XX产业重点企业清单”这类需求可用AI联网搜索,或者是去收集需要爬的目标网站)

→清洗(5%至30%,规则较模糊、传统程序处理精度不高的用AI效果会好一点,例如:对大段口水话描述文本进行分类、提取)

→统计(10%至30%,适合非技术人员使用,对具备技术基础的分析人员而言,清洗质量高的数据用python统计有显著的速度优势)

→分析解读(10%至30%,对已经统计好的数据进行解读,表述上优于初级分析师,对源数据直接分析也可提供总结框架)

→各类交付形式(10%至30%,稳定输出有难度,还需人力修正,若需求方对格式模板无严格要求就比较好用)

三、主要难题

1.基于数据安全,理论上不应将内部业务数据上传给非本地AI进行分析。
解决方向:(非要上传的话)脱敏用密文表示分析对象,上传AI分析输出后再转换回来?更复杂的体系,如结合隐私计算有一定技术门槛。或勇敢相信各大模型商的安全协议?

2.个人现有条件下本地部署大模型性能表现不及官方API。
解决方向:emmm调优?分析师不必在这上面硬磕,交给研发团队吧,让老板买服务器吧。

3.简单的模拟数据处理效果尚可,暂无法适应复杂的真实分析任务,审核成本高,计算精度、输出稳定性、流程可验证性不足,长期使用可能哪天出错了也发现不了,因为AI最擅长的就是一本正经的胡说八道。把AI比作实习生,它可能要很久才能转正(随着技术进步也可能很快),总是不能放心直接使用它输出的东西。
解决方向:长期试验调优。

四、WPS AI数据分析体验案例

AI表格助手:理解需求后通过自动生成执行js宏来直接操作表格,更方便快捷,适合清洗和格式整理。

AI数据分析:理解需求后通过自动生成执行python来间接操作表格,衔接不够流畅,只能做清洗和统计,不利于格式整理。
在这里插入图片描述

上述功能均需拆解分析流程,通过多轮指令逐步引导AI执行才能有较好效果,“一句话指令”分析不够智能。指定细节和等待响应的时间成本较高,对精通Excel和Python的分析师而言比较鸡肋,但这种模式还算是未来可期吧。测试示例如下:
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2312085.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

编程考古-Borland历史:《.EXE Interview》对Anders Hejlsberg关于Delphi的采访内容(中)

为了纪念Delphi在2002年2月14日发布的25周年(2020.2.12),这里有一段由.EXE杂志编辑Will Watts于1995年对Delphi首席架构师Anders Hejlsberg进行的采访记录。在这次采访中,Anders讨论了Delphi的设计与发展,以及即将到来的针对Windows 95的32位版本。 Q. 编译器引擎本身是用…

Manus+Ollama实现本地大模型部署和应用测试

这几天Manus即DeepSeek后又突然火爆,我也进行了跟踪测试,特记录一下分享给大家,目前来看,Manus的确是一个可以进行任务分解的自动化解决方案,将其他AI需要多次繁杂的迭代对话做了较大的改进,相当于用户抛出…

【Python 数据结构 9.树】

我装作漠视一切,其实我在乎的太多,但我知道抓得越紧越容易失去 —— 25.3.6 一、树的基本概念 1.树的定义 树是n个结点的有限集合,n0时为空树。当n大于0的时候,满足如下两个条件: ① 有且仅有一个特定的结点&#xff…

LLM 学习(二 完结 Multi-Head Attention、Encoder、Decoder)

文章目录 LLM 学习(二 完结 Multi-Head Attention、Encoder、Decoder)Self-Attention (自注意力机制)结构多头注意力 EncoderAdd & Norm 层Feed Forward 层 EncoderDecoder的第一个Multi-Head AttentionMasked 操作Teacher Fo…

计算机网络软考

1.物理层 1.两个主机之间发送数据的过程 自上而下的封装数据,自下而上的解封装数据,实现数据的传输 2.数据、信号、码元 码元就是数字通信里用来表示信息的基本信号单元。比如在二进制中,用高电平代表 “1”、低电平代表 “0”&#xff0c…

VBA 数据库同一表的当前行与其他行的主键重复判断实现方案

目的,判断是否主键重复,不重复则登录新数据,重复则不登录。 定义类型: DataRecord   tableName 表名   rowNumber 行号   columnName 列名   data 数据 想要实现的代码逻辑如下: 模拟数据库的登录过程。假设…

2025最新群智能优化算法:山羊优化算法(Goat Optimization Algorithm, GOA)求解23个经典函数测试集,MATLAB

一、山羊优化算法 山羊优化算法(Goat Optimization Algorithm, GOA)是2025年提出的一种新型生物启发式元启发式算法,灵感来源于山羊在恶劣和资源有限环境中的适应性行为。该算法旨在通过模拟山羊的觅食策略、移动模式和躲避寄生虫的能力&…

网络基础(一)【网络发展/认识协议/网络 VS 系统/以太网通信原理/重谈协议/网络中的地址管理】

网络基础(一) 1. 网络的发展2. 认识协议3. 网络 VS 系统4. 以太网通信原理5. 重谈协议6. 网络中的地址管理 1. 网络的发展 最开始时,计算机之间相互独立。 但是为了协作完成一些任务,就产生了计算机之间相互通讯的需求&#xff0c…

学习threejs,Animation、Core、CustomBlendingEquation、Renderer常量汇总

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️Animation常量汇总1.1.1 循…

常用无功功率算法的C语言实现(二)

0 前言 尽管数字延迟法和积分移相法在不间断采样的无功功率计算中得到了广泛应用,但它们仍存在一些固有缺陷。 对于数字延迟法而言,其需要额外存储至少1/4周期的采样点,在高采样频率的场景下,这对存储资源的需求不可忽视。而积分移相法虽然避免了额外的存储开销,但为了抑制…

易基因特异性R-loop检测整体研究方案

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 01.技术简述 R-loop是由DNA:RNA 杂交体和被置换的单链DNA组成的三链核酸结构,广泛参与基因转录、表观遗传调控及DNA修复等关键生物学过程。异常的R-loop积累会导致基因组不稳…

装饰器模式--RequestWrapper、请求流request无法被重复读取

目录 前言一、场景二、原因分析三、解决四、更多 前言 曾经遇见这么一段代码,能看出来是把request又重新包装了一下,核心信息都不会改变 后面了解到这叫 装饰器模式(Decorator Pattern) :也称为包装模式(Wrapper Pat…

STM32-I2C通信协议

目录 一:什么是I2C通信协议 二:I2C通信 三:I2C时序图 四:面试常见问题 一:什么是I2C通信协议 I2C(Inter-Integrated Circuit)协议是一种串口通信协议,用于在集成电路之间传输数…

Unity开发——CanvasGroup组件介绍和应用

CanvasGroup是Unity中用于控制UI的透明度、交互性和渲染顺序的组件。 一、常用属性的解释 1、alpha:控制UI的透明度 类型:float,0.0 ~1.0, 其中 0.0 完全透明,1.0 完全不透明。 通过调整alpha值可以实现UI的淡入淡…

DeepSeek开启AI办公新模式,WPS/Office集成DeepSeek-R1本地大模型!

从央视到地方媒体,已有多家媒体机构推出AI主播,最近杭州文化广播电视集团的《杭州新闻联播》节目,使用AI主持人进行新闻播报,且做到了0失误率,可见AI正在逐渐取代部分行业和一些重复性的工作,这一现象引发很…

C语言100天练习题【记录本】

C语言经典100题(手把手 编程) 可以在哔哩哔哩找到(url:C语言经典100题(手把手 编程)_哔哩哔哩_bilibili) 已解决的天数:一,二,五,六,八&#xf…

DeepSeek【部署 03】客户端应用ChatBox、AnythingLLM及OpenWebUI部署使用详细步骤

DeepSeek客户端应用 1.ChatBox2.AnythingLLM3.OpenWebUI4.总结 客户端软件提供可视化的模型及参数配置,人性化的对话窗口及文件上传功能,大大降低了大模型的使用门槛。 1.ChatBox Chatbox AI 是一款 AI 客户端应用和智能助手,支持众多先进的…

Python图形编程之EasyGUI: msgbox的用法

1 EasyGUI: msgbox的用法 1.1 基础用法:只显示信息 示例代码: from easygui import * msgbox("Hello, world!")效果: 1.2 扩展用法1:设置标题 示例代码: from easygui import * msgbox("Hello, …

中性点直接接地电网接地故障Simulink仿真

1.模型简介 本仿真模型基于MATLAB/Simulink(版本MATLAB 2017Ra)软件。建议采用matlab2017 Ra及以上版本打开。(若需要其他版本可联系代为转换) 2.系统仿真图: 3.中性点直接接地电网接地故障基本概念(本仿…

解决Jenkins默认终止Shell产生服务进程的问题

1、Windows环境 Jenkins进行Build steps的使用Execute Windows batch command启动微服务(Jar包),Jenkins会默认终止Shell产生的服务进程,而在命令行能够正常运行的服务进程。 1.1 使用命令行启动服务是正常 使用命令行执行 正常…