2023爱分析 · 数据科学与机器学习平台厂商全景报告 | 爱分析报告

news2024/11/24 13:49:24

报告编委

黄勇

爱分析合伙人&首席分析师

孟晨静

爱分析分析师  

目录

1. 研究范围定义

2. 厂商全景地图

3. 市场分析与厂商评估

4. 入选厂商列表

1.    研究范围定义

研究范围

经济新常态下,如何对海量数据进行分析挖掘以支撑敏捷决策、适应市场的快速变化,正成为企业数字化转型的关键。机器学习算法能识别数据模型,基于规律完成学习、推理和决策,正广泛的应用在金融、消费品与零售、制造业、能源业、政府与公共服务等行业的各种业务场景中,如精准营销、智能风控、产品研发、设备监管、智能排产、流程优化等。企业传统的机器学习虽然能有效支撑业务决策,但由于严重依赖数据科学家,其技术门槛高、建模周期长的特点正成为企业实现数据驱动的阻碍。

数据科学与机器学习平台是指覆盖数据采集、数据探索、数据处理、特征工程、模型构建、模型训练、模型部署与发布、模型管理与运营等建模全流程的平台,提供一站式建模服务,能显著提升建模效率、降低建模门槛。数据科学与机器学习平台能支持并赋能企业各业务场景实现智能决策,帮助企业打造数据驱动型组织。

本报告对数据科学与机器学习平台市场进行重点研究,面向金融、消费品与零售、制造与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商的数据部门、业务部门负责人,通过对业务场景的需求定义和代表厂商的能力评估,为企业数据科学与机器学习平台的建设规划、厂商选型提供参考。

厂商入选标准

本次入选报告的厂商需同时符合以下条件:

  • 厂商的产品服务满足市场分析的厂商能力要求;
  • 近一年厂商具备一定数量以上的付费客户(参考第3章市场分析部分);
  • 近一年厂商在特定市场的收入达到指标要求(参考第3章市场分析部分)。 

2.    厂商全景地图

爱分析基于对甲方企业和典型厂商的调研以及桌面研究,遴选出在数据科学与机器学习市场中具备成熟解决方案和落地能力的入选厂商。

3.    市场分析与厂商评估    

爱分析对本次数据科学与机器学习平台项目的市场分析如下。同时,针对参与此次报告的部分代表厂商,爱分析撰写了厂商能力评估。

数据科学与机器学习平台

市场定义:

数据科学与机器学习平台是指覆盖数据采集、数据探索、数据处理、特征工程、模型构建、模型训练、模型部署与发布、模型管理与运营等建模全流程的平台,提供一站式建模服务,能显著提升建模效率、降低建模门槛。

甲方终端用户:

金融、消费品与零售、制造与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商的数据科学家、风控建模人员、营销建模人员、业务分析人员、模型应用人员

甲方核心需求:

企业对机器学习的应用越来越广泛。一方面,数据量的激增、算法的突破以及CPU、GPU、DPU等多种算力技术的发展,为以机器学习为基础的数据挖掘、计算机视觉、自然语言处理、生物特征识别等技术在企业的应用奠定了技术基础;另一方面,市场环境的快速变化对企业决策敏捷性要求增强,不仅推动企业将机器学习模型应用到营销、广告、风控、生产等更多业务场景,也对模型精度、模型开发敏捷性以及模型应用广度提出更高要求。然而,机器学习技术门槛高、建模周期长,难以满足企业通过基于机器学习模型提升经营效率的需求。

数据科学与机器学习平台具备工具丰富集成、建模效率提升以及模型资产复用等特点,能充分满足企业对智能应用的需求,正成为企业智能化基础设施的必要构成。

不同企业对数据科学与机器学习平台的需求不同,其差异取决于企业自身机器学习建模能力和对算法的需求。

1、对于金融、消费品与零售、制造与能源、政府与公共服务等行业企业

除大型金融机构外,传统企业普遍不具备机器学习建模能力。大型金融机构数据科学团队人才完善,对机器学习算法的探索和应用更前沿,如将机器学习模型应用在精准营销、智能风控、产品研发、客户体验管理等多个场景中。但更多的传统企业面临IT人才缺失、尚未开始智能化应用或处于局部试验的初期阶段。传统企业对数据科学与机器学习平台的需求主要体现在以下四个方面:

1)降低机器学习建模门槛,使非专业建模人员也能掌握机器学习建模技术,赋能业务。传统机器学习建模技术门槛高,需要组建专门的数据科学团队,包括数据工程师、数据科学家、开发工程师等,人力成本高昂。传统企业希望能降低机器学习建模门槛,如平台能实现数据自动处理、自动特征工程、图形化建模或自动建模等功能,使非专业的业务人员也能快速开展建模工作,广泛赋能业务,实现普惠AI。

2)提供定制化算法、模型部署和运营服务,快速创造业务价值。传统行业多具备行业特性,行业垂直场景下的模型开发耗时耗力,而且传统企业对AI智能应用的探索尚处于初期,更倾向“小步快跑”,因此购买定制化算法能节约人力、实现快速产出以及验证AI智能应用效果。企业需要厂商提供定制化算法服务、模型在硬件平台和操作系统平台的部署服务以及模型运营服务。

3)缩短建模周期,提高业务敏捷响应度。以金融行业为例,金融企业的产品、服务、风控模型均需随着客户行为改变而持续迭代更新。但传统的机器学习建模周期长达数月,无法敏捷响应业务需求。企业需要数据科学与机器学习平台内置丰富的行业算法、模型模板、案例等,供建模人员直接调用,加速模型训练;或是提供一键部署功能,实现模型在生产环境的快速部署。

4)提供咨询服务,提升模型质量。对于具备一定机器学习建模能力的金融机构,需要厂商提供建模咨询支持,协助企业完成数据准备、模型训练、模型部署等环节,提升模型质量。

2、对于人工智能软件与服务提供商

对于中小企业或是刚开始试点智能应用的企业,相较于数据科学与机器学习平台需要的组织、人才、流程上的变革与支持,采购适用于特定场景的AI智能应用是性价比更高、更迅捷的解决方案。人工智能软件与服务商如算法服务商、ISV即面向此类需求,提供模型和智能应用服务。以算法服务商为例,尽管具备专业的数据科学团队,但中小型企业的算法需求多样且个性化,如虽然都是AI视觉算法,智慧城市、智慧工业下的应用场景如安全帽识别、产品瑕疵识别的模型却截然不同,需要基于业务数据集、业务思路分别进行训练。这使得算法服务商常常面临严格的算法交付周期和算法精度要求。具体而言,人工智能软件与服务提供商对数据科学与机器学习平台的核心需求主要体现在以下四个方面:

1)提高机器学习建模效率。软件开发公司、算法提供商面临严格的交付周期,但在传统AI应用开发方式下,数据接入、数据处理、模型训练等一系列建模流程都需要人工操作,建模周期长。其中数据接入环节因开源算法工具对不同类型的数据兼容性较差,需人工将原始数据转化为开源算法所支持的数据类型;数据标注环节往往通过人工完成,并且部分领域的标注过程严重依赖专业知识,整体数据准备将耗费数周时间;模型部署中对模型的集成、监控和更新需要大量的调研和实施工作,单个模型部署到上线需要3-5个月。企业需要完善的数据科学工具和建模功能,支持实现数据采集、数据准备、特征工程、模型训练、模型部署等建模全流程,提高建模效率。

2)满足数据科学家复杂场景建模需求。平台需支持数据科学家在复杂场景下进行灵活建模,如提供丰富的算法,预置主流机器学习框架,支持NoteBook建模方式,以及支持数据科学家在模型训练中手动调参等。

3)对模型开发资源和计算资源进行统一管理,支持计算资源弹性扩容,加速建模计算性能。传统开发模式中重复建设严重,如各项目数据准备、特征工程、模型训练等各自研发,造成模型开发管理资源、计算资源浪费,难以适应大规模智能应用开发需求。另外,机器学习模型训练过程中耗费大量计算资源,而一旦结束训练,计算资源又处于闲置状态。企业需要实现计算资源弹性扩容,满足模型开发不同阶段的计算需求。

4)为多角色的数据科学团队提供协作平台。机器学习建模过程需要数据工程师、数据科学家、数据分析师等多角色共同协作完成,存在反复沟通、协作流程不明确等问题,带来重复性工作。

厂商能力要求:

为满足金融、消费品与零售、制造与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商等甲方客户的核心需求,厂商需具备以下能力:

1、厂商应具备完善的机器学习模型开发功能,提供包括数据采集、数据准备、特征工程、模型训练、模型部署等功能在内的一站式端到端数据科学与机器学习平台。

1)数据采集方面,平台应具备整合多源异构数据的能力,支持实时接入结构化数据和非结构化数据(如表格、图片、时间序列数据、语音和文本等),并具备基本的ETL能力、数据实时更新和同步能力。

2)数据准备方面,平台应提供丰富的数据清洗、数据探索工具。其中数据清洗环节,应能支持进行数据融合、数据缺失处理、数据分类、数据标注、数据异常处理、数据平滑以及整合非结构化数据和结构化数据等数据清洗工作,减少人工干预。数据探索环节,厂商需具备单变量和多变量统计、聚类分析、地理定位图、相似度度量等分析能力。

3)模型训练环节,针对非专业建模人员,平台应提供简便易用的建模工具,降低机器学习建模门槛。如平台可通过建模全流程可视化降低用户使用门槛,尤其在模型构建环节,应支持以拖拉拽的方式完成建模。针对专业建模人员,平台应具备较高的灵活性和开放性,提供主流开源算法和建模工具。如为专业的数据科学家提供自由灵活的NoteBook建模方式,并预置主流机器学习框架R、TensorFlow、Pytorch、Spark等,以及丰富的机器学习算法。

4)模型部署环节,平台应支持模型一键部署,使建模人员可快速将模型从开发环境部署到生产环境中,并提供API接口供业务人员调用。此外,平台还应提供模型版本管理和模型监控功能,实时监测模型性能,保证模型质量。

5)资源管理方面,平台需能对CPU、GPU资源进行管理和整合,以容器化方式对算力虚拟化,实现弹性扩容、性能加速等功能,且不同部门和项目之间可共享集群资源。

6)平台应具备AutoML能力,包括提供数据自动清洗、智能标注、自动特征工程和自动模型训练等功能,提高建模效率。其中特征工程环节,数据科学与机器学习平台应能实现自动化特征构建、特征选择、特征降维和特征编码;模型训练环节,平台应支持自动化模型选择、自动化调参、自动化超参数搜索、模型自动验证等,减少模型训练时间成本和人力成本。

7)此外,平台还应支持多角色的数据科学团队协作,协同数据工程师、数据科学家、业务人员等不同角色在建模工作流程中的模型注解、讨论、答疑、评论等,使建模过程可追溯、模型可复用,减少重复性工作。

2、厂商需具备垂直行业Know-how能力,为企业提供咨询和实施部署服务。厂商的专业服务能力体现在三个方面:一方面,基于丰富的垂直行业知识和经验积累,厂商能为用户提供行业场景相关的算法、模型模板,或是将行业经验与模型算法相结合,形成诸如精准营销、智能推荐、反欺诈、设备预警等智能业务模型,供用户直接调用;另一方面,厂商能提供建模咨询服务,通过数据科学专家团队规划有效的模型应用到特定业务的运营方案,协助用户完成数据准备、模型训练、模型部署、模型运营等工作,以及将企业既有的数据集经验、特征工程经验、模型经验等提炼形成数字资产,内嵌到平台中。此外,厂商应具备较强的实施部署能力,包括提供定制化模型算法在硬件平台和操作系统平台的部署服务、以及数据科学与机器学习平台的部署服务。

入选标准:

1.符合市场定义中的厂商能力要求;

2.2021Q3至2022Q2该市场付费客户数量≥10个;

3.2021Q3至2022Q2该市场合同收入≥1000万元;

代表厂商评估:

百分点科技

厂商介绍:

北京百分点科技集团股份有限公司(简称“百分点科技”)成立于2009年,是领先的数据科学基础平台及数据智能应用提供商,围绕智慧政务、公共安全、数字产业三大业务板块,为国内外企业和政府客户提供端到端数智化解决方案。

产品服务介绍:

百分点数据科学基础平台围绕数据价值增值过程,提供数据融合治理、数据建模与知识生产、知识应用三大工具集,覆盖从数据集成、数据治理、数据建模、数据分析到数据服务的完整数据价值链条。其中数据建模环节,内置机器学习平台,能一站式、可视化地实现数据准备、特征工程、模型开发与训练、模型部署与发布、模型管理等机器学习建模全流程,帮助企业快速构建数据分析、语义分析、语音分析以及视觉分析应用。

厂商评估: 

百分点机器学习平台能实现一站式、可视化机器学习建模全流程管理,具备高效的数据预处理、丰富的模型服务能力。此外,百分点科技具备完善的数据建模上下游数据科学工具,能帮助用户实现“数据——知识——应用”闭环,并在智慧公安、应急管理、客户体验管理等领域沉淀丰富行业经验,能为用户提供端到端解决方案。

  • 具备便捷、高效的数据预处理能力。百分点机器学习平台封装了大量预处理算法组件支持对数据的提取、清洗、转化、组合、去重等多种处理操作,尤其分布式数据处理组件,可大幅提升数据预处理速度。此外,百分点机器学习平台还提供文本标注、语音标注、图像标注、视频标注四种标注类型,支持多模态信息抽取和融合。
  • 建模全流程可视化,显著降低用户使用门槛。百分点机器学习平台提供从数据接入、数据预处理、特征工程、模型训练、模型评估、模型管理及发布的全流程可视化操作。其中在建模环节,机器学习平台封装大量机器学习算法组件并支持可视化参数配置,用户可零代码操作,通过简单拖拽和连线对算法组件进行组合,进而构建复杂的机器学习框架,以及通过调节、配置参数完成模型创建。在模型训练及评估环节,平台支持模型评估指标以图、表的形式展现,用户可动态查看评估指标,实时掌控模型优度情况。在模型发布后,支持对发布上线的任务进行可视化实时监控,帮助建模人员轻松完成智能监控、定时任务调度。
  • 提供丰富的模型服务,简化模型工程化事项。在模型发布方面,提供一键部署功能,自动分配集群资源,实现大数据环境下机器学习模型的稳定运行。模型管理方面,支持模型详细信息查看、多版本对比以及模型复用。此外,百分点科技还提供模型的下发、上报、订阅及评论功能,支持模型的共享和评价,如在全国公安机关警务督察信息研判系统案例中,系统可以将模型下发到省级、市级警务督察部门,并且支持基层干警对模型进行修正或评价,以实现模型快速分享和反馈。
  • 具备完善的数据建模上下游数据科学工具,为用户实现“数据——知识——应用”闭环。百分点数据科学基础平台中,数据建模的上游工具包括数据集成、数据治理、数据开发等多种数据融合治理工具,能提高用户数据治理能力、沉淀数据资产。下游工具包括知识生产工具,如指标体系、标签体系、知识图谱构建,基于数据建模帮助企业实现知识生产;以及知识应用工具,如商业智能分析、知识融合分析、领域知识管理等,将知识进一步应用到业务场景中,提升企业经营效率。
  • 在智慧公安、应急管理、客户体验管理领域提供端到端解决方案,赋能业务场景应用。百分点科技成立于2009年,在智慧公安、应急管理、客户体验管理等领域沉淀了大量领域know-how和项目经验,能为政府单位用户以及工业、零售快消等行业企业用户提供端到端的解决方案,包括项目咨询、项目开发、项目运营、项目服务等。在服务用户的过程中,百分点科技项目团队包含数据科学家、数据工程师、业务专家等,协同用户一起将数据、模型和工具融入智慧统计、数字营商、经营分析、营销洞察等业务场景中,真正实现业务价值。此外,百分点科技也将行业经验与模型算法相结合,形成销量预测、库存预警、指挥调度、监测预警、风险预测等丰富的智能业务模型,供用户直接调用。

典型客户:

中旅中免、应急管理部、北京市公安局、北京市统计局 

  1. 入选厂商列表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/346554.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Milvus 新版本来啦!首席工程师带你划重点:安全、稳定、升级友好

Milvus 又又又又出新版本了!Milvus 2.2.3 版本是 2.2 系列的小版本升级,尽管是小版本的更新,但是依然干货满满:首先是带来了社区中呼声很高的 coordinator 节点的高可用能力;其次还新增了不停机滚动升级的功能&#xf…

第八章:DNS解析服务器搭建

今天先讲一下DNS的简单配置。 Windows server DNS: 点击工具选择DNS 右击正向查找区域,然后选择新建,如果是根域就可以勾AD储存,不是的话就别勾 名字可以随便 最后点击完成,这是正向解析 右击反向查找区域&#xff0c…

面试浅谈之十大排序算法

面试浅谈之十大排序算法 HELLO,各位博友好,我是阿呆 🙈🙈🙈 这里是面试浅谈系列,收录在专栏面试中 😜😜😜 本系列将记录一些阿呆个人整理的面试题 🏃&…

【QA】[vue/element-ui] 日期输入框的表单验证问题

引入&#xff1a;element-ui的表单验证是使用rules来定义规则&#xff0c;其中日期类型的表单输入框如图所示&#xff0c;一般会使用 format 来设置自己需要的日期格式&#xff1a; <el-form-item label"生日" prop"birthday"><el-col :span&quo…

Java高手速成 | 图说重定向与转发

我们先回顾一下Servlet的工作原理&#xff0c;Servlet的工作原理跟小猪同学食堂就餐的过程很类似。小猪同学点了烤鸡腿&#xff08;要奥尔良风味的&#xff09;&#xff0c;食堂窗口的服务员记下了菜单&#xff0c;想了想后厨的所有厨师&#xff0c;然后将菜单和餐盘交给专门制…

RabbitMQ运行机制

消息的TTL&#xff08;Time To Live&#xff09; 消息的TTL就是消息的存活时间。 • RabbitMQ可以对队列和消息分别设置TTL。 • 对队列设置就是队列没有消费者连着的保留时间&#xff0c;也可以对每一个单独的消息做单独的 设置。超过了这个时间&#xff0c;我们认为这个消息…

什么是溶血症?什么是ABO溶血?溶血检查些什么?

什么是溶血症&#xff0c;什么是ABO溶血&#xff1f;女人是O型血&#xff0c;男人是其他血型的夫妻配对&#xff0c;最担心的是胎儿溶血症。从理论上讲&#xff0c;只要夫妻双方血型不同&#xff0c;母亲一定缺乏胎儿从父亲那里遗传的抗原。当任何人接触到他们缺乏的抗原时&…

Vue+node.js火车票订票系统vscode开发的

该系统的基本功能包括管理员、用户二个角色功能模块。 对于管理员可以使用的功能模块主要有&#xff0c;首页、个人中心&#xff0c;用户管理、系统公告管理、车次管理、车票信息管理、订票信息管理、系统管理等功能。 对于用户所使用的功能模块的操作主要是首页、个人中心、订…

【python百炼成魔】手把手带你学会python数据类型

文章目录前言一. python的基本数据类型1.1 如何查看数据类型1.2 数值数据类型1.2.1 整数类型1.2.2 浮点数类型1.2.3 bool 布尔数值类型1.2.4 字符串类型二. 数据类型强制转换2.1 强制转换为字符串类型2.2 强制转换为int类型2.3 强制转换函数之float() 函数三. 拓展几个运算函数…

2023年华为HCIA-Datacom认证视频课

一、下载地址&#xff1a;https://edu.csdn.net/learn/38282/607342?spm1003.2001.3001.4157 一、课程大纲 2023年华为考试大纲 考试分数章目录小节80第1章&#xff1a;网络参考模型1.1OSI网络参考模型介绍1.2OSI网络参考模型各层的作用1.3 OSI与TCP/IP模型的比较1.4 TCP与U…

【转载】通过HAL库实现MODBUS从机程序编写与调试-----STM32CubeMX操作篇

通过HAL库实现MODBUS从机程序编写与调试-----STM32CubeMX操作篇[【STM32】RS485 Modbus协议 采集传感器数据](https://blog.csdn.net/qq_33033059/article/details/106935583)基于STM32的ModbusRtu通信--ModbusRtu协议(一)基于STM32的ModbusRtu通信--终极Demo设计(二)STM32RS48…

TensorRT的C++接口解析

TensorRT的C接口解析 文章目录TensorRT的C接口解析3.1. The Build Phase3.1.1. Creating a Network Definition3.1.2. Importing a Model using the ONNX Parser3.1.3. Building an Engine注意&#xff1a;序列化引擎不能跨平台或 TensorRT 版本移植。引擎特定于它们构建的确切…

“黑铁时代”,地产人如何以客户视角加速房企数字化转型

本文从行业洞察、业务设计、数据建设以及实践探索四个部分详细阐述地产行业数字化的实践、思考和理解。点击文末“阅读原文”&#xff0c;观看完整版直播回放并下载演讲文档。一、洞察&#xff1a;房企经营思路的变化企业的转型都是围绕着业务经营变化进行的&#xff0c;房企数…

P1307 [NOIP2011 普及组] 数字反转

[NOIP2011 普及组] 数字反转 题目描述 给定一个整数 NNN&#xff0c;请将该数各个位上数字反转得到一个新数。新数也应满足整数的常见形式&#xff0c;即除非给定的原数为零&#xff0c;否则反转后得到的新数的最高位数字不应为零&#xff08;参见样例 2&#xff09;。 输入…

电源口防雷器电路设计方案

电源口防雷电路的设计需要注意的因素较多&#xff0c;有如下几方面&#xff1a;1、防雷电路的设计应满足规定的防护等级要求&#xff0c;且防雷电路的残压水平应能够保护后级电路免受损坏。2、在遇到雷电暂态过电压作用时&#xff0c;保护装置应具有足够快的动作响应速度&#…

Git:单台电脑同时配置多个git账号

问题说明 现在云端仓库很多&#xff0c;有开源中国的 gitee.com 、微软的 github.com 、还有 gitlab.com 和 bitbucket.org 等等&#xff0c;当我们想同一台电脑链接多个云端仓库时&#xff0c;就需要设置不同的用户、邮箱生成不同的密钥进行链接。 解决方案 下载安装Git 我的…

【Java】容器+数组+集合

一、数组 Java语言中的数组是一种引用数据类型&#xff1b;不属于基本数据类型数组当中既可以存储“基本数据类型”的数据&#xff0c;也可以存储“引用数据类型”的数据&#xff08;数组既可以存储基本数据类型&#xff0c;又可以存储引用数据类型&#xff0c;基本数据类型存…

gdb调试功能从零到会(Linux详解)

目录 &#x1f440; 1.安装gdb &#x1f440;2.判断是否安装成功 &#x1f440;3.改成debug方式发布。 &#x1f440; 4.gdb功能简介 前言 gdb是Linux 下功能全面的调试工具。gdb支持断点、单步执行、打印变量、观察变量、查看寄存器、查看堆栈等调试手段。在Linux环境软件…

18- Adaboost梯度提升树 (集成算法) (算法)

Adaboost 梯度提升树: from sklearn.ensemble import AdaBoostClassifier model AdaBoostClassifier(n_estimators500) model.fit(X_train,y_train) 1、Adaboost算法介绍 1.1、算法引出 AI 39年&#xff08;公元1995年&#xff09;&#xff0c;扁鹊成立了一家专治某疑难杂症…

ubuntu18.04 天选2 R95900hx 3060显卡驱动安装

天选2 R95900hx 3060显卡驱动安装需求问题解决内核集显显卡驱动需求 外接显示器&#xff0c;安装nvidia驱动 问题 由于一开始直接在软件和更新中附加读懂安装了nvidia-470&#xff0c;导致系统黑屏。 解决 grub页面系统选择进入ubuntu recovery模式&#xff0c;选择root&a…