web3与AI结合-Sahara AI 项目介绍

news2025/1/8 14:13:47

背景介绍

Sahara AI 于 2023 年创立,是一个 "区块链+AI" 领域的项目。其项目愿景是,利用区块链和隐私技术将现有的 AI 商业模式去中心化,打造公平、透明、低门槛的 “协作 AI 经济” 体系,旨在重构新的利益分配机制以及交易、协作市场,在资产化和上链 AI 资源的同时,确保 AI 构建的每个环节都公开透明、可溯源。

目前已完成 A 轮融资,金额为 4300 万,由 Binance、Polychain 等机构领投。项目的核心创始人包括:

  • Sean Ren (CEO):南加州大学计算机系终身副教授,拥有 15 年 AI 领域的研究经验。(技术代表)
  • Tyler Zhou (联合创始人):前 Binance Labs 投资总监。(融资代表)

该项目于 2024 年 12 月 9 日开启第一期小范围测试,白名单人数约 1 万人,开放体验的功能为数据标注与审查。项目的核心技术方案细节和代码尚未公开。

项目概览

Sahara AI 平台的目标是打造一个涵盖整个 AI 生命周期的所有开发需求的一站式市场——从数据收集与标注,到模型训练与服务、AI 代理的创建与部署、多代理通信、AI 资产交易以及 AI 资源的众包。

通过使人工智能开发过程民主化并降低现有系统的进入门槛,Sahara AI 为个人、企业和社区提供平等的机会,共同建设人工智能的未来。

整个 AI 服务搭建的完整流水线流程如下:

首先对原始数据进行标注,然后将标注好的优质数据喂给特定的算法,并在算力的加持下进行训练,最终产出 AI 模型。随后,基于训练好的模型,设计服务于特定目的的 AI 代理(Agent)。

整个过程对标传统商业:

【Scale AI 等公司提供标注好的优质数据(依赖旗下大量廉价劳动力构建的众包网络) → Nvidia、云计算厂商等提供算力 → ChatGPT 等公司提供算法并训练模型】 → 开发者使用 ChatGPT 提供的模型和工具制作自己的 Agent 并提供特定服务 → 普通用户使用 Agent。

在整个 AI 产业链的上游,数据、算力、算法和模型基本上被这些大型商业公司所承包。普通人、小型公司以及社区很难参与其中并获得相应的收益。

Sahara AI 和传统的 AI 公司还有一个显著的区别:传统 AI 公司致力于打造 AI 模型与产品,而 Sahara AI 的目标是打造一个更为纯粹和开放的 AI 协作市场。它提供基础平台,并鼓励大众参与内容的生产(AI 资源和服务)。

任何有能力的人都可以自由地加入到 AI 服务搭建的任意环节中,并贡献自己的力量。同时,每个人的贡献将被公正记录,并参与到后续的收益分配中。

然而,如何整合资源、调配各个环节中不同个体之间的协作,如何界定利益分配的比例,仍然存在不小的技术挑战。从目前测试网的状况来看,Sahara AI 已初步构建了数据标注板块,但更大的挑战在于后续整个流水线和市场的搭建。

单单“数据标注”这一块市场,其份额也是相当可观的,但由于入局门槛较低,如何促成商业合作以及构建技术“护城河”才是关键。可以对标 Scale AI,这家公司是数据标注领域的独角兽,估值达到 138 亿美元,且在 AI 自动/辅助标注工具和数据质量审查方面积累了较强的技术优势。

如果 Sahara AI 能在数据标注领域站稳脚跟,并成功构建市场,那么其后续的长远布局或许就能建立一个稳固的基础。

发展现状

测试网 - 仅开放数据标注功能

Sahara AI 于12月9日开启了测试网。由于完整落地的技术挑战较大,目前的测试功能仅开放数据标注。参与需要申请白名单,第一批参与者大约有1万人。为了帮助参与者更好地了解平台操作,官方提供了详细的交互操作教材和视频教学:Sahara Labs 数据服务。

为了确保数据标注的质量,Sahara AI 设计了双重审核机制,将参与者分为“标注者”和“审核者”两类:

  • 标注者:根据任务要求进行数据标注。
  • 审核者:负责审核标注者提交的任务,确保标注质量。

此外,为了进一步保障数据质量,Sahara AI 设立了惩罚机制,低评分的标注者会被封禁,从而确保平台的标注工作维持高标准。参与者可以通过完成标注和审核任务获得积分和经验,进而参与空投转化和声誉提升。

与行业领先的 Scale AI 相比,Sahara AI 在工具和配套设施的完善度上还有较大差距。Scale AI 提供了成熟的工具帮助标注者完成数据标注,但目前 Sahara AI 缺乏这些工具,且测试中标注任务的难度较高,这可能会影响参与者的热情。

其它项目 - 数据标注领域

web3数据标注项目 - Sapien AI,Human Protocol

Sahara AI 数据标注部分的设计,本质上就是依赖区块链构建了一个去中心化的劳动力众包平台。

  • Human Protocol:该项目在 2018 年便尝试通过区块链技术构建去中心化的劳动力众包平台。囿于当时的市场环境(AI 大模型还未火爆),项目主要专注于预言机领域,但也涵盖了数据标注。
  • Sapien AI:与 Sahara AI 不同,Sapien AI 专注于数据标注领域,目的是打造数据标注领域的 “全球化 Uber” 并为市场提供更加多元化的标注数据。目前已融资近1500万美元。

传统数据标注公司 - Scale AI

数据标注领域,Scale AI 是目前传统公司里面的独角兽,也是大模型时代最大的受益者之一。

数据标注领域的市场竞争,无非就是争抢市场的上下游(数据需求方 和 标注劳动力)。

  • 对于上游,在意的无非就是数据的质量和价格。
  • 而下游,在意的无非就是标注工作的强度和收益。

除了 toB 销售以外,如何管理和辅助下游劳动力群体,也是中介平台的核心工作内容之一。因为这决定了能否为上游提供低价、优质的数据。

通过在线标注的模式,Scale AI 的众包劳动力主要来自东南亚等低收入地区,这对于降低标注成本有很大的裨益。

而同时,为了提高标注数据的质量和标注的效率,Scale AI 提供了很多成熟的管理和辅助标注工作开展的工具,例如:

  • Scale Rapid: ML 团队快速开发生产质量的训练数据的标注平台。它允许用户上传数据、设置标注说明,并在几小时内获得初步标签的反馈和校准,以便快速扩展数据标注过程以处理更大的数据量。Scale AI 提供了标注数据所需的标注员工。
  • Scale Studio:是用于管理公司标注项目和员工的平台。该产品提供了一个工具,用于跟踪和可视化标注员工的指标,并提供 ML 辅助标注工具以加速标注。它跟踪吞吐量、效率和准确性等指标。
  • Nucleus:允许进行数据探索、调试错误标签、比较不同版本 ML 模型的准确度指标,并找出失败案例,从而更好地管理和评估数据。

除了 Scale AI,标注市场上还有 Amazon Mechanical Turk、Labelbox、Appen 和 Hive 等。本质上开展标注业务的门槛很低,而 Scale AI 的主要竞争优势也是来自于其内部机器学习标注算法,使整个人工标注更加自动化和便宜,从而实现规模经济效益。随着时间的发展,Scale AI 掌握的大量标注数据优势会持续累积,在自动标注领域的优势也会不断扩大。

在这一方面上,Sahara AI 目前主要还是处于纯人力标注和审核的阶段,可以提升的空间还很大。

Sahara 能否维持住生态参与者的热情的同时,保证数据标注的质量很关键。毕竟,目前区块链领域的早期参与者对于收益的需求比较强烈,和传统的低收入地区的人群有一定的区别。虽然利用区块链技术,一定程度上去掉了劳动力市场和数据需求方之间的中介平台,但能否长期产出优质低价的数据还有待观望。

不过 Sahara AI 的独特之处在于其愿景——构建一个开放的 AI 协作市场,而不仅仅是一家数据标注公司。Sahara AI 并不单纯与 Scale AI 竞争,而是通过去中心化的方式重新定义 AI 生态系统的合作模式。如果能够成功实现这一愿景,传统的数据标注公司,如 Scale AI,或许可能成为 Sahara AI 生态的一部分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2272584.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】你了解异常的用法吗?

文章目录 Ⅰ. C语言传统的处理错误的方式Ⅱ. C异常概念Ⅲ. 异常的使用1、异常的抛出和匹配原则2、在函数调用链中异常栈展开匹配原则3、异常的重新抛出4、异常安全5、异常规范 Ⅳ. 自定义异常体系Ⅴ. C标准库的异常体系Ⅵ. 异常的优缺点1、异常的优点2、异常的缺点3、总结 Ⅰ. …

Matlab仿真径向受压圆盘光弹图像

Matlab仿真径向受压圆盘光弹图像-十步相移法 主要参数 % 定义圆盘参数 R 15; % 圆盘半径,单位:mm h 5; % 圆盘厚度,单位:mm P 300; % 径向受压载荷大小,单位&#xff…

游戏引擎学习第75天

仓库:https://gitee.com/mrxiao_com/2d_game_2 Blackboard: 处理楼梯通行 为了实现楼梯的平滑过渡和角色的移动控制,需要对楼梯区域的碰撞与玩家的运动方式进行优化。具体的处理方式和遇到的问题如下: 楼梯区域的过渡: 在三维空间中&#x…

算法的学习笔记—不用常规控制语句求 1 到 n 的和

😀前言 在算法编程中,有时我们会遇到一些特殊的限制条件,这些限制会迫使我们跳出常规思维。本文讨论的问题就是一个典型案例:在不能使用基本控制语句的情况下,如何求解 1 到 n 的和。这个问题不仅考验编程技巧&#xf…

网络协议安全的攻击手法

1.使用SYN Flood泛洪攻击: SYN Flood(半开放攻击)是最经典的ddos攻击之一,他利用了TCP协议的三次握手机制,攻击者通常利用工具或控制僵尸主机向服务器发送海量的变源端口的TCP SYN报文,服务器响应了这些报文后就会生成大量的半连…

141.《mac m1安装mongodb详细教程》

文章目录 下载从官网下载安装包 下载后双击解压出文件夹安装文件名修改为 mongodb配置data存放位置和日志log的存放位置启动方式一方式二方式二:输入mongo报错以及解决办法 本人电脑 m2 pro,属于 arm 架构 下载 官网地址: mongodb官网 怎么查看自己电脑应该下载哪个版本,输入…

C++ operator = 返回void 会发生什么?

1.operator 正常情况 #include <iostream> using namespace std;class Box { public:Box(double L) : length(L) {}Box(const Box& b){}Box& operator (const Box&){return *this;}public:double length; // 长度 };int main() {Box box1(1.0);Box box2(…

Redis中字符串和列表的区别

在 Redis 中&#xff0c;字符串&#xff08;String&#xff09;和列表&#xff08;List&#xff09;是两种截然不同的数据类型&#xff0c;它们各自有着独特的特点和适用场景。 数据结构 • 字符串&#xff08;String&#xff09;&#xff1a; • 在 Redis 中&#xff0c;字符串…

Elasticsearch JavaRestClient版

文章目录 初始化RestHighLeveClient&#xff08;必要条件&#xff09;索引库操作1.创建索引库&#xff08;4步&#xff09;2.删除索引库&#xff08;3步&#xff09;3.判断索引库是否存在&#xff08;3步&#xff09;4.总结&#xff1a;四步走 文档操作1.创建文档&#xff08;4…

使用Dinky快速提交Flink operator任务

官网地址&#xff1a;K8s集成 | Dinky 1.目前使用版本 Dinky1.2.0、Flink1.18.1、Flink operator0.10.0 2.制作镜像 2.1创建DockerFile ARG FLINK_VERSION1.18.1 FROM flink:${FLINK_VERSION}-scala_2.12 RUN mkdir -p /opt/flink/usrlib COPY commons-cli-1.3.1.jar …

探索数字化展馆:开启科技与文化的奇幻之旅

在科技飞速发展的当下&#xff0c;数字展馆作为一种新兴的展示形式&#xff0c;正逐渐走进大众的视野。数字展馆不仅仅是传统展馆的简单“数字化升级”&#xff0c;更是融合了多媒体、数字化技术以及人机交互等前沿科技的创新产物。 数字展馆借助VR、AR、全息投影等高科技手段&…

免费GEMINI模型使用及API调用

一、概述 谷歌最新发布的Gemini 2.0 FLASH模型为AI应用带来了新的可能性。该模型分为两个版本&#xff1a;gemini-2.0-flash-exp 和 gemini-2.0-flash-thinking-exp-1219。这两个模型目前限时免费使用&#xff0c;用户可以通过智匠MindCraft客户端或小程序直接体验&#xff0c;…

调整Python+Pytest+Allure+Yaml+Pymysql框架中需要执行的用例顺序

当pytest框架中有时时候会因为用例的前后关联关系需要调整用例执行顺序时则可以跟进具体的要求调整pytest.ini配置文件中执行用例文件夹的前后顺序 当如果是需要调整某个文件夹中用例的执行顺序时&#xff0c;则跟进具体的文件调整对应testcases中test_*.py文件中的执行顺序

容器技术思想 Docker K8S

容器技术介绍 以Docker为代表的容器技术解决了程序部署运行方面的问题。在容器技术出现前&#xff0c;程序直接部署在物理服务器上&#xff0c;依赖管理复杂&#xff0c;包括各类运行依赖&#xff0c;且易变&#xff0c;多程序混合部署时还可能产生依赖冲突&#xff0c;给程序…

系统思考—变革之舞

彼得圣吉在《变革之舞》中提到&#xff1a;变革的关键是持续学习。在这个变化万千的世界里&#xff0c;组织不能停留在过去的经验上&#xff0c;我们如何系统性的抛弃过去成功的经验&#xff0c;不断学习新技能&#xff0c;适应复杂的环境。每个人不仅要学会解决眼前的问题&…

OpenCV的人脸检测模型FaceDetectorYN

OpenCV的人脸检测模型FaceDetectorYN 1. 官网地址2. 如何使用2.1.到opencv_zoo下载模型文件和代码2.2. 下载文件展示2.3. 修改了demo支持读取视频文件&#xff0c;默认是图片和摄像头## 2.4 效果展示 1. 官网地址 https://docs.opencv.org/4.x/df/d20/classcv_1_1FaceDetector…

25/1/6 算法笔记<强化学习> 初玩V-REP

我们安装V-REP之后&#xff0c;使用的是下面Git克隆的项目。 git clone https://github.com/deep-reinforcement-learning_book/Chapter16-Robot-Learning-in-Simulation.git 项目中直接组装好了一个机械臂。 我们先来分析下它的对象树 DefaultCamera:摄像机&#xff0c;用于…

Linux驱动开发:深入理解I2C时序(二)

在Linux驱动开发中,I2C时序的理解和正确处理是保证I2C设备正常工作和通信的关键。I2C协议的时序特性决定了数据的有效传输和设备间的协作。因此,掌握I2C的时序细节,以及如何在Linux内核中进行时序处理,能够让开发者更好地处理设备通信问题。 本文将继续深入探讨I2C通信协议…

Java100道面试题

1.JVM内存结构 1. 方法区&#xff08;Method Area&#xff09; 方法区是JVM内存结构的一部分&#xff0c;用于存放类的相关信息&#xff0c;包括&#xff1a; 类的结构&#xff08;字段、方法、常量池等&#xff09;。字段和方法的描述&#xff0c;如名称、类型、访问修饰符…

《Python游戏编程入门》注-第9章8

2 游戏信息的显示 在游戏窗口的上部会显示游戏分数、游戏关卡、剩余砖块数以及剩余小球数等信息,如图12所示。 图12 游戏信息显示 使用如图13所示的代码实现以上功能。 图13 显示游戏信息的代码 其中,print_text()函数MyLibrary.