WebLLM项目:在浏览器中运行LLM聊天机器人

news2025/1/13 10:18:47

 

大家好,基于LLM的聊天机器人可以通过前端访问,而且它们涉及到大量且昂贵的服务器端API调用。但如果可以让LLM完全在浏览器中运行——利用底层系统的计算能力呢?这样,LLM的全部功能都将在客户端可用——无需担心服务器的可用性、基础设施等问题,WebLLM是一个旨在实现这一目标的项目。

接下来跟随本文更深入地了解驱动WebLLM的因素以及搭建这个项目的挑战,本文还将研究WebLLM的优点和局限性。

什么是WebLLM

WebLLM是一个使用WebGPU和WebAssembly等技术的项目,能够完全在浏览器中运行LLM和LLM应用程序。使用WebLLM,你可以通过WebGPU利用底层系统的GPU在浏览器中运行LLM聊天机器人。

它使用了Apache TVM项目的编译器堆栈,并使用最近发布的WebGPU。除了3D图形渲染等功能外,WebGPU API还支持通用GPU计算(GPGPU计算)。

搭建WebLLM的挑战

由于WebLLM完全在客户端上运行,没有任何推理服务器,因此该项目面临以下挑战:

  • 大型语言模型使用Python框架进行深度学习,这些框架本身也支持利用GPU进行张量操作。

  • 在搭建可完全在浏览器中运行的WebLLM时,我们将无法使用相同的Python框架。而必须探索能够在Web上运行LLM的其他技术栈,同时仍然使用Python进行开发。

  • 运行LLM应用程序通常需要大型推理服务器,但当所有内容在客户端——即在浏览器中运行时,用户就不能再使用大型推理服务器。

  • 需要对模型的权重进行智能压缩,使其适合于可用的内存。

WebLLM如何工作 

WebLLM项目使用底层系统的GPU和硬件能力,在浏览器中运行大型语言模型。机器学习编译过程通过利用TVM Unity和一系列的优化,将LLM的功能嵌入浏览器端。

 

该系统是用Python开发的,并使用TVM运行时在Web上运行,通过运行一系列优化,将其嵌入到Web浏览器中。

首先,将LLM的功能嵌入到TVM的IRModule中。对IRModule中的函数运行多个转换,以获取经过优化和可运行的代码,TensorIR是用于优化具有张量计算的程序的编译器抽象。此外,使用INT-4量化来压缩模型的权重,使用TypeScript和emscripten(将C和C++代码转换为WebAssembly的LLVM编译器)实现了TVM运行时。

 在第一次运行模型时,加载模型需要一些时间。由于在第一次运行后缓存已完成,因此后续运行速度会更快,开销也更小。

 WebLLM的优点和局限性

优点

除了探索Python、WebAssembly和其他技术栈之间的协同作用外,WebLLM还具有以下优点:

  • 在浏览器中运行LLMs的主要优点是隐私保护。由于在这种以隐私为先的设计中完全消除了服务器端,用户不再需要担心数据被滥用。由于WebLLM利用底层系统的GPU计算能力,用户也不必担心数据被恶意实体获取。

  • 用户可以为日常活动构建个人AI助手,因此WebLLM项目提供了高度个性化的服务。

  • WebLLM的另一个优点是成本降低。用户不再需要昂贵的API调用和推理服务器,WebLLM使用底层系统的GPU和处理能力,因此运行WebLLM只需要一小部分成本就可以了。

局限性

以下是WebLLM的一些局限性:

  • 尽管WebLLM缓解了围绕输入敏感信息的担忧,但仍然容易受到浏览器的攻击。

  • 还有进一步的改进空间,例如添加对多个语言模型和浏览器选择的支持。目前,此功能仅在Chrome Canary和最新版本的Chrome中可用,将这一功能扩展到更多支持的浏览器集合将是很有帮助的。

  • 由于浏览器运行的稳健性检查,使用WebGPU的WebLLM不具备GPU运行时的本地性能。你可以选择禁用运行稳健性检查的标志,以提高性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/780828.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法竞赛入门【码蹄集新手村600题】(MT1020-1040)

算法竞赛入门【码蹄集新手村600题】(MT1020-1040) 目录MT1021 %f格式符MT1022 小数、指数MT1023 进制乱炖MT1024 进制形式MT1025 八、十六进制MT1026 合并MT1027 整数逆序MT1028 四位数逆序MT1029 位数MT1030 最大公约数MT1031 最简分数MT1032 最小公倍数MT1033 多项…

LeetCode[327]区间和的个数

难度:Hard 题目: 给你一个整数数组 nums 以及两个整数 lower 和 upper 。求数组中,值位于范围 [lower, upper] (包含 lower 和 upper)之内的 区间和的个数 。 区间和 S(i, j) 表示在 nums 中,位置从 i 到 …

一文了解UML

目录 1 什么是UML? 2 UML视图(UML View) 2.1 用户视图(Users View) 2.2 结构视图(Structural Views) 2.3 行为视图(Behavioral Views) 2.4 环境视图(Environmenta…

Vc - Qt - 自定义ComboBox

示例代码创建了一个名为ComboBoxWidget的自定义QWidget类,并在initUI方法中创建了一个垂直布局。然后将一个只读的QLineEdit和一个QPushButton添加到布局中。当按钮被点击时,会调用showMenu方法,该方法创建一个QMenu并添加选项。每个选项连接…

vite打包性能优化以及填坑

目录 前言 项目优化前 分析 优化 拆分包 去除debugger CDN 加速 按需导入 文件压缩 图片压缩 viteImagemin报错 填坑 坑1 坑2 总结 配置 前言 最近在使用 Vite4.0 构建一个中型前端项目的过程中,遇到了一些坑,也做了一些项目在构建生产环…

RepViT:从ViT的角度重新审视mobile CNN

文章目录 RepViT: Revisiting Mobile CNN From ViT Perspective摘要本文方法代码实验结果 RepViT: Revisiting Mobile CNN From ViT Perspective 摘要 近年来,与轻量级卷积神经网络(cnn)相比,轻量级视觉变压器(ViTs)在资源受限的移动设备上表现出了更高…

JVM系统优化实践(21):GC生产环境案例(四)

您好,这里是「码农镖局」CSDN博客,欢迎您来,欢迎您再来~ 前面说了一般应用的OOM情况,但是OOM不知发生在应用层,有时候专门负责运行Java的Tomcat也会偶尔罢工一下,抛出OOM异常。因为Tomcat本身也…

git在工作区和本地库的操作命令

本文介绍一些开发时&#xff0c;常用的在工作区和本地库之间的操作命令 一、提交修改内容到 本地库 工作树的修改内容要提交到本地库&#xff0c;首先需要先添加到缓存区stage&#xff0c;在commit到本地库。 # filename就是你修改后需要提交的文件 git add <filename>…

unity进阶--json的使用学习笔记

文章目录 unity自带的json使用方法第三方--LitJson的使用第一种使用方式第二种--使用jsonData unity自带的json使用方法 创建数据类 转化成json 解析json 第三方–LitJson的使用 第一种使用方式 数据类 创建和解析 第二种–使用jsonData 创建 解析

奇舞周刊第500期:TQL,巧用 CSS 实现动态线条 Loading 动画

记得点击文章末尾的“ 阅读原文 ”查看哟~ 下面先一起看下本期周刊 摘要 吧~ 奇舞推荐 ■ ■ ■ TQL&#xff0c;巧用 CSS 实现动态线条 Loading 动画 最近&#xff0c;群里有个很有意思的问题&#xff0c;使用 CSS 如何实现如下 Loading 效果&#xff1a; leaferjs&#xff0c…

docker安装redis启动异常问题

问题描述 启动redis容器报错如下 se > /sys/kernel/mm/transparent_hugepage/enabled as root, and add it to your /etc/rc.local in order to retain the setting after a reboot. Redis must be restarted after THP is disabled (set to madvise or never). 1:M 21 Ju…

Python - Opencv应用实例之树叶自动分割、标签及统计分析系统

Python - Opencv应用实例之树叶自动分割、标签及统计分析系统 本文通过Python+opencv 实现这样的需求:输出位置和角度(x, y, r),并标记出轮廓基于传统图像处理算法实现,算法原理:输入图像 -> 灰度化 -> 二值化 -> 形态学处理 -> 轮廓提取 -> 树叶中心定位 -…

docker系列5:docker安装nginx

传送门 前面介绍了docker的安装&#xff1a;docker系列1&#xff1a;docker安装 还有docker镜像加速器&#xff1a;docker系列2&#xff1a;阿里云镜像加速器 以及docker的基本操作&#xff1a; docker系列3&#xff1a;docker镜像基本命令 以及容器的基本命令&#xff1a;…

DRL(自用)

RL学习算法 基于策略的算法&#xff1a;这是最通用的优化类型。策略将状态映射到操作。学习策略的 RL 代理可以创建从当前状态到目标状态的动作轨迹 REINFORCE 是一种基于策略的算法。基于策略的算法&#xff0c;优势在于它们可以应用于各种强化学习问题&#xff1b;但是其样…

1 js嵌入html使用

1.1 直接在html内部使用js代码 使用script标签&#xff0c;在前后标签内部写的代码即为js代码。 <body><p id"p1">初始段落</p> <!--id是为了定位需要更改内容的标签--><button type"button" onclick"showNum()">…

App测试中ios和Android的区别

1、Android长按home键呼出应用列表和切换应用&#xff0c;然后右滑则终止应用&#xff1b; 2、多分辨率测试&#xff0c;Android端20多种&#xff0c;ios较少&#xff1b; 3、手机操作系统&#xff0c;Android较多&#xff0c;ios较少且不能降级&#xff0c;只能单向升级&…

【Spring MVC】Spring MVC的功能使用和相关注解介绍

Spring MVC主要有三个功能&#xff1a; 连接获取参数输出数据 对于 Spring MVC 来说&#xff0c;掌握了以上 3 个功能就相当于掌握了Spring MVC。 1.连接 连接的功能&#xff1a;将⽤户&#xff08;浏览器&#xff09;和 Java 程序连接起来&#xff0c;也就是访问⼀个地址能…

Docker 续2

Docker 续2 一、Docker 的数据管理1.1 数据卷1.2 数据卷容器 二、容器操作2.1 端口映射2.2 容器互联&#xff08;使用centos镜像&#xff09;2.3 Docker 镜像的创建2.3.1 基于已有镜像创建2.3.2 基于本地模板创建2.3.3 基于Dockerfile创建2.3.3.1 联合文件系统&#xff08;Unio…

【项目 进程5】 2.10 进程间通信简介 2.11匿名管道概述 2.12父子进程通过匿名管道通信

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 2.10 进程间通信简介(IPC iner process communication)Linux进程间通信的方式&#xff08;记&#xff09; 2.11匿名管道概述匿名管道管道的特点&#xff08;记&…

第一天 运维高级 MySQL备份与还原

1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR(20) NOT NULL , sex VARCHAR(4) , birth YEAR, department VARCHAR(20) , address VARCHAR(50) );CREATE TABLE score ( id INT(10) NOT NULL UNIQUE PRIMARY KEY AUTO…