AI大模型(LLM)、聊天机器人整理(持续更新)by pickmind

news2025/1/12 3:56:39

原文:https://blog.pickmind.xyz/article/3c87123f-d283-4a05-8e43-4ee8550cf22f
目录:

文章目录

  • 国内获批大模型
  • 国内大模型深渊图
  • Open-source Large Language Models Leaderboard(国外)
  • lmsys发布的大模型排行榜(国外)
  • **Open LLM Leaderboard (国外)**
  • ****AlpacaEval Leaderboard(国外)****
  • CLUE1.1总排行榜 (国内)
  • ****CLiB中文大模型能力评测榜单 (国内)****
  • **排行榜 - C-Eval (国内)**

国内获批大模型

产品名公司是否开源获批时间链接
文心一言百度2023-08-31https://wenxin.baidu.com/
豆包|云雀大模型抖音2023-08-31https://www.doubao.com/login
GLM 大模型智谱 AI2023-08-31https://chatglm.cn
紫东太初大模型中科院2023-08-31https://xihe.mindspore.cn
百川大模型百川智能2023-08-31https://baichuan-ai.com/home
日日新大模型商汤2023-08-31https://sensetime.com/cn
ABAB 大模型MiniMax2023-08-31https://api.minimax.chat
书生上海人工智能实验室2023-08-31https://intern-ai.org.cn/
星火大模型讯飞2023-08-31https://xinghuo.xfyun.cn/

国内大模型深渊图

在这里插入图片描述

出处:未知。

Open-source Large Language Models Leaderboard(国外)

https://accubits.com/large-language-models-leaderboard/

排行榜随时在变化,请点击链接查看最新排行榜。

Untitled Database

来源。

lmsys发布的大模型排行榜(国外)

来自于UC伯克利

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

排行榜随时在变化,请点击链接查看最新排行榜。

Model⭐ Arena Elo rating📈 MT-bench (score)MMLULicense
https://openai.com/research/gpt-411938.9986.4Proprietary
https://www.anthropic.com/index/introducing-claude11617.977Proprietary
https://www.anthropic.com/index/claude-211348.0678.5Proprietary
https://www.anthropic.com/index/introducing-claude11307.8573.4Proprietary
https://openai.com/blog/chatgpt11187.9470Proprietary
https://huggingface.co/lmsys/vicuna-33b-v1.310977.1259.2Non-commercial
https://huggingface.co/meta-llama/Llama-2-70b-chat-hf10606.8663Llama 2 Community
https://huggingface.co/WizardLM/WizardLM-13B-V1.210467.252.7Llama 2 Community
https://huggingface.co/lmsys/vicuna-13b-v1.510466.5755.8Llama 2 Community
https://huggingface.co/mosaicml/mpt-30b-chat10436.3950.4CC-BY-NC-SA-4.0
https://huggingface.co/timdettmers/guanaco-33b-merged10366.5357.6Non-commercial
https://huggingface.co/codellama/CodeLlama-34b-Instruct-hf1032Llama 2 Community
https://cloud.google.com/vertex-ai/docs/generative-ai/learn/models#foundation_models10086.4Proprietary
https://huggingface.co/lmsys/vicuna-7b-v1.510036.1749.8Llama 2 Community
https://huggingface.co/meta-llama/Llama-2-13b-chat-hf9996.6553.6Llama 2 Community
https://huggingface.co/meta-llama/Llama-2-7b-chat-hf9796.2745.8Llama 2 Community

Open LLM Leaderboard (国外)

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

排行榜随时在变化,请点击链接查看最新排行榜。

TModelAverage ⬆️ARCHellaSwagMMLUTruthfulQA
🔶https://huggingface.co/uni-tianyan/Uni-TianYan https://huggingface.co/datasets/open-llm-leaderboard/details_uni-tianyan__Uni-TianYan73.8172.187.469.9165.81
🔶https://huggingface.co/fangloveskari/ORCA_LLaMA_70B_QLoRA https://huggingface.co/datasets/open-llm-leaderboard/details_fangloveskari__ORCA_LLaMA_70B_QLoRA73.472.2787.7470.2363.37
🔶https://huggingface.co/garage-bAInd/Platypus2-70B-instruct https://huggingface.co/datasets/open-llm-leaderboard/details_garage-bAInd__Platypus2-70B-instruct73.1371.8487.9470.4862.26
🔶https://huggingface.co/upstage/Llama-2-70b-instruct-v2 https://huggingface.co/datasets/open-llm-leaderboard/details_upstage__Llama-2-70b-instruct-v272.9571.0887.8970.5862.25
🔶https://huggingface.co/fangloveskari/Platypus_QLoRA_LLaMA_70b https://huggingface.co/datasets/open-llm-leaderboard/details_fangloveskari__Platypus_QLoRA_LLaMA_70b72.9472.187.4671.0261.18

AlpacaEval Leaderboard(国外)

来自斯坦福

https://tatsu-lab.github.io/alpaca_eval/

排行榜随时在变化,请点击链接查看最新排行榜。

Model NameWin RateLength
GPT-4https://github.com/tatsu-lab/alpaca_eval/blob/main/results/gpt4/model_outputs.json95.28%1365
https://ai.meta.com/llama/https://github.com/tatsu-lab/alpaca_eval/blob/main/results/llama-2-70b-chat-hf/model_outputs.json92.66%1790
Claude 2https://github.com/tatsu-lab/alpaca_eval/blob/main/results/claude-2/model_outputs.json91.36%1069
https://github.com/imoneoi/openchathttps://github.com/tatsu-lab/alpaca_eval/blob/main/results/openchat-v3.1-13b/model_outputs.json89.49%1484
ChatGPThttps://github.com/tatsu-lab/alpaca_eval/blob/main/results/chatgpt/model_outputs.json89.37%827
https://huggingface.co/WizardLM/WizardLM-13B-V1.2https://github.com/tatsu-lab/alpaca_eval/blob/main/results/wizardlm-13b-v1.2/model_outputs.json89.17%1635
https://huggingface.co/lmsys/vicuna-33b-v1.3https://github.com/tatsu-lab/alpaca_eval/blob/main/results/vicuna-33b-v1.3/model_outputs.json88.99%1479
Claudehttps://github.com/tatsu-lab/alpaca_eval/blob/main/results/claude/model_outputs.json88.39%1082
https://arxiv.org/abs/2308.06259https://github.com/tatsu-lab/alpaca_eval/blob/main/results/humpback-llama2-70b/model_outputs.json87.94%1822
https://huggingface.co/OpenBuddy/openbuddy-llama2-70b-v10.1-bf16https://github.com/tatsu-lab/alpaca_eval/blob/main/results/openbuddy-llama2-70b-v10.1/model_outputs.json87.67%1077

CLUE1.1总排行榜 (国内)

https://www.cluebenchmarks.com/rank.html

排行榜随时在变化,请点击链接查看最新排行榜。

排行模型研究机构测评时间Score1.1认证AFQMCTNEWS1.1IFLYTEKOCNLI_50KWSC1.1CSLCMRC2018CHID1.1C3 1.1
1玉言网易伏羲23-07-3187.050待认证86.4574.0467.9686.3395.7397.684.2595.95695.138
2HunYuan-NLP 1T腾讯混元AI大模型团队22-11-2686.918待认证85.1170.4467.5486.59696.287.998.84893.723
3通义-AliceMind达摩院NLP22-11-2286.685待认证84.0773.4767.4285.8794.3395.0386.899.20893.969
4HUMANCLUE19-12-0186.678已认证817180.390.3988492.487.1096.00
5CHAOSOPPO研究院融智团队22-11-0986.552待认证83.3773.2265.8186.3794.695.787.299.21793.477
6WenJinMeituan NLP22-10-2086.313待认证84.4973.0464.3886.2394.4495.6786.2598.89893.415
7OBERTOPPO小布助手22-11-0784.783待认证81.0267.756684.5391.399.9384.0597.57890.892
8HunYuan_nlp腾讯TEG22-05-1184.730待认证83.3764.0166.5885.2392.2793.8787.998.51290.831
9ShenNonG云小微AI21-12-0184.351待认证82.5765.5664.4285.9794.2191.2386.597.93290.769
10ShenZhouQQ浏览器实验室(QQ Browser Lab)21-09-1983.873待认证80.5565.3667.6586.3789.0890.9787.8597.92389.108

CLiB中文大模型能力评测榜单 (国内)

https://github.com/jeinlee1991/chinese-llm-benchmark

排行榜随时在变化,请点击链接查看最新排行榜。

类别大模型总分排名
商用gpt495.81
商用chatgpt-3.593.82
商用文心一言v2.288.33
商用商汤senseChat83.24
开源BELLE-Llama2-13B-chat-0.4M80.05
开源belle-llama-13b-2m79.26
商用Baichuan-53B79.07
商用讯飞星火v1.577.78
商用360智脑77.09
商用chatglm官方76.910

排行榜 - C-Eval (国内)

https://cevalbenchmark.com/static/leaderboard_zh.html

排行榜随时在变化,请点击链接查看最新排行榜。

#模型名称发布机构提交时间平均平均(Hard)STEM社会科学人文科学其他
0https://cevalbenchmark.com/static/model_zh.html?method=%E4%BA%91%E5%A4%A9%E4%B9%A6深圳云天算法技术有限公司2023/8/3177.155.270.48878.677.9
1https://cevalbenchmark.com/static/model_zh.html?method=GalaxyZuoyebang2023/8/2373.760.571.48671.668.8
2https://cevalbenchmark.com/static/model_zh.html?method=YaYi中科闻歌2023/9/471.860.370.681.371.565.8
3https://cevalbenchmark.com/static/model_zh.html?method=AiLMe-100B%20v3APUS2023/9/471.657.968.572.371.277
4https://cevalbenchmark.com/static/model_zh.html?method=Mengzi澜舟科技2023/8/2571.548.862.387.276.868.6
5https://cevalbenchmark.com/static/model_zh.html?method=DFM2.0AISpeech & SJTU2023/9/271.246.159.180.575.580.3
6https://cevalbenchmark.com/static/model_zh.html?method=ChatGLM2Tsinghua & Zhipu.AI2023/6/2571.15064.481.673.771.3
7https://cevalbenchmark.com/static/model_zh.html?method=UniGPT2.0%EF%BC%88%E5%B1%B1%E6%B5%B7%EF%BC%89Unisound(云知声)2023/8/287052.865.778.76772.9
8https://cevalbenchmark.com/static/model_zh.html?method=360GPT-S23602023/8/29694259.48270.672.9
9https://cevalbenchmark.com/static/model_zh.html?method=InternLM-123BShanghai AI Lab & SenseTime2023/8/2268.85063.581.472.763
10https://cevalbenchmark.com/static/model_zh.html?method=GPT-4*OpenAI2023/5/1568.754.967.177.664.567.8

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/999092.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Git命令拉取代码

流程 1在本地clone项目【保持与远程仓库一致】 此时已绑定远程仓库 git clone xxxx 2.添加文件 3.放到暂存区 git add 4.提交到本地仓库 git commint -m "提示信息" 5推送到远程仓库 git push origin master 其他命令 分支命令 分支就是每个人开发 互不影响…

Qt应用开发(基础篇)——组合框容器 QGroupBox

一、前言 QGroupBox继承于QWidget,是一个带有标题的组合框架容器控件。 QGroupBox组合框容器自带一个顶部标题,一个面板。面板内部展示各种各样的部件,标题用来解释这些部件为什么集合在一起,并且支持键盘快捷方式切换部件焦点。比…

中断(全网最细!)

什么是中断? 中断是让单片机具有处理外部和内部随机发生事件实时处理的能力; 中断提高了单片机处理外部或内部的能力; 芯片在处理某一个A事件,发生了一件B事件,请求芯片(中断发生)去处理B事件…

机器学习中岭回归、LASSO回归和弹性网络与损失函数

今天咱们来聊点纯技术的东西,这东西是基础,不说往后没法说,在机器学习领域中,我们可以通过正则化来防止过拟合,什么是正则化呢?常见的就是岭回归、LASSO回归和弹性网络。 先说说什么叫做过拟合&#xff1f…

Redis之SDS底层原理解读

目录 SDS是什么? SDS结构示例 概述 空间预分配 惰性空间释放 C字符串跟SDS的区别?为什么用SDS? SDS是什么? Redis 底层的程序语言是由 C 语言编写的,C 语言默认字符串则是以空字符结尾的字符数组&#xff08…

品牌价格调查的方法

品牌做价格调查的目的,不是简单的对页面价或者挂牌售价进行调查,基本是需要对商品的到手价进行调查的,调查渠道中的实际成交价对品牌来说意义重大,因为知道到手价就可以了解产品是否存在低价,进而可以做针对性的低价打…

冠达管理:元宇宙三年行动计划发布,高增长潜力股名单出炉

未来5年,国内元国际商场规划至少打破2000亿元大关。 金融监管总局9月10日发布《关于优化保险公司偿付能力监管规范的告诉》,优化保险公司偿付能力监管规范,自发布之日起施行。 金融监管总局释放重要利好,引导保险资金更大力度地…

Ruff南潮物联邀请您参观中国工博会,快来扫码领取免费门票!

由于受疫情影响的延期,第23届中国国际工业博览会(简称"中国工博会")终于将要在2023年9月19日-23日国家会展中心(上海虹桥)举行。 中国工博会是由工业和信息化部、国家发展和改革委员会、科学技术部、商务部、…

教师节快乐!这条传承之路,我们走了十数年……

守初心,传匠心 这条路,我们走了十数年…… 在云和恩墨,有这样一群人,他们是技术和业务知识的传播布道者,乐知乐享,助人达己;他们在新人成长的道路上良苦用心,甘为人梯;他…

JTAG无法进入app的断点问题解决

通过JTAG口,可以对STM32进行在线调试,主要还是APP的调试,一般来说都是没有问题的。 但是,我这边碰到个奇怪现象: main 函数里面断点 死活进不去 官方demo程序也是一样现象 可以确定,App是正确写入到芯片的…

RBTree模拟实现

一、概念 概念:红黑树,是一种二叉搜索树,但在每个结点上增加一个存储位表示结点的颜色,可以是Red或 Black。 通过对任何一条从根到叶子的路径上各个结点着色方式的限制,红黑树确保没有一条路径会比其他路径长出俩倍&a…

【C#实战】控制台游戏 勇士斗恶龙(3)——营救公主以及结束界面

君兮_的个人主页 即使走的再远,也勿忘启程时的初心 C/C 游戏开发 Hello,米娜桑们,这里是君兮_,最近开始正式的步入学习游戏开发的正轨,想要通过写博客的方式来分享自己学到的知识和经验,这就是开设本专栏的目的。希望…

pod 创建自定义库失败后解决方案

遇到以上问题: Cloning https://github.com/CocoaPods/pod-template.git into GlobalButton. Configuring GlobalButton template. Ignoring ffi-1.15.5 because its extensions are not built. Try: gem pristine ffi --version 1.15.5 /Library/Ruby/Site/2.6…

【校招VIP】前端计算机网络之webSocket相关

考点介绍 WebSocket 是一种网络通信协议,很多高级功能都需要它。初次接触 WebSocket 的人,都会问同样的问题:我们已经有了 HTTP 协议,为什么还需要另一个协议?它能带来什么好处? 答案很简单,因为…

Codesys可以和西门子博途平分秋色吗?

当今工业自动化界,西门子博途似乎一直是硬件和软件开发的标配。但近年来,有一个名字越来越频繁地出现在各大PLC厂家的产品中:Codesys。此软件是否真的如传说中那样优秀?Codesys与西门子博途之间的竞争究竟如何呢?接下来…

电脑(win10系统) 每次开机都进入备份系统

解决方法,在系统设置里面将win10设置为默认的开机项。 1、winr 打开cmd,输入msconfig,打开系统配置--引导---选择win10系统----设为默认值----确定 2、点击电脑,右击属性,打开设置---高级系统设置-----高级 ------启动…

Swift 周报 第三十七期

文章目录 前言新闻和社区苹果跌近 3% 市值两天蒸发 1898 亿 美元iPhone 15 系列订单量下滑,苹果公司面临双重市场冲击苹果的对手回来了 提案通过的提案正在审查的提案驳回的提案 Swift论坛推荐博文话题讨论关于我们 前言 本期是 Swift 编辑组整理周报的第三十七期&…

RTSP流媒体服务器EasyNVR安防视频云服务平台如何手动配置Onvif探测功能?

安防监控系统EasyNVR视频云存储平台可实现设备接入、实时直播、录像、检索与回放、视频云存储、视频分发等视频能力服务,可覆盖全终端平台(pc、手机、平板等终端),在智慧工厂、智慧工地、智慧社区、智慧校园等场景中有大量落地应用…

安装vCenter6.7出错 DNS服务原因

https://blog.csdn.net/seaship/article/details/107045006**A.VCSA6.7的安装**第1步,运行VCSA 6.7部署程序,中间一些截图参考何老师相关部署文章即可第2步,配置VCSA虚拟机网络,FQDN填写虚拟机分配的IP地址&#xff0c…

二分查找实例3(寻找旋转排序数组中的最小值)

题目: 已知一个长度为 n 的数组,预先按照升序排列,经由 1 到 n 次 旋转 后,得到输入数组。例如,原数组 nums [0,1,2,4,5,6,7] 在变化后可能得到: 若旋转 4 次,则可以得到 [4,5,6,7,0,1,2]若旋…