NLP:BIG-bench基准任务的简介、安装、使用方法之详细攻略

news2025/1/11 19:51:43

NLP:BIG-bench基准任务的简介、安装、使用方法之详细攻略

目录

BIG-bench基准任务的简介

1、BIG-bench基准任务的概述

2、BBL

BIG-bench基准任务的安装

BIG-bench基准任务的使用方法

1、使用SeqIO+加载BIG-bench json任务的快速启动


BIG-bench基准任务的简介

1、BIG-bench基准任务的概述

简介

BigBench是一个面向人工智能(AI)的基准测试套件,该套件涵盖了各种AI任务。BigBench任务是一个广泛的自然语言处理(NLP)基准测试,旨在评估语言模型在各种复杂的任务上的性能。它是一个由众多具有挑战性的任务组成的集合,这些任务与现实世界的数据没有直接联系。

The Beyond the Imitation Game Benchmark(BIG-bench)是一个协作基准,旨在探索大型语言模型并推测其未来的能力。BIG-bench包含的200多个任务可以通过关键词摘要和任务名称摘要来进行概述。一篇介绍该基准的论文,包括对大型语言模型的评估结果,目前正在审查中,并可作为预印版获得。

目标

BigBench任务的目标是评估语言模型在处理复杂和挑战性任务时的能力,以便更全面地了解其在真实世界应用中的表现。

BigBench试图创建一个模拟现实应用场景的基准,以更全面的方式评估和比较AI算法。

>> 衡量AI系统在现实任务上的通用能力

>> 提供一个比较不同AI系统相对长足的方式

>> 指出AI系统仍然存在的局限性

>> 通过分析AI系统在BigBench测试集上的表现,可以帮助研究人员更好地了解AI的强点和弱点,并指导未来的研究。

意义

BigBench旨在测试语言模型的通用能力,例如推理、常识、逻辑等。

这些任务旨在推动语言模型的发展,并提供一个公平的基准测试,以比较不同模型的性能和进展。

任务类别

BigBench任务涵盖了多个领域,包括文本理解、推理、逻辑推理、数学推理和常识推理等。其中一些任务包括:

文本理解任务:要求模型理解文本的含义和语境,例如文本蕴涵、共指消解和阅读理解。

推理任务:要求模型进行逻辑推理和推断,如因果推理、逆向比例定律等。

数学推理任务:要求模型应用数学规则和逻辑进行数学推理,解决数学问题。

常识推理任务:要求模型利用常识和先验知识进行推理,例如回答关于现实世界的常识性问题。

包含170个任务,覆盖20多个数据集。每个任务都由一个模板、一组例子和一个测试集组成。

• 机器翻译

• 文本分类

• 序列标注

• 抽取式摘要

• 信息检索

• 表格解读

• 数理推理

• 常识推理

• 多模态推理

• 规划

• 数学问题解答

应用案例

PaLM 540B算法采用:人类平均表现仍然高于PaLM 540B在35%的BigBench任务中,而有些任务即使进行扩展也没有帮助,比如导航数学归纳

官方地址
GitHub - google/BIG-bench: Beyond the Imitation Game collaborative benchmark for measuring and extrapolating the capabilities of language models

2、BBL

BIG-bench Lite (BBL)是BIG-bench中包含的24个多样化的JSON任务的一个小子集。它旨在提供模型性能的规范度量,同时比评估BIG-bench中超过200个编程和JSON任务的完整集合要便宜得多。下面是BBL上当前模型性能的排行榜。要将新的模型结果添加到完整的BIG-bench排行榜、BBL排行榜和个别任务性能图中,请提交一个包含评估模型在BIG-bench任务上生成的分数文件的PR。

BIG-bench基准任务的安装

安装BIG-bench|
Python 3.5-3.8
pytest(用于运行自动化测试)

首先,克隆存储库并设置环境。

#在创建新任务时,将此替换为您分叉的存储库(见下文)

git clone https://github.com/google/BIG-bench.git

cd BIG-bench

python setup.py sdist

pip install -e .

接下来,运行自动化测试以确保一切正常。

pytest -s

BIG-bench基准任务的使用方法

1、使用SeqIO+加载BIG-bench json任务的快速启动

!pip install git+https://github.com/google/BIG-bench.git # This may take a few minutes

import seqio
from bigbench.bbseqio import tasks

# See all subtasks
bb_mix = seqio.get_mixture_or_task("bigbench:all_json.mix.t5_default_vocab.0_shot.all_examples")
all_subtasks = [t.name for t in bb_mix.tasks]
print("\n".join(all_subtasks[:7]) + "\n...")

# Inspect an example task
task = seqio.get_mixture_or_task("bigbench:simple_arithmetic_json.gen.t5_default_vocab.0_shot.all_examples")
ds = task.get_dataset(split="all", sequence_length={"inputs": 32, "targets": 32})
print(next(iter(ds)))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/634866.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Jmeter常用参数化技巧总结!

说起接口测试,相信大家在工作中用的最多的还是Jmeter。 JMeter是一个100%的纯Java桌面应用,由Apache组织的开放源代码项目,它是功能和性能测试的工具。具有高可扩展性、支持Web(HTTP/HTTPS)、SOAP、FTP、JAVA 等多种协议。 在做…

libVLC 调节图像(亮度、对比度、色调、饱和度、伽玛)

作者: 一去、二三里 个人微信号: iwaleon 微信公众号: 高效程序员 对于一个视频来说,色彩和画面效果的呈现非常重要。假如你的画面偏暗或偏亮,缺乏层次感,色彩不够丰富或不自然,则需要根据场景和氛围进行调整。 所涉及的重要参数有: 亮度: 是视频画面的明暗程度。调整…

静态通讯录

文章目录 前言🌟一、明确通讯录信息/步骤🌏1.1.通讯录信息🌏1.2.通讯录多文件写法的好处🌏1.3.通讯录多文件写法 🌟二、通讯录的实现🌏2.1.通讯录的菜单部分🌏2.2.通讯录的框架部分&#x1f30f…

centos卸载mysql5.7安装mysql8.0

一、参考 CentOS7安装MySQL8的超级详细教程(无坑!)_Mysql_脚本之家 云服务器Centos7.9卸载 MySQL5.7.x 或 MySQL8.x 教程_centos 卸载mysql_大白有点菜的博客-CSDN博客 二、centos卸载mysql5.7 1、查看MySQL的依赖安装组件 rpm -qa|grep -i mysql 2、 依次移除&#xff08…

Canvas实现缩放+涂鸦改进

几个月以前,有人问了我一个canvass怎么实现缩放和涂鸦的问题,我基于当时的想法写了一篇博客,但是后来发现当时做的不完善,所以实现上其实还是有一些其他问题的。但是因为前段时间太忙了,也就一直没有机会去改进它。现在…

超详细:实现 Swift 与 汇编(Asm)代码混编并在真机或模拟器上运行

功能需求 虽然现在  开发的绝对主角是 Swift 语言,不过我们也希望有时 Swift 能够调用小段汇编代码以完成特殊功能。 在本篇博文中,您将学到如下内容: Swift 与 汇编语言混编的基本原理;如何在模拟器中使用 Swift x64 汇编指…

小黑带领阿黄中老黑一起跑步完成了小怪兽,晚上一起吃烤肠西瓜,买了帐篷准备一起露营的leetcode之旅:438. 找到字符串中所有字母异位词

小黑代码 class Solution:def findAnagrams(self, s: str, p: str) -> List[int]:# 串p长度n_p len(p)# 串s长度n_s len(s)# 计数字典flags collections.Counter(p)# 统计字典map_ dict((k, 0) for k in p)# 匹配到的字符个数count 0# 头尾指针left right 0# 目标数…

Python给一个exe执行文件注册持续性的快捷键(热键)的代码实例

本篇文章主要讲解通过python给一个exe文件绑定一个快捷键、并取消快捷键(热键)的实操方法。 日期:2023年6月11日 作者:任聪聪 实现按下快捷键即可启动软件的效果说明 启动软件注册热键呼出其他软件或本体的效果说明: 演示材料说明:在download文件目录下存放一个可执行的…

数据结构与算法之美 | 栈

栈结构:后进者先出,先进者后出 栈是一种“操作受限”的线性表 当某个数据集合只涉及在一端插入和删除数据,并且满足后进先出、先进后出的特性,这时我们就应该首选“栈”这种数据结构 栈的实现 使用数组实现:顺序栈…

【数据结构】二叉树(一)

目录 一、树的概念及结构 1、树的概念 2、树的相关概念 3、树的表示 二、二叉树概念及结构 1、二叉树的概念 2、特殊二叉树 3、二叉树的性质 4、二叉树的存储结构 4.1 顺序存储结构 4.2 链式存储结构 三、二叉树顺序结构及实现 1、二叉树的顺序结构 2、堆的概念及结构 3、堆…

OMG--RTPS(Real Time Publish Subscribe Protocol)

OMG--RTPS(Real Time Publish Subscribe Protocol) 1 概述2 内容缩写DDS 有线协议的要求RTPS 有线协议The RTPS Platform Independent Model (PIM)The Structure ModuleThe Messages ModuleThe Behavior ModuleThe Discovery Module The RTPS Platform S…

Xuperchain多节点网络搭建+加节点+测试

环境准备 创建网络部署环境 # 在xuperchain目录执行 make testnet 种子节点 # 查看node1节点连接地址netURL cd node1 ./bin/xchain-cli netURL preview # 得到如下结果,实际使用时,需要将ip配置节点的真实ip,port配置成 /ip4/{{ip}}/tcp/{{port}}/p2p/Qmf2HeHe4sspGkfR…

深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景

【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等 专栏详细介绍:【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化…

上课补充的知识

题目 char类型的默认值是\u0000 数组的创建方式 数组的遍历 遍历:从头到尾,依次访问数组每一个位置,获取每一个位置的元素.形式如下: 我们通过数组的下标操作数组,所以for循环变量操作的也是数组下标 开始:开始下标0 结束:结束下标length-1 如何变化: 语法: for…

大学结束啦!!!

前言:相信看到这篇文章的小伙伴都或多或少有一些编程基础,懂得一些linux的基本命令了吧,本篇文章将带领大家服务器如何部署一个使用django框架开发的一个网站进行云服务器端的部署。 文章使用到的的工具 Python:一种编程语言&…

神舟笔记本“性能、娱乐、省电、安静”模式之间的区别

前言:主要是对比神舟笔记本电脑“性能、娱乐、省电、安静”模式之间的区别 工具及硬件 名称版本号电脑Z8D6 2.5k屏鲁大师6.1023.xxx 之所以使用鲁大师,主要是为了节省时间.另外仅仅只是为了做横向对比,不需要太专业的工具。 实验中有两个变…

六级备考6天|CET-6|听力第一二三四讲|复习回顾|长对话篇章|14:00~16:30

长对话 篇章 目录 听写笔记 练习讲义 听写笔记 1. 听力策略 听前:读题——分析文章——预测题目 听中:划出听到的内容——对应程度高为正确选项 听后:不听题目——往下读题 2. 重点词汇 proofread / ˈpruːfriːd / …

CodeWhisperer插件使用体验

官方教程点击跳转 使用工具 1.vscode 2.插件(AWS Toolkit),免费使用 安装以后如何使用 1.首先要有一个aws账号 2.插件下载好以后登录aws账号,我们主要用这款插件的CodeWhisperer这个功能,其它的自行看官方教程了解。 注意事项:我们在从vs…

杭州互联网医疗Java实习一面

目录 1.java集合知道哪些2.ArrayList和LinkedList插入效率对比3.HashMap的底层结构4.HashMap怎么实现线程安全4.介绍下reentrantlock5.Redis分布式锁的实现原理7.知道哪些排序算法8.快排的原理9.Spring的AOP作用和原理10.MySQL的InnoDB索引结构11.网络中TCP和UDP的区别12.JVM的…

delphi 调用youtube-dl命令,下载youtube视频,原理及源代码

一、概要 1、Youtube-dl工具 强大的视频下载命令行工具Youtube-dl项目由Ricardo Garcia创建于2008年,源代码由Python编写,托管在GitHub上, 最初仅支持YouTube,但随着项目的发展,也开始支持其他视频网站,优势…