每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...

news2024/9/22 19:36:56

Orca-Math 是微软研究院发布的数学推理模型,该模型展示了较小的专业模型在特定领域的价值,它们可以匹配甚至超越更大模型的性能。微软近期开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集,现已在 hyper.ai 官网提供下载,快来体验吧!

3 月 11 日-3 月 15 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

* 优质公共教程:2 个

* 社区文章精选:3 篇

* 热门百科词条:10 条

访问官网:hyper.ai

公开数据集精选

1. Orca-Math-200K 微软数学单词问题数据集

Orca-Math-200K 是微软创建的一个高质量的合成数据集,包含约 20 万小学数学题目,此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。

直接使用:

https://my5353.com/30060

2. MULTI-Benchmark:带有文本和图像的多模态理解排行榜

该数据集为上海交通大学发布的多模态基准测试 MULTI ,旨在评测多模态大模型在理解复杂的表格和图像、以及进行长文本推理的能力。该测试提供多模态输入,并要求回答是精确的或开放式的,反映了现实生活中的考试风格。MULTI 包含逾 18,000 个问题,涵盖从公式推导到图像分析及跨模态推理的多样化任务。

直接使用:

https://my5353.com/30062

3. IEPile 大规模信息抽取语料库 

IEPile 是由浙江大学研发的大规模高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了命名实体识别 (NER) 、关系抽取 (RE) 和事件抽取 (EE) 三大核心子任务。该数据集包含约 200 万条指令样本,总计约 3.2 亿 Token,涵盖了通用、医学、金融等多个领域。

直接使用:

https://my5353.com/30064

4. FFHQ-UV-Intrinsic 用于 3D 人脸重建的面部属性数据集

FFHQ-UV-Intrinsic 是 Ubisoft LaForge 基于 FFHQ-UV 数据集构建的内在面部属性数据集,该数据集包含了 10,000 个主体的面部内在属性,包括漫反射、镜面反射、环境光遮挡和半透明贴图。它是首个公开的、大规模提供高分辨率的内在属性的面部数据集。

直接使用:

https://my5353.com/30113

5. GITQA 多模态图推理问答数据集

GITQA 是香港科技大学和南方科技大学构建的首个包含视觉图的推理问答数据集。该数据集包含超过 423K 个问答实例,每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。

直接使用:

https://my5353.com/30116

6. SMolInstruct 化学指令微调数据集

SMolInstruct 是俄亥俄州立大学提出的一个大规模、全面且高质量的化学指令微调数据集,该数据集包含 14 个不同的化学任务,共超过 300 万个样本,涵盖 160 万个独特的分子。

直接使用:

https://my5353.com/30133

7. MusicPile 大型音乐数据集

MusicPile 是由 Multimodal Art Projection Research Community 、 Skywork AI 和香港科技大学联合推出的一个大型音乐-语言预训练数据集。该数据集包含 517 万个样本,约 41.6 亿 Token,来源包括音乐书籍、 YouTube 音乐字幕、 ABC 记谱法作品等。MusicPile 覆盖了广泛的音乐常识、知识问答及典型乐理内容,对提升大模型的音乐理解与创作能力具有关键作用。

直接使用:

https://my5353.com/30136

8. seq-monkey 序列猴子开源数据集 1.0

序列猴子是出门问问提供的超大规模语言模型,序列猴子数据集是用于训练序列猴子模型的数据集合,现抽取了部分数据集向公众开放:涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。

直接使用:

https://my5353.com/30139

9. 豆瓣电影短评论数据集 V2

该数据集包含豆瓣电影网站中 28 部电影的超过 200 万条短评论。它可以用于文本分类、文本聚类、情感分析、语义网络构建以及其他一些与网络挖掘或 NLP 相关的领域。

直接使用:

https://my5353.com/30011

10. AdaDR—论文「基于自适应 GCN 方法进行药物重新定位」的数据集

该数据集为论文「基于自适应 GCN 方法进行药物重新定位」使用的数据集。为了全面评估所提出的模型性能,研究团队使用了四个基准数据集:Gdataset (Gottlieb et al. 2011)、 Cdataset (Luo et al. 2016)、 Ldataset (Yu et al. 2021) 和 LRSSL (Liang et al. 2017),可应用于药物重新定位任务。

直接使用:

https://my5353.com/30057

更多本周更新数据集,请访问

https://hyper.ai/datasets

公共教程精选

1. 使用迁移学习进行花卉分类

该教程演示了如何使用迁移学习在一组花卉图像数据集上执行图像分类。教程中将利用一个预训练的卷积神经网络 (CNN) 作为特征提取器,并在其上构建一个自定义分类器来预测花卉的种类。

在线运行教程:

https://my5353.com/n30069

2. 量化 Vision Transformers(Vit)以实现高效部署:策略和最佳实践

随着各行业对先进计算机视觉系统的需求持续激增,Vision Transformers 的部署已成为研究人员和从业者的焦点。然而,要充分发挥这些模型的潜力,需要对其架构有深入的了解。此外,制定有效部署这些模型的优化策略也同样重要。

本教程全面探讨了 Vision Transformer 架构、关键组件以及使它们与众不同的基本原理。在教程的最后,通过代码演示讨论了一些优化策略,使模型更加紧凑,以便于部署。

在线运行教程:

https://my5353.com/n30119

社区文章精选

1. 仅需 5% 训练样本达到最优性能,清华大学研究团队发布条件去噪扩散模型 SPDiff,实现长程人流移动模拟

清华大学研究团队提出了一种新颖的条件去噪扩散模型 SPDiff,该模型能够有效地利用交互动力学,通过社会力引导的扩散过程来模拟人群行为。相关论文已发表于 AAAI 2024。

查看完整报道:

https://my5353.com/n30069

2. 北师大研究团队建立 ECA-Net 模型,预测中国未来 70 年的风能利用潜力

近期,来自北京师范大学环境学院的研究团队发表论文,在全球变暖的大背景下,评估了我国风能潜势将如何发生变化。该研究采用了 22 个 CMIP6 全球气候模型作为输出,从而对模型间的不确定性进行可靠评估。结果显示,本世纪我国整体的风能密度将呈现轻微下降趋势。相关论文已发表于「ACS Publications」。

查看完整报道:

https://my5353.com/n30119

3英伟达 2024 GTC 倒计时,黄仁勋会带来面向中国市场的新举措吗?

2024 年 GTC AI 大会定档 3 月 18 日—21 日,黄仁勋将在北京时间 3 月19 日凌晨 4:00—6:00 带来一年一度的分享,主题为「见证 AI 的变革时刻」。HyperAI超神经基于老黄最近的演讲访谈与行业趋势,大胆预测了一下其演讲话题。

查看完整报道:

https://my5353.com/n30151

百科词条精选

1. 平均精度 (mAP)

2. 实例分割 Instance Segmentation

3. 交并比 Intersection over Union (IoU)

4. 多项式插值 Polynomial Interopolation

5. 倒数排名融合  Reciprocal Rank Fusion (RRF)

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

B 站直播预告

日期

时间

内容

3 月 11 日
星期一

10:00

17:00

MIT深度学习课程 

2020

MIT深度学习课程 

2021

3 月 12 日

星期二

10:00

Python API 开发

——初学者综合课程

3 月 13 日

星期三

10:00

14:00

SQL 教程—初学者课程

生成式 AI 全套课程

3 月 14 日

星期四

21:00

面向初学者的 

Flutter 课程

3 月 15 日

星期五

10:00

面向初学者的 

Flutter 课程

3 月 16 日

星期六

10:00

哈佛 CS50

—Python 人工智能课程

3 月 17 日

星期日

10:00

一天内学习 PyTorch 

进行深度学习

超神经电视台 7×24h 不间断直播,持续输出 AI 行业见解,一起来学习吧:

http://live.bilibili.com/26483094

daf64cd73f7ecd4cb3c7c23a42c50d42.gif

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

 往期推荐 

601cc0034cc8532bfeaa9466f72f3f02.png

b87e3facb60beb600ae16601610d6cd1.png

f3ffc32d6d9c3fc1edef6b8774d20fa4.png

21e5c4903e892777dec49b35b4ea2cbc.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1527271.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

记录对NSIS的一些微调 实现Electron安装包美化

利洽科技-nsNiuniuSkinUI - NSIS 实现了electron 的安装包美化,免费,便捷。 下面我整理了一些关于它的微调,使其安装卸载更加简单快捷。 1. 默认展示安装路径部分 (1)将moreconfiginfo标签visible 设置为 true&#…

const,static深度总结——c++穿透式分析

前言;c类和对象的知识点中除了几种默认函数, 比较重要的还有使用const和static修饰成员相关知识点。const在c中特性很简单。 但是在使用中, 比较容易疏忽大意出现问题。 static特性也很简单, 但是比起const来要直接的多。 在使用中…

PHP-小皮创建php网站中遇到的问题及解决方案—我耀学IT

一、安装 1.1 在学习php时我们需要用到的软件有两个,一个时vscode,一个就是小皮面板(phpstudy) 1.2 vscode安装直接从官网下载,根据系统下载对应的版本,例如:windows64、linux等;同…

智慧城市中的智慧生活:便捷、舒适与高效

目录 一、智慧城市中的智慧生活概述 二、智慧生活带来的便捷性 1、智慧交通的便捷出行 2、智慧购物的轻松体验 3、智慧政务的一站式服务 三、智慧生活带来的舒适性 1、智慧环境的绿色宜居 2、智慧医疗的健康保障 3、智慧教育的均衡发展 四、智慧生活带来的高效性 1、…

力扣每日一题 区域和检索 - 数组不可变 前缀和

Problem: 303. 区域和检索 - 数组不可变 时间复杂度: O ( n ) O(n) O(n) 空间复杂度: O ( n ) O(n) O(n) Code class NumArray {int[] s;public NumArray(int[] nums) {int n nums.length;s new int[n 1];for(int i 1; i < n; i)s[i] s[i-1] nums[i-1];}public …

蓝桥杯练习01卡片化标签

卡片化标签页 介绍 选项卡功能在前端开发中特别常见&#xff0c;作为设置选项的模块&#xff0c;每个选项卡代表一个活动的区域&#xff0c;点击不同的区域&#xff0c;即可展现不同的内容&#xff0c;这样既能节约页面的空间又能提升页面性能。 本题需要在已提供的基础项目中…

Vue/Uni-app/微信小程序 v-if 设置出场/退出动画(页面交互不死板,看起来更流畅)

天梦星服务平台 (tmxkj.top)https://tmxkj.top/#/ 在Vue.js中&#xff0c;使用v-if进行条件渲染时设置动画可以通过<transition>组件来实现。 具体操作步骤如下&#xff1a; 包裹条件渲染的元素&#xff1a;您需要将要通过v-if控制显示隐藏的元素包裹在<transition…

华为配置终端定位基本实验配置

配置终端定位基本示例 组网图形 图1 配置终端定位基本服务示例 组网需求数据准备配置思路配置注意事项操作步骤配置文件 组网需求 如图1所示&#xff0c;某公司网络中&#xff0c;中心AP直接与RU连接。 管理员希望通过RU收集Wi-Fi终端信息&#xff0c;并提供给定位服务器进行定…

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之二 素描画风格效果

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之二 素描画风格效果 目录 Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之二 素描画风格效果 一、简单介绍 二、素描画风格效果实现原理 三、案例简单实现步骤 一、简单介绍 Python是一种跨…

机器人可反向驱动能力与力控架构

反向驱动性是电机传动系统的机械特性&#xff0c;它描述了运动是否可以轻松反转 。特别是&#xff0c;反向驱动能力取决于两个因素&#xff1a;传动运动效率和整体执行器机械阻抗。反向运动中传动装置的低运动效率意味着所施加的外力的大部分被运动反作用力抵消。然而&#xff…

T100中常用的SQL语句

汇总总结一下在T100中常用的SQL语句。 一、基础资料的查询 这里把aimm200中的所有的需要的数据全部串查到一个结果集中&#xff0c;然后直接Excel汇出即可。 select imafsite 据点,imaf001 料件编号,imaal003 品名,imaal004 规格,--imaf172 交货前置时间,imaf013 补给策略imaa…

windows查看局域网内所有已使用的IP IP扫描工具 扫描网段下所有的IP Windows环境下

推荐使用&#xff1a; Advanced IP Scanner 官网下载&#xff1a; https://www.advanced-ip-scanner.com/

Flutter-自定义表情雨下落动画

简述 今天给大家分享一个Flutter的表情雨的实现&#xff0c;具体的效果见下图&#xff0c;这个效果其实是工作中的一个小小的需求&#xff0c;这里面单独拿出来讲讲下这个效果的实现思路。 在以前特别是新手&#xff0c;遇到一些动画效果都是拿到需求后&#xff0c;在网络上去…

day03vue学习

day03 一、今日目标 1.生命周期 生命周期介绍生命周期的四个阶段生命周期钩子声明周期案例 2.综合案例-小黑记账清单 列表渲染添加/删除饼图渲染 3.工程化开发入门 工程化开发和脚手架项目运行流程组件化组件注册 4.综合案例-小兔仙首页 拆分模块-局部注册结构样式完善…

以太坊开发学习-solidity(一)环境搭建

文章目录 一 前言以太坊/Ethereum是什么?以太坊/Ethereum虚拟机(EVM)什么是智能合约?如何构建智能合约&#xff1f;什么是Solidity&#xff1f; solidity 编译环境在线编译Remix 本地编译一. node安装使用1. 安装 nodejs / npm2. 安装 Solidity 编译器 solc3. 自定义项目4. 使…

DAY 15补 对称二叉树

对称二叉树 给你一个二叉树的根节点 root &#xff0c; 检查它是否轴对称。 输入&#xff1a;root [1,2,2,3,4,4,3] 输出&#xff1a;true输入&#xff1a;root [1,2,2,null,3,null,3] 输出&#xff1a;false思路 首先想清楚&#xff0c;判断对称二叉树要比较的是哪两个节…

Redis各场景应用集合

应用场景 1、缓存&#xff08;Cache&#xff09;,分布式缓存 有一些存储于数据库中的数据会被频繁访问&#xff0c;如果频繁的访问数据库&#xff0c;数据库负载会升高&#xff0c;同时由于数据库IO比较慢&#xff0c;应用程序的响应会比较差。此时&#xff0c;如果引入Redis来…

javaAPI操作Elasticsearch

mapping属性 mapping是对索引库中文档的约束, 常见的mapping属性包括: type: 字段数据类型,常见的简单类型有: 字符串: text(可分词的文本), keyword(精确值, 例如: 品牌,国家)数值: long, integer, short, byte, double, float布尔: boolean日期: date对象: object index: 是否…

EI Scopus检索 | 第二届大数据、物联网与云计算国际会议(ICBICC 2024) |

会议简介 Brief Introduction 2024年第二届大数据、物联网与云计算国际会议(ICBICC 2024) 会议时间&#xff1a;2024年12月29日-2025年1月1日 召开地点&#xff1a;中国西双版纳 大会官网&#xff1a;ICBICC 2024-2024 International Conference on Big data, IoT, and Cloud C…

RediSearch比Es搜索还快的搜索引擎

1、介绍 RediSearch是一个Redis模块&#xff0c;为Redis提供查询、二次索引和全文搜索。要使用RediSearch&#xff0c;首先要在Redis数据上声明索引。然后可以使用重新搜索查询语言来查询该数据。RedSearch使用压缩的反向索引进行快速索引&#xff0c;占用内存少。RedSearch索…