Doc2Bot: 达摩院推出多类型文档对话数据集

Doc2Bot: 达摩院推出多类型文档对话数据集

news2026/2/12 12:36:00

一、概述

title：Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots

论文地址：Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots - ACL Anthology

数据地址（大概5千多轮开源数据）：GitHub - Doc2Bot/Doc2Bot

modescope地址：ModelScope 魔搭社区

1.1 Motivation

有些公司以及组织有大量的手册以及说明书，基于这些文档对话完成信息查找非常有用。
文档有很多种结构（本文，表格等），目前大部分数据集主要是纯文本。
用户需求通常没有明确说明。

1.2 Methods

构建了5大领域，多种文档类型的数据集，超过10万轮对话数据。
提出了dst（对话状态跟踪）、dpl（对话策略学习）、dg（对话生成）三个任务来完成这个数据集。
提出了一种基于文档构件数据集的策略（引入图的结构，然后根据图的路径，由总包模拟生成对话数据）。

1.3 Conclusion

测试了机器处理各种类型的文档数据集的能力 + 澄清用户需求的能力。
该任务还是有挑战性的，特别在文档检索任务上指标还偏差，值得进一步研究。

1.4 limitation

构建文档的graph结构还需要大量人工参与，比较麻烦。
暂时还没包括无法回答的case。
由于隐私等其他原因，只开放了部分数据。

二、baseline任务说明

三、详细内容

3.1 基于文档（文档有段落、表格等各种各样的形式）对话例子

3.2 基于文档构件graph（后续基于graph来生成对话）

3.3 对话数据统计

user action的比例 + system action比例
5大领域，以纯文本为主，但是还是包括其他类型的document

3.4 baseline实验

Dialog State Tracking

user action预测（分类问题）
grounding text prediction：找出文档依据的来源（检索 + 分类）

Dialog Policy Learning

系统action预测（分类问题） + 节点预测（分类问题）
回复生成（生成模型）

3.5 真实数据举例

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/497914.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

用 Spark 预测回头客

用 Spark 预测回头客

访问【WRITE-BUG数字空间】_[内附完整源码和文档] 至此“淘宝双 11 数据分析与预测课程案例”所需要的环境配置完成。另外实际操作中发现在案例教程中存在一些小问题，比如教程中 Eclipse 版本为 3.8，但是在配置 Tomcat Server 时又要求配置 v8.0 版本&a…

阅读更多...

【分布式技术专题】「授权认证体系」OAuth2.0协议的入门到精通系列之授权码模式

【分布式技术专题】「授权认证体系」OAuth2.0协议的入门到精通系列之授权码模式

这里写目录标题 OAuth2.0是什么OAuth2.0协议体系的Roles角色OAuth定义了四个角色资源所有者资源服务器客户端授权服务器传统的客户机-服务器身份验证模型的问题协议流程认证授权授权码 OAuth2.0是什么 OAuth 2.0是用于授权的行业标准协议。OAuth 2.0专注于简化客户端开发人员…

阅读更多...

从【连接受限】看Android网络

从【连接受限】看Android网络

从连接受限看Android网络现象摸索从通知开始是Handler发的通知看看NetworkStateTrackerHandler NetworkMonitor做了什么NetworkMonitor是一个状态机CaptivePortalProbeResult从何而来连接受限的直接原因嗅探是怎样进行的ProbeThread 回过头看看InternalHanderregisterNetwork…

阅读更多...

GRE 隧道协议

GRE 隧道协议

1.GRE协议简介 GRE（General Routing Encapsulation ，通用路由封装）是对某些网络层协议(如IP和IPX)的数据报文进行封装，使这些被封装的报文能够在另一网络层协议(如IP)中传输。此外 GRE协议也可以作为VPN的第三层隧道协议连接两个…

阅读更多...

ES6之迭代器

ES6之迭代器

文章目录前言迭代器1.原生具备Iterator接口的数据（可用for...of遍历）2.工作原理3.自定义遍历数据总结前言迭代器（Iterator） for…of遍历迭代器迭代器是一种接口，为各种不同数据结构提供统一的访问机制。任何数…

阅读更多...

c++ 11标准模板（STL） std::vector (八）

c++ 11标准模板（STL） std::vector (八）

定义于头文件 <vector> template< class T, class Allocator std::allocator<T> > class vector;(1)namespace pmr { template <class T> using vector std::vector<T, std::pmr::polymorphic_allocator<T>>; }(2)(C17…

阅读更多...

智慧工地烟火识别算法 opencv

智慧工地烟火识别算法 opencv

智慧工地烟火识别系统应用pythonopencv深度学习算法模型技术分析前端视频信息，智慧工地烟火识别算法模型主动发现工地或者厂区现场区域内的烟雾和火灾苗头及时进行告警。OpenCV的全称是Open Source Computer Vision Library，是一个跨平台的计算机视觉处理…

阅读更多...

前端三剑客 - HTML

前端三剑客 - HTML

前言前面都是一些基础的铺垫，现在就正式进入到web开发环节了。我们的目标就是通过学习 JavaEE初阶，搭建出一个网站出来。一个网站分成两个部分： 前端（客户端） 后端（服务器） 通常这里的客户端…

阅读更多...

ASP.NET Core Web API用户身份验证

ASP.NET Core Web API用户身份验证

一、JWT介绍 ASP.NET Core Web API用户身份验证的方法有很多，本文只介绍JWT方法。JWT实现了服务端无状态，在分布式服务、会话一致性、单点登录等方面凸显优势，不占用服务端资源。简单来说，JWT的验证过程如下所示： &a…

阅读更多...

基于微服务架构的水果销售系统的设计与实现

基于微服务架构的水果销售系统的设计与实现

访问【WRITE-BUG数字空间】_[内附完整源码和文档] 整体上为微服务架构，使用 SpringCloud 技术，每个独立的服务为一个单独的 SpringBoot 工程；数据库使用 MySQL 数据库；分布式缓存使用 Redis，消息队列使用 Kafka。包括…

阅读更多...

基于matlab的相控阵系统仿真场景可视化

基于matlab的相控阵系统仿真场景可视化

一、前言此示例演示如何使用方案查看器可视化系统级仿真。二、介绍相控阵系统仿真通常包括许多移动物体。例如，阵列和目标都可以处于运动状态。此外，每个移动物体可能都有自己的方向，因此当模拟中出现更多玩家时，簿记变得越来越…

阅读更多...

是人就能学会的Spring源码教学-Spring的简单使用

是人就能学会的Spring源码教学-Spring的简单使用

是人就能学会的Spring源码教学-Spring的简单使用 Spring的最简单入门使用第一步创建项目第二步配置项目第三步启动项目 Spring的最简单入门使用各位道友且跟我一道来学习Spring的最简单的入门使用，为了方便和简单，我使用了Spring Boot项目&#xff…

阅读更多...

解决NixOS在Vmware中无法自适应显示缩放问题

解决NixOS在Vmware中无法自适应显示缩放问题

解决NixOS在Vmware中无法自适应显示缩放问题此方法同样适用于所有虚拟机，主要解决的是虚拟机界面显示无法自适应操作虚拟机时，过渡动画卡顿看视频时，分辨率不高，伴随卡顿起因在为 NixOS安装完 Vmware Tools 后，…

阅读更多...

2023年最新水果DAW编曲软件fl studio21 macOS - 21.0.3.3036简体中文版免费下载支持苹果M1/M2处理器

2023年最新水果DAW编曲软件fl studio21 macOS - 21.0.3.3036简体中文版免费下载支持苹果M1/M2处理器

一直梦想制作自己的音乐(无论是作为一名制作人还是艺术家)，你可能会想你出生在这个时代是你的幸运星。这个水果圈工作室和上一版之间的改进水平确实令人钦佩。这仅仅是FL Studio 21所提供的皮毛。你的音乐项目的选择真的会让你大吃一惊。你以前从未有过这样的多才多…

阅读更多...

【LeetCode】《LeetCode 101》第七章：动态规划

【LeetCode】《LeetCode 101》第七章：动态规划

文章目录 7.1 算法解释7.2 基本动态规划：一维70. 爬楼梯（简单）198.打家劫舍（中等）413. 等差数列划分（中等） 7.3 基本动态规划：二维64. 最小路径和（中等）542. …

阅读更多...

【项目经理】论项目经理的自我修养

【项目经理】论项目经理的自我修养

项目经理的非职权领导力文章目录项目经理的非职权领导力一、权利的类型二、构成权利的三要素三、沟通是实施影响力的重要手段3.1 沟通的主要类型3.2 沟通的内容和形式3.3 沟通的主要困难四、综合沟通协调的技巧4.1 常见的负面反馈4.2 沟通技巧五、论项目经理的自我修养5.1 …

阅读更多...

PyCharm2023.1下载、安装、注册以及简单使用【全过程讲解】

PyCharm2023.1下载、安装、注册以及简单使用【全过程讲解】

在使用PyCharm IDE之前，请确保自己的计算机里面安装了Python解释器环境，若没有下载和安装可以看看我之前的文章>>>Python环境设置>>>或者还可以观看视频讲解。注意：本文软件的配置方式仅供个人学习使用，如有侵…

阅读更多...

如何将PDF文件转换为Excel表格？这两个方法方便实用!

如何将PDF文件转换为Excel表格？这两个方法方便实用!

如何将PDF文件转换为Excel表格？ 很多人在编辑和处理表格内容时，需要将PDF文件转换为Excel表格，以更好地修改和排版。虽然PDF文件往往起到展示整体效果的作用，但是PDF转Excel也是办公中老生常谈的文档处理操作。如果您还不知道如何…

阅读更多...

Java架构中VO、DTO、DO、BO的区别与联系（超详解）

Java架构中VO、DTO、DO、BO的区别与联系（超详解）

VO、DTO、DO、BO的区别与联系前言一、概念1、VO (View Object)2、DTO(Data Transfer Object)3、DO(Data Object)4、BO（Business Object） 二、为什么会存在Vo？三、总结前言本博主将用CSDN记录软件开发求学之路上亲身所得与所学的心得与知识…

阅读更多...

深入理解 node 中的文件流

深入理解 node 中的文件流

为什么要使用文件流想象这样一个场景，我要处理一个 10G 的文件，但我的内存大小只有 2G，该怎么办？ 我们可以分 5 次读取文件，每次只读取 2G 的数据，这样就可以解决这个问题，那么这个分段读取的过…

阅读更多...

推荐文章

最新文章