传神社区|数据集合集第7期|法律NLP数据集合集

news2024/11/24 4:45:27

自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的较小规模LLM开源之后,业界涌现了大量基于LLM的二次微调和应用案例。

传神社区(Opencsg)旨在收集和整理与中文NLP相关的开源数据集。如果本篇文章对您有帮助,欢迎点赞与收藏~

我们也欢迎大家贡献本文未收录的开源数据集,提供对应的资源,描述与链接,感谢您的支持!

目录

1. 法律问答

      • 1.1 哈佛法学院案例语料库

      • 1.2 中文司法阅读理解数据集

      • 1.3 隐私政策问答数据集

  • 2. 法律文本摘要

    3.1 PILE法律数据集

    3.2 Fairlex评估数据集

    3.3 LexGLUE评估检索数据集

    4. 其他

    4.1 面向非结构化法律文本的spaCy pipeline和NLP模型

    4.2 罪名法务名词及分类模型

      • 2.1 英国最高法院的案例文件及其摘要数据集

      • 2.2 印度最高法院的案例文件及其摘要数据集

      • 2.3 域指导隐私政策摘要数据集

      • 2.4 美国立法自动总结语料库

      • 2.5 合同英语摘要数据集

      • 2.6 美国法律案例摘要数据集

      • 2.7 法律案件报告数据集

      • 3. 法律基准数据集

01 法律问答

1.1 哈佛法学院案例语料库

CaseHOLD:

简介:预训练语料库是通过摄取从1965年至今的整个哈佛法学院案例语料库构建的。这个语料库(37GB)的大小很大,代表了所有联邦和州法院的3,446,187个法律判决,并且比最初用于训练BERT的BookCorpus/Wikipedia语料库(15GB)的大小还要大。我们从这个语料库中随机抽取 10% 的决策作为保留集,我们用它来创建 CaseHOLD 数据集。剩下的 90% 用于预训练。

地址:https://opencsg.com/datasets/MagicAI/CaseHOLD

图片

1.2 中文司法阅读理解数据集

CJRC:

简介:中文司法阅读理解(CJRC)数据集,其中包含约10,000份文件和近50,000个带答案的问题。这些文件来自判决书,问题则由法律专家进行标注。CJRC数据集可帮助研究人员通过阅读理解技术提取要素。要素提取是法律领域的一项重要任务。

地址:https://opencsg.com/datasets/MagicAI/CJRC

图片

1.3 隐私政策问答数据集

PrivacyQA:

简介:PrivacyQA 是一个语料库,由 1750 个关于隐私政策内容的问题组成,并配有专家注释。这项工作的目标是启动该领域问答方法的开发,以解决(不切实际的)期望,即大量人口每天应该阅读许多政策。

地址:https://opencsg.com/datasets/MagicAI/PrivacyQA

02 法律文本摘要

2.1 英国最高法院的案例文件及其摘要数据集

UK-Abs :

简介:这个数据集是从英国最高法院的网站爬取的,包含了793份完整的案件文档及其对应的摘要。这些数据被分为训练集和测试集,其中693对(文档,摘要)被随机抽样作为训练数据集,剩余的100对作为测试集。

地址:https://opencsg.com/datasets/MagicAI/UK-Abs

2.2 印度最高法院的案例文件及其摘要数据集

IN-Abs:

简介:这个数据集是从印度法律信息网站爬取的,包含了7,130份完整的案件文档及其对应的摘要。这些数据被分为训练集和测试集,其中7,030对(文档,摘要)被随机抽样作为训练数据集,剩余的100对作为测试集。

地址:https://opencsg.com/datasets/MagicAI/IN-Abs

2.3 域指导隐私政策摘要数据集

Domain-Guided-Summarization-of-Privacy-Policies:

简介:本数据集提取自151家公司的隐私政策、服务条款和Cookie政策文本。要点和简明英语摘要摘自 tosdr.org。

地址:https://opencsg.com/datasets/MagicAI/Domain-Guided-Summarization-of-Privacy-Policies

2.4 美国立法自动总结语料库

BillSum:

简介:BillSum 数据集是第一个用于自动汇总美国立法的语料库。该语料库包含来自美国国会和加利福尼亚州立法机关的法案文本和人工撰写的摘要。它作为论文发表在EMNLP 2019 New Frontiers in Summarization研讨会上。

地址:https://opencsg.com/datasets/MagicAI/BillSum

图片

2.5 合同英语摘要数据集

legal_summarization :

简介:这个数据集专注于单边法律合同,如服务条款,这类合同在现代数字生活中扮演着重要角色。然而,很少有人在接受这些条款之前会阅读这些文档,因为它们通常篇幅冗长且语言复杂。为了解决这一问题,我们提出了将这些法律文档以简洁的英语进行摘要的任务,这样可以帮助用户更好地理解他们正在接受的条款。

地址:https://opencsg.com/datasets/MagicAI/legal_summarization

图片

2.6 美国法律案例摘要数据集

BVA Cases:

简介:来自美国退伍军人上诉委员会的 92 对(案例、摘要)

地址:https://www.opencsg.com/datasets/MagicAI/BVA_Cases

2.7 法律案件报告数据集

LCR

简介:包含4000个法律案例的文本语料库,用于自动摘要和引文分析。对于每份文档,我们收集标语、引文句子、引文标语和引文类别。

地址:https://www.opencsg.com/datasets/MagicAI/LCR

图片

03 法律基准数据集

3.1 PILE法律数据集

Pile of Law:

简介:我们收集了大量的法律的和行政数据。这些数据的用途有两方面:(1)汇总体现不同数据过滤规范和法律的标准的法律的和行政数据源;(2)收集一个数据集,可用于未来的法律领域语言模型预训练,这是诉诸司法举措的一个关键方向。因此,对数据源进行策划以告知:(1)法律的分析、知识或理解;(2)论点形成;(3)隐私过滤标准。像法典和法律这样的来源倾向于提供信息(1)。成绩单和法庭文件往往提供信息(2)。意见倾向于告知(1)和(3)。

地址:https://www.opencsg.com/datasets/MagicAI/pile_of_Law

图片

3.2 Fairlex评估数据集

Fairlex:

简介:我们提出了一个由四个数据集组成的基准套件,用于评估预先训练的法律语言模型的公平性,以及用于为下游任务微调它们的技术。我们的基准涵盖四个司法管辖区(欧洲理事会、美国、瑞士和中国)、五种语言(英语、德语、法语、意大利语和中文)以及五个属性(性别、年龄、国籍/地区、语言和法律领域)的公平性。在我们的实验中,我们使用几种组鲁棒微调技术评估了预训练的语言模型,并表明在许多情况下,性能组差异是活跃的,而这些技术都不能保证公平性,也不能始终如一地减轻组差异。此外,我们还对结果进行了定量和定性分析,强调了在法律NLP中开发鲁棒性方法的开放挑战。了两个数据集。

地址:https://www.opencsg.com/datasets/MagicAI/Fairlex

图片

3.3 LexGLUE评估检索数据集

LexGLUE:

简介:与 GLUE 和 SuperGLUE ( Wang et al., 2109) 一样,我们的目标之一是推动能够处理多个 NLP 任务的通用(或基础)模型,在我们的例子中是合法的 NLP 任务,可能具有有限的特定任务微调。另一个目标是为希望探索或开发法律NLP方法的NLP研究人员和从业者提供一个方便且信息丰富的切入点。考虑到这些目标,我们在 LexGLUE 中包含的数据集及其处理的任务已通过多种方式进行了简化,如下所述,以使新手和通用模型更容易解决所有任务。

地址:https://www.opencsg.com/datasets/MagicAI/LexGLUE

图片

04 其他

4.1 面向非结构化法律文本的spaCy pipeline和NLP模型

Blackstone:

简介:Blackstone 是一个 spaCy 模型和库,用于处理长格式、非结构化的法律文本。Blackstone 是英格兰和威尔士法律报告委员会研究实验室 ICLR&D 的一个实验性研究项目。

地址:https://opencsg.com/datasets/MagicAI/Blackstone

4.2 罪名法务名词及分类模型

CrimeKgAssitant:

简介:,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能.

地址:https://opencsg.com/datasets/MagicAI/CrimeKgAssitant

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1942195.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CrowdStrike更新致850万Windows设备宕机,微软紧急救火!

7月18日,网络安全公司CrowdStrike发布了一次软件更新,导致全球大范围Windows系统宕机。 预估CrowdStrike的更新影响了将近850万台Windows设备,多行业服务因此停滞,全球打工人原地放假,坐等吃瓜,网络上爆梗…

TCP并发服务器多线程

1.创建线程‐‐pthread_create int pthread_create( pthread_t *thread, // 线程 ID 无符号长整型 const pthread_attr_t *attr, // 线程属性, NULL void *(*start_routine)(void *), // 线程处理函数 void *arg); // 线程处理函数 参数: pthrea…

EXCEL怎么自动添加表格吗?

第一步&#xff0c;选中需要添加表格的范围 第二步&#xff0c;点击开始&#xff0c;选择条件格式&#xff0c;“使用公式确定要设置格式的单元格” 第三步&#xff0c;编辑规则说明加上<>"" 第四步&#xff0c;点击边框&#xff0c;选择外边框确定即可&#x…

STM32CubeIDE(CAN)

目录 一、概念 1、简述 2、CAN 的几种模式 二、实践 1、环回模式轮询通信 1.1 软件配置 1.2 代码编写 2、环回模式中断通信 2.1 软件配置 2.2 代码编写 一、概念 1、简述 STM32微控制器系列包含多个型号&#xff0c;其中一些型号集成了CAN&#xff08;Controller Are…

用移动硬盘装系统里面资料会全删吗?误装系统怎么办

使用‌移动硬盘装系统是一种可行的选择&#xff0c;尤其是当你需要在多台电脑上使用相同的操作系统时。然而&#xff0c;对于初次尝试的新手来说&#xff0c;可能会有一些疑虑&#xff1a;在将移动硬盘用作系统安装盘后&#xff0c;原有的数据是否会被完全删除&#xff1f;如果…

邮件安全篇:邮件反垃圾系统运作机制简介

1. 什么是邮件反垃圾系统&#xff1f; 邮件反垃圾系统是一种专门设计用于检测、过滤和阻止垃圾邮件的技术解决方案。用于保护用户的邮箱免受未经请求的商业广告、诈骗信息、恶意软件、钓鱼攻击和其他非用户意愿接收的电子邮件的侵扰。 反垃圾系统的常见部署形式 2. 邮件反垃圾…

3GPP眼中的XR及其技术特点

3GPP R18 支持了XR Services。XR需要高数据速率和低延迟通信&#xff0c;这也真是5G可以大展身手的地方。这篇就从3GPP的角度看下XR是什么以及XR有哪些技术特点。 Extended Reality (XR) 是指由计算机技术和可穿戴设备生成的所有现实与虚拟相结合的环境和人机交互技术。 实际上…

【ELK】window下ELK的安装与部署

ELK的安装与部署 1. 下载2. 配置&启动2.1 elasticsarch2.1.1 生成证书2.1.2 生成秘钥2.1.3 将凭证迁移到指定目录2.1.4 改配置2.1.5 启动2.1.6 访问测试2.1.7 生成kibana账号 2.2 kibana2.2.1 改配置2.2.2 启动2.2.3 访问测试 2.3 logstash2.3.1 改配置2.3.2 启动 2.4 file…

SQL injection UNION attacks SQL注入联合查询攻击

通过使用UNION关键字&#xff0c;拼接新的SQL语句从而获得额外的内容&#xff0c;例如 select a,b FROM table1 UNION select c,d FROM table2&#xff0c;可以一次性查询 2行数据&#xff0c;一行是a&#xff0c;b&#xff0c;一行是c&#xff0c;d。 UNION查询必须满足2个条…

Potree在web端显示大型点云模型文件

一、克隆项目代码&#xff08;准备好上网工具&#xff0c;得先有node.js npm 环境&#xff09; git clone https://github.com/potree/potree.git二、依赖安装&#xff08;换淘宝镜像能快一些&#xff09; cd potree npm install三、运行 npm start四、使用样例 打开浏览器…

【Linux学习】常用基本指令

&#x1f525;个人主页&#xff1a; Forcible Bug Maker &#x1f525;专栏&#xff1a;Linux学习 目录 &#x1f308;前言&#x1f525;XShell的一些使用查看Linux主机IP使用XShell登录主机XShell下的复制粘贴 &#x1f525;Linux下常用基本指令ls指令pwd指令cd指定touch指令…

Java:115-Spring Boot的底层原理(下篇)

这里续写上一章博客&#xff08;115章博客&#xff09; SpringBoot视图技术&#xff1a; 支持的视图技术 &#xff1a; 前端模板引擎技术的出现&#xff08;jsp也是&#xff09;&#xff0c;使前端开发人员无需关注后端业务的具体实现&#xff08;jsp中&#xff0c;具体的…

Windows 如何把软件从C盘移到其他盘

不知道您有没有发现&#xff0c;当我们下载安装程序时&#xff0c;程序通常会默认自动安装在C盘驱动器中&#xff0c;如果您不手动修改路径的话&#xff0c;C盘驱动器上的可用空间将逐渐减少&#xff0c;并会在不久的将来出现 C盘已满 问题&#xff0c;这可能会导致您的电脑性能…

python实现责任链模式

把多个处理方法串成一个list。下一个list的节点是上一个list的属性。 每个节点都有判断是否能处理当前数据的方法。能处理&#xff0c;则直接处理&#xff0c;不能处理则调用下一个节点&#xff08;也就是当前节点的属性&#xff09;来进行处理。 Python 实现责任链模式&#…

【Python】sqlite加密库pysqlcipher3编译安装步骤

目录 说明准备工作openssl编译sqlite tclsetup.py修改quote_argumentopenssl路径 安装加密示例代码测试附录参考 说明 pysqlcipher3是针对Python 3使用的pysqlcipher的一个分支&#xff0c; 尽管仍然维护对Python 2的支持。它仍然处于测试阶段&#xff0c; 尽管这个库包含的最…

电脑没有摄像头怎么用手机当摄像头?虚拟摄像头使用的详细教程来了(全)

随着科技水平以及全球化经济的快速发展&#xff0c;视频会议、在线课程和直播已经成为日常办公或者生活中必不可少的一个环节。然而&#xff0c;在如今仍有许多台式电脑和一些老旧的笔记本电脑并没有内置摄像头&#xff0c;亦或者自带的摄像头质量不够理想&#xff0c;这使得视…

数据结构day5

一、思维导图 二、课后练习 1、使用循环链表完成约瑟夫环问题 2、使用栈&#xff0c;完成进制转换&#xff08;输入&#xff1a;一个整数&#xff0c;进制数&#xff0c;输出&#xff1a;该数的对应的进制数&#xff09; //头文件 #ifndef DEC_TO_BIN_H #define DEC_TO_BIN_H…

怎样使用 Juicer tools 的 dump 命令将.hic文件转换为交互矩阵matrix计数文件 (Windows)

创作日志&#xff1a; 万恶的生信…一个scHiC数据集没有提供处理好的计数文件&#xff0c;需要从.hic转换。Github一个个好长的文档看了好久才定位到 juicer tools 的dump命令&#xff0c;使用起来比想象中简单。 一、下载Juicer tools 注意&#xff1a;使用Juicer tools的前提…

Ubuntu 22.04.4 LTS (linux) Tomcat 9 内存和线程优化

1 Apache Tomcat 9.0.91 线程 #在70行左右&#xff0c;增加如下 sudo vim /data/tomcat/conf/server.xmlmaxThreads"800" #客户请求最大线程数minSpareThreads"200" #最小线程数maxSpareThreads"500" #最大线程数acceptCount"800"…

Spark RPC框架详解

文章目录 前言Spark RPC模型概述RpcEndpointRpcEndpointRefRpcEnv 基于Netty的RPC实现NettyRpcEndpointRefNettyRpcEnv消息的发送消息的接收RpcEndpointRef的构造方式直接通过RpcEndpoint构造RpcEndpointRef通过消息发送RpcEndpointRef Endpoint的注册Dispatcher消息的投递消息…