LegalAI公开数据集的整理、总结及介绍(持续更新ing…)

news2024/11/28 14:08:07

诸神缄默不语-个人CSDN博文目录

最近更新日期:2023.6.7
最早更新日期:2023.6.7

文章目录

  • 1. 司法判决预测
  • 2. 通用语料
  • 3. 其他集成项目
  • 4. 推理
  • 5. NLU
  • 6. NLG
    • 1 QA
    • 2 文本摘要
  • 7. 信息抽取
    • 1 命名实体识别
    • 2 句子边界检测(分句)

1. 司法判决预测

中文:

  1. CAIL2018
    刑法
    1. 原始论文:CAIL2018: A Large-Scale Legal Dataset for Judgment Prediction
      Overview of CAIL2018: Legal Judgment Prediction Competition
    2. 数据下载地址:https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip(对数据的具体介绍除上面的论文外,还可以参考:thunlp/CAIL: Chinese AI & Law Challenge)
    3. 任务:(分类)预测法条、罪名、刑期

2. 通用语料

多语言:

  1. MultiLegalPile在这里插入图片描述
    1. 原始论文:(2023) MultiLegalPile: A 689GB Multilingual Legal Corpus
    2. 数据下载地址:https://huggingface.co/datasets/joelito/Multi_Legal_Pile
    3. 项目包含的数据:
      1. https://huggingface.co/datasets/joelito/eurlex_resources
      2. https://huggingface.co/datasets/joelito/legal-mc4
      3. Pile of Law
  2. LexFiles
    1. 原始论文:(2023 ACL) LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development

西班牙语:

  1. Spanish Legal Domain Corpora
    1. 原始论文:(2021) Spanish Legalese Language Model and Corpora
    2. 数据下载地址:Spanish Legal Domain Corpora | Zenodo

英语:

  1. CaseHOLD
    English Harvard Law case corpus (1965-2021)
    1. 原始论文:(2021 ICAIL) When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings
  2. Pile of Law
    1. 原始论文:(2022 NeurIPS) Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset
    2. 数据下载地址:https://huggingface.co/datasets/pile-of-law/pile-of-law

中文:

  1. 华律网法律咨询数据及论文所需语料库;同时发表的论文:法律咨询文本分类系统设计与研究
    The legal consultation data and corpus of the thesis from China law network.Replication Data for: Design and research of legal consultation text classification system. - Data Driven Innovation Research Competition for University of China

3. 其他集成项目

多语言:

  1. LexGLUE
    coastalcph/lex-glue: LexGLUE: A Benchmark Dataset for Legal Language Understanding in English
    1. 原始论文:(2021) LexGLUE: A Benchmark Dataset for Legal Language Understanding in English
  2. LEXTREME
    1. 原始论文:(2023) LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain
    2. 数据下载地址:https://huggingface.co/datasets/joelito/lextreme

还没整理完的:

  1. https://github.com/neelguha/legal-ml-datasets

4. 推理

  1. legalbench
    1. 原始论文:(2022) LegalBench: Prototyping a Collaborative Benchmark for Legal Reasoning
    2. 数据下载地址:https://github.com/HazyResearch/legalbench

英语:

  1. SARA:大概来说就是推理某种情况是否适用于某某法律(美国税法中的9个Section)
    1. 原始论文:(2020) A Dataset for Statutory Reasoning in Tax Law Entailment and Question Answering

5. NLU

  1. SemEval 2023 Task 6: LegalEval - Understanding Legal Texts
    1. 任务:Rhetorical Roles Labeling,命名实体识别,可解释的司法判决预测

6. NLG

1 QA

中文:

  1. JEC-QA
    法考数据集
    https://jecqa.thunlp.org/
    1. 原始论文:(2020 AAAI) JEC-QA: A Legal-Domain Question Answering Dataset

2 文本摘要

英文:

  1. BillSum

7. 信息抽取

1 命名实体识别

葡萄牙语(巴西):

  1. CDJUR-BR
    1. 原始论文:(2023) CDJUR-BR – A Golden Collection of Legal Document from Brazilian Justice with Fine-Grained Named Entities

2 句子边界检测(分句)

多语言:

  1. MultiLegalSBD(英语、西班牙语、德语、意大利语、葡萄牙语、法语)
    1. 原始论文:(2023 ICAIL) MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset
    2. 数据下载地址:https://huggingface.co/datasets/rcds/MultiLegalSBD

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/620134.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

青岛科技大学|物联网工程|物联网定位技术(第二讲)|15:00

目录 物联网定位技术(第二讲) 1. 卫星的轨道高度与覆盖区域有何关系,试画图给予说明覆盖区地心角与覆盖面积的关系 2. 试给出实际的卫星地面覆盖区和用户空间可视区所对应的半地心角的公式并请给予解释 3. 定位导航卫星为什么一般不采用同…

【集群】LVS负载均衡群集

文章目录 前言一、企业群集应用概述1. 群集的含义1.1 群集的特点1.2 扩展服务器的方式 2. 群集的类型2.1 负载均衡群集(Load Balance Cluster)2.2 高可用群集(High Availability Cluster)2.3 高性能运算群集(High Perf…

软考A计划-电子商务设计师-模拟试题卷七

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

有一种附件叫做V2附件

大家好,才是真的好。 一般而言,Notes中上传的附件都会对应到某个富文本字段中,这样附件易于处理,也容易进行排版。 最简单的案例就是我们的Notes邮件,附件可以附加在正文中,如下图: 还有我们…

新入职一家公司,接手了个从零开始的项目

开发流程 一个完整的从零开始开发的项目,会涉及到功能设计、数据库设计、项目框架搭建、接口设计与实现等流程,具体可以参考下图。 与我们后端开发有关的主要是功能设计、数据库设计、接口设计与实现这三部分,当然接口设计与实现中也包含项目…

chatgpt赋能python:Python如何快速SEO

Python如何快速SEO Python作为一种通用编程语言,广泛应用于各行各业,包括网站开发和SEO。SEO(Search Engine Optimization)是通过调整网站的结构和内容来提高其在搜索引擎排名中的位置,从而提高网站的流量和收益。Pyt…

【百问百答】可靠性基础知识第四期

1. IP等级的主要测试标准有哪些? 主要参考标准有GB 4208和IEC 60598, 其中也可以具体参考产品标准, 例如LED灯具参考标准为GB 7000, 汽车电子产品可以参考GB/T 28046.3等等。 2.IP等级可分为几个等级? 根据GB4208标准防止固定异物进入&…

阿里云 Serverless 容器服务全面升级:新增组件全托管、AI 镜像秒级拉取能力

6 月 1 日在阿里云峰会粤港澳大湾区上,阿里云智能云原生应用平台总经理丁宇宣布,Serverless 容器服务 ASK 全面升级,进一步帮助企业和开发者降本提效。 Gartner 曾预测,2023 年 70% 的 AI 应用将基于容器和 Serverless 技术开发。…

开源“上天入地”的本领都在这!2023 开放原子全球开源峰会「开源展览」一文拿捏!

2023 开放原子全球开源峰会 将于 6 月 11-13 日正式举办 开源领域新技术、新应用、新热点 Show Time! 前沿开源展览汇 互动体验项目 让每一位参会者融入开源技术新世界! 还有精彩的娱乐项目和丰厚礼品 一网打尽! 抢先揭秘,一…

【Springboot】基于AOP机制的前置通知以及Cookies记录用户操作日志

文章目录 前言1. 添加依赖2. 创建自定义注解LogAnnotation3. 创建日志记录类型3. 编写切面逻辑4. 完善切面层,获取详细的请求信息4.1 获取自定义注解上的属性值4.2 通过Cookies获取用户信息4.3 获取执行时间4.4 日志实体类以及对应数据库类型 5.最后实现的结果 前言…

Spring Authorization Server扩展实现OAuth2.0的密码模式

写在前面 Spring官方已经停止对Spring Security Oauth2的维护,项目和相关文档也被移除 Spring Authorization Server是官方新推出的OAuth2.1和OpenID Connect1.0的实现 两个主要的版本,0.4.x:jdk8。1.x: jdk17 这里用的版本是0.4.1 OAuth2…

A Comprehensive Survey of Neural Architecture Search: Challenges and Solutions

这是NAS综述系列的第二篇文章,针对《A Comprehensive Survey of Neural Architecture Search:Challenges and Solutions》的翻译。 神经架构搜索综述:挑战与解决方案 摘要1 引言1.1 动机1.2 我们的贡献和相关综述1.3 文章组织 2 早期NAS的特征3 优化策略…

SpringBoot之Spring Data JPA入门学习2

我们继续使用上一章的环境。SpringBoot之Spring Data JPA入门学习 一、自动生成数据 我们修改一下实体 增加了几个注解: CreationTimestamp 自动生成创建时间。 UpdateTimestamp 自动生成更新时间。 使用这两个注解我们还需要在类上加上两个注解DynamicInsert和…

【unity造轮子】排序排行榜的制作

List类中有一个【Sort方法】 可以非常快速的对【整数类】 或者【小数类】元素进行升序 public class TestCompare MonoBehaviour {public List<int>numbers;private void Start(){numbersnew List<int>(){20,10,30,70,60,40,50,90,80,100}:}private void Update()…

stable diffusion图片资源分享和模型推荐,好用的模型有哪些呢?

前言 这篇文章主要是分享我的图片和推荐一些好用的模型&#xff0c;模型不在多在于精&#xff0c;基于几个好的大模型适当下载一下LORA模型&#xff0c;就能画出非常好的图片&#xff0c;多话不说 图片分享 简单展示 详情请看&#xff1a;https://space.bilibili.com/109890…

Amazon Web Services (AWS)上的 OpenText 信息管理(IM) 解决方案

Amazon Web Services (AWS)上的 OpenText 信息管理(IM) 解决方案 OpenText 行业领先的信息管理(IM) 解决方案作为完全托管的服务提供&#xff0c;以 Amazon 公有云环境的安全性、可扩展性和性能为后盾&#xff0c;实现业务数字化转型并推动创新。 价值 降低运营成本30%以上&…

ldap服务安装,客户端安装,ldap用户登录验证测试

安装服务端 # 安装ldap服务 docker run -p 389:389 -p 636:636 \ --name openldap \-v /home/manager/testldap:/testldap \ --env LDAP_ORGANISATION"admin" \ --env LDAP_DOMAIN"hadoop.apache.org" \ --env LDAP_ADMIN_PASSWORD"Dmpxxx" \ -…

上周发布的Notes/Domino 12.0.2FP1以及REST API 1.0.4

大家好&#xff0c;才是真的好。 一段时间没见&#xff0c;有没有分外想念&#xff1f; 其实&#xff0c;我们每周都至少更新一篇&#xff0c;虽然今天是周日&#xff0c;可也是工作日啊&#xff0c;因此本周也算赶上发了一篇。 废话不多说&#xff0c;先上图&#xff1a; …

PMP证书含金量也太高了吧!在一线城市可享受多项福利~

近年来&#xff0c;企业与企业、城市与城市间的人才争夺变得更加激烈&#xff0c;各大城市为了泛集聚和培养重点领域紧缺专业人才均针对持有国际职业资格认证的人才出台了相关优惠政策&#xff0c;目前我了解到的已有以下5个城市针对PMP项目管理及相关行业和认证出台了鼓励政策…

2023-06-07:Redis 持久化方式有哪些?以及有什么区别?

2023-06-07&#xff1a;Redis 持久化方式有哪些&#xff1f;以及有什么区别&#xff1f; 答案2023-06-07&#xff1a; Redis提供了两种持久化机制&#xff1a;RDB和AOF。 RDB RDB持久化是将Redis当前进程中的数据生成快照并保存到硬盘的过程。快照指的是Redis在某一时刻的内…