【huggingface】数据集及模型下载并保存至本地

news2024/12/23 13:49:19

目录

    • 数据集
      • ChnSentiCorp
      • peoples_daily_ner
    • 模型
      • bert-base-chinese
      • hfl/rbt3
      • t5-base
      • opus-mt-zh-en
      • Chinese_Chat_T5_Base

环境:没有代理,无法访问部分国外网络

数据集

正常情况下通过load_dataset加载数据集;save_to_disk保存至本地;load_from_disk读取本地数据集。
但由于网络原因,load_dataset加载数据集大多数时候会失败,因此针对不同数据集需要研究如何加载。
思路主要分为
1、 git lfs clone下载huggingface数据集
2、研究.py代码,获取原始数据
3、load_dataset加载,save_to_disk保存

ChnSentiCorp

用于中文情感分析,标记了每条评论的情感极性(0或1)

  1. 数据集地址:seamew/ChnSentiCorp,可见三个.arrow文件即为原始数据。
    在这里插入图片描述

  2. git下载数据集:git lfs clone https://huggingface.co/datasets/seamew/ChnSentiCorp

  3. git下载的文件无法直接使用:

    • load_dataset会执行.python文件,通过https://drive.google.com下载数据导致下载失败报错
    • load_from_disk会执行失败,因为该文件夹非dist数据集格式在这里插入图片描述
  4. 加载.arrow原始数据并保存

    # 设置data_files 
    data_files = {
        'train': './data/ChnSentiCorp/chn_senti_corp-train.arrow',
        'test': './data/ChnSentiCorp/chn_senti_corp-test.arrow',
        'validation': './data/ChnSentiCorp/chn_senti_corp-validation.arrow'}
    # 加载arrow数据集
    dataset = load_dataset('arrow', data_files=data_files)
    # 保存至本地
    dataset.save_to_disk('./huggingface/hub/datasets/chn_senti_corp')
    

    保存在本地的数据集:
    在这里插入图片描述

  5. 加载保存至本地的数据集

    dataset = load_from_disk('./huggingface/hub/datasets/chn_senti_corp')
    

peoples_daily_ner

用于中文命名实体识别(NER),来自人民日报的文本数据,标记了人名、地名 、组织机构等

  1. 数据集地址:peoples_daily_ner,并无原始数据文件。
    在这里插入图片描述

    研究.py:虽然raw.githubusercontent.com无法发访问,但可通过https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/People's%20Daily去下载原始数据

    在这里插入图片描述在这里插入图片描述

  2. git下载数据集:git lfs clone https://huggingface.co/datasets/peoples_daily_ner

  3. git下载原始数据:example.trainexample.devexample.test
    在这里插入图片描述

  4. 将原始数据放在huggingface数据集文件夹内,并修改.py内_URL为本地路径
    在这里插入图片描述

    # _URL = "https://raw.githubusercontent.com/OYE93/Chinese-NLP-Corpus/master/NER/People's%20Daily/"
    _URL = ""
    _TRAINING_FILE = "example.train"
    _DEV_FILE = "example.dev"
    _TEST_FILE = "example.test"
    
  5. 即可通过load_dataset加载

    dataset = load_dataset('./data/peoples_daily_ner')
    dataset.save_to_disk('./huggingface/hub/datasets/peoples_daily_ner')
    

模型

模型则要简单许多,直接通过git lfs clone下载至本地保存即可

bert-base-chinese

基于BERT架构的中文预训练模型,使用了中文维基百科进行预训练,能对中文文本进行深度的理解和分析。

git lfs clone https://huggingface.co/bert-base-chinese

from transformers import BertTokenizer,BertModel
tokenizer = BertTokenizer.from_pretrained('./huggingface/hub/models/bert-base-chinese')
pretrained= BertModel.from_pretrained('./huggingface/hub/models/bert-base-chinese')

hfl/rbt3

哈工大未来语言智能实验室(HFL)开发的中文预训练模型RBT3的版本,使用了中文维基百科和百度文库(Baidu Wenku)进行预训练。

git lfs clone https://huggingface.co/hfl/rbt3

from transformers import AutoTokenizer
from transformers import AutoModel
tokenizer = AutoTokenizer.from_pretrained('./huggingface/hub/models/hfl___rbt3')
pretrained= AutoModel.from_pretrained('./huggingface/hub/models/hfl___rbt3')

t5-base

基于T5(Text-to-Text Transfer Transformer)架构的预训练模型,使用海量的文本数据进行训练,可以用于多种自然语言处理任务。虽然这个模型并不是专门针对中文的,但也可以在中文处理任务中应用。

opus-mt-zh-en

基于神经机器翻译的中文到英语的预训练模型,由牛津大学和阿里巴巴达摩院联合开发,可以用于中文到英语的翻译任务。

Chinese_Chat_T5_Base

中文版对话机器人,在1300w+问答和对话数据上做有监督预训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/972976.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

佳作导读 | 《C++ Core Guidelines》

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! 佳作导读 | 《C Core Guidelines》 《C Core Guidelines》由Bjarne Stroustrup和Herb Sutter等共同编写关于使用C编程语言的指南;旨在提供关于如何使用C进…

Linux常用命令——csplit命令

在线Linux命令查询工具 csplit 将一个大文件分割成小的碎片文件 补充说明 csplit命令用于将一个大文件分割成小的碎片,并且将分割后的每个碎片保存成一个文件。碎片文件的命名类似“xx00”,“xx01”。csplit命令是split的一个变体,split只…

如何在Win10系统上安装WSL(适用于 Linux 的 Windows 子系统)

诸神缄默不语-个人CSDN博文目录 本文介绍的方法不是唯一的安装方案,但在我的系统上可用。 文章目录 1. 视频版2. 文字版和代码3. 本文撰写过程中使用到的其他网络参考资料 1. 视频版 B站版:在Windows上安装Linux (WSL, 适用于 Linux 的 Windows 子系统…

【Rust 日报】2023-09-03 sudo-rs:sudo 和 su 的内存安全实现

sudo-rs:sudo 和 su 的内存安全实现 sudo-rs 项目通过以下方式改进了原始 sudo 的安全性: 使用内存安全语言(Rust),因为估计原始 sudo 中三分之一的安全漏洞都与内存管理问题有关。省略不常用的功能,以减少…

记2个library cache lock故障case

第一个case 客户说晚上10点的时候做业务很卡,遂取对应时段awr 非常明显的library cache lock事件。这个事件是元数据锁,一旦泛滥对数据库的影响范围很大。 因此,他的泛滥第一时间应该想到会有大量持有元数据的动作。对sql进行检查 这个自动…

精益制造、质量管控,盛虹百世慧共同启动MOM(制造运营管理)

百世慧科技依托在电池智能制造行业中的丰富经验,与盛虹动能达成合作,为其提供MOM制造运营管理平台,并以此为起点,全面提升盛虹动能的制造管理水平与运营体系。 行业困境 中国动力电池已然发展为全球最大的电池产业,但…

【网络安全带你练爬虫-100练】第20练:数据处理-并写入到指定文档位置

目录 一、目标1:解码去标签 二、目标2:提取标签内内容 三、目标3:处理后的数据插入原位置 四、目标4:将指定的内容插入指定的位置 五、目标5:设置上下文字体格式 六、目标6:向多个不同位置插入不同的…

算法笔记:平衡二叉树

1 介绍 平衡二叉树(AVL树)是一种特殊的二叉搜索树(BST),它自动确保树保持低高度,以便实现各种基本操作(如添加、删除和查找)的高效性能。 ——>时间都维持在了O(logN)它是一棵空…

网络安全—0基础入门学习手册

前言 一、什么是网络安全 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域,都有攻与防…

windows下配置pcl-python

1.前提概要 python版本的pcl基本上只有3.6的能用,本人3.7/3.8均进行了尝试。 因为很多博主提到的Gtk已经下载不了了,实在是维护人员太懒了。如果你看到这里,可以试试下面这个链接,说不定又能用了呢。 Gtk下载:http:…

vmware网卡(网络适配器)桥接、NAT、仅主机3种模式解析

Bridged(桥接模式)、NAT(网络地址转换模式)、Host-Only(仅主机模式) Windows系统安装好vmware后,在网络连接中会生成VMnet1和VMnet8两个虚拟网卡。 VMnet1作用于仅主机模式,VMnet8作…

Java作业3

1.下面代码的运行结果是(C) public static void main(String[] args){String s;System.out.println("s"s);}A.代码编程成功,并输出”s” B.代码编译成功,并输出”snull” C.由于String s没有初始化,代码不…

Mqtt学习笔记--接入阿里云(2)

概述 在阿里云IoT平台中,MQTT协议是一种重要的连接方式,可以用于设备与平台之间的通信。通过配置设备的Topic和订阅规则,设备可以在平台上发布/订阅消息,实现设备状态的监控、控制和数据的传输。同时,阿里云IoT平台还提…

算法笔记 二叉搜索树

二叉搜索树(Binary Search Tree,简称 BST)是一种数据结构,用于存储具有可比较键(通常是数字或字符串)的元素 1 结构特点 节点结构:每个节点都有一个键和两个子节点(左子节点和右子…

JavaWeb | 常用的HTML(JavaWeb)标签

目录: HTML简介HTML的基本结构HTML的常用标签:“标题” 标签“换行” 标签“段落” 标签“水平线” 标签“文字” 标签“粗体” 标签“下划线” 标签“斜体” 标签“上标” 标签“下标” 标签“闪烁” 标签表示 “空格”“列表” 标签:无序列…

VGA OUT 的PCB设计注意事项

VGA(Video Graphics Array)即视频图形阵列,具有分辨率高、显示速率快、颜色丰富等优点。VGA接口不但是CRT显示设备的标准接口,同样也是LcD液晶显示设备的标准接口,具有广泛的应用范围。 VGA OUT PCB设计注意事项: 1、整体布局时&…

PCIe 配置空间:Command 寄存器

在 type 0 header 中,command 寄存器的位置如下图所示: 在 type 1 header 中,command 寄存器的位置如下图所示: Command 寄存器的结构如下图: 对于 PCIe,只有 Bit 0/1/2/6/8/10 是有效的,其他必须配置为 0 。 IO Space Enable 该位用于控制设别如何响应 I/O 空间的访…

土著刷题Plus专业版对外开放入驻|在线组卷刷题学习平台|纯净无广|独立小程序|VIP功能全面开放|支持自定义品牌名称和Logo

专业版对外开放入驻 土著刷题Plus专业版,以【录题-分组-刷题-考试】为中心打造一套完备的在线组卷刷题学习平台,自定义品牌名称和Logo,入驻后,您将拥有自己独立的企业级专业运营管理平台。 土著刷题Plus专业版对比个人版优势&…

QT实现TCP通信(服务器与客户端搭建)

一、TCP通信框架 二、QT中的服务器操作 创建一个QTcpServer类对象,该类对象就是一个服务器调用listen函数将该对象设置为被动监听状态,监听时,可以监听指定的ip地址,也可以监听所有主机地址,可以通过指定端口号&#x…

软件上线测评报告怎么做?

软件上线测试 软件上线前必须经过一个整体的测评,从而帮助企业了解软件的运行情况。软件上线测评检测报告(软件产品测试报告)也通常被称为:科技项目验收测试报告、(软件类)科技成果鉴定测试、软件检测报告…