python-windows10普通笔记本跑bert mrpc数据样例0.1.048

news2024/11/16 1:53:15

python-windows10普通笔记本跑bert mrpc数据样例0.1.000

    • 背景
    • 参考章节
    • 获取数据
    • 下载bert模型
    • 下载bert代码
    • windows10的cpu进行训练
    • 进行预测
    • 注意事项
    • TODOLIST

背景

看了介绍说可以在gpu或者tpu上去微调,当前没环境,所以先在windows10上跑一跑,看是否能顺利进行,目标就是训练的过程中没有报错就行

参考章节

参考这个链接https://github.com/google-research/bert/tree/master?tab=readme-ov-file,其中的这个章节Sentence (and sentence-pair) classification tasks

获取数据

文章提高的使用 GLUE data by running this script(https://gist.github.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e),但是我使用这个脚本下载不了,因为是内网,没有办法只能手动下载了,方法如下

  1. 下载download_glue_data.py这个脚本后
  2. 找到第39和40行,将里面的链接打开保存文件就可以获得msr_paraphrase_train.txt和sr_paraphrase_test.txt文件了
MRPC_TRAIN = 'https://dl.fbaipublicfiles.com/senteval/senteval_data/msr_paraphrase_train.txt'
MRPC_TEST = 'https://dl.fbaipublicfiles.com/senteval/senteval_data/msr_paraphrase_test.txt'
  1. 数据不大,我直接修改的文本格式为tsv,最后得到test.tsv和train.tsv文件
  2. 打开这个链接下载另外一个需要的数据dev_ids.tsv
    https://raw.githubusercontent.com/MegEngine/Models/master/official/nlp/bert/glue_data/MRPC/dev_ids.tsv
  3. 注释掉download_glue_data.py里面的下面的代码
#     try:
#         urllib.request.urlretrieve(TASK2PATH["MRPC"], os.path.join(mrpc_dir, "dev_ids.tsv"))
#     except KeyError or urllib.error.HTTPError:
#         print("\tError downloading standard development IDs for MRPC. You will need to manually split your data.")
#         return
  1. 将dev_ids.tsv的文件放在–data_dir下面的MRPC里面
  2. 运行download_glue_data.py文件生成数据如下
python .\download_glue_data.py --tasks=MRPC --data_dir=D:\jpdir\bert\glue_data\MRPC\fin --path_to_mrpc=D:\jpdir\bert\glue_data\MRPC

在这里插入图片描述
8. 将生成的dev.tsv文件放在python run_classifier.py脚本的data_dir目录下

下载bert模型

下载bert-base-uncased模型,如下图
在这里插入图片描述

下载bert代码

将这个链接https://github.com/google-research/bert/tree/master?tab=readme-ov-file的代码clone下来到本地,进入到这个文件夹里,执行如下命令即可:

python run_classifier.py --task_name=MRPC --do_train=true --do_eval=true --data_dir=D:\jpdir\bert\glue_data\MRPC --vocab_file=D:\jpdir\bert\bert-base-uncased\bert-base-uncased\bert-base-uncased\vocab.txt --bert_config_file

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1812901.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

弱智吧”,人类抵御AI的最后防线

“写遗嘱的时候错过了deadline怎么办?” “怀念过去是不是在时间的长河里刻舟求剑?” “英语听力考试总是听到两个人在广播里唠嗑,怎么把那两个干扰我做题的人赶走?” 以上这些饱含哲学但好像又莫名其妙的问题,出自…

【2024算力大会分会 | SPIE独立出版 | 往届均已完成EI检索】2024云计算、性能计算与深度学习国际学术会议(CCPCDL 2024)

【2024算力大会分会 | SPIE出版】 2024云计算、性能计算与深度学习国际学术会议(CCPCDL 2024) 2024 International conference on Cloud Computing, Performance Computing and Deep Learning *CCPCDL往届均已完成EI检索,最快会后4个半月完成! 一、…

Huggingface-cli 登录最新版(2024)

安装Huggingface-cli pip install -U "huggingface_hub[cli]"设置好git的邮箱和用户名和huggingface的github账号一致 git config --global user.mail xxx git config --global user.name xxx登录 复制token,划红线的地方,在命令行中点击右…

SQL 数据库学习 Part 1

数据和信息 信息 信息是客观存在的,是关于现实世界事物的存在方式或运动状态 数据 数据是用来记录信息的可识别的符号,是信息的具体表现形式 数据和信息的联系 数据是信息的符号表示或载体信息则是数据的内涵,是对数据的语义解释 数据…

专业级中文AI文图创作:智源中英双语AltDiffusion开源

AIGC 如火如荼发展的当下,中文世界的创作者常有几大痛点: 思考英文Prompts准确表达的绞尽脑汁,翻译软件词不达意的尴尬,精细构思的 Prompts 在画面生成中找不到一丝痕迹,亦或面对文化误解中的“中国风”哭笑不得…… …

计算机操作系统基础知识:什么是虚拟机?虚拟机的分类有哪些?他们之间的区别是什么?

谈到虚拟机就必须谈谈为什么虚拟机会出现?它解决了哪些问题。 1.虚拟机出现的原因 为了解决传统虚拟机物理资源极大浪费,且希望在一台机器上运行多个应用,且他们之间不相互影响的问题。 下面开始正式介绍虚拟机: 1.虚拟机的定义…

【PX4-AutoPilot教程-TIPS】PX4加速度计陀螺仪滤波器参数设置

PX4加速度计陀螺仪滤波器参数设置 前期准备滤波前FFT图滤波后FFT图 环境: 日志分析软件 : Flight Review PX4 :1.13.0 前期准备 进行滤波器参数设置的前提是飞机简单调试过PID已经可以稳定起飞,开源飞控的很多默认参数是可以让飞机平稳起…

一款开源的图片/视频无损放大神器,本地可用!

哈喽,各位小伙伴们好,我是给大家带来各类黑科技与前沿资讯的小武。 要说无损放大图片/视频分辨率,就绕不开在github上开源的一个图像/视频恢复的实用算法——Real-ESRGAN,截止目前已斩获26.6k的Star量。 RealESRGAN-gui 软件介绍…

C++240611

2.编程题: 以下是一个简单的 比喻,将 多态概念 与 生活中 的 实际情况相联系: 比喻:动物园的讲解员和动物表演 想象一下你去了一家动物园,看到了许多不同种类的动物, 如狮子、大象、猴子等。现在&#xff…

冰蝎4.1webshell实验

1、基础环境 生成payload 2、default_xor_base64 HTTP 命令执行 chunked数据回包,48 3、default_xor_base64 HTTPS 命令执行 终端 文件管理 4、 default_aes https 虚拟终端 5、 default_aes http 虚拟终端

基于微信小程序的“最多跑一次”警务信息管理系统

作者主页:Java码库 主营内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 技术选型 【后端】:Java 【框架】:ssm 【…

【安卓13 源码】Input子系统(2) - input系统与应用进程通信

点击手机屏幕,可以分发input 事件到对应的view,由上一节知道input 是运行在system 进程的,那应用进程与系统进程是如何通讯的呢,相信本文可以给到一点小小的答案。 先给个结论:应用在resume 的时候才去建立与input 服…

Rust学习06:使用CSDN的AI工具“C知道”分析代码错误

朋友们,我最近真的是在绝望的边缘了! Rust咋这么蓝涅! 资料咋这们少涅! 记得学Python的时候,基本上你遇到的所有问题都可以在书上或者网上找到答案,中文世界找不到那么在英文世界一定能找到答案。 我猜&…

intel 660P SSD 512GB测评

** intel 660P SSD 512GB测评 ** PCIE 3.0X4 支持NVME 1.3协议 固件版本号HPS0 顺序Read速度1843MB\s 顺序Write速度946MB\s 4K随机Read速度275MB\s 4K随机Write速度592MB\s H2缓内Write速度671MB\s H2缓外Write速度368MB\s H2全盘Read速度870MB\s HDtune全盘Read速度1853MB\…

ModbusTCP、TCP/IP都走网线,一样吗?

在现代通信技术中,Modbus/TCP和TCP/IP协议是两种广泛应用于工业自动化和网络通信领域的协议。尽管它们都运行在网线上,但它们在设计、结构和应用场景上有着明显的区别。 Modbus/TCP协议是什么 Modbus/TCP是一种基于TCP/IP的应用层协议,它是Mo…

gitLab批量下载有权限的项目

前言 参考 https://www.jianshu.com/p/b3d4e5cee835 适用于git私服拉取个人所涉及权限的代码,方便有多个项目权限的人快速拉取自己所有权限的代码。 默认生成目录结构与gitlab一致 步骤一:获取权限你的代码权限文件d 从gitlab私服生成所有你有权限的代码信息 …

DevExpress Data Binding

DevExpress数据感知控件与任何数据访问技术(ADO.NET、Entity Framework、XPO等)兼容,并且可以显示来自实现IList、IBindingList或ITypedList接口的任何数据源的数据。有关更多详细信息,请参阅这些帮助主题:传统数据绑定…

excel两个数据表格,怎样实现筛选的联动?

如图,想要通过处理器或者像素条件进行筛选,形成一个右边图2的对比表,如何实现实现联动显示呢? 这个在excel里可以借用数据透视表切片器来完成。步骤如下: 1.添加表 选中数据区域中任意一个单元格,点击 插…

Query传递的参数需不需要加注解?加什么?为什么有的时候要加有的时候不加?

Query传递过来的参数可以加,也可以不加注解。如果要加,是在传递的参数名和后端的变量名不一致的情况下,要加RequestParam如果传递过来的参数名和后端的变量名一致,则可以不加RequestParam。 传递过来的数据如果是通过 Query 方式…

TLS指纹跟踪网络安全实践(C/C++代码实现)

TLS指纹识别是网络安全领域的重要技术,它涉及通过分析TLS握手过程中的信息来识别和验证通信实体的技术手段。TLS(传输层安全)协议是用于保护网络数据传输的一种加密协议,而TLS指纹则是该协议在实际应用中产生的独特标识&#xff0…