2023-02-16:干活小计

news2024/11/15 12:27:16

数学公式表示学习:

大约耗时:2 hours

在做了一些工作后重读论文:MathBERT: A Pre-Trained Model for Mathematical Formula Understanding

这是本篇论文最重要的idea:Current pre-trained models neglect the structural features and the semantic correspondence between formula and its context.(其中很fancy的一点是注重每个数学公式的strctural features,即关注数学公式的结构
用三个下游任务验证,并且效果很好:
mathematical information retrieval
formula topic classifification
formula headline generation
三个 预训练任务
 
Masked Language Modeling (MLM) :text representations
模仿BERT的MLM,其中三个字段即公式latex、context、OPT的信息可以互补。
Context Corre spondence Prediction (CCP): latentrelationshipbetweenformula and context
模仿BERT的NSP,二分类任务。
Masked Substructure Prediction (MSP): semantic-levelstructureofformula
预训练任务数据集:
We build a large dataset containing more than 8.7 million formula-context pairs which are extracted from scientifific articles published on arXiv.org 1 and train Math BERT on it.
Arxiv bulk data available from Amazon S3 2 is the complete set of arxiv documents which contains source TEX fifiles and processed PDF fifiles. “ \ begin { equation } . . . \ end { equation } ” is used as the matching pattern to extract single-line display formulas from L A TEX source in these TEX files.
toolkit L A TEX tokenizer in im2markup to tokenize separately formulas
OPT translator in TangentS 4 to convert L ATEX codes into OPTs
模型的backbone:
An enhanced multi-layer bidirectional Transformer [Vaswani et al. , 2017] is built as the backbone of MathBERT, which is modifified from vanilla BERT.
MathBERT的输入: we concatenate the for mula LA TEX tokens, context and operators together as the input of MathBERT.
attention 机制的细节: the attention mechanism in Trans former is modifified based on the structure of OPT to enhance its ability of capturing structural information
具体的细节看原文,这里上个图

 

architecture:
思政知识图谱:
大约耗时3~5hours
我们要理清当前的任务:
1.爬取彰显政治精神的case:爬取的网站?学习爬虫?
2.对case的分类:学学学
3.对case的挂载:学学学
学习爬虫:
将一段文本打上NER的标签的方法:人工;百度打标;(jieba、hanNLP准确率不太行)
MRE:
今天开了分享会,没时间做这个了,只能路上想想idea
自学:
回家看看花书,芜湖

         

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/351142.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

魔百和M401A刷入Armbian系统EMMC开启wifi

文章目录一、Armbian系统写入U盘二、U盘内uEnv.txt文件修改三、盒子从U盘进行启动四、设置用户名和密码五、Armbian系统写入EMMC六、 重启系统reboot(不可以拔U盘)七、盒子关机拔出U盘八、插入USB无线网卡,连接wifi上次盒子刷了5.15版本的armbian系统,可…

C++ map和set

目录 1. 关联式容器 2. 键值对 3. 树形结构的关联式容器 3.1 set 3.1.1 set的介绍 3.1.2 set的使用 3.2 map 3.2.1 map的介绍 3.2.2 map的使用 3.3 multiset 3.3.1 multiset的介绍 3.3.2 multiset的使用 3.4 multimap 3.4.1 multimap的介绍 3.5 在OJ中的使用 4.…

Android框架源码分析-浅析OkHttp3

浅析OkHttp3 这篇文章主要用来回顾Okhttp3源码中,同步异步请求的区别、拦截器的责任链模式、连接池管理以及探讨socket通信到底在哪里实现。 列出的代码可能删掉了非核心部分的展示,如果有异议请查看源码 连接池涉及知识:可能根据 IP 地址…

iis7.5应用程序池的启动模式设置

最近发现公司的网站第一次登录时比较慢,甚至有超时的时候,当我检查应用程序池(IIS 7.5)时,应用程序池正常启动,但有时候处于停止状态,停止原因未知。所以必须第一时间重新启动它,以保证网站能被正常访问。于…

kubeadm Dashboard harbor

主机名IP地址安装组件master01192.168.186.10docker、kubeadm、kubelet、kubectl、flannelnode01192.168.186.20docker、kubeadm、kubelet、kubectl、flannelnode02192.168.186.30docker、kubeadm、kubelet、kubectl、flannelharbor192.168.186.40docker、docker-compose、harb…

python语言基础(最详细版)

文章目录一、程序的格式框架缩进1、定义2、这里就简单的举几个例子注释二、语法元素的名称三、数据类型四、数值运算符五、关系运算六、逻辑运算七、运算符的结合性八、字符串一、程序的格式框架 缩进 1、定义 (1)python中通常用缩进来表示代码包含和…

Python迭代器、生成器和装饰器

一、迭代器 1、迭代器简介 迭代操作是访问集合元素的一种方式,是 Python最强大的功能之一。 迭代器是用来迭代取值的工具,是一个可以记住遍历的位置的对象。 迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能…

QT项目_RPC(进程间通讯)

QT项目_RPC(进程间通讯) 前言: 两个进程间通信、或是说两个应用程序之间通讯。实际情况是在QT开发的一个项目中,里面包含两个子程序,子程序有单独的界面和应用逻辑,这两个子程序跑起来之后需要一些数据的交互,例如&…

GEE学习笔记 八十四:【GEE之Python版教程十四】矢量数据(ee.feature)

上一节讲了几何图形Geometry,这一节讲矢量数据(ee.feature),它的构成也就是几何图形以及属性字典。 1、API定义 首先看一下GEE的python版API(Welcome to GEE-Python-API’s documentation! — GEE-Python-API 1.0 do…

【论文】智能隧道检测车的现状及改进策略

本文转载自《智慧城轨》2022年第11期 作者:黄丹樱1,韦强1,朱椰毅2,范骁1,林浩立1 单位:1 浙江师范大学工学院;2 浙江金温铁道开发有限公司 声明:本文仅用于学术分享,不做商业用途,如有侵权,联…

从实现到原理,聊聊Java中的SPI动态扩展

原创:微信公众号 码农参上,欢迎分享,转载请保留出处。 八股文背多了,相信大家都听说过一个词,SPI扩展。 有的面试官就很喜欢问这个问题,SpringBoot的自动装配是如何实现的? 基本上&#xff0c…

Redis第二讲

二、Redis02 2.1 发布和订阅 Redis 发布订阅 (pub/sub) 是一种消息通信模式:发送者 (pub) 发送消息,订阅者 (sub) 接收消息。 Redis 客户端可以订阅任意数量的频道。 发布订阅的实现 1、打开一个客户端订阅channel1 127.0.0.1:6379> subscribe ch…

红黑树的原理+实现

文章目录红黑树定义性质红黑树的插入动态效果演示代码测试红黑树红黑树 定义 红黑树是一个近似平衡的搜索树,关于近似平衡主要体现在最长路径小于最短路径的两倍(我认为这是红黑树核心原则),为了达到这个原则,红黑树所…

LeetCode刷题--- 面试题 01.07. 旋转矩阵(原地旋转+翻转替旋转)

💌 所属专栏:【LeetCode题解(持续更新中)】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,…

【C++之容器篇】二叉搜索树的理论与使用

目录前言一、二叉搜索树的概念二、二叉搜素树的模拟实现(增删查非递归实现)1. 二叉搜素树的结点2. 二叉搜索树的实现(1). 二叉搜索树的基本结构(2)构造函数(3)查找函数(4…

1225057-68-0,Alkyne PEG4 TAMRA-5,四甲基罗丹明-四聚乙二醇-炔基TAMRA红色荧光染料连接剂

中英文别名:CAS号:1225057-68-0 | 英文名:5-TAMRA-PEG4-Alkyne |中文名:5-四甲基罗丹明-四聚乙二醇-炔基物理参数:CASNumber:1225057-68-0Molecular formula:C36H41N3O8Molecular weight&#x…

P16 激活函数与Loss 的梯度

参考:https://www.ngui.cc/el/507608.html?actiononClick这里面简单回顾一下PyTorch 里面的两个常用的梯度自动计算的APIautoGrad 和 Backward, 最后结合 softmax 简单介绍一下一下应用场景。目录:1 autoGrad2 Backward3 softmax一 autoGrad输入 x输出损…

buu [UTCTF2020]basic-crypto 1

题目描述: 01010101 01101000 00101101 01101111 01101000 00101100 00100000 01101100 01101111 01101111 01101011 01110011 00100000 01101100 01101001 01101011 01100101 00100000 01110111 01100101 00100000 01101000 01100001 01110110 01100101 00100000 0…

【Kubernetes】【七】命令式对象配置和声明式对象配置

命令式对象配置 命令式对象配置就是使用命令配合配置文件一起来操作kubernetes资源。 1) 创建一个nginxpod.yaml,内容如下: apiVersion: v1 kind: Namespace metadata:name: dev---apiVersion: v1 kind: Pod metadata:name: nginxpodnames…

调用Windows安全中心实现登录验证

文章目录运行效果用到的运行库代码实现使用日志Win10 Flat风格XP风格总结运行效果 输入用户名和密码点击确定后获取到的信息: 用到的运行库 NuGet搜索安装即可 Kang.ExtendMethodKang.ExtendMethod.Log https://gitee.com/haozekang/kang Vanara.PInvoke https:…