使用 python 整理 latex 的 bib 文献列表

news2025/1/16 8:47:52

目录

  • bib 文献整理脚本
    • 前提条件与主要功能
    • 原理
    • 编程语言与宏包基础
    • 完整程序

bib 文献整理脚本

本文主要用于解决 Latex 写作过程中遇到的 bib 文献整理问题,可处理中文文献。

LaTeX是一种基于ΤΕΧ的排版系统,它非常适用于生成高印刷质量的科技和数学类文档,同样适用于生成从简单的信件到完整书籍的所有其他种类的文档。

前提条件与主要功能

前提条件:bib文件中参考文献格式正确。

主要功能:

  • 参考文献去重
  • 参考文献排序

Vscode 已有参考文献排序功能,本文主要解决的痛点问题是:

将两个 project 里面的 bib 文件合并后,参考文献重复会导致编译不通过

在这里插入图片描述

原理

读取 bib 文件内容后,识别所有的参考文献字段,提取关键词并进行排序,参考文献字段示例:

@article{li2020multitask,
  title     = {Multitask learning for super-resolution of seismic velocity model},
  author    = {Li, Yinshuo and Song, Jianyong and Lu, Wenkai and Monkam, Patrice and Ao, Yile},
  journal   = {IEEE Transactions on Geoscience and Remote Sensing},
  volume    = {59},
  number    = {9},
  pages     = {8022--8033},
  year      = {2020},
  publisher = {IEEE}
}

其中 li2020multitask 即为关键词

编程语言与宏包基础

选用 python 语言,对环境基本没有要求,只需要调用 argparsere 两个包分别用于识别脚本参数与正则匹配。

re 正则匹配基础:

  • . 匹配任意单个字符
  • * 匹配前面的字符0次或多次
  • + 匹配前面的字符1次或多次
  • ? 匹配前面的字符0次或1次
  • | 匹配两个或多个表达式中的任意一个
  • [] 匹配括号中的任意一个字符
  • () 匹配括号中的表达式
  • \d 匹配任何数字字符
  • \w 匹配任何字母数字字符
  • \s 匹配空格字符
  • \b 匹配单词边界
  • ^ 匹配字符串的开头
  • $ 匹配字符串的结尾

完整程序

import argparse
import re


if __name__ == '__main__':

    # 设置脚本参数,包括输入和输出文件
    parser = argparse.ArgumentParser(
        description='manual to this script')
    parser.add_argument(
        "--bib_path", type=str, default="ref/refs.bib")
    parser.add_argument(
        "--bib_out", type=str, default=None)
    
    # 读取并设置脚本参数
    args = parser.parse_args()
    bib_path = args.bib_path
    bib_out = bib_path if args.bib_out is None else args.bib_out

    # 读取数据,根据@进行字段分割,@前可能有换行加若干空格
    with open(bib_path, 'r', encoding='utf-8') as f:
        bib_data = re.split('[\n|\r]\s*\@', f.read())
    
    # 处理第一个参考文献字段,统一成缺少@的参考文献字段
    #(后面会统一补充@符号)
    if bib_data[0][0] == '@':
        bib_data[0] = bib_data[0][1:]
    else:
        bib_data.pop(0)

    # 提取关键字和完整字段字典,实现去重,关键字全部为小写
    bib_dict = dict()
    for bib in bib_data:
        key = re.findall('{(.*?),', bib)[0].lower()
        bib_dict[key] = '@' + bib

    # 升序排序
    keys = sorted(bib_dict.keys())
    bib_list = [bib_dict[key] for key in keys]
    bib_data = '\n\n'.join(bib_list)

    # 输出结果
    with open(bib_out, 'w', encoding='utf-8') as f:
        f.write(bib_data)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1677596.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

八大设计模式:适配器模式实现栈的泛型编程 | 通用数据结构接口的秘诀(文末送书)

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引入 哈喽各位铁汁们好啊,我是博主鸽芷咕《C干货基地》是由我的襄阳家乡零食基地有感而发,不知道各位的…

pyautogui 基本用法

pyautogui 是一个 Python 库,可以让你用 Python 脚本控制鼠标和键盘。它适用于自动化桌面图形用户界面(GUI)的任务,比如自动化测试、游戏脚本或任何需要模拟用户输入的程序。 以下是使用 pyautogui 的一些基础示例: 安…

地平线旭日X3开发板编译USB网卡驱动 AX88772B

由于使用的激光雷达是网口输出的, 为了不占用X3派已有的网口,接上去了一个绿联的usb网卡, 发现系统没有驱动,所以动手看看能不能自己编译一个 首先lsusb查看一下网卡型号 发现型号是AX88772B,去官网看了一下&#x…

低空经济之无人机

朋友们,今天来聊聊个超酷的话题——低空经济之无人机! 无人机不仅让天空变得触手可及,还带来了无尽的商业可能,简直就是新时代的“空中小助手”啊! 说到无人机,你们是不是也和我一样,脑海里立马…

【数据结构】队列的实现(链式)

文章目录 队列1.队列的概念及结构概念结构 2.队列的实现(链式结构)队列定义初始化队列入队出队获取队头元素获取队尾元素销毁队列判断队列是否为空队列有效个数 完整代码(包含测试代码)Queue.hQueue.ctest.c 队列 1.队列的概念及…

nodemon运行ts文件

https://juejin.cn/post/7035637086451400734 nodemon经常用来调试js文件,大家都是知道的,但是用nodemon来调试ts文件,大家试过吗? 如果直接运行nodemon index.ts是会报错的。 ts 复制代码 //index.ts console.log(1) 需要全局…

安全设备篇——抗DDOS设备

写在前面:up初研究这个设备的时候以为很容易,毕竟ddos嘛大家都懂,但是实际去找资料和研究的时候发现资料少的可怜,再加上大家知道ddos但大多没见过,万幸up的老东家某普有这类设备,和之前的同事沟通了一下还…

百望云钉钉:重塑财务智能化管理,助力企业实现数字化飞跃

近年来,数字技术正在深刻改变着企业生产方式和组织模式,企业面连着业务流程再造、经营模式创新等一系列建设挑战。 其中,财务部门从价值守护走向价值创造的过程中,展现出对企业经营与业务发展的巨大影响力。叠加金税四期税务改革&…

【稳定检索|主题广泛】2024年人文发展、媒体传播与文化交流国际会议(DMCCE 2024)

2024年人文发展、媒体传播与文化交流国际会议(DMCCE 2024) 2024 International Conference on Cultural Development, Media Communication, and Cultural Exchange 【会议简介】 2024年人文发展、媒体传播与文化交流国际会议将于成都举行。此次会议将…

计算机考研|408备考,如何6个月顺利上岸?经验+资料分享

如果是跨考的话,现在已经快六月份了,备考408时间真的很紧张 u1s1,我虽然一直推荐大家考408,但是也看情况,这种跨考,并且时间不充足的情况下,就最好不要去硬刚408了。408的复习量很大&#xff0…

【python数据预处理系列】使用Pandas的factorize()函数进行类别编码(整数编码)

在Pandas中,factorize()函数主要用于将分类变量转换为整数编码,这对于减少内存使用或准备数据进行某些统计分析非常有用。 它实际上是将列的唯一值映射到从0开始的整数序列上。 假设有一个DataFrame,其中一列包含一些类别值,你希望…

运筹说 第114期 | 其他排队模型简介

前面我们已经学习了一些排队模型,对排队系统有了基本认知,本期小编带大家继续来学习其他排队模型的内容。 一、有限源排队模型 顾客源为有限的这类排队问题的主要特征是顾客总数是有限的,如只有m个顾客。每个顾客来到系统中接受服务后仍回到…

jmeter指南:JMeter 安装、配置和性能测试

使用 JMeter 进行性能测试 1. Java 版本要求 JMeter 要求与 Java 8 或更高版本兼容。为了确保安全性和性能,建议安装最新次要版本的主要 Java 版本。鉴于 JMeter 仅使用标准 Java API,如果由于 JRE 实现问题而无法运行 JMeter,请不要提交错…

为Akamai 云平台上部署的资源配置2FA跳板机-上

为重要账户启用2FA,这几乎已经成为保护账户和数据安全的一种标准做法。无论登录常见应用或服务,或是访问企业内部资源,时不时都会需要进行2FA验证。那么当你在Akamai Connected Cloud云平台中部署了各类资源(云计算、云存储、SaaS…

Java面试八股之float和double的区别

Java中float和double的区别 存储空间与精度: double:占据64位(8字节)存储空间,属于双精度浮点数。它可以提供较高的精度,通常能够精确表示大约15到17位十进制数字,适合用于需要较高精度计算或…

【面试必看】MyBatis部分

MyBatis 必读 Mybatis系列全解 MyBatis最全使用指南 MyBatis最全使用指南 1. JDBC java 操作数据库的原始方式就是 JDBC。 但是存在以下问题: 每次操作我们都要创建 connection、Statement 等一些对象,操作完还要关闭、销毁这些对象。 ResultSet …

【OSM】RDP资源无法访问

发布windows的远程桌面资源,web和rdp方式都不能访问,端口测试都正常,不经过堡垒机能正常连接服务器 1、将资源中rdp安全模式指定为rdp,并直接登录到服务器,打开【组策略】,依次展开计算机配置→Windows组件…

手撸XXL-JOB(四)——远程调用定时任务

Java Socket网络编程 网络编程是Java编程中的重要组成部分,包括服务端和客户端两部分内容。Socket是Java网络编程的基本组件之一,用于在应用程序之间提供双向通信,Socket提供了一种标准的接口,允许应用程序通过网络发送和接收数据…

分体工业读写器的适用场景有哪些?

工业读写器根据设计方式不同,可分为一体式读写器和分体式读写器,不同读写器特点不同,适用场景也不同,下面我们就一起来了解一下超高频分体读写器适用场景有哪些。 超高频分体读写器介绍 超高频分体读写器是一种射频识别(RFID)设…

SpringAI应用开发

一、人工智能简述 四次工业革命推动了人类社会发展和变革: 蒸汽时代,发生在18世纪60年代~19世纪中期(大约是1760年到1860年),这一时期的特点是机械化生产和大规模生产。电气时代,发生在19世纪下半叶~20世纪…