2023最新 - 谷歌学术文献Bibtex批量获取脚本

news2024/12/26 15:24:40

首先,自行解决网络访问问题,保证能访问到谷歌学术,否则下面可免看

第一步:安装 selenium

python 安装 selenium

pip install selenium

第二步:安装 Chrome 浏览器

http://chorm.com.cn/

第三步:根据 Chrome 版本,下载 Chrome Driver

在设置 - 帮助 - 关于 GoogleChrome 查看版本

然后在这里找对应版本的driver(版本一定要对应)

https://registry.npmmirror.com/binary.html?path=chromedriver/

第四步:整理需要引用的文献

将需要获取的文献题目添加到一个新建的txt文本中:(一行一篇),我新建的文件名字是:pn.txt
在这里插入图片描述

第五步:执行如下脚本

注意在if __name__ == "__main__":下修改成你自己的路径 driver_pathinput_file_pathoutput_file_path

driver_path:改成你下载的chrome driver的位置(最好别有中文)
input_file_path:输入文件路径,默认是pn.txt
output_file_path:输出文件路径,默认是output.txt

脚本代码自取:

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from urllib import parse
import math
from time import sleep

class GG_Bibtex(object):
    def __init__(self, driver_path, gg_search_url):
        self.driver = None
        self.paper_names = []
        self.gg_search_url = gg_search_url
        self.driver_path = driver_path
        self.reset(driver_path)

    def reset(self, driver_path):
        self.service = Service(driver_path) 
        option = webdriver.ChromeOptions()
        # option.add_argument('headless')  # no show window
        self.driver = webdriver.Chrome(service=self.service, options=option)
        self.driver.set_window_size(800,800)
        
    def get_bib_text(self, paper_title):
        elements_xpath = {
            'qoute_btn':'/html/body/div/div[10]/div[2]/div[3]/div[2]/div/div/div[3]/a[2]/span',
            'bibtex_btn':'/html/body/div/div[4]/div/div[2]/div/div[2]/a[1]',
            'bib_text':'/html/body/pre'
        }
        strto_pn=parse.quote(paper_title)
        url = self.gg_search_url + strto_pn
        self.driver.get(url)
        qoute_btn = WebDriverWait(self.driver, 15, 0.1).until(
                            EC.presence_of_element_located((By.XPATH, elements_xpath['qoute_btn']))
                            )
        qoute_btn.click()

        bibtex_btn = WebDriverWait(self.driver, 15, 0.1).until(
                            EC.presence_of_element_located((By.XPATH, elements_xpath['bibtex_btn']))
                            )
        bibtex_btn.click()

        bib_text = WebDriverWait(self.driver, 15, 0.1).until(
                            EC.presence_of_element_located((By.XPATH, elements_xpath['bib_text']))
                            )
        bib_text = bib_text.text
        return bib_text
    
    def _quit_driver(self, ):
        self.driver.quit()
        self.service.stop()
    
    def results_writter(self, results, output_file_path = 'output.txt'):
        wtf = []
        for re_key in results.keys():
            context = results[re_key]
            # wtf.append(re_key + '\n')
            wtf.append(context + '\n\n')
        with open(output_file_path, 'w') as f:
            f.writelines(wtf)

    def run(self, paper_names, output_file_path, reset_len = 10):
        """
        @params:
            paper_names: [LIST], your paper names.
            reset_len: [INT], for avoid the robot checking, you need to reset the driver for more times, default is 10 papers
        """
        self.paper_names = paper_names
        paper_len = len(paper_names)
        rest = paper_len % reset_len
        task_packs = []
        if paper_len > reset_len:
            groups_len = int(math.floor(paper_len / reset_len)) # 21/20 = 1
            for i in range(groups_len):
                sub_names = paper_names[(i)*reset_len:(i+1)*reset_len]
                task_packs.append(sub_names)
        
        task_packs.append(paper_names[-1*rest:])
        results = {}
        for ti in task_packs:
            for pn in ti:
                if len(pn) < 3:
                    continue
                print('\n---> Searching paper: {} ---> \n'.format(pn))
                bibtex = self.get_bib_text(pn)
                print(bibtex)
                results[pn] = bibtex
            self._quit_driver()
            sleep(1)
            self.reset(self.driver_path)
            print('-'*10+'\n Reset for avoiding robot check')
        self.results_writter(results, output_file_path)
        return results
        
            

if __name__ == "__main__":
    driver_path = r"C:/Users/jt/Downloads/chromedriver_win32/chromedriver.exe"
    input_file_path = 'pn.txt'
    output_file_path = 'output.txt'


    gg_search_url = r'https://scholar.google.com.hk/scholar?hl=zh-CN&as_sdt=0%2C5&q='
    ggb = GG_Bibtex(driver_path = driver_path, gg_search_url = gg_search_url)
    paper_names = []
    with open(input_file_path, 'r') as f:
        paper_names = f.readlines()
        paper_names = [pn.replace('\n', '') for pn in paper_names]
    results = ggb.run(paper_names = paper_names, output_file_path = output_file_path)

输出结果文件:

在这里插入图片描述
修改一下后缀名,就能直接作为bib文件使用了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/172964.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux应用基础——控制服务与守护进程

一、systemd基本介绍 1.作用 systemd守护进程管理Linux的启动&#xff0c;一般包括服务启动和服务管理&#xff0c;它可以在系统引导时以及运行中的系统上激活系统资源、服务器守护进程和其他进程 2.守护进程 守护进程是执行各种任务的后台等待或运行的进程&#xff0c;一般…

day18|235. 二叉搜索树的最近公共祖先、701.二叉搜索树中的插入操作、450.删除二叉搜索树中的节点

235. 二叉搜索树的最近公共祖先 给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。 最近公共祖先的定义为&#xff1a;“对于有根树 T 的两个结点 p、q&#xff0c;最近公共祖先表示为一个结点 x&#xff0c;满足 x 是 p、q 的祖先且 x 的深度尽可能大&#xff08…

【容器技术——Docker基本使用】

文章目录docker1 概述1.1 是什么1.2 相关资源2 使用2.1 镜像2.1.1 拉取镜像2.2.2 列出镜像2.2.3 删除镜像2.2 容器2.2.1 运行容器2.2.2 查看容器2.2.3 启动和关闭容器2.2.4 删除容器2.3 制作镜像2.4 Docker 仓库2.4.1 注册登录2.4.2 推送镜像2.5 dockerfile2.5.1 构建镜像2.5.2…

关于CIS移植的一些基本概念

1. 摄像头sensor 的原理 定时脉冲生成器会生成clock&#xff0c;用于访问image sensor 阵列中的行&#xff0c;预充电&#xff0c;并且按顺序采样像素阵列中的所有行。在一个行的预充电和采样的时间段里&#xff0c;像素的电荷量会随着曝光时间而逐渐减少。这就是快门结构中的曝…

Python采集周边烤肉店数据,康康哪一家最好吃?

人生苦短&#xff0c;我用Python 这不是天气开始突然大范围降温了吗&#xff1f; 降温就要吃烤肉啊 滋辣滋辣的声音特别好听&#xff5e; 放假吃烤肉真的特别快乐~ 天冷了&#xff0c;逛街…… 天冷了&#xff0c;吃烤肉…… 天冷了&#xff0c;喝奶茶…… 有温度的冬天&a…

p83出现的问题(空指针异常)原因及解决方案

我的GitHub&#xff1a;Powerveil GitHub我的Gitee&#xff1a;Powercs12 (powercs12) - Gitee.com皮卡丘每天学Java相关知识&#xff1a;Mybatis Plus、Spring Security本质原因&#xff1a;我们自己将Article字段的update字段做了自动填充导致自动填充时无法获取当前用户(程…

pytorch Conv2d令人迷惑的几个参数

本篇仅用来记录nn.Conv2d()中容易令人不解的几个参数 1. nn.Conv2d() 的输出维度的计算 相信大家都看过官网给出的计算方式: 直接套公式即可, 但需要注意的是, 最终计算的结果要向下取整. 2. dilation 官方解释为: dilation (int or tuple, optional) – Spacing between k…

贪心 455. 分发饼干

455. 分发饼干 难度简单636 假设你是一位很棒的家长&#xff0c;想要给你的孩子们一些小饼干。但是&#xff0c;每个孩子最多只能给一块饼干。 对每个孩子 i&#xff0c;都有一个胃口值 g[i]&#xff0c;这是能让孩子们满足胃口的饼干的最小尺寸&#xff1b;并且每块饼干 j&…

为什么STM32设置Flash地址0x08000000而不是0x00000000?STM32的启动过程

STM32F103ZE芯片存储空间的地址映射关系图。 在MDK编译程序设置ROM和RAM地址时候发现&#xff1a;    IROM1为片上程序存储器&#xff0c;即片上集成的Flash存储器&#xff0c;对该处理器Flash大小为512KB&#xff0c;即0x80000 地址区间为0x8000000~0x0807FFFF  IRAM1为片…

day10文件知识点

模态对话框ajax后台ModelForm校验 目录切换&#xff1a;展示当前文件夹和文件 删除文件夹&#xff1a;嵌套的子文件和子文件夹全部删除 js上传文件到cos&#xff08;wiki用python上cos上传文件&#xff09; 进度条的操作&#xff08;bootstrap&#xff09;实现 删除文件&#x…

【Linux详解】——进程地址空间

&#x1f4d6; 前言&#xff1a;本节将以新的视角看的地址空间的特点&#xff0c;与以前对指针的认识做区分。 目录&#x1f552; 1. C/C 地址空间回顾&#x1f552; 2. 进程地址空间&#x1f558; 2.1 感性理解概念&#x1f558; 2.2 如何“画饼”&#x1f558; 2.3 区域划分&…

SQL面试题

有3个表S(学生表)&#xff0c;C&#xff08;课程表&#xff09;&#xff0c;SC&#xff08;学生选课表&#xff09; S&#xff08;SNO&#xff0c;SNAME&#xff09;代表&#xff08;学号&#xff0c;姓名&#xff09; C&#xff08;CNO&#xff0c;CNAME&#xff0c;CTEACHER&…

SAP FICO 定义成本组件结构

成本组件结构定义 我们在使用CK11N核算物料标准成本时候可以看到有项目明细&#xff0c;也可以看到有成本构成&#xff0c;那么问题来了&#xff0c;怎么将项目明细分类到各个成本构成上面呢&#xff1f; 【后台配置路径】&#xff1a; SPRO→控制→产品成本控制→产品成本计划…

【云原生】k8s之包管理器Helm

内容预知 前言 1.Helm的相关知识 1.1 Helm的简介与了解 1.2 Helm的三个重要概念 1.3 Helm2与Helm3的的区别 &#xff08;1&#xff09;helm2的部署方式与使用 &#xff08;2&#xff09;Helm3的部署与使用 2.Helm在k8s集群中的部署 &#xff08;1&#xff09;将Helm安…

【docker概念和实践 3】 注册阿里云账号、应用阿里云数据源

一、说明 阿里云是什么&#xff1f;是出租、出售运算资源的平台。几乎囊括各个领域的运算、存储、服务器、云端资源。阿里云的明星产品四大件是&#xff1a;1、即云服务器ECS、2、云数据库RDS、3、负载均衡SLB 4对象存储OSS。 其它多种服务&#xff1a;云小站_专享特惠_云产品推…

OpenSceneGraph图形状态管理内幕

在这个教程中&#xff0c;我们将了解 Open Scene Graph 如何表示 OpenGL 图形状态&#xff0c;并探索 Open Scene Graph 优化渲染以最小化状态更改次数的一些方法。 推荐&#xff1a;用 3D场景编辑器快速搭建数字孪生场景。 1、OpenGL状态机 Open Scene Graph 最重要的优化之一…

Android的linux内核解耦

1、boot内容查看Boot Image Header&#xff0c;version 2版本包含内容最多&#xff0c;包括了内核、设备树、根目录、recovery设备树&#xff0c;cmdline。boot拆包与内容解析参考1、Android bootimg kernel&#xff08;boot.img&#xff09;2、linux的ramdisk解耦2.1、ramdisk…

Python学习笔记——文件操作

输入和输出Python两种输出值的方式: 表达式语句和 print() 函数。第三种方式是使用文件对象的 write() 方法&#xff0c;标准输出文件可以用 sys.stdout 引用。如果你希望输出的形式更加多样&#xff0c;可以使用 str.format() 函数来格式化输出值。如果你希望将输出的值转成字…

H3C路由器带宽保证(命令行)配置方法

1 配置需求或说明 1.1适用产品系列 本案例适用于如MSR810、MSR93X系列的路由器。 1.2配置需求及实现的效果 某企业路由器接入业务有语音业务、管理部门业务和普通业务。要求当网络出现拥塞时&#xff0c;语音业务加速转发&#xff0c;管理部门业务确保转发&#xff0c;剩余或…

小满OKKICRM与金蝶云星空对接集成客户档案

小满OKKICRM与金蝶云星空对接集成客户列表查询(更新列表)&客户新增(小满客户对接金蝶客户-P)数据源平台:小满OKKICRM小满科技成立于2013年&#xff0c;是阿里巴巴集团战略投资的高新技术企业。小满科技以“人工智能大数据”为核心驱动力&#xff0c;为外贸企业提供智能CRM解…