selenium获取b站视频标题

news2024/9/27 15:21:14

一、下载selenium

1. 下载对应版本的浏览器驱动

2. 安装selenium

3.把浏览器驱动放到使用的python内核的script目录中

二、测试效果模拟登录b站 

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

browser = webdriver.Chrome() # 打开浏览器
url='https://search.bilibili.com/all?keyword=%E6%A2%85%E8%A5%BF%E8%BF%87%E4%BA%BA&from_source=webtop_search&spm_id_from=333.1007&search_source=5'#以该链接为例
browser.get(url)#访问相对应链接
time.sleep(5)
browser.quit()#关闭浏览器

三、登录账号

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import json


browser = webdriver.Chrome()
browser.get('https://www.bilibili.com')
browser.delete_all_cookies()#先删除cookies
time.sleep(30)#这个时间用于手动登录,扫码登录可以适当缩短这个等待时间
dictcookies = browser.get_cookies()#读取登录之后浏览器的cookies
jsoncookies = json.dumps(dictcookies)#将字典数据转成json数据便于保存

with open('我的b站cookies.txt','w') as f:#写进文本保存
    f.write(jsoncookies)
print("well done")
browser.quit()

四、登录账号+开始爬取

注意每个cookies只能使用一段时间,所以要每次都要重新执行下登录账号这两段代码

from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import StaleElementReferenceException
import time

browser = webdriver.Chrome()
browser.get('https://www.bilibili.com')
f = open('我的b站cookies.txt','r')
listcookie = json.loads(f.read())#读取文件中的cookies数据

for cookie in listcookie:
    browser.add_cookie(cookie)#将cookies数据添加到浏览器
browser.refresh()#刷新网页

# 搜索关键词并进入该页面
search_box = browser.find_element(By.CLASS_NAME, "nav-search-input")
search_box.send_keys("梅西过人")
search_box.send_keys(Keys.ENTER)

# 获取所有窗口的句柄(可以理解为每个打开过的窗口的顺序)
handles = browser.window_handles
# 把窗口句柄切换到第二个窗口的,即搜索的结果页面,用于爬取
browser.switch_to.window(handles[1])
titles = browser.find_elements(By.TAG_NAME,'h3')
with open("b站梅西过人视频标题.txt", 'a', encoding='utf-8') as f:
    for title in titles:
        f.write(title.text + "\n")
        
i = 2
while True:
    # 滑动页面的操作
    document = browser.execute_script('return document.body.scrollHeight;') # 滑动之前的页面高度
    time.sleep(2)
    browser.execute_script(f'window.scrollTo(0,{document})') # 滑动页面
    time.sleep(2)
    document2 = browser.execute_script('return document.body.scrollHeight;')# 滑动之后的页面高度
    
    # 防止页面刷新元素id改变,多次执行代码
    attempts = 0
    while attempts < 2:
        try:
            a = browser.find_elements(By.CSS_SELECTOR, '.vui_pagenation--btns button')
            a[-1].click() # 点击下一页
            break
        except StaleElementReferenceException:
            attempts += 1
    
    # 防止页面刷新元素id改变,多次执行代码
    attempts = 0
    while attempts < 2:
        try:
            titles = browser.find_elements(By.TAG_NAME,'h3')
            with open("b站梅西过人视频标题.txt", 'a', encoding='utf-8') as f:
                for title in titles:
                    content = title.text
                    f.write(content + "\n")
            break
        except StaleElementReferenceException:
            attempts += 1
    time.sleep(2)
    print(f"完成第{i}页标题爬取")
    i += 1
    

备注:我是在jupyter上运行的;另外可以更换检索词来获取想要的视频标题;最后是关于跳转到视频最后一页后我没有设置如何停止代码,需要手动停止运行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/853749.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用MyBatis操作数据库

hi,大家好,今天为大家带来MyBatis操作数据库的知识 文章目录 &#x1f437;1.根据MyBatis操作数据库&#x1f9ca;1.1查询操作&#x1f347;1.1.1无参查询&#x1f347;1.1.2有参查询 &#x1f9ca;1.2删除操作&#x1f9ca;1.3修改操作&#x1f9ca;1.4增加操作&#x1f9ca;…

quill 富文本编辑器 @提及

使用插件quill-mention&#xff0c;实现在quill 富文本编辑器使用或#提及用户。 1. 安装 npm install quill-mention --save2. 官方给的示例quill-mention import "quill-mention";const atValues [{ id: 1, value: "Fredrik Sundqvist" },{ id: 2, va…

产线信息化、智能化|汽车座椅产线中的RFID技术方案

引言 在今天的快速发展的制造业中&#xff0c;信息化和智能化已经成为不可或缺的部分。信息化和智能化能够极大地提高生产效率、减少浪费&#xff0c;降低成本&#xff0c;提升产品的质量。汽车座椅产线信息化和智能化是汽车座椅产线升级的重要方向&#xff0c;RFID技术方案在…

大多数单片机程序采用全局变量的形式是为什么呢?

内存占用的可预测性&#xff1a;在单片机程序中&#xff0c;可预测的内存占用是很重要的因素。静态分配可以在编译过程中确定所需的内存&#xff0c;并且分配过程在程序启动之前就已完成。这使得静态分配成为单片机程序的理想选择。栈空间的限制和风险&#xff1a;栈分配具有一…

嘉楠勘智k230开发板上手记录(四)--HHB神经网络模型部署工具

按照K230_AI实战_HHB神经网络模型部署工具.md&#xff0c;HHB文档&#xff0c;RISC-V 编译器和模拟器安装来 一、环境 1. 拉取docker 镜像然后创建docker容器并进入容器 docker pull hhb4tools/hhb:2.4.5 docker run -itd --namehhb2_4 -p 22 "hhb4tools/hhb:2.4.5"…

主调函数与被调函数之间的数据传递

在调用函数时&#xff0c;大多数情况下&#xff0c;主调函数都需要将有关数据传递给被调函数。这就是有参函数。在定义函数时指定的用来接收从主调函数传递过来的值的变量称为形参变量&#xff0c;简称形参&#xff0c;在主调函数的调用函数表达式中&#xff0c;函数名后面圆括…

Zabbix自动注册服务器及部署代理服务器

文章目录 一.zabbix自动注册1.什么是自动注册2.环境准备3.zabbix客户端配置4.在 Web 页面配置自动注册5.验证自动注册 二.部署 zabbix 代理服务器1.分布式监控的作用&#xff1a;2.环境部署3.代理服务器配置4.客户端配置5.web页面配置5.1 删除原来配置5.2 添加代理5.3 创建主机…

在x86下运行的Ubuntu系统上部署QEMU用于模拟RISC-V硬件系统

1.配置工作环境 sudo apt install gcc bison flex libncurses-dev ninja-build \pkg-config build-essential zlib1g-dev pkg-config libglib2.0-dev \binutils-dev libboost-all-dev autoconf libtool libssl-dev \libpixman-1-dev python-capstone virtualenv software-prop…

冶金作业VR虚拟仿真厂家

对于高风险行业来说&#xff0c;开展安全教育培训是企业的重点工作&#xff0c;传统培训逐渐跟不上时代变化和工人需求&#xff0c;冶金安全VR模拟仿真培训系统作为一种新型的教育和培训工具&#xff0c;借助VR虚拟现实技术为冶金行业的工人提供一个安全、高效的培训环境。 冶金…

看看这个硬盘备份方法,简单又好用!

为什么需要备份硬盘数据&#xff1f; 使用计算机的过程中&#xff0c;我们可能偶尔会遭遇各类挑战&#xff0c;如系统崩溃&#xff0c;病毒侵袭&#xff0c;硬盘坏扇区等等。这些问题都有可能引发数据丢失&#xff0c;甚至更严重的情况&#xff0c;使得计算机无法正常开机。…

总结 进程调度的基本过程

一.进程管理 一个运行起来的程序就是进程&#xff0c;点开一个软件的.exe可执行文件&#xff0c;这个程序就跑起来就产生了一个进程。我们可以打开任务管理器 - 首页进程&#xff0c;可以看到3个正在使用的应用&#xff0c;还有71个后台进程。 对于多进程,需要进行管理。进程管…

个推数据驱动运营增长城市巡回沙龙首发北京站

如今很多互联网企业正在加速数智化升级&#xff0c;希望通过运用数据以实现降本提效和运营增长。为帮助更多伙伴在工作中“用好”数据&#xff0c;提升运营效率与效果&#xff1b;同时和更多对用户运营感兴趣的伙伴&#xff0c;共创、共享数智运营实践成果&#xff0c;个推重磅…

学习系统编程终章【多线程剩余知识】

引言&#xff1a; 北京时间&#xff1a;2023/8/3/19:21&#xff0c;刚刚将文章更新&#xff0c;是近期以来为数不多的一次早更&#xff0c;不然每次更文都要卡在12点左右&#xff0c;这是我们实现日更的一个好开端&#xff0c;再接再厉实现日更不是梦。最近失眠一直困扰着我&a…

智慧影院--java开源电影票优惠券制作系统快速开发

搭建一个智慧影院可以通过使用Java开源电影票优惠券制作系统来快速开发。这个系统可以帮助影院管理电影票的销售和优惠活动&#xff0c;提供便捷的购票方式和优惠券的生成与使用功能。 首先&#xff0c;我们需要建立一个数据库来存储电影、影厅、放映计划、订单等信息。在数据…

查看日志信息

查看日志信息 在我们编写代码的过程中可能看不懂错误提示信息&#xff0c;或者不知道错出在什么地方的情况&#xff0c;我们可以打印输出日志信息来检查 使用lombok提供的日志记录器&#xff0c;自定义编程查看调试信息 1、引入lombok依赖 2、在application.properties中配置日…

Observable设计模式简介

Observable设计模式存在于许多Java API和响应式编程中。下面介绍Java中永恒的Observable模式。 Observable设计模式用于许多重要的Java API。一个众所周知的示例是使用ActionListenerAPI执行操作的JButton。在这个例子中&#xff0c;我们ActionListener在按钮上进行了监听或…

玩嵌入式,一般怎么入门?

入门阶段&#xff1a;&#xff08;不要只看书&#xff0c;要多动手&#xff0c;但千万不是直接动手&#xff0c;不去看书&#xff09; C语言&#xff1a;嵌入式编程大多用C语言、少量汇编&#xff0c;先学习C语言&#xff0c;汇编用到的时候再上网查询。教材&#xff1a;随便一…

快讯|新 CEO:Tubi 将成为下一代观众的首选

在每月一期的 Tubi 快讯中&#xff0c;你将全面及时地获取 Tubi 最新发展动态&#xff0c;欢迎关注【比图科技】&#xff0c;一起成长变强&#xff01; 你将通过本文了解 Tubi 在 2023 年 7 月的重要大事&#xff1a; 新 CEO&#xff1a;Tubi 将成为下一代观众的首选 Tubi…

【数学】协方差介绍、相关系数介绍,Python代码

协方差 协方差&#xff08;Covariance&#xff09;是统计学中用来衡量两个随机变量之间关系的一种度量。它反映了这两个变量的变化趋势是否一致&#xff0c;即当一个变量偏离其均值时&#xff0c;另一个变量是否也倾向于偏离其均值。协方差可以帮助我们了解变量之间的线性关系…

❤ TypeError: Assignment to constant variable-Vue3 项目使用

❤ TypeError: Assignment to constant variable 背景&#xff1a; Vue3 项目使用 TypeError: Assignment to constant variable. 原因&#xff1a; 因为我对const定义的常量重新赋值了 解决方法&#xff1a; 换成 var 声明