爬虫-微博个人主页的获取

news2024/11/28 4:49:10

我们在利用爬虫爬取微博个人主页的时候,我们需要获取到个人页面的cookie才能进入到微博的个人主页,否则的话将会是一直跳转到登录页面而导致不能进入个人主页。

import urllib.request
url = ''#自己微博个人主页的源代码
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82',
    'Cookie':'XSRF-TOKEN=g0FF-Ky4ISDWHSpw0syth_7Y; login_sid_t=d2f25f9ffe79e4253d810e203384aa7f; cross_origin_proto=SSL; WBStorage=4d96c54e|undefined; _s_tentry=weibo.com; Apache=1422875234826.102.1689914268411; SINAGLOBAL=1422875234826.102.1689914268411; ULV=1689914268412:1:1:1:1422875234826.102.1689914268411:; wb_view_log=1536*8641.25; appkey=; PC_TOKEN=496b26f766; WBtopGlobal_register_version=2023072112; SUB=_2A25JvnzWDeRhGeFJ71cV-CnKyDmIHXVqyukerDV8PUNbmtANLUj3kW9Nf8mRspTt9Vt2jzdjG9A2yOGzQNKZ9NWd; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWHEn1u_FrFxcuTWJSni9_45JpX5o275NHD95QNS0BfShnNSoefWs4DqcjMi--NiK.Xi-2Ri--ciKnRi-zNS0MXSKBRS0q0SBtt; ALF=1690519302; SSOLoginState=1689914502; WBPSESS=Ad500zUchVHLxb44p3eM4-2SLSs4GjTsb4vmv-67w2A2W8Wf21lcVI-pGBguoXKjGMf_8tiQ-kKEk_0jobCXrgms98G25KfqMrQYEcJ_VvC7dXNhDOcE7rgCpPAP-ByIXe09gDNr45HbE4Lq6XfYoQ==',
    'Referer':'https://weibo.com/signup/signup.php'
}
#建立请求
request = urllib.request.Request(url = url ,headers = headers)
response = urllib.request.urlopen(request)
content= response.read().decode('utf-8')
with open('weibo.html','w',encoding ='utf-8') as fp:
    fp.write(content)

在爬取完生成的HTML中,我们可以直接点击浏览器标识就可进入页面了。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/779977.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

办公软件ppt的制作

毕业找工作太难了,赶紧多学点什么东西吧,今天开始办公软件ppt的制作学习。 本文以WPS作为默认办公软件,问为什么不是PowerPoint,问就是没钱买不起,绝对不是不会破解的原因。 一.认识软件 在快捷工具栏中顾名思义就是一…

什么是框架?为什么要学框架?

一、什么是框架 框架是整个或部分应用的可重用设计,是可定制化的应用骨架。它可以帮开发人员简化开发过程,提高开发效率。 项目里有一部分代码:和业务无关,而又不得不写的代码>框架 项目里剩下的部分代码:实现业务…

机器学习:Bert and its family

Bert 先用无监督的语料去训练通用模型,然后再针对小任务进行专项训练学习。 ELMoBertERNIEGroverBert&PALS Outline Pre-train Model 首先介绍预训练模型,预训练模型的作用是将一些token表示成一个vector 比如: Word2vecGlove 但是对于…

Qt Creator创建控制台项目显示中文乱码

今天在使用Qt Creator创建c项目的时候显示中文乱码,这里分享一下解决办法,主要是由于我们的电脑大部分是GBK编码格式的是,然后Qt默认创建的一般是utf-8编码类型的。编码类型不一致就会导致中文乱码的现象。 从控制台的属性可以看到我们的程序…

Observability:Synthetic monitoring - 动手实践

在我之前的如下文章里: Observability:Synthetic monitoring - 合成监测入门(一)(二) Observability:Synthetic monitoring - 创建浏览器监测,配置单独的浏览器监测器及项目 我详…

基于RASC的keil电子时钟制作(瑞萨RA)(3)----使用J-Link烧写程序到瑞萨芯片

基于RASC的keil电子时钟制作3_使用J-Link烧写程序到瑞萨芯片 概述硬件准备视频教程软件准备hex文件准备J-Link与瑞萨开发板进行SWD方式接线烧录 概述 这一节主要讲解如何使用J-Link对瑞萨RA芯片进行烧录。 硬件准备 首先需要准备一个开发板,这里我准备的是芯片型…

【Node.js 安装】Node.js安装与使用教程

Node.js 安装 Node.js 是什么那什么是运行时 如何安装 Node.jsNode 使用教程 Node.js 是什么 先说结论,Node.js 它是一套 JavaScript 运行环境,用来支持 JavaScript 代码的执行 JavaScript 诞生于 1995 年,几乎是和互联网同时出现&#xf…

leetcode-206.反转链表

leetcode-206.反转链表 文章目录 leetcode-206.反转链表一.题目描述二.代码提交三.易错点 一.题目描述 二.代码提交 代码 class Solution {public:ListNode *reverseList(ListNode *head) {ListNode *temp; // 保存cur的下一个节点ListNode *cur head;ListNode *pre nullptr…

scikit-learn集成学习代码批注及相关练习

一、代码批注 代码来自:https://scikit-learn.org/stable/auto_examples/ensemble/plot_adaboost_twoclass.html#sphx-glr-auto-examples-ensemble-plot-adaboost-twoclass-py import numpy as np import matplotlib.pyplot as plt from sklearn.ensemble import …

【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法

目录 学前视频 0.本章素材 1.图生图是什么 2.图生图能做什么 3.如何使用图生图 4.功能区域 4.1.提示词区域 4.2.图片提示词反推区域 1.CLIP反推 2.DeepBooru 反推 4.3.图片上传区域 4.4.结果图区域 4.5.缩放模式 4.6.重绘幅度 7.结语 8.课后训练 学前视频 …

【Ranking】50 Matplotlib Visualizations, Python实现,源码可复现

详情请参考博客: Top 50 matplotlib Visualizations 因编译更新问题,本文将稍作更改,以便能够顺利运行。 1 Ordered Bar Chart 有序条形图有效地传达项目的排名顺序。但是,将图表上方的指标值相加,用户将从图表本身获得准确的信息…

制造业想要数字化转型应该从哪方面入手?

制造业可以通过关注以下几个关键领域来开启数字化转型之旅: 数据收集和分析:实施系统收集和分析来自各种来源(例如机器、传感器和生产过程)的数据至关重要。这些数据可以提供有关运营效率、质量控制和预测性维护的见解。 物联网&…

Flask Bootstrap 导航条

(43条消息) Flask 导航栏,模版渲染多页面_U盘失踪了的博客-CSDN博客 (43条消息) 学习记录:Bootstrap 导航条示例_bootstrap导航栏案例_U盘失踪了的博客-CSDN博客 1,引用Bootstrap css样式,导航栏页面跳转 2,页面两列…

【冒泡排序】模仿qsort的功能实现一个通用的冒泡排序

文章目录 前言曾经学的冒泡排序存在着一些局限性首先第一步:写一个main()函数,分装一个test1函数test1函数 用来描写类型的性状 在test1创建了bubble_int 函数,下一步就是实现它,分两步走步骤一:写函数参数步骤二&…

Matlab论文插图绘制模板第107期—标签散点图

在之前的文章中,分享了Matlab散点图绘制模板: 进一步,再来分享一种特殊的散点图:标签散点图。 先来看一下成品效果: 特别提示:本期内容『数据代码』已上传资源群中,加群的朋友请自行下载。有需…

内网穿透远程查看内网监控摄像头

内网穿透远程查看内网监控摄像头 在现代社会中,大家总是奔波于家和公司之间。大部分时间用于工作中,也就很难及时知晓家中的动态情况,对于家中有老人、小孩或宠物的(甚至对居住环境安全不放心的),这已然是…

ubuntu下tmux安装

目录 0. 前言1. Tmux介绍2. 安装3. 验证安装 0. 前言 本节安装tmux终端复用工具,在Ubuntu中运行一些服务或脚本的时候往往不能退出终端,需要一直挂着。在有图形界面的linux中你还可以新开一个终端去做别的事,但是在无界面linux中&#xff0c…

re学习(22)伪造CTF(谜之操作)

思维导图:找flag关键之处 1.字符串 (flag, sorry) 2.导入函数:(Import _scanf ) 其他函数(敏感函数) createfileA:将flag放在一个文件中 Createprocess&am…

基于HCL的​​​​​​​网络规划与部署综合实训报告

0、前言 本次实验是对之前有关网络规划与综合部署的综合实验,适合入门的同学们进行学习,该实验选择了使用华三模拟器进行,希望能够帮助大家了解相关的指令。 一、实训目的及意义 ① 掌握网络规划和设计的基本流程 从需求分析开始做起&#x…

4-2 3D images: Volumetric data Representing tabular data

本文所用到的资料下载地址 By stacking individual 2D slices into a 3D tensor, we can build volumetric data representing the 3D anatomy of a subject. We just have an extra dimension, depth, after the channel dimension, leading to a 5D tensor of shape N C D…