【Python】逆向与爬虫的故事

news2025/1/22 9:03:28

目录

一、前言

二、爬虫

1、什么是爬虫?

2、Python 爬虫的主要工具

3、爬虫的基本流程

4、实例代码

三、逆向

1、什么是逆向?

2、Python 逆向的主要工具

3、逆向的基本流程

4、实例代码

四、总结


一、前言

随着互联网技术的发展,爬虫技术和逆向技术也越来越受到人们的关注。Python 语言凭借其简洁、易学、强大的数据处理和网络编程能力成为了爬虫和逆向领域的首选语言。

在本文中,我们将介绍 Python 语言在爬虫和逆向领域的应用,并且通过实例代码来帮助大家更好地理解和掌握这些技术。

二、爬虫

1、什么是爬虫?

爬虫是一种自动获取互联网信息的程序。在互联网上,我们的数据过于分散和分散,而爬虫技术可以将我们需要的数据从大量的网页中自动提取出来,从而方便我们进行数据分析和挖掘。

2、Python 爬虫的主要工具

在 Python 中,我们可以使用许多常见的库来实现爬虫程序,包括但不限于以下几个:

  1. urllib 和 urllib2:用于打开和读取 URL 链接。
  2. requests:用于发送 HTTP 请求和处理服务器响应。
  3. BeautifulSoup:用于解析 HTML 和 XML 文件。
  4. Selenium:用于模拟浏览器行为。
3、爬虫的基本流程

Python 爬虫的基本流程大致如下:

  1. 请求目标网站并获取网页源代码。
  2. 解析网页源代码,提取需要的数据。
  3. 存储数据,如写入数据库、写入 Excel 文件等。
4、实例代码

下面我们来看一个简单的爬取百度首页标题的例子:

import urllib.request
from bs4 import BeautifulSoup

url = "https://www.baidu.com/"
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, "html.parser")
print(soup.title.string)

这段代码的主要作用是请求百度首页并获取网页源代码,然后使用 BeautifulSoup 库解析 HTML,最后输出百度首页的标题。

三、逆向

1、什么是逆向?

逆向工程是指通过研究某种技术或者系统的内部原理和工作方式,以及对其代码进行分析、反编译等操作,从而获得更深刻的理解和控制的技术。逆向工程是一种非常重要的技术,可以用于研究软件、硬件、网络协议等领域。

2、Python 逆向的主要工具

在 Python 中,我们可以使用许多常见的库来实现逆向程序,包括但不限于以下几个:

  1. IDA Pro:一个强大的二进制逆向工具,广泛应用于软件安全研究、恶意代码分析等领域。
  2. PyCryptodome:一个 Python 加密和解密库。
  3. Scapy:一个 Python 网络数据包处理库。
3、逆向的基本流程

Python 逆向的基本流程大致如下:

  1. 获取需要逆向的目标文件,如二进制可执行文件、DLL 库文件等。
  2. 使用逆向工具进行分析和反编译,获取程序的代码和结构信息。
  3. 根据分析结果编写 Python 脚本,并进行测试和验证。
  4. 根据测试结果进行优化和完善,最终实现控制目标程序的目的。

4、实例代码

下面我们来看一个简单的使用 PyCryptodome 库实现 AES 加密和解密的例子:

from Crypto.Cipher import AES
from Crypto.Util.Padding import pad, unpad
import base64

key = b'mysecretpassword'
data = b'This is my secret message'

cipher = AES.new(key, AES.MODE_CBC) # 创建 AES 加密对象
ciphertext = cipher.encrypt(pad(data, AES.block_size)) # 加密数据
iv = base64.b64encode(cipher.iv).decode('utf-8') # 获取加密后的初始化向量
ciphertext = base64.b64encode(ciphertext).decode('utf-8') # 将加密后的数据转换成字符串

print('加密后的数据:' + ciphertext)
print('初始化向量:' + iv)

cipher = AES.new(key, AES.MODE_CBC, iv=base64.b64decode(iv)) # 创建 AES 解密对象
plaintext = unpad(cipher.decrypt(base64.b64decode(ciphertext)), AES.block_size) # 解密数据
print('解密后的数据:' + plaintext.decode('utf-8'))

这段代码的主要作用是使用 PyCryptodome 库实现 AES 加密和解密,其中 key 为密钥,data 为待加密的数据,iv 为初始化向量。在加密过程中,我们使用 CBC 模式进行加密,并且使用 pkcs7padding 补全数据。在解密过程中,我们使用相同的 key 和 iv 进行解密,并且使用 unpad 函数对解密后的数据进行去补全处理。

四、总结

本文介绍了 Python 语言在爬虫和逆向领域的应用,并且通过实例代码来帮助大家更好地理解和掌握这些技术。爬虫和逆向是两个非常重要的技术,它们可以帮助我们更好地理解和掌握互联网和计算机技术,同时也为我们提供了更多的探索空间和挑战。我希望本文对大家有所帮助,也希望大家能够持续关注和学习这些领域的最新技术和发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1211433.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

申明式管理方式与配置清单文件

目录 申明式管理方式 1、使用申明式管理方式相关操作 1)获取资源配置清单 2)更改获取的yaml配置清单,并进行修改然后创建或更新资源 3)在线修改或编辑资源配置 4)删除资源 2、如何获取资源配置清单文件模板&…

3D建模基础教程:编辑样条线【总层级】

在本期的3D建模基础教程中,我们将探讨“编辑样条线”的【总层级】。我们将从以下几个方面进行深入分析: 1️⃣ 理解“编辑样条线”的层级结构 在3D建模中,“编辑样条线”是一个非常重要的环节。它主要涉及到曲线的创建、修改和调整。通过学习…

【算法练习Day49】每日温度下一个更大元素 I

​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:练题 🎯长路漫漫浩浩,万事皆有期待 文章目录 每日温度下一个更大元素 I总…

微信公众号预约挂号怎么做

一、引言 在当今快节奏的生活中,时间是非常宝贵的。为了方便患者快速、准确地预约挂号,微信公众号已经推出了预约挂号功能。通过公众号预约挂号,你可以轻松地安排自己的就诊时间,避免了长时间排队和等待的烦恼。本文将为你详细介…

第一型曲面积分的第二型曲面积分的区别与联系【从几何知识的角度思考】

此处为曲线积分------>【问题思考总结】第一型曲线积分和第二型曲线积分的区别与联系【从几何知识的角度思考】 一二型曲面积分有什么区别?(了解) 一型曲面积分: 由dS进行表示。可以想像,dS是一个面积微元&#x…

gmpy2 GMP is_prime函数底层c代码分析

偶然看到一篇paper(2018年发表),说GMP中的素性检测使用的是单独的Miller_Rabin方法,单独的Miller_Rabin素性检测会存在部分安全问题(低概率),然后突然想求证一下最新版本的GMP中是否进行了修改。…

ComfyUI搭建

最近心血来潮想搞下 sd 的东西, 正好赶上腾讯云有活动, 附上个活动链接,有兴趣的小伙伴可以参考下,不用谢我 高性能应用服务HAI 新品内测 一 搭建 首先先选择一个框架, 我想搭建的是 comfyui, 所以选择了Pytorch2.0.0, 里面环境都适配好了 等待个 5-8 分钟就可以了 ,因为需要加…

一文搞定以太网PHY、MAC及其通信接口

本文主要介绍以太网的 MAC 和 PHY,以及之间的 MII(Media Independent Interface ,媒体独立接口)和 MII 的各种衍生版本——GMII、SGMII、RMII、RGMII等。 简介 从硬件的角度看,以太网接口电路主要由MAC(M…

大数据清洗、转换工具——ETL工具概述

大数据清洗、转换工具——ETL工具概述_etl转换-CSDN博客 ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL过程本质上是数据流动的过程,从不同的数据源…

很多工程师,最后都是被生活裹挟,没法一直在技术路径走到极致

最近比较少更了,但内容一直在写,只是从长文变成了短文,直接发朋友圈了。 如果喜欢我写的内容,请移步到朋友圈。 我是一个不喜欢讲哲理的人,感觉哲学都是理论,都是鸡血,很难落地,我…

关系选择器

关系选择器&#xff0c;说明元素和元素之间需要存在关系了。 后代选择器 定义&#xff1a;选择所有被E元素包含的F元素&#xff0c;中间用空格隔开 语法&#xff1a;E F{ } 选择E元素下面所有的F元素 <ul><li>宝马</li><li>奔驰</li> </u…

【mujoco】Ubuntu20.04配置mujoco210

【mujoco】Ubuntu20.04配置mujoco210 文章目录 【mujoco】Ubuntu20.04配置mujoco2101. 安装mujoco2102. 安装mujoco-py3.使用render时报错Reference 本文简要介绍一下如何在ubuntu20.04系统中配置mujoco210&#xff0c;用于强化学习。 1. 安装mujoco210 在官方资源里找到http…

真空的应用

真空对人类主要的贡献有两点&#xff1a;对基础研究来说&#xff0c;提供了最清洁和最少受外界干扰的实验环境&#xff1b;对工业生产来说&#xff0c;则可以制造性能最优越、甚至自然界前所未有的材料。随着真空技术在航空航天和军工、光伏发电以及半导体等领域的应用&#xf…

zabbix的agent的安装部署

zabbix的agent的部署 主机ipagent-1192.168.10.129 zabbix官网部署教程 但是不全&#xff0c;建议搭配这篇文章一起看 下面有教程 zabbix服务端配置 修改主机名 hostnamectl set-hostname agent-1 exit配置zabbix的yum源 [rootagent-1 ~]# rpm -Uvh https://repo.zabbix…

Qt DragDrop拖动与放置

本文章从属于 Qt实验室-CSDN博客系列 拖放操作包括两个动作&#xff1a;拖动(drag)和放下(drop或称为放置)。 拖动允许 对于要拖出的窗口或控件&#xff0c;要setDragEnabled(true) 对于要拖入的窗口或控件&#xff0c;要setAcceptDrops(true) 下面以一个具体的用例进行说…

Git的基本操作以及原理介绍

文章目录 基本操作创建git仓库配置name和email .git目录的结构git add & git commit.git目录结构的变化 git追踪管理的数据git的版本回退回退的原理回退的三种情况 版本库中文件的删除git分支管理分支的删除合并分支时的冲突分支的合并模式分支策略git stash不要在master分…

jQuery Ajax前后端数据交互

ajax是用来做前后端交互的&#xff0c;前端使用ajax去去发送一个请求&#xff0c;后端给其响应拿到数据&#xff0c;前端做些展示。 浏览器访问网站一个页面时&#xff0c; Web 服务器处理完后会以消息体方式返回浏览器&#xff0c;浏览器自动解析 HTML 内容。如果局部有新数…

【git】远程远程仓库命令操作详解

这篇文章主要是针对git的命令行操作进行讲解&#xff0c;工具操作的基础也是命令行&#xff0c;如果基本命令操作都不理解&#xff0c;就算是会工具操作&#xff0c;真正遇到问题还是一脸懵逼 如果需要查看本地仓库的详细操作可以看我上篇文件 【git】git本地仓库命令操作详解…

我记不住的那些命令(不断更新中)

fzf 一种进行模糊查找的命令行工具 主页&#xff1a;https://github.com/junegunn/fzf 我的主机是 Kali&#xff0c;通过apt进行安装fzf&#xff0c;并进行配置。 # apt install fzf # apt show fzf 通过参考/usr/share/doc/fzf/README.Debian来进行快速配置快捷键和自动补…

隐私计算系列MOOC第二期 强势回归!隐语联合产学研“专家天团”,共同打造全景知识地图

近年来&#xff0c;我国数据要素市场规模保持高速增长&#xff0c;随着《数据安全法》、《个人信息保护法》、《数据二十条》等相关政策相继出台&#xff0c;对隐私数据安全提出了新的要求。作为数据要素流通的实践探索者与隐私计算技术的布道者&#xff0c;隐语希望凝聚学术界…