15分钟学 Python 第36天 :Python 爬虫入门(二)

news2024/10/6 1:25:48

Python 爬虫入门:环境准备

在进行Python爬虫的学习和实践之前,首先需要准备好合适的开发环境。本节将详细介绍Python环境的安装、必要库的配置、以及常用工具的使用,为后续的爬虫编写奠定坚实的基础。

1. 环境准备概述

1.1 为什么环境准备重要?

环境准备是确保爬虫能够顺利运行的关键。一个良好的开发环境可以提高代码的运行效率,减少调试时间,同时确保所需的库和工具都是最新版本,从而避免潜在的兼容性问题。

1.2 环境准备的步骤

环境准备可以分为几个主要步骤,具体包括:

  1. 安装Python
  2. 配置虚拟环境
  3. 安装必要的库
  4. 熟悉开发工具

2. 安装Python

2.1 Python简介

Python是一种高级编程语言,因其简洁易读的语法和强大的库支持而受到广泛欢迎。Python 3是当前的主流版本,推荐使用Python 3.x进行爬虫开发。

2.2 安装步骤

Windows 环境
  1. 下载Python

    • 前往Python官网下载适合Windows的最新版本安装包(64位或32位)。
  2. 执行安装

    • 双击下载的安装包,在安装界面勾选“Add Python to PATH”,然后点击“Install Now”进行安装。
  3. 验证安装

    • 打开命令提示符(CMD),输入以下命令:
      python --version
      
    • 如果显示Python的版本号,即表示安装成功。
macOS 环境
  1. 使用Homebrew安装

    • 打开终端,输入以下命令:
      /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
      brew install python
      
  2. 验证安装

    • 输入以下命令检查安装:
      python3 --version
      
Linux 环境
  1. 使用包管理器安装

    • 对于Debian/Ubuntu系统:
      sudo apt update
      sudo apt install python3
      
  2. 验证安装

    • 输入以下命令:
      python3 --version
      

2.3 Python版本管理

在开发多个项目时,版本管理十分重要。推荐使用pyenv来管理Python版本,具体步骤如下:

安装pyenv
  1. 在Linux或macOS上,安装pyenv

    curl https://pyenv.run | bash
    
  2. 将以下内容添加到你的shell配置文件中(如~/.bashrc~/.zshrc):

    export PATH="$HOME/.pyenv/bin:$PATH"
    eval "$(pyenv init --path)"
    eval "$(pyenv init -)"
    eval "$(pyenv virtualenv-init -)"
    
  3. 重启终端。

使用pyenv安装Python
pyenv install 3.x.x  # 替换为具体版本号
pyenv global 3.x.x

3. 配置虚拟环境

3.1 什么是虚拟环境

虚拟环境是一个独立的Python环境,可以为每个项目隔离依赖库,避免不同项目间的库版本冲突。

3.2 创建虚拟环境

使用venv模块轻松创建虚拟环境。以下是步骤:

创建虚拟环境
  1. 打开命令提示符或终端,选择项目目录。
  2. 输入以下命令创建虚拟环境:
    python -m venv myenv   # myenv为虚拟环境名称
    
激活虚拟环境
  • Windows

    myenv\Scripts\activate
    
  • macOS/Linux

    source myenv/bin/activate
    
验证激活状态

输入以下命令查看当前环境:

which python  # Linux/macOS
where python  # Windows

3.3 退出虚拟环境

输入deactivate退出当前虚拟环境。

4. 安装必要的库

爬虫常用的库主要包括:requestsBeautifulSouplxml、和pandas等。通过pip安装这些库。

4.1 安装库的步骤

确保虚拟环境已激活,输入以下命令安装库:

pip install requests beautifulsoup4 lxml pandas

4.2 查看已安装库

可通过以下命令查看已安装的库和版本:

pip list

4.3 需求文件的创建及使用

在项目中,有时需要管理特定依赖库版本,创建requirements.txt文件:

pip freeze > requirements.txt

然后可通过以下命令安装requirements.txt中列出的依赖:

pip install -r requirements.txt

5. 常用开发工具

5.1 文本编辑器

推荐使用以下文本编辑器或IDE进行Python开发:

工具特点
PyCharm功能强大,智能提示,支持多种框架
VS Code轻量级,扩展性强,支持多种语言
Sublime Text速度快,界面简洁
Jupyter Notebook适合数据分析与可视化,支持交互式运行

5.2 安装和使用PyCharm

  1. 在JetBrains官网下载PyCharm Community版。
  2. 安装并启动PyCharm。
  3. 创建新项目,选择Python解释器为刚才创建的虚拟环境。

5.3 安装和使用VS Code

  1. 在Visual Studio Code官网下载并安装。
  2. 安装Python扩展,支持Python语言的编辑和调试,使用命令面板(Ctrl + Shift + P)执行Python: Select Interpreter选择虚拟环境。

6. 示例代码:简单爬虫

在确保环境准备好后,下面提供一个简单的爬虫示例:

6.1 示例代码

以下代码示例演示如何使用requestsBeautifulSoup抓取网页的标题和所有超链接。

import requests
from bs4 import BeautifulSoup

# 目标网站URL
url = 'https://example.com'

# 发送GET请求
response = requests.get(url)

# 检查响应状态
if response.status_code == 200:
    # 解析HTML文档
    soup = BeautifulSoup(response.text, 'lxml')
    
    # 提取网页标题
    title = soup.title.string
    print(f"网页标题: {title}")
    
    # 提取所有链接
    links = soup.find_all('a')
    for link in links:
        href = link.get('href')
        text = link.string
        print(f"链接地址: {href}, 链接文本: {text}")
else:
    print("请求失败,状态码:", response.status_code)

6.2 代码运行流程图

以下是程序运行的流程图:

+------------------+
|   发送请求      |
| (requests.get()) |
+--------+---------+
         |
         v
+------------------+
|   获取响应      |
| (response.text)  |
+--------+---------+
         |
         v
+------------------+
|   解析网页内容  |
| (BeautifulSoup)  |
+--------+---------+
         |
         v
+------------------+
|   提取数据      |
| (soup.find())    |
+--------+---------+
         |
         v
+------------------+
|   存储数据      |
| (打印到终端)    |
+------------------+

6.3 代码结果展示

当运行上述代码时,若目标网页正常访问,将返回该网页的标题和所有链接,如下示例输出:

网页标题: Example Domain
链接地址: https://www.iana.org/ , 链接文本: More information...

7. 学习小结

通过本节内容,我们详细介绍了Python爬虫环境的准备,包括Python的安装、虚拟环境的创建与管理、常用库的安装以及开发工具的选择。同时,提供了一个简单爬虫的示例,帮助理解如何在准备好的环境中进行爬虫开发。

环境准备是学习爬虫的基础,只有在配置好开发环境的前提下,才能高效地编写和调试爬虫代码。在实践过程中,请注意遵循法律和道德规范,合理使用爬虫技术。


在这里插入图片描述
怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2190887.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mp4转gif在线转换怎么转?7个视频转动图方法不容错过!(超简单)

mp4转gif在线转换怎么转?如今,将mp4视频转换为gif动图格式,满足了人们对易于分享和网络传播内容的需求。与mp4视频相比,gif动图文件体积相对较小,几乎所有网络平台都支持这种格式,无需额外安装插件或软件。…

CSID-GAN:基于生成对抗网络的定制风格室内平面设计框架论文阅读

CSID-GAN: A Customized Style Interior Floor Plan Design Framework Based on Generative Adversarial Network 摘要前言II. CSID-GAN METHODA. Overall FrameworkB. Algorithm and Loss Function III. DATASETS AND EVALUATION METRICSA. DatasetsB. Evaluation Metrics IV.…

信息安全工程师(34)访问控制模型

前言 访问控制模型是实现访问控制的基础,不同的访问控制模型提供了不同的访问控制策略和机制,以适应不同的安全需求。 一、自主访问控制模型(DAC) 定义:指资源的所有者有权决定谁可以访问其资源以及访问的方式。资源的…

如何实现事件流操作

文章目录 1 概念介绍2 使用方法3 示例代码我们在上一章回中介绍了通道相关的内容,本章回中将介绍StreamProvider组件.闲话休提,让我们一起Talk Flutter吧。 1 概念介绍 在Flutter中Stream是经常使用的组件,对该组件的监听可void main() {///让状态栏和程序的appBar融为一体…

macos安装mongodb

文章目录 说明安装和配置安装mongodb配置PATH变量 验证日志及数据存放目录 mac启动和关闭mongodb后台启动失败问题mongodb-compass(GUI) 说明 Homebrew core 列表目前已经将 MongoDB 移除,不再为其提供支持。但是使用国内镜像的brew还是可以安装的!这里直接从官网下…

使用 Python 代码连接 PostgreSQL

Python 是一个功能非常强大的编程语言,尤其在与数据库交互时,提供了丰富的解决方案。在实际项目中,我们经常需要通过 Python 连接并操作数据库。为了简化这种操作,ORM(对象关系映射)框架提供了便利。ORM 能…

aws(学习笔记第一课) AWS CLI,创建ec2 server以及drawio进行aws画图

aws(学习笔记第一课) 使用AWS CLI 学习内容: 使用AWS CLI配置密钥对创建ec2 server使用drawio(vscode插件)进行AWS的画图 1. 使用AWS CLI 注册AWS账号 AWS是通用的云计算平台,可以提供ec2,vpc,SNS以及clo…

灵足时代:具身智能核心部件的新秀崛起——解析数千万元天使轮融资

在智能科技日新月异的今天,具身智能作为连接物理世界与数字世界的重要桥梁,正逐步成为科技创新的前沿阵地。近日,具身智能核心部件领域的新锐公司——“灵足时代”宣布完成数千万元天使轮融资,这一消息无疑为行业内外带来了强烈的震撼与期待。本轮融资由雅瑞智友科学家基金…

多用户网页聊天室(测试报告)

一、项目背景 随着现代互联网的快速发展,实时通信系统(如聊天应用)已成为人们日常交流的重要工具。多用户网页聊天室项目旨在为用户提供一个基于Web的实时聊天平台,支持用户之间的即时通信、好友管理和历史消息记录查看。为了提升…

ModuleNotFoundError: No module named ‘package‘

报错: Traceback (most recent call last): File “”, line 198, in run_module_as_main File “”, line 88, in run_code File "D:\python\helloworld.venv\Scripts\pip.exe_main.py", line 4, in File "D:\python\helloworld.venv\Lib\site-pac…

3分钟学会下载 blender

1. blender简介 Blender是一款开源的3D创作套件,它由Blender Foundation维护,并得到了全球志愿者和专业开发者的支持。Blender广泛应用于3D模型的制作、动画、渲染、视频编辑、游戏创建、模拟、 composting以及3D打印等多个领域。 功能特点&#xff1a…

Gitlab flow工作流

Gitlab flow Gitlab flow 是 Git flow 与 Github flow 的综合。它吸取了两者的优点,既有适应不同开发环境的弹性,又有单一主分支的简单和便利。它是 Gitlab.com 推荐的做法。 1 上游优先 Gitlab flow 的最大原则叫做"上游优先"(…

【网络篇】计算机网络——应用层详述(笔记)

目录 一、应用层协议原理 1. 进入应用层 2. 网络应用程序体系结构 (1)客户-服务器体系结构(client-server architecture) (2) P2P 体系结构(P2P architecture) 3. 进程间通讯 …

2024/10/5 数据结构打卡

对两个长度为n的升序序列A和B的元素按由小到大的顺序依次访问,这里访问的 含义只是比较序列中两个元素的大小,并不实现两个序列的合并,因此空间复杂度为 O(1)。按照 上述规则访问到第n个元素时,这个元素即为两个序列A和B的中位数。…

预扣预缴、年度汇算清缴与年终奖的个税计算

目录 1. 税率表2. 年度汇算清缴3. 预扣预缴3.1 预扣预缴的代码实现3.2 全年应纳税额与全年收入的关系 4. 年终奖 1. 税率表 月度税率表: 级数月度应纳税所得额税率(%)速算扣除数1 ( 0 , 3000 ] (0, 3000] (0,3000] 3 3 3 0 0 02 ( 3000 , 1…

Qt操作主/从视图及XML——实例:汽车管理系统

目录 1. 主界面布局2.连接数据库3.主/从视图应用 1. 主界面布局 先创建一个QMainwindow&#xff0c;不带设计界面 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QGroupBox> #include <QTableView> #include <QListWidg…

Python数据结构与算法问题详解

Python数据结构与算法问题详解 Python 作为一种高级编程语言&#xff0c;凭借其简洁的语法和强大的内置库&#xff0c;成为了数据结构与算法学习的绝佳工具。本文将深入解析几种常见的数据结构&#xff0c;并结合具体的算法&#xff0c;展示如何在实际问题中高效解决问题。通过…

EEPROM读写实验——FPGA学习笔记18

一、EEPROM简介 Electrically Erasable Progammable Read Only Memory:是指带电可擦可编程只读存储器&#xff0c;是一种常用的非易失性存储器&#xff08;掉电数据不丢失&#xff09; EEPROM发展历史 我们这次实验所用的AT24C64存储容量为64Kbit&#xff0c;内部分成256页&am…

PELT算法

PELT算法的范畴 PELT算法&#xff08;Pruned Exact Linear Time&#xff09;属于时间序列分析和变点检测&#xff08;Change Point Detection&#xff09;范畴的算法。 从更广泛的角度来看&#xff0c;PELT算法还可以归类为以下几类算法的子集&#xff1a; 1. 时间序列分析&…

SpringBoot在校园健康信息管理中的创新

第5章 系统详细设计 5.1管理员功能模块 管理员登录&#xff0c;通过填写注册时输入的用户名、密码、角色进行登录&#xff0c;如图5-1所示。 图5-1管理员登录界面图 管理员登录进入师生健康信息管理系统可以查看个人中心、学生管理、教师管理、数据收集管理、问卷分类管理、…