Python 简单爬虫程序及其工作原理

news2024/11/27 19:46:42

前言

网络中包含大量的数据,这些数据对于我们来说是非常有价值的,因此编写一个爬虫程序,自动从网页中获取所需的数据,对于信息收集和分析是非常有帮助的。Python 是一种高效而灵活的编程语言,它提供了强大的库和框架来编写爬虫程序。

工作原理

一个简单的爬虫程序的工作原理通常包括以下几个步骤:

发送请求:使用 Python 的 requests 库来发送 HTTP 请求并获取网页的响应。这里可以使用 get() 或 post() 方法,根据需要传递参数和头部信息以获取所需的网页内容。

import requests

proxy = {
    'http': 'http://127.0.0.1:8080',  # 替换为你的代理IP地址和端口号
    'https': 'http://127.0.0.1:8080'  # 替换为你的代理IP地址和端口号
}

url = 'https://www.example.com'  # 替换为你要访问的网址

response = requests.get(url, proxies=proxy)

print(response.text)

解析页面:得到网页的内容后,爬虫程序需要从中提取所需的数据。这可以通过使用 Python 的库来解析 HTML 或 XML。常用的库包括 BeautifulSoup 和 lxml,它们提供了遍历和搜索网页结构的功能,以便于提取出所需的数据。

import requests
from bs4 import BeautifulSoup

url = 'https://www.example.com'  # 替换为你要解析的网址

# 发送请求并获取页面内容
response = requests.get(url)
html = response.text

# 使用BeautifulSoup解析页面
soup = BeautifulSoup(html, 'html.parser')

# 示例:提取页面标题和第一个段落的文本
title = soup.title.text
paragraph = soup.find('p').text

# 输出结果
print('标题:', title)
print('段落:', paragraph)

存储数据:获取所需的数据后,爬虫程序通常需要将其存储起来以备后续使用。可以将数据保存在文件中,或将其存储在数据库中。Python 中的 sqlite3 模块提供了连接和操作 SQLite 数据库的功能。

import sqlite3

# 连接到数据库
conn = sqlite3.connect('data.db')

# 创建表
conn.execute('CREATE TABLE IF NOT EXISTS users (id INT PRIMARY KEY, name TEXT, age INT)')

# 插入数据
conn.execute('INSERT INTO users (id, name, age) VALUES (1, "John", 25)')

# 查询数据
cursor = conn.execute('SELECT * FROM users')
for row in cursor:
    print(row)

# 关闭数据库连接
conn.close()

循环遍历:如果需要爬取多个网页的数据,爬虫程序可以使用循环来遍历不同的网页并重复上述步骤。

fruits = ['apple', 'banana', 'orange']

for fruit in fruits:
    print(fruit)

示例程序

下面是一个使用 Python 编写的简单爬虫程序的示例,该程序通过爬取百度新闻页面并提取新闻标题和链接来演示爬虫的基本流程。

import requests
from bs4 import BeautifulSoup

def get_page(url):
    response = requests.get(url)
    return response.text

def get_links(html):
    soup = BeautifulSoup(html, 'html.parser')
    links = []
    for link in soup.find_all('a', {'class': 'title-link'}):
        links.append({
            'title': link.text,
            'url': link['href']
        })
    return links

def main():
    url = 'https://news.baidu.com/'
    html = get_page(url)
    links = get_links(html)

    for link in links:
        print(link['title'], link['url'])

if __name__ == '__main__':
    main()

上述代码中,首先使用 `get_page` 函数获取百度新闻的网页内容,然后使用 `get_links` 函数从网页内容中提取新闻标题和链接。最后,在 `main` 函数中将提取到的新闻标题和链接打印出来。

总结

简单的爬虫程序可以帮助我们从网页中自动获取所需的数据,避免了手动复制粘贴的繁琐工作。Python 提供了强大的库和框架来编写爬虫程序,如 requests、BeautifulSoup 等。在编写爬虫程序时,我们需要遵守网站的爬虫规则,并尊重网站的隐私和使用条款。爬虫程序不仅可以用来抓取网页数据,还可以用来监控网站的变化、分析竞争对手等。在使用爬虫程序时,我们需要注意合法使用,并且对不能公开的数据要有尊重和保护的意识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1357092.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot学习(三)-整合JDBC、Druid、MyBatis

注:此为笔者学习狂神说SpringBoot的笔记,其中包含个人的笔记和理解,仅做学习笔记之用,更多详细资讯请出门左拐B站:狂神说!!! 一、整合JDBC使用(理解) 创建项目 勾选依赖启动器 查看依赖 …

vue3 插槽 slot 使用

vue3 插槽 slot 使用 在 Vue3 中,插槽(slot)是一种重要的组件复用和内容分发机制。通过使用插槽,可以让组件更加灵活和具有可复用性,在不同的地方渲染不同的内容,同时保证相同的样式。 插槽资料 官网介绍&…

【uniapp】多规格选择

效果图 VUE <template> <view><view class"wp-80 pd-tb-40 mg-auto"><button type"warn" click"showDrawer(showRight)">筛选</button></view><!-- 筛选-uni-drawer --><uni-drawer ref"s…

tolist()读取Excel列数据,(Excel列数据去重后,重新保存到新的Excel里)

从Excel列数据去重后&#xff0c;重新保存到新的Excel里 import pandas as pd# 读取Excel文件 file r"D:\\pythonXangmu\\quchong\\quchong.xlsx" # 使用原始字符串以避免转义字符 df pd.read_excel(file, sheet_namenameSheet)# 删除重复值 df2 df.drop_duplica…

HTTP打怪升级之路

新手村 上个世纪80年代末&#xff0c;有一天&#xff0c;Tim Berners-Lee正在工作&#xff0c;他需要与另一台计算机上的同事共享一个文件。他尝试使用电子邮件&#xff0c;但发现电子邮件不能发送二进制文件。Tim Berners-Lee意识到&#xff0c;他需要一种新的协议来共享二进制…

IntelliJ IDEA 如何配置git

在 IntelliJ IDEA 中配置 Git 的步骤如下&#xff1a; 打开 IntelliJ IDEA。找到 File–>Setting–>Version Control–>Git–>Path to Git executable。在 Git 的安装路径下找到 cmd 文件夹下的 git.exe&#xff0c;到此 Git 配置已完成。

Windows 安装配置 Anaconda、CUDA、cuDNN、pytorch-cuda全流程

Windows 安装配置 Anaconda、CUDA、cuDNN、pytorch-cuda全流程 1. 安装Anaconda 网址&#xff1a;https://repo.anaconda.com/archive/ 选择第一个下载即可 双击exe文件&#xff0c;按安装向导安装即可&#xff08;除安装路径自己选择外&#xff0c;其余均可按默认选项&#x…

02 Deep learning algorithm

Neural Networks target&#xff1a; inference&#xff08;prediction&#xff09;training my own modelpractical advice for building machine learning systemdecision Tress application: speech&#xff08;语音识别&#xff09; ----> images(计算机视觉)—> t…

【Redis-09】Redis哨兵机制的实现原理-Sentinel

Sentinel是Redis高可用性的解决方案&#xff1a;由一个或者多个Sentinel实例组成的哨兵系统监视多个主从服务器&#xff0c;并实现主从服务器的故障转移。 Sentinel本质上只是一个运行在特殊模式下的Redis服务器&#xff0c;使用以下命令可以启动并初始化一个Sentinel实例&…

面试题:聊聊 SpringBoot 中的 SPI 机制

文章目录 简介Java SPI实现示例说明实现类1实现类2相关测试 源码分析Spring SPISpring 示例定义接口相关实现 相关测试类输出结果源码分析 总结 简介 SPI(Service Provider Interface)是JDK内置的一种服务提供发现机制&#xff0c;可以用来启用框架扩展和替换组件,主要用于框架…

灸哥问答:数据结构对软件开发的作用

在软件开发的浩瀚海洋中&#xff0c;数据结构如同一座坚固的灯塔&#xff0c;为开发者指明方向&#xff0c;确保他们在构建复杂系统时不会迷失。数据结构不仅仅是编程的基础&#xff0c;更是高效、稳定、可扩展软件的核心。 一、提升算法效率 数据结构与算法紧密相连&#xf…

linux 使用iniparser读取.ini文件的配置信息

为什么要用项目配置文件 对于很多程序中要用的参数如果是可变的&#xff0c;那么最好的处理方式就是通过main(int argc,char **argv) 函数参数传递&#xff0c;或者从别的地方去获取&#xff0c;这其中之一就是配置文件&#xff0c;但是在一个成熟和架构完善的系统&#xff0c…

Spring之强大的DefaultListableBeanFactory

系列文章目录 如何查看类继承结构参考这里 文章目录 系列文章目录一、DefaultListableBeanFactory的类继承实现结构二、实现接口 一、DefaultListableBeanFactory的类继承实现结构 二、实现接口 AliasRegistry&#xff1a;支持别名功能&#xff0c;一个名字可以对应多个别名B…

Leetcode2962. 统计最大元素出现至少 K 次的子数组

Every day a Leetcode 题目来源&#xff1a;2962. 统计最大元素出现至少 K 次的子数组 解法1&#xff1a;滑动窗口 算法如下&#xff1a; 设 mx max⁡(nums)。右端点 right 从左到右遍历 nums。遍历到元素 xnums[right] 时&#xff0c;如果 xmx&#xff0c;就把计数器 co…

qt源码阅读准备

qt源码阅读准备 阅读qt源码前先了解以下知识&#xff0c;对阅读qt源码有极大的好处。 D-pointer介绍 D-pointer介绍 d-pointer它可以把一个类库的实施细节对使用的用户隐藏&#xff0c; 而且对实施的更改不会打破二进制兼容。其基本贯穿qt所有类。 Qt类的的结构 我们以QO…

【unity】基于Obi的绳/杆蓝图、绳杆区别及其创建方法

绳索 是通过使用距离和弯曲约束将粒子连接起来而形成的。由于规则粒子没有方向(只有位置)&#xff0c;因此无法模拟扭转效应(维基百科)&#xff0c;绳子也无法保持其静止形状。然而&#xff0c;与杆不同的是&#xff0c;绳索可以被撕裂/劈开&#xff0c;并且可以在运行时改变其…

第3章 【例题】(完整版)

目录 前言 【例3.1】有关成绩结构体的例子 【例3.2】使用Score类的完整程序 【例 3.3】一个存在错误的程序 【例3.4】用对象赋值语句的例子 【例3.5】为类Score定义一个构造函数 【例3.6】建立对象的同时&#xff0c;用构造函数给数据成员赋初值 【例3.7】用成员初始…

智能手机2024:狂卷“微创新”后如何突破新机遇

文 | 智能相对论 作者 | 楷楷 2023年&#xff0c;智能手机市场终于开始展露曙光。Counterpoint Research数据显示&#xff0c;2023年10月全球智能手机销量同比增长5%&#xff0c;智能手机市场出货量在经历了连续27个月的同比下滑后&#xff0c;首次出现同比正增长。 特别是在…

IDEA卡在”正在解析Maven依赖项“的解决方法

修改Maven镜像&#xff0c;修改Maven镜像为阿里云镜像 1.文件路径 C:\Program Files\JetBrains\IntelliJ IDEA 2022.2.3\plugins 2.因为我使用的是InteliJ idea 自带的Maven&#xff0c;所以直接去idea 插件安装目录&#xff0c;找到Maven插件&#xff0c;找到setting.xml 文…

Linux第4步_安装VMwareTools

安装Ubuntu操作系统后&#xff0c;就可以安装VMwareTools了&#xff0c;目的是实现“电脑和虚拟机之间互相复制粘贴文件”。 1、双击桌面图标“VMware Workstation Pro”&#xff0c;然后点击下图中的“开机”&#xff0c;打开虚拟机电源。 2、双击下图中的用户名“zgq” 3、…