【python爬虫】—星巴克产品

news2025/2/24 11:25:51

文章目录

  • 需求
    • 爬取星巴克产品以及图片,星巴克菜单
  • python爬虫
  • 爬取结果

需求

爬取星巴克产品以及图片,星巴克菜单

  • 网页分析: 首先,需要分析星巴克官方网站的结构,了解菜单栏的位置、布局以及菜单项的标签或类名等信息。
  • 发送 HTTP 请求: 使用 Python 的 requests 模块发送 HTTP GET 请求,获取星巴克网页的 HTML 内容。
  • 解析 HTML: 使用一个 HTML 解析库(如 BeautifulSoup)解析网页的 HTML 内容,以便从中提取出菜单栏的数据。
  • 定位菜单栏元素: 使用解析库的选择器功能(如 CSS 选择器或 XPath)定位菜单栏所在的 HTML 元素。
  • 提取菜单数据: 从菜单栏元素中提取菜单项的信息,可能包括菜单项名称、图片等。
  • 数据存储: 将提取的菜单数据存储到适合的数据结构中。

python爬虫

  • 获取网页源码,这里没有反爬手段,不需要添加其他参数
import urllib
from bs4 import BeautifulSoup
import requests

base_url = "https://www.starbucks.com.cn/menu/"
response = urllib.request.urlopen(base_url)
content = response.read().decode('utf-8')

soup = BeautifulSoup(content, 'lxml')
  • 方法一:soup的select方法
# 方法一:select方法
import os

# 文件保存路径
save_path = "./practice_071_星巴克/"
if not os.path.exists(save_path): os.makedirs(save_path)

name_list = soup.select('ul[class="grid padded-3 product"]')
# name_list[0].select('li div')[0]["style"]
for name in name_list:
    submenu_pic  = name.select('li div')
    submenu_name = name.select('li strong')
    for pic_url,name in zip(submenu_pic, submenu_name):
        suffix = pic_url["style"].split('("')[-1].split('")')[0]
        # 文件地址 和 名称
        picture_url = 'https://www.starbucks.com.cn' + suffix
        picture_name = name.get_text() + ".jpg"
        
        # 文件不支持名称中含有字符 '/',' '
        picture_name = picture_name.strip().replace("/", 'or')

        # 方法1:urlretrieve
        # urllib.request.urlretrieve(url=picture_url, filename=os.path.join(save_path,picture_name))

        # 方法2:写入文件形式
        src_response = urllib.request.urlopen(picture_url)
        pic_content = src_response.read()

        with open(os.path.join(save_path,picture_name), 'wb') as fp:
            fp.write(pic_content)

        print("{}  完成,地址为  {}".format(picture_name, picture_url))

  • 方法二:soup的find\find_all方法
# 方法二:find/find_all方法
menu_list = soup.find('div', class_="wrapper fluid margin page-menu-list").find_all('li')

for name in menu_list:
    suffix = name.find('div')["style"].split('("')[-1].split('")')[0]
    # 文件地址 和 名称
    picture_url = 'https://www.starbucks.com.cn' + suffix
    picture_name = name.find("strong").get_text() + ".jpg"

    # 文件不支持名称中含有字符 '/',' '
    picture_name = picture_name.strip().replace("/", 'or')

    urllib.request.urlretrieve(url=picture_url, filename=os.path.join(save_path,picture_name))

    print("{}  完成,地址为  {}".format(picture_name, picture_url))

爬取结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1027862.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算最大回撤

计算最大回撤 1. 累积计算统计特征函数 PANDAS库中累积计算统计特征函数: 1、CUMSUM() 依次给出前1,2,…,n个数的和 2、CUMPROD() 依次给出前1,2,…,n个数的积 3、CUMMAX() 依次给出前1&#…

腾讯云16核服务器配置大全_16核CPU型号性能测评

腾讯云16核CPU服务器有哪些配置可以选择?可以选择标准型S6、标准型SA3、计算型C6或标准型S5等,目前标准型S5云服务器有优惠活动,性价比高,计算型C6云服务器16核性能更高,轻量16核32G28M带宽优惠价3468元15个月&#xf…

6.8-SpringIoC之循环依赖底层源码解析

解决靠,三级缓存 创建Map,存不完整的Bean 存在问题:属性存在但没有值

Redis——Java客户端配置

概要 由于Redis服务器在官网公开了RESP协议,因此第三方可以通过这个协议来实现和Redis服务器通信的客户端程序,而具体的通信逻辑也不需要我们去实现,只需要导入大佬的库即可 jedis就是封装了RESP协议,提供了一组api供我们使用 …

Python进阶学习----一闭三器

目录 ​编辑 前言 一.三器 1. 迭代器(Iterator) 1.1 什么是可迭代对象 1.2什么是迭代器 1.3案例演示: 以下是一个简单的迭代器示例,遍历一个列表并打印每个元素: 1.4迭代器总结 2. 生成器(Generat…

自动化测试的类型​以及自动化测试的几个误区!

有三种主要类型的自动化测试。 一、自动化单元测试​编辑 自动化单元测试在代码级别上进行测试。bug是在开发人 员编写的函数、方法和例程中识别出来的。 一些公司要求开发人员自己进行单元测试,而有些公司则雇用专门的测试自动化资源。这些资源可以访问源代码&a…

公开研讨会|智能制造中生产管理挑战与解决方案(9月29日)

随着新能源行业的规模化发展,企业增效降本成为迫切需求。生产制造能力成为关键因素,其发展必将是在大规模生产的前提下,追寻极简制造、极限制造以及智能制造。然而在这个发展过程中,企业依旧面临着诸多挑战: 产品设计…

spring boot是如何加载Tomcat的

目录 spring boot是如何加载Tomcat的1. 方法入口2. SpringContext上下文3. 创建web容器4. 启动web容器结语 spring boot是如何加载Tomcat的 大家都用过spring boot,都知道他启动的时候内置一个Tomcat,但是他是怎么来的,你们知道吗 这篇博客…

cudann官网上不见了,找不到了安装CUDA和CUDANN时,发现CUDANN不见了,官网甚至找不到一丝它的信息,公告也没有

我在习惯性的安装CUDA和CUDANN时,发现CUDANN不见了,官网甚至找不到一丝它的信息,公告也没有,看看吐槽 说实话最开始的CUDANN确实比较恼火,要下载下来拷贝过去 现在只需要直接安装cuda,就可以安装成功了 C…

XJAR 混淆加密

一&#xff1a;手动加密 pom依赖 <repositories><repository><id>jitpack.io</id><url>https://jitpack.io</url></repository> </repositories> <dependencies><dependency><groupId>com.github.core-l…

2023年CSP-J 普及组第一轮题目和答案详解

家人们首战报捷&#xff01;&#xff01;&#xff01;&#xff01; 才教了一个月的学生&#xff0c;赛前一周才报名CSP-J都没提前安排初赛内容临时周内加了两节课&#xff0c; 总共初赛也就上了3次课准备了不到一周半&#xff0c;压线进了复赛&#xff0c; 不得不说学生基础还不…

Python是人工智能的最佳选择吗?看看它的优势和局限

人工智能&#xff08;Artificial Intelligence&#xff0c;AI&#xff09;是当今科技领域最热门的话题之一&#xff0c;它涉及到计算机科学、数学、统计学、心理学等多个学科的交叉和融合。人工智能的目标是让机器能够模拟和超越人类的智能&#xff0c;实现自主学习、推理、决策…

Kotlin协程CoroutineScope异步async取消cancel等待await的任务

Kotlin协程CoroutineScope异步async取消cancel等待await的任务 import kotlinx.coroutines.*fun main(args: Array<String>) {runBlocking {val mScope CoroutineScope(Dispatchers.IO).async {println("->")delay(999999)println("<-")"…

施耐德电气携中国信通院和中国联通共同发布白皮书,共探5G+PLC深度融合应用

2023年9月20日——全球能源管理和自动化领域的数字化转型专家施耐德电气在第23届中国国际工业博览会首日的9月19日&#xff0c;与中国信息通信研究院&#xff08;以下简称“中国信通院”&#xff09;及中国联合网络通信集团有限公司&#xff08;以下简称“中国联通”&#xff0…

配置 iSCSI 服务并实现客户端自动挂载块设备

文章目录 前言1. iSCSI 简介2. iSCSI Server 端配置2.1. 添加磁盘2.2. 安装 targetcli 软件包2.3. 创建块设备2.4. 创建 Target2.5. 创建 LUN2.6. 创建 ACL2.7. 配置门户创建监听2.8. 查看全部配置信息并保存退出2.9. 启用 Target 服务 3. iSCSI Client 端配置3.1. 安装 iscsi-…

前端框架vBean admin

文章目录 引言I 数据库表设计1.1 用户表1.2 角色表1.3 菜单表II 接口引言 文档:https://doc.vvbin.cn/guide/introduction.html http://doc.vvbin.cn 仓库:https://github.com/vbenjs/vue-vben-admin git clone https://github.com/vbenjs/vue-vben-admin-doc 在线体验demo:…

台积电没有想到,当初拒绝的中国芯片企业,如今反过来抢夺市场了,后悔莫及...

台积电二季度的营收已经出现下滑&#xff0c;本来它希望四季度在以往苹果销售旺季的支持下再度推高收入&#xff0c;然而如今中国手机企业自研的国产5G芯片正在反过来抢占市场&#xff0c;台积电四季度的收入恐怕也将下降。 苹果的销售旺季为每年的四季度&#xff0c;不过此时恰…

通过已有虚拟机快照创建虚拟机

我们在搭建redis、k8s等集群的时候&#xff0c;需要创建多台虚拟机&#xff0c;而且这几台虚拟机的配置基本上是一样的&#xff0c;这种情况下我们可以先创建一台虚拟机&#xff0c;安装需要的应用后导出快照&#xff0c;然后通过快照生成其他的虚拟机 1、生成快照 2、通过快照…

用小程序,轻松识别纸质表格并转换成Excel表格,解放双手

来百度APP 职场小伙伴们&#xff0c;有没有遇到过将纸质表格转化为Excel表格的任务&#xff1f;如果你没有经验&#xff0c;手工处理不仅效率低&#xff0c;而且容易出错。这真是一个费时费力的任务呀&#xff01;但别担心&#xff0c;现在我们有更好的解决方案——百度小程序…

neo4j下载安装配置步骤

目录 一、介绍 简介 Neo4j和JDK版本对应 二、下载 官网下载 直接获取 三、解压缩安装 四、配置环境变量 五、启动测试 一、介绍 简介 Neo4j是一款高性能的图数据库&#xff0c;专门用于存储和处理图形数据。它采用节点、关系和属性的图形结构&#xff0c;非常适用于…