ChatGPT教你学Python爬虫

news2025/1/11 0:25:51

chatgpt作为一个编程助手,虽然不能帮我们解决一个复杂的业务需求,但在处理一些具体工具类需求上,能够快速生成我们需要的代码,尤其对一些编程初学者,不仅能借助chatgpt快速完成自己的小工具,还能在与chatgpt的交流中学到编程很多技巧,比如使用它编写Python爬虫代码。

使用ChatGPT编写爬虫代码的优势:

  1. 语言表达能力:ChatGPT可以理解你对爬虫任务的需求和问题描述,并生成相应的Python代码。它能够帮助你用更准确和自然的语言表达你的意图,从而生成更高质量的爬虫代码。

  2. 自动化代码生成:ChatGPT可以根据你提供的问题和要求,自动生成符合需求的爬虫代码。它能够快速生成骨架代码和常用的爬虫操作,节省你的时间和精力。

  3. 学习机会:与ChatGPT交互编写爬虫代码可以作为学习的机会。你可以通过与ChatGPT对话,了解编写爬虫的最佳实践、常见问题和技巧。这有助于提高你的爬虫技能和理解。

对于Python学习者来说,可以通过以下方式使用ChatGPT提高爬虫水平:

  1. 提出问题和需求:将你的爬虫问题和需求以自然语言的形式提供给ChatGPT。描述你希望爬取的网站、所需的数据和操作等。ChatGPT将为你生成相应的Python代码示例。

  2. 学习生成的代码:仔细阅读ChatGPT生成的代码示例,理解其结构、函数和操作。学习生成代码的基本逻辑和语法,这有助于你掌握爬虫编程的基本概念和技巧。

  3. 调试和优化:生成的代码可能需要进一步调试和优化,以适应具体的爬取任务和网站。学习如何分析代码问题、解决错误和改进代码质量。这将有助于你提高爬虫代码的稳定性和效率。

  4. 探索其他资源:ChatGPT是一个工具,但并不是唯一的资源。继续学习其他爬虫教程、文档和示例代码,深入了解爬虫框架和库的使用。结合ChatGPT生成的代码和其他资源,你将能够全面提高爬虫水平。

需要注意的是,ChatGPT生成的代码可能不是完美的,仍需自己进行测试、调整和验证。它只是一个辅助工具,而不是替代你自己学习和实践的方式。将ChatGPT作为学习和探索的工具,并与其他资源相结合,可以帮助你提高爬虫水平。

下面我们通过爬取京东的商品评论来学习一下ChatGPT在Python爬虫中的应用:

首先我们要分析一下我们要抓取的对象,开京东商城网站,进入一个具体商品的网页,找到商品评论板块,查看网页源代码并不能找到评论信息,说明网页是动态加载设计。所以直接通过页面和接口都没有办法抓取到需要的内容,这个时候可以应该通过模拟浏览器操作来抓取。直接把需求提给chatgpt。

d771b05575d3a8447fb2118c164dd34d.png

指令:

你是一个Python专家,擅长爬虫代码编写,这个网站的商品评价是动态加载的,请用Python代码爬取这个网站https://item.jd.com/100038004389.html的商品评价
c12a5469f235cc7b497b9c29f192518d.png
794b163260a67490c7d1a84ed27dbac4.png

安装好需要的库后,直接复制代码到编辑器运行,修改ChromeDriver路径为本地实际的地址,然后运行代码,可以看到直接获取到了我们需要的内容:

6c82ebc082fe0c41265a62b57f30e152.png

但是这只是抓取了一页的请求,可以继续优化,获取多页的内容,并且保存在本地文件中。

继续在对话中提出需求:

42a1897285ac6a8847af2b778d958635.png

生成代码后,再次复制到编辑器中(注意修改ChromeDriver路径),运行后报错:

dbc3ad006149b0ef14a8d85d1dfac559.png

直接把报错发送给chatgpt,分析了错误的原因,立马给出了解决方案,重新生成一份代码。

009f51217fb090b52f97ab58c3352137.png

这次给出了最终的代码,复制到编辑器中运行,成功,获取到了5页的商品评论,并且保存到了本地文件product_reviews.csv中。

e4017e9b6f36bc02387e0c9bdaab6917.png

最终生成的代码如下:

import csv
import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys

# 设置ChromeDriver的路径
webdriver_service = Service('path/to/chromedriver')

# 创建Chrome浏览器选项
chrome_options = Options()
chrome_options.add_argument('--headless')  # 无头模式,可选
chrome_options.add_argument('--no-sandbox')

# 创建Chrome浏览器驱动
driver = webdriver.Chrome(service=webdriver_service, options=chrome_options)

url = 'https://item.jd.com/100038004389.html'
page_count = 5  # 想要获取的评价页数

# 使用Selenium打开页面
driver.get(url)

# 等待页面加载完成
driver.implicitly_wait(10)

# 创建CSV文件
csv_file = open('product_reviews.csv', 'w', newline='', encoding='utf-8')
csv_writer = csv.writer(csv_file)
csv_writer.writerow(['Content'])

# 获取评价信息
for _ in range(page_count):
    # 模拟滚动到底部,以加载更多评价内容
    actions = ActionChains(driver)
    actions.send_keys(Keys.END)
    actions.perform()

    # 等待加载更多评价
    time.sleep(2)

    # 提取评价信息
    evaluations = driver.find_elements(By.CSS_SELECTOR, '.comment-item')

    for evaluation in evaluations:
        # 提取评价内容
        content = evaluation.find_element(By.CSS_SELECTOR, '.comment-con').text.strip()
        csv_writer.writerow([content])

    # 点击下一页按钮
    next_button = driver.find_element(By.CSS_SELECTOR, '.ui-pager-next')
    driver.execute_script("arguments[0].click();", next_button)

    # 等待页面加载完成
    driver.implicitly_wait(10)

# 关闭浏览器
driver.quit()

# 关闭CSV文件
csv_file.close()

这段代码,如果初学者自己去写,可能半天一天也不一定能完成,现在只需要20分钟就能搞定。

有时候,生成的代码不一定可用,一方面可以多试几次,把遇到的问题告诉它,问题不仅会得到解决,还能了解产品问题的原因是什么。


更多AI、工具使用及副业知识,可以关注副业星球:

6fbd4ce5fd63b82a5ebc553802fb358e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/600571.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

硬件 TCP/IP 协议栈

目录 全硬件的TCP/IP 协议栈简介以太网接入单片机方案以太网接口芯片CH395Q 简介以太网接口芯片CH395Q 命令简介以太网接口芯片CH395Q 寄存器配置与使用移植CH395Q 源码 TCP_Client 实验TCPClient 配置流程TCPClient 实验硬件设计程序设计下载验证 WebServer 实验WebServer 简介…

chatgpt赋能python:Python编程:如何写文件到指定目录

Python编程:如何写文件到指定目录 Python是一种高级编程语言,它具有简单易学、可读性高的特点,并且能够应用于各种领域,尤其是数据科学和机器学习领域。在Python中,我们可以通过编写代码实现将文件写入到指定目录中。…

JavaEE(系列18) -- 文件操作I/O

前言: 我们平时所说的文件都是指硬盘上的文件,而我们之前在JavaSE阶段代码绝大部分都是围绕内存展开的,定义个变量,其实就是内存上申请空间。 内存和硬盘的区别: 速度:内存比硬盘快很多。空间:内存空间比硬盘小。成本:内存比硬盘贵…

利用CiteSpace快速锁定领域内最新研究热点并制作精美的可视化专题图

【基于Citespace和vosviewer文献计量学相关论文 】 ​ 01 文献计量学方法与应用 1. 文献计量学方法基本介绍 2. 与其他综述方法区别联系 3. 各学科领域应用趋势近况 4. 主流分析软件优缺点对比 5. 经典高分10SCI思路复盘 6. 软件安装与Java环境配置 02 主题确定、数据检…

Power BI 如何高效管理度量值和字段

内容说明 背景需求: 当分析场景涉及大量数据和分析度量值时,为了更好的区分原始数据和用于分析的度量值,需要合理安排和管理数据字段。 本文总结了三种方法: 移动度量值位置创建字段文件夹:子文件夹和多个文件夹创建…

chatgpt赋能python:Python函数改名:为什么需要改名以及如何改名

Python函数改名:为什么需要改名以及如何改名 在Python编程中,函数是非常常见和重要的代码语句,用于完成特定的任务或操作。然而,在实际开发中,我们可能需要对已有函数进行改名,这个过程可能并不简单&#…

国产BI工具大比拼,帆软Fine BI和观远BI到底该怎么选型?

之前写了一篇关于BI如何选型的文章《「BI选型秘诀」BI工具不知道怎么选择?这张选型评分表你一定要收藏!》。 文章发布后,不少朋友私信我,想要我出个国产BI工具的测评,今天就开始第一期:帆软 VS 观远 仍旧…

el-form嵌套el-table编辑,校验信息显示在气泡框中

文章目录 概要整体架构流程技术名词解释技术细节 概要 提示:这里可以添加技术概要 正常情况下,el-table可编辑表格,如果输入框内容不合理的情况下,错误提示会显示在el-input下方对应。 但是,我不得不将错误提示放到el…

chatgpt赋能python:Python几行几列是什么?

Python几行几列是什么? Python几行几列是一款基于Python语言开发的优秀的划线工具。这个工具能够帮助开发者轻松创建、管理和分享自己的Python代码。Python几行几列是一款高效、易用的Python编辑器,它既可以用于快速编写Python代码,也可以用…

PG数据库 column “has_submit_am“ is of type numeric but expression is of type bool

目录 场景: 现象: 复盘分析: 解决方法: 测试: 扩展: 场景: 今天遇到一个问题,现场数据库中做了boolean隐式转换smallint时在执行对应的插入时一直报错 column "has_submit…

【Python NLTK】零基础也能轻松掌握的学习路线与参考资料

Python 自然语言处理工具包(Natural Language Toolkit,简称 NLTK)是一款 Python 的库,主要用于处理自然语言的相关问题,如文本清洗、标记化、分词、语义分析、词性标注、文本分类等功能,是数据科学家和机器…

Facebook不同账户类型的投放格式【Facebook企业户】

在Facebook企业户中,不同的广告类型具有多样化的投放格式,旨在帮助企业更好地吸引目标受众、提升品牌曝光和实现营销目标。 一、广告类型的概述 Facebook提供了多种广告类型,包括图片广告、视频广告、幻灯片广告、动态产品广告等。每种广告类…

vue项目H5页面在苹果手机点击输入框输入内容时 页面自动放大

遇到的问题 用vue写H5页面时,iPhone手机点击input搜索框,输入内容时,页面会自动放大。 解决方法 在public文件夹下找到html文件&#xff0c;打开后加上user-scalableno 就行 <meta name"viewport" content"widthdevice-width,initial-scale1.0,user-scala…

【从零开始进行高精度手眼标定 eye in hand(小白向)1 原理推导】

从零开始进行高精度手眼标定 eye in hand&#xff08;小白向&#xff09;1 原理推导 前言原理推导公式推导为什么在数据采集中至少需要两个位姿信息 MATLAB编程计算A矩阵的计算和获取matlab计算代码B矩阵的计算和获取matlab计算矩阵B 前言 最近由于组内的相关工作需求&#xf…

pytorch中Dataset、Dataloader、Sampler、collate_fn相互关系和使用说明

参考&#xff1a; https://blog.csdn.net/Chinesischguy/article/details/103198921 参考&#xff1a; https://zhuanlan.zhihu.com/p/76893455 参考&#xff1a;https://blog.csdn.net/lilai619/article/details/118784730 参考&#xff1a;https://pytorch.org/docs/stabl…

06 【Vue数据监视 v-model双向绑定】

1.Vue数据监视 1.1 问题演示 先来个案例引入一下&#xff1a; <!-- 准备好一个容器--> <div id"root"><h2>人员列表</h2><button click"updateMei">更新马冬梅的信息</button><ul><li v-for"(p,inde…

Markdown笔记应用程序Note Mark

什么是 Note Mark Note Mark 是一种轻量、快速、简约&#xff0c;基于网络的 Markdown 笔记应用程序。具有时尚且响应迅速的网络用户界面。 安装 在群晖上以 Docker 方式安装。 ghcr.io 镜像下载 官方的镜像没有发布在 docker hub&#xff0c;而是在 ghcr.io&#xff0c;所以…

总结了几百个ChatGPT模型的调教经验,确定不来看看?

目录 前言 chatgpt调教指南 提示词 1.清晰的问题或请求&#xff1a; 2.上下文设置&#xff1a; 3.具体的主题或领域&#xff1a; 4.陈述性问题&#xff1a; 5.追问和澄清&#xff1a; 6.限定问题范围&#xff1a; 角色扮演 充当 Linux 终端 担任产品经理 充当 SQL…

技术帖——飞凌嵌入式RK3588开发板推理模型转换及测试

RKNN&#xff08;Rockchip Neural Network&#xff09;是一种用于嵌入式设备的深度学习推理框架&#xff0c;它提供了一个端到端的解决方案&#xff0c;用于将训练好的深度学习模型转换为在嵌入式设备上运行的可执行文件。使用RKNN框架可以在嵌入式设备上高效地运行深度学习模型…