【2023知乎爬虫】批量获取问题的全部回答

news2024/10/10 10:25:35

一.需求

爬取任意问题下的所有回答,如下图:

1.根据问题,批量获取问题下的所有回答、与对应问题的关系到answer.csv文件;

2.保存当前问题基本信息到quesiton_info.csv文件;

二.展示爬取结果

三.讲解步骤

3.1 新建项目

本文使用scrapy分布式、多线程爬虫框架编写的高性能爬虫,因此新建、运行scrapy项目3步骤:

1.新建项目
scrapy startproject zhihu

2.新建 spider
scrapy genspider zhihu "zhihu.com"

3.运行 spider
scrapy crawl zhihuSpider

注意:zhihuSpider 是spider中的name

3.2 开发爬虫

F12,打开调试面板,经过调试后发现问题下的前5条回答数据不是通过接口返回的,第一页采用了服务端渲染的技术,第一页的数据在html的js中,如下图:

解析html中的内容使用bs4包,如下:

from bs4 import BeautifulSoup as bs

...

soup = bs(html, "html.parser")
# 拿到渲染HTML的json数据
initialData = soup.find("script", {"id": "js-initialData"}).get_text()
jsonData = json.loads(initialData)
# 解析出当前问题的基本信息,比如问题title,总回答数量、浏览量、关注人数、评论量...
current_questions = jsonData.get("initialState").get('entities').get(
    'questions')

`
把上面获取到的首页回答的数据整理出来就是第一页的回答内容啦;



编写item:

这里的字段就是要保存到csv文件的字段名称;

```py
class QuestionInfoItem(scrapy.Item):
    question_id = scrapy.Field()  # 问题ID
    question_name = scrapy.Field()  # 问题名称
    type = scrapy.Field()  # 问题类型
    question_url = scrapy.Field()  # 问题 url
    topics = scrapy.Field()  # 关键词
    follower_count = scrapy.Field()  # 关注者数
    visit_count = scrapy.Field()  # 被浏览数
    answer_count = scrapy.Field()  # 回答数
    comment_count = scrapy.Field()  # 评价数


class AnswerItem(scrapy.Item):
    question_id = scrapy.Field()  # 问题 ID
    answer_id = scrapy.Field()  # 问题 ID
    data_time = scrapy.Field()  #数据日期
    user_name = scrapy.Field()  # 账号昵称
    question_name = scrapy.Field()  # 问题名称
    content = scrapy.Field()  # 回答的内容
    voteup_count = scrapy.Field()  # 赞同数量
    comment_count = scrapy.Field()  # 评论数量
    created_time = scrapy.Field()  # 发布日期
    updated_time = scrapy.Field()  # 编辑日期
    answer_url = scrapy.Field()  # 回复 url

编写管道:


class QuestionInfoPipeline():

    def open_spider(self, spider):
        # 问题ID    问题名称	类型	关键词	关注者数	被浏览数	回答数  评价数
        self.question_info_line = "question_id,question_name,type,question_url,follower_count,visit_count,evaluate_score,comment_count\n"

        data_dir = os.path.join(DATA_URI)
        file_path = data_dir + '/question_info.csv'
        #判断文件夹存放的位置是否存在,不存在则新建文件夹
        if os.path.isfile(file_path):
            self.file = open(file_path, 'a+', encoding='utf-8')
        else:
            if not os.path.exists(data_dir):
                os.makedirs(data_dir)
            self.file = open(file_path, 'a+', encoding='utf-8')
            self.file.write(self.question_info_line)

    def close_spider(self, spider):  # 在关闭一个spider的时候自动运行
        self.file.close()

    def process_item(self, item, spider):
        try:
            if item['key'] == 'question':
                info = item.get('info')
                question_info_line = '{},{},{},{},{},{},{},{}\n'.format(
                    info.get('question_id', ''),  #问题ID
                    info.get('question_name', ''),  # 问题名称
                    info.get('type', ''),  # 问题类型
                    info.get('question_url', ''),  #问题 URL
                    info.get('follower_count', 0),  # 关注者数
                    info.get('visit_count', 0),  # 被浏览数
                    info.get('answer_count', 0),  # 回答数
                    info.get('comment_count', 0),  # 评价数
                )
                self.file.write(question_info_line)
        except BaseException as e:
            print("QuestionInfo错误在这里>>>>>>>>>>>>>", e, "<<<<<<<<<<<<<错误在这里")
        return item



...


编写爬虫解析代码:

def question_parse(self, response):
        html = response.text
        q_id = response.meta['q_id']
        soup = bs(html, "html.parser")
        # 拿到渲染HTML的json数据
        initialData = soup.find("script", {"id": "js-initialData"}).get_text()
        jsonData = json.loads(initialData)
        # 解析出当前问题的基本信息,比如问题title,总回答数量、浏览量、关注人数、评论量...
        current_questions = jsonData.get("initialState").get('entities').get(
            'questions')

        question_item = QuestionInfoItem()

        question = current_questions.get(q_id)

        question_item['question_id'] = q_id
        question_item['question_name'] = question['title']
        question_item['question_url'] = 'https://www.zhihu.com/question/%s' % (
            q_id)
        question_item['type'] = 'qeustion'
        question_item['follower_count'] = question['followerCount']
        question_item['visit_count'] = question['visitCount']
        question_item['answer_count'] = question['answerCount']
        question_item['comment_count'] = question['commentCount']

        yield {"key": 'question', "info": question_item}

        initialState = jsonData.get("initialState")
        # 解析出首页中回答的map
        ansers_map = initialState.get('entities').get('answers')

        # 解析出首页中回答出现的顺序
        answers = initialState.get('question').get('updatedAnswers')

        ansers_list = answers.get(q_id).get('newIds')

        # 根据回答顺序+回答map,把他俩组装成feed接口返回的报文格式
        first_page_result = tool.format_first_page_data(
            ansers_list, ansers_map, q_id)

        # 解析出首页中回答出现的顺序
        isEnd = initialState.get('commentManage').get('subCommentList').get(
            'paging').get('isEnd')
            
            
        ...

3.3 添加延时中间件

注意:多线程爬虫虽然每秒可并发16个请求,但是知乎服务器有反扒,太快会背关小黑屋,因此需要对请求作延时处理。

在中间件middlewares.py文件中添加如下中间件:

class RandomDelayMiddleware(object):

    def __init__(self, delay):
        self.delay = delay

    @classmethod
    def from_crawler(cls, crawler):
        delay = crawler.spider.settings.get("RANDOM_DELAY", 10)
        if not isinstance(delay, int):
            raise ValueError("RANDOM_DELAY need a int")
        return cls(delay)

    def process_request(self, request, spider):
        # 随机延时7-12s之间的3位小数结尾的时间,防止封号,务必添加
        delay = round(random.uniform(7, 12), 3)
        logging.debug("随机延时几秒: %ss" % delay)
        time.sleep(delay)

至此,本案例核心逻辑讲解完毕。完整代码包括: 翻页、保存csv、判断数据类型分类归类、x-zse-96加密文件、、、

3.4 完成项目说明手册:

四、获取完整源码

编码不易,请支持原创!

本案例完整源码及csv结果文件,付费后可获取↓

获取后,有任何代码问题,均负责讲解答疑,保证正常运行!

爱学习的小伙伴,本次案例的完整源码,已上传微信公众号“一个努力奔跑的snail”,后台回复**“知乎问答”**即可获取。

源码地址:

https://pan.baidu.com/s/1KoGg0tXE93vI8y4gzWeovg?pwd=****

提取码: ****

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/993761.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

个人开发者看过来,我搭了一个监控系统免费用

最近在做一个自己的项目&#xff0c;平时就在自己电脑上跑着&#xff0c;有一天回去突然就挂了&#xff0c;查了半天也没搞清楚原因&#xff0c;想看个监控都没有&#xff0c;什么时候挂的&#xff0c;为啥挂了&#xff0c;统统都不知道。平时做公司项目多了&#xff0c;监控用…

C/C++操作加密与不加密的zip文件

为了后续的方便操作zip文件&#xff0c; 将所有的操作封装成了一个动态库了。 /*** \description 从压缩包文件中解压出指定的文件到指定的目录.* \author sunsz* \date 2023/09/09**/ LIBZIP_API int UnpackFile(const char* password, char zipfilename[], char filename_…

rt-thread------任务调度

rt-thread------任务调度 1. 线程初始化 在rt-thread中线程主要包括以下一些内容&#xff0c;线程控制块、线程栈、函数入口。 1.1线程创建函数 RTOS基本都包括两种线程方式&#xff1a;动态创建rt_thread_create()和静态创建rt_thread_init()。 因为有些系统设计时对安全…

硬件学习件Cadence day13 PCB设计中一些设置, 铜皮到钻孔的距离设置, 差分线的设置,板层信息表

1. 设置铺铜中铜皮到钻口&#xff0c;连线的距离。 1. 打开设置界面 2. 设计界面 调整到 铜皮设置界面 2. 高速线的设置 &#xff08;差分对传输线的设置&#xff09; 1. 打开设置界面 2. 来到 差分线设置界面 3. 把界面往右看&#xff0c; 设置差分线的之间距离&#xff0c;…

Python之并发编程介绍

一、并发编程介绍 1.1、串行、并行与并发的区别 串行(serial)&#xff1a;一个CPU上&#xff0c;按顺序完成多个任务并行(parallelism)&#xff1a;指的是任务数小于等于cpu核数&#xff0c;即任务真的是一起执行的并发(concurrency)&#xff1a;一个CPU采用时间片管理方式&am…

TrOCR – 基于 Transformer 的 OCR 入门指南

多年来,光学字符识别 (OCR) 出现了多项创新。它对零售、医疗保健、银行和许多其他行业的影响是巨大的。尽管有着悠久的历史和多种最先进的模型,研究人员仍在不断创新。与深度学习的许多其他领域一样,OCR 也看到了变压器神经网络的重要性和影响。如今,我们拥有像TrOCR(Tran…

franka_ros中的一些子包的使用

franka_visualization包 该软件包包含连接到机器人并发布机器人和夹爪关节状态以在 RViz 中进行可视化的发布者。要运行此包启动&#xff1a; roslaunch franka_visualization franka_visualization.launch robot_ip:<fci-ip> \load_gripper:<true|false> 比如&a…

UI自动化测试工具详解

常用工具 1、QTP&#xff1a;商业化的功能测试工具&#xff0c;收费&#xff0c;可用于web自动化测试 2、Robot Framework&#xff1a;基于Python可扩展的关键字驱动的测试自动化框架 3、Selenium &#xff1a;开源的web自动化测试工具&#xff0c;免费&#xff0c;主要用于功…

SpringCloud-微服务CAP原则

接上文 SpringCloud-Config配置中心 到此部分即微服务的入门。 总的来说&#xff0c;数据存放的节点数越多&#xff0c;分区容忍性就越高&#xff0c;但要复制更新的次数就越多&#xff0c;一致性就越难保证。同时为了保证一致性&#xff0c;更新所有节点数据所需要的时间就…

Python教程33:关于在使用zipfile模块,出现中文乱码的解决办法

zipfile是Python标准库中的一个模块&#xff0c;zipfile里有两个class, 分别是ZipFile和ZipInfo&#xff0c;用来创建和读取zip文件&#xff0c;而ZipInfo是存储的zip文件的每个文件的信息的。ZIP文件是一种常见的存档文件格式&#xff0c;它可以将多个文件和目录压缩为一个文件…

帝国cms后台访问链接提示“非法来源”解决方法

提示“非法来源”的原因 帝国CMS更新升级7.2后,新增了后台安全模式,后台推出了金刚模式来验证链接来源。后台所有链接都需要登录后才能访问,直接强制访问后台页面链接都会提示“非法来源”。不是正常登录后台的用户无法直接访问到内容,保证了后台数据安全。 那么我们在日常…

Table of Laplace Transforms

https://www.math.uh.edu/~etgen/LaplaceT.pdf http://web.mit.edu/2.737/www/handouts/LaplaceTransforms.pdf https://www.integral-table.com/downloads/LaplaceTable.pdf https://www.math.purdue.edu/~caiz/MA527-cai/lectures/Table%20of%20Laplace%20Transforms.pdf

阅读源码工具Sourcetrail

收费工具Source Insight、Understand Sourcetrail开源工具 一、下载安装 接下来就是download&#xff0c;在GitHub的release页面选择自己系统对应的发布版本下载安装&#xff1a; 安装好后&#xff0c;运行程序&#xff0c;会出现这样的界面&#xff1a; 二、应用 选择“New…

2023年最佳研发管理平台评选:哪家表现出色?

“研发管理平台哪家好&#xff1f;以下是一些知名的研发管理软件品牌&#xff1a;Zoho Projects、JIRA、Trello、Microsoft Teams、GitLab。’” 企业需要不断创新以保持竞争力。研发是企业创新的核心&#xff0c;而研发管理平台则为企业提供了一个有效的工具来支持和管理其研发…

SpringMvc第四战-【SpringMvc文件上传,下载】

目录 一.SpringMvc文件上传 1.导入依赖&#xff08;在pom.xml中&#xff09; 2.配置文件上传解析器&#xff08;在spring-mvc.xml中&#xff09; 3.前端标记多功能表单&#xff08;构建一个jsp界面来操作&#xff09; 4.将文件写出流&#xff0c;然后写入服务器 5.配置映…

【ccf-csp题解】第1次csp认证-第三题-命令行选项-字符串模拟

题目描述 思路讲解 本题是一个简单的字符串模拟题&#xff0c;这种题目是csp认证第三题的常客 大致思路是用两个bool数组记录某一个选项&#xff08;0--25下标对应小写字母a--z&#xff09;&#xff0c;第一个数组中无参选项为true&#xff0c;第二个数组中有参选项为true&a…

Pandas数据中的浅拷贝与深拷贝

pandas库主要有两种数据结构DataFrames和Series。这些数据结构在内部用索引数组和数据数组表示&#xff0c;索引数组标记数据&#xff0c;数据数组包含实际数据。现在&#xff0c;当我们试图复制这些数据结构&#xff08;DataFrames和Series&#xff09;时&#xff0c;我们实际…

如何使用PySide2将designer设计的ui文件加载到Python类上鼠标拖拽显示路径

应用场景&#xff1a; designer快速设计好UI文件后&#xff0c;需要增加一些特别的界面功能&#xff0c;如文件拖拽显示文件路径功能。 方法如下&#xff1a; from PySide2.QtWidgets import QApplication, QMainWindow from PySide2.QtUiTools import loadUiTypeUi_MainWindo…

Linux:LVS (DR群集搭建)

环境 dr服务器&#xff1a; ens33网络接口ip&#xff1a;192.168.254.4 ens33:0接口&#xff1a;192.168.254.66 web1服务器&#xff1a;ens33ip:192.168.254.1 lo:0接口ip:192.168.254.66 web2服务器&#xff1a;ens33ip:192.168.254.2 lo:0接口ip:192.168.254.66 nfs数据…

web 学习之 超链接文本

前言 HTML中的超链接文本用于创建可点击的链接&#xff0c;允许用户跳转到其他网页、文件或资源。超链接文本通常是可识别的文本或图像&#xff0c;当用户点击它时&#xff0c;浏览器会加载链接指定的目标。在HTML中&#xff0c;超链接文本使用标签&#xff08;anchor标签&…