Python爬虫案例一:获取古诗文并按用户输入的作者名进行数据保存

news2024/9/27 10:15:13

前言:

1、什么是爬虫?
    也称为网页蜘蛛(Web Spider),通俗来说,解放人的双手, 去互联网获取数据, 以数据库, txt, excel, csv, pdf, 压缩文件, image, video, music保存数据。
    本质: 模拟浏览器, 向服务器发送网络请求, 接受服务器返回的数据,并保存数据。
2、爬虫的分类?
    A、通用爬虫(根据目标获取选项): 百度, google, 搜狗 bing ... 搜索引擎
    B、聚焦爬虫: 根据指定的目标,指定的内容,获取数据, 保存数据
3、网址的构成(了解)
    例如:https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=张三
    A、协议部分:https / http  -- 超文本传输协议
    B、域名部分:www.baidu.com -- 【方便人记忆】
    C、路径部分:一层一层的信息
    D、参数部分:请求时候, 携带必要参数 -- &符号链接
4、爬虫四部曲:
    A、准备网址: 
    B、请求网址:  # 注意:请求成功 不一定 拿到数据
    C、解析数据: 
    D、保存数据: 
5、动态【异步】页面和静态【同步】页面  (数据加载方式)
静态页面----所需信息全部能找到   【同步请求】:发送请求后数据一次性返回过来,数据量小
动态页面---找不到或数据不全      【异步请求】:发送请求后数据没有一次性返回过来

源代码:

链接:https://www.gushiwen.cn/

import requests
from lxml import etree
class Two_Spider(object):
    def __init__(self):
        # self.keyword = input('请输入作者:')
        self.no = 1
        self.keyword = '白居易'
        self.start_url = 'https://so.gushiwen.cn/search.aspx?'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
        }

    def confirm_params(self):
        # 构造请求参数,保存3页
        for i in range(1, 4):
            params = {
                'type': 'author',
                'page': str(i),
                'value': self.keyword,
                'valuej': self.keyword[0]
            }
            self.request_start_url(params)


    def request_start_url(self, params):
        response = requests.get(self.start_url, headers=self.headers, params=params).text
        self.parse_response(response)

    def parse_response(self, response):
        # 解析响应
        A = etree.HTML(response)
        div_list = A.xpath('//div[@class="left"]/div[@class="sons"]')
        for div in div_list:
            # 标题
            bt = div.xpath('.//div[@class="cont"]/div[2]/p/a/b/text()')
            bt = ''.join(bt).strip()
            # 正文
            zw = div.xpath('.//div[@class="contson"]//text()')
            # 简单处理正文
            zw = ''.join(zw).split('。')
            # for 行 in zw:
            #     if '?' in 行:
            #         前面 = 行.split('?')[0] + '\n'
            #         后面 = 行.split('?')[1] + '\n'
            #         zw_list.append(前面)
            #         zw_list.append(后面)
            #     elif ')' in 行:
            #         前面 = 行.split(')')[0] + ')'
            #         后面 = 行.split(')')[1]
            #         zw_list.append(前面)
            #         zw_list.append(后面)
            #     else:
            #         zw_list.append(行)
            # zw_list = [i.strip() for i in zw_list]
            # zw_list = '\n'.join(zw_list)
            self.save_Data(bt, zw)

    def save_Data(self, bt, zw):
        # 保存数据
        with open(f'{self.keyword}.txt', 'a+', encoding='utf-8') as f:
            f.write(f'【第{self.no}首】' + '\n')
            f.write(f'{bt}' + '\n')
            f.write(f'{self.keyword}' + '\n')
            f.write(f'{zw}' + '\n')
            f.write('\n')
            f.write('---------------' * 15)
            f.write('\n')

        print('ok---第{}首:{}'.format(self.no, bt))
        self.no += 1

    def main(self):
        self.confirm_params()

if __name__ == '__main__':
    tw = Two_Spider()
    tw.main()

运行效果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2052872.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【书生大模型实战】InternVL 微调实践闯关任务

一、关卡任务 基础任务 follow 教学文档和视频使用QLoRA进行微调模型,复现微调效果,并能成功讲出梗图.尝试使用LoRA,或调整xtuner的config,如LoRA rank,学习率。看模型Loss会如何变化,并记录调整后效果(选…

消防隐患在线小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,消防隐患举报管理,消防隐患分类管理,统计分类管理,处理结果管理,系统管理 微信端账号功能包括:系统首页,我…

vue+elmentui 定义狂拽黑金配色的按钮+消息框

1 修改效果 通过自定义样式的方式可以修改elmentui的配色,例如下面我们修改掉了button的primary配色为黑金色: 修改前: 修改后 修改了elementui 的$message(success类型)颜色为黑金色、图标也修改为金色了: 修改前…

WPF 手撸插件 三 插件文件热加载

1、在程序运行的同时将插件文件复制到指定的插件目录下,插件自动被加载。不废话了直接上代码吧。需要的可以帮我贡献点积分,谢谢各位大佬了。 示例文件下载https://download.csdn.net/download/xingchengaiwei/896388912、主要功能代码如下。注意初学者…

阿里云搜索专家实操:如何高效构建企业级 AI 搜索?

作者:来自阿里云搜索产品专家牛俊 本文由阿里云搜索产品专家牛俊在【AI 搜索 TechDay】上的分享【阿里云 AI 搜索 Demo 展示和动手实践】整理而成。 阿里云 AI 搜索的产品能力与业务价值 阿里云 AI 搜索的方案,基于阿里云 Elasticsearch Inference API…

什么是国债期货?怎么玩?

国债期货,也就是利率期货,是一种在交易所里买卖未来国债价格的金融工具。它允许投资者在今天定下价格,然后在将来的某个时间点进行交易。在中国,国债期货在金融期货交易所上市,有几种不同的期限,比如30年期…

CDGA|数据治理核心能力框架与数据治理体系规划

随着数字化转型的加速和大数据技术的广泛应用,数据已成为企业核心资产之一。如何高效、安全地管理和利用数据,成为企业提升竞争力和创新能力的重要课题。本文将从数据治理核心能力框架和数据治理体系规划两个方面进行探讨,以期为企业的数据治…

Controller中接收数组参数 post请求中在body中传+post请求中通过表单形式传(x-www-form-urlencoded)

1、场景 需要根据用户id集合批量删除用户数据,前端使用post请求,controller中参数接收数组参数并根据用户id删除用户基本信息 2、分析处理: 2.1、前端请求类型contentType:application/json 请求体中为json字符串,后端新建一个Us…

【GH】【EXCEL】bumblebee简介:GH↔EXCEL

文章目录 bumblebeeaddressComponentAnalysisAppCellChartingDataGraphicsRangeShapesWorkbooksWorksheets Sample: Accessing_ExcelExcel ApplicationWorkbookSave Workbook (Create)Get All Workbooks from AppGet Workbook by Name Get WorkbookGet Active Workbook from Ap…

python 阴暗图像 亮度增强 对比度增强 去雾

背景说明 最近在处理图像,发现一些样本由于逆光原因过于阴暗,影响图像识别。解决时,可以在训练样本中加入类似的图像,或者手动把相关图像进行颜色变化。这里主要介绍手工颜色变化。 原始图像如下,假设你需要判断裤子…

使用 Elasticsearch-DSL Python 客户端简化向量嵌入

作者:来自 Elastic Miguel Grinberg 在本文中,我们将介绍 Python 版 Elasticsearch-DSL 客户端,重点介绍它如何简化构建向量搜索解决方案的任务。 本文附带的代码实现了一个名言数据库。它包括一个使用 FastAPI Web 框架用 Python 编写的后端…

利用http获取文件升级

1.搭建模拟环境 1.电脑端开启Telnet客户端 2.下载HFS文件服务器 Download HFS_2024电脑最新版_HFS官方免费下载_华军软件园 (onlinedown.net) 将要升级的文件放到HFS文件系统中,这里我用了一个test.txt来作为实验 2.通过telnet敲http报文获取HFS服务器中的文件…

拼车系统功能案例分析

拼车系统功能案例分析可以从多个维度进行,以下是一个综合性的分析 一、用户注册与登录 功能描述:用户可以通过手机号、微信、QQ等多种方式轻松注册登录,并支持实名认证以增强身份真实性。案例分析:以T5出行拼车平台为例&#xff…

珂艾泰克拧紧控制器维修方法多样化

珂艾泰克拧紧控制器作为精密工业设备的关键组件,其稳定运行对于保证生产效率和产品质量至关重要。然而,在实际应用中,可能会因各种原因出现CORETEC拧紧控制器故障,影响生产线的正常运行。 【常见CORETEC拧紧控制器故障及原因分析】…

借助帕累托图减少设备停机时间:将非生产时间最小化

虽然全球通胀趋于稳定,但各行业仍能感受到2022年和2023年价格快速上涨的残余影响。对于石油和天然气公司来说,运营成本(包括设备、材料和劳动力)的上升加剧了财务压力。在这个竞争激烈的市场中,减少非生产时间(NPT)对于保持盈利能力至关重要。…

分享五种mfc140.dll丢失如何修复?五种修复错误的详细解决办法

在Windows操作系统中,DLL(动态链接库)文件扮演着至关重要的角色,它们为应用程序提供了共享的函数和资源。其中,mfc140.dll是Microsoft Visual C 2015 Redistributable Package的一部分,对于许多使用Microso…

会话管理

目录 一、为什么使用会话 二、cookie 1.概述 2.使用 (1) servletA向响应中增加Cookie (2)浏览器访问ServletA响应回来的响应报文携带cookie (3)浏览器访问ServletB,将携带cookie的请求报…

探索ORM宇宙:MyBatis-Plus的力量

**技术派项目源码地址 : ** **Gitee : 技术派 - https://gitee.com/itwanger/paicoding**Github : 技术派 - https://github.com/itwanger/paicoding **Mybatis-Plus 官网 : **MyBatis-Plus &#x1f680; 为简化开发而生 (baomidou.com) 整合Mybatis-Plus 引入依赖 <…

Flink之SQL client使用案例

Flink的执行模式有以下三种: 前提是我们已经开启了yarnsession的进程&#xff0c;在下图中可以看到启动的id也就是后续任务需要通过此id进行认证&#xff0c;以及任务分配的master主机。 这里启动时候会报错一个ERROR&#xff1a;org.apache.flink.shaded.curator.org.apache…

风电场风机安全监测系统解决方案

建设背景 随着风电产业的快速发展&#xff0c;风力发电已成为一种重要的清洁能源形式。风电场中的风塔是支撑风力发电机组的重要结构&#xff0c;其安全稳定运行对于风电场的正常运营和发电效率至关重要。然而&#xff0c;风塔常常面临风载、震动、腐蚀等多种外部因素的影响&a…