爬虫 新闻网站 以湖南法治报为例(含详细注释,控制台版) V2.0 升级自定义查询关键词、时间段

news2024/11/20 16:09:04

目标网站:湖南法治报

爬取目的:为了获取某一地区更全面的在湖南法治报已发布的宣传新闻稿,同时也让自己的工作更便捷

环境:Pycharm2021,Python3.10,

安装的包:requests,csv,bs4,datetime

v2.0 版本特点:从控制台输入时间段与搜索关键词,获取指定时间段的新闻数据,筛选出含有想要查找的的关键词的新闻内容,并存储起来。

 1 首先分析网页

(查看数据返回方式,发现网站不用像红网那样设置各种headers了,可以直接爬)

发现在这个页面只有文章标题和发布时间,以及文章链接的信息(当然文章有图片的就还有图片信息)

2 再看文章内容页面

(像我就只要文字部分就行了,不需要图片)

3 运行结果:

Python 爬虫 新闻网站 以湖南法治报为例 V2.0

4 具体分析和实现请看代码(含详细注释):
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2024/4/6 15:36
# @Author : LanXiaoFang
# @Site :
# @File : efaw.py
# @Software: PyCharm
import csv
import datetime
import requests
from bs4 import BeautifulSoup

# 由于发现湖南法治报没有设置反爬机制,因为我们不用反反爬了,可以直接爬数据了
# 市州动态 下的对应市州的编号
szId = {"长沙": "14129", "株洲": "14130", "湘潭": "14223", "衡阳": "14224", "邵阳": "14225", "岳阳": "14226",
        "常德": "14227",
        "张家界": "14228", "益阳": "14229", "郴州": "14230", "永州": "14231", "怀化": "14232", "娄底": "14233",
        "湘西": "14234"}

# 输入你想要获取的湖南省下的哪一市州的新闻 比如 湖南省下的永州市,直接输入 永州 即可
sz = "永州"
# 根据输入的湖南省下的市州 得到对应的市州编号 再拼接入链接
url = "http://www.efaw.cn/list/" + szId[sz]
# 输入你想要的关键词 比如 双牌、蓝山、宁远、新田、零陵
# search_keyword = '双牌'
print("输入你想要的关键词 比如 双牌、蓝山、宁远、新田、零陵")
search_keyword = input("输入你想要的关键词:")
# 标题就含有关键词的计数器
title_Yes_Num = 0
# 标题不含有关键词但是内容含有关键词的计数器
title_No_Num = 0
# 新闻来源级别
level = "省级"
# 自定义需要获取的新闻的时间段
print("自定义需要获取的新闻的时间段 格式如: 2024 3 1")
# 开始时间
# start_time = '2024 3 1'
start_time = input("请输入开始时间:")
start_time = datetime.datetime.strptime(start_time, '%Y %m %d')
# 截止时间
# end_time = '2024 4 6'
end_time = input("请输入截止时间:")
end_time = datetime.datetime.strptime(end_time, '%Y %m %d')
# 用于计数爬到第几个新闻
count_cc = 0
""" 
爬虫思路:
首先最开始是打开要爬取的网站,然后分析怎样获取需要的数据最完整和便捷
一开始看到搜索其实是想直接搜关键词获取新闻的,但是发现通过搜索框获得到新闻数据不如市州动态下的全面,所以还是打算一条一条新闻比对是否符合自定义关键词
1 首先进入市州动态获取到某市州动态下的所有新闻数据
2 根据具体新闻链接进入新闻页面,获取到新闻信息
"""

# # 创建CSV文件并写入头部信息
with open(search_keyword + '湖南法治报_标题含关键词.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['序号', '新闻名称', '新闻来源', '媒体级别', '发布日期', '原文链接', '来源'])  # 根据实际情况定义列名
with open(search_keyword + '湖南法治报_标题不含内容含关键词.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['序号', '新闻名称', '新闻来源', '媒体级别', '发布日期', '原文链接', '来源'])  # 根据实际情况定义列名

# http://www.efaw.cn/list/14231?page=1
page = 1
# while page <= 20:  # 从这里修改数字以控制要多少页的新闻内容,,page<=20page从1开始一直到20
while page > 0:
    # 拼接出每一页的url
    url_page = url + "?page=" + str(page)
    html_all = requests.get(url_page)
    html_all.encoding = 'utf-8'
    print(page, '页', url_page)
    if html_all.status_code == 200:
        soups = BeautifulSoup(html_all.text, 'html.parser')
        article_info = soups.find_all('ul', class_='list_content')
        for i in article_info:
            result_info = i.find_all('div')
            for art in result_info:
                article_href = art.a.get('href')  # 文章链接
                print(article_href)
                article_title = art.a.get('title')  # 文章标题
                article_time = art.i.text  # 文章发布时间  显示为:发布时间:2024-04-02 10:08:03
                # 因为只要年月日部分的时间,因此把一些不需要的字符去掉
                article_time = article_time[2 + article_time.index('间:'):]
                article_time = article_time[:article_time.index(':') - 3]
                article_time = article_time.replace('-', '.')

                article_time_se = datetime.datetime.strptime(article_time, '%Y.%m.%d')
                count_cc += 1
                print('--page', page, 'count_cc', count_cc, '--title:', article_title, 'time:', article_time, 'href:',
                      article_href)

                # 现在有个问题怎么退出循环,时间不满足就退出:现在获取到的新闻的时间<开始时间就退出
                if article_time_se < start_time:
                    page = -1
                    break
                # 只把时间满足要求的数据才继续下面的操作 并把数据存入表格
                if start_time <= article_time_se <= end_time:
                    # 从文章内容中获取到来源
                    html_article_info_sk = requests.get(article_href)
                    html_article_info_sk.encoding = 'utf-8'

                    if html_article_info_sk.status_code == 200:
                        soups_sk = BeautifulSoup(html_article_info_sk.text, 'html.parser')
                        article_info_sk = soups_sk.find_all('div', class_='video_left')
                        # 其实在这里我想获取到具体的来源,这一段因为在新闻详情页面,如果 来源 为 双牌县优化办 ,那么这条新闻就是优化办推过去的
                        spxq_title_source = soups_sk.find('div', class_='spxq_title_source').text
                        # 文章信息来源 显示为: 来源:湖南法治报
                        atricle_source = spxq_title_source[
                                         spxq_title_source.index('来源:') + 3:spxq_title_source.index('|')]

                    # 在这里可以从标题判断是否含有搜索的关键词search_keyword,如果有则可以直接存储这条新闻信息,如果没有则继续查看新闻内容,看是否含有关键词信息
                    if search_keyword in article_title:  # 标题判断含有搜索的关键词search_keyword
                        title_Yes_Num += 1
                        with open(search_keyword + '湖南法治报_标题含关键词.csv', 'a', newline='',
                                  encoding='utf-8') as csvfile:
                            writer = csv.writer(csvfile)
                            writer.writerow(
                                [title_Yes_Num, article_title, "湖南法治报", level, article_time, article_href,
                                 atricle_source])

                        print("Yes Tile have SK !!!!!", title_Yes_Num)
                        print(title_Yes_Num, '--title:', article_title, 'time:', article_time, 'href:', article_href,
                              'source:', atricle_source)

                    else:  # 标题判断不含搜索的关键词search_keyword
                        if search_keyword in article_info_sk:
                            title_No_Num += 1
                            with open(search_keyword + '湖南法治报_标题不含内容含关键词.csv', 'a', newline='',
                                      encoding='utf-8') as csvfile:
                                writer = csv.writer(csvfile)
                                writer.writerow(
                                    [title_No_Num, article_title, "湖南法治报", level, article_time, article_href,
                                     atricle_source])
                            print("Yes Content have SK !!!!!", article_info_sk)
                            print(title_No_Num, '--title:', article_title, 'time:', article_time, 'href:', article_href,
                                  'source:', atricle_source)
    page += 1

print("#### 你获取的关键词", search_keyword, '时间从', start_time, '~', end_time, '的数据已经获取完!')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1572629.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tailwind 4.0 即将到来:前端开发的“速度与激情”

随着前端开发技术的不断进步&#xff0c;我们每天都在寻找更快、更简洁的解决方案来提升我们的开发效率和用户体验。今天&#xff0c;我要为大家介绍一项令人振奋的新技术进展——Tailwind 4.0的来临&#xff01; 对于经常使用Tailwind的朋友们来说&#xff0c;这个消息无疑是激…

java 常见API(Objects)

定义 API就是别人定义好的工具类和工具包目的&#xff1a;避免重复造轮子&#xff0c;提升开发效率&#xff0c;更加专注于实现业务逻辑 Object 类 object类是所有类的祖宗类&#xff0c;所有的类型都是可以使用Object的方法的 最常见的三个方法&#xff1a; toString:print就会…

蓝桥杯每日一题:约数个数(质因数)

题目描述&#xff1a; 输入 n 个整数&#xff0c;依次输出每个数的约数的个数。 输入格式 第一行包含整数 n。 第二行包含 n 个整数 ai。 输出格式 共 n 行&#xff0c;按顺序每行输出一个给定整数的约数的个数。 数据范围 1≤n≤1000, 1≤ai≤10^9 输入样例&#xff…

coreldraw是什么软件?最新中文2024版本cdr有哪些功能

CorelDRAW&#xff0c;通常也被称为CDR&#xff0c;是由加拿大Corel公司出品的一款平面设计软件。该软件以其强大的矢量图形制作和排版功能而著称&#xff0c;主要面向绘图设计师和印刷输出人员。 CorelDRAW提供了丰富的绘图工具&#xff0c;包括圆形、矩形、多边形、方格、螺…

FJSP:小龙虾优化算法(Crayfsh optimization algorithm,COA)求解柔性作业车间调度问题(FJSP),提供MATLAB代码

一、柔性作业车间调度问题 柔性作业车间调度问题&#xff08;Flexible Job Shop Scheduling Problem&#xff0c;FJSP&#xff09;&#xff0c;是一种经典的组合优化问题。在FJSP问题中&#xff0c;有多个作业需要在多个机器上进行加工&#xff0c;每个作业由一系列工序组成&a…

Linux-线程知识点

目录 线程与进程区别pthread库接口介绍pthread_createpthread_self和syscall(SYS_gettid);pthread_equal测试主线程的栈空间大概是多大pthread_setname_nppthread_exitpthread_join为什么要连接退出的线程 pthread_detach 线程与进程区别 进程是一个动态的实体&#xff0c;有自…

java之static详细总结

static也叫静态&#xff0c;可以修饰成员变量、成员方法。 成员变量 按照有无static分为两种&#xff1a; 类变量&#xff1a;static修饰&#xff0c;属于类&#xff0c;与类一起加载一次&#xff0c;在内存中只有一份&#xff0c;会被类的全部对象共享实例变量&#xff08;…

【C++ STL有序关联容器】set 集合

文章目录 【 1. 基本原理 】【 2. set 的定义 】2.1 调用默认构造函数&#xff0c;创建空的 set 容器2.2 在创建 set 容器的同时&#xff0c;对其进行初始化2.3 拷贝构造的方式创建2.4 取已有 set 容器中的部分元素&#xff0c;来初始化新 set 容器2.5 修改排序规则的方式创建 …

web安全学习笔记(6)

记一下第十节课的内容。 一.PHP语言中的if else判断 语法和c语言中非常类似&#xff0c;不再赘述&#xff0c;也可以使用if...elseif...elseif...else 1.True和False 2.&#xff0c;和 一个等号是赋值 两个等号是比较 三个等号是全等&#xff08;内容相等&#xff0c;数…

职场中的情绪管理:如何应对工作中的愤怒情绪?

在职场中&#xff0c;我们常常会遇到一些让我们感到愤怒的事情。或许是同事的不配合&#xff0c;或许是上司的不理解&#xff0c;又或许是客户的无理取闹。然而&#xff0c;作为一个职业人&#xff0c;我们需要学会如何管理自己的情绪&#xff0c;尤其是愤怒情绪&#xff0c;以…

linux文件权限与数字转化

chmod命令——change mode&#xff0c;可以对特定文件文件夹权限进行更改 这里我们看到&#xff0c;当执行了chmod u-x try.sh后&#xff0c;try文件底色变为白色&#xff0c;即为其执行权限被“减去” 在linux系统中&#xff0c;权限的减去是通过权限的数字表示来实现的&#…

elment UI el-date-picker 月份组件选定后提交后台页面显示正常,提交后台字段变成时区格式

需求&#xff1a;要实现一个日期的月份选择<el-date-picker :typeformData.dateType :value-formatdateFormat v-modelformData.leaveFactoryDateplaceholder选择月份></el-date-picker>错误示例&#xff1a;将日期显示类型(type)dateType或将日期绑定值的格式(val…

016——DHT11驱动开发(基于I.MX6uLL)

目录 一、 模块介绍 1.1 简介 1.2 电路描述 1.3 通信协议 二、 驱动程序 三、 应用程序 四、 上机实验 一、 模块介绍 1.1 简介 DHT11 是一款可测量温度和湿度的传感器。比如市面上一些空气加湿器&#xff0c;会测量空气中湿度&#xff0c;再根据测量结果决定是否继续加…

P8749 [蓝桥杯 2021 省 B] 杨辉三角形

[蓝桥杯 2021 省 B] 杨辉三角形 题目描述 下面的图形是著名的杨辉三角形: 如果我们按从上到下、从左到右的顺序把所有数排成一列&#xff0c;可以得到如下数列&#xff1a; 1 , 1 , 1 , 1 , 2 , 1 , 1 , 3 , 3 , 1 , 1 , 4 , 6 , 4 , 1 , … 1,1,1,1,2,1,1,3,3,1,1,4,6,4,1, …

LeetCode 1483.树节点的第 K 个祖先:树上倍增

【LetMeFly】1483.树节点的第 K 个祖先&#xff1a;树上倍增 力扣题目链接&#xff1a;https://leetcode.cn/problems/kth-ancestor-of-a-tree-node/ 给你一棵树&#xff0c;树上有 n 个节点&#xff0c;按从 0 到 n-1 编号。树以父节点数组的形式给出&#xff0c;其中 paren…

KeyguardClockSwitch的父类

KeyguardClockSwitch 定义在KeyguardStatusView中, mClockView findViewById(R.id.keyguard_clock_container);KeyguardClockSwitch的父类为&#xff1a; Class Name: LinearLayout Class Name: KeyguardStatusView Class Name: NotificationPanelView Class Name: Notificat…

六、从零实战企业级K8S本地部署ThingsBoard专业版集群

1、从 docker hub 拉取 ThingsBoard PE 映像(所有节点) 1.1、查看k8s信息(主节点) kubectl cluster-info #查看k8s集群信息 kubectl get node #查看节点信息 kubectl get pod -A #查看内部组件1.2、从 docker hub 拉取 ThingsBoard PE 映像(所有…

C语言进阶课程学习记录-第24课 - #pragma 使用分析

C语言进阶课程学习记录-第24课 - #pragma 使用分析 #pragma实验-#pragma messagecmd窗口运行 实验-pragma oncebcc编译报错gcc编译成功global.h代码优化 #pragma pack实验BCC编译器输出 小结 本文学习自狄泰软件学院 唐佐林老师的 C语言进阶课程&#xff0c;图片全部来源于课程…

docker笔记(二):镜像、容器数据卷

四、 docker镜像 4.1 镜像 镜像是一种轻量级、可执行的独立软件包&#xff0c;用来打包软件运行环境和基于运行环境开发的软件&#xff0c;它包含运行某个软件所需的所有内容&#xff0c;包括代码、库、环境变量和配置文件 所有的应用&#xff0c;直接打包docker镜像就可以直…

BPMNJS 在原生HTML中的引入与使用

BPMNJS 在HTML中的引入与使用 在网上看到的大多是基于vue使用BPMN的示例或者教程&#xff0c;竟然没有在HTML使用的示例&#xff0c;有也是很简单的介绍核心库的引入和使用&#xff0c;并没有涉及到扩展库。于是简单看了下&#xff0c;真的是一波三折&#xff0c;坎坎坷坷。不…