Python实战项目:天气数据爬取+数据可视化(完整代码)_python爬虫实战

news2024/11/15 19:26:18

在这里插入图片描述


一、选题的背景
  • 随着人们对天气的关注逐渐增加,天气预报数据的获取与可视化成为了当今的热门话题,天气预报我们每天都会关注,天气情况会影响到我们日常的增减衣物、出行安排等。每天的气温、相对湿度、降水量以及风向风速是关注的焦点。通过Python网络爬虫爬取天气预报让我们快速获取和分析大量的天气数据,并通过可视化手段展示其特征和规律。这将有助于人们更好地理解和应用天气数据,从而做出更准确的决策和规划

二、主题式网络爬虫设计方案

①主题式网络爬虫名称:天气预报爬取数据与可视化数据
②主题式网络爬虫爬取的内容与数据特征分析:
③爬取内容:天气预报网站上的历史天气数据 包括(日期,最高温度,最低温度,天气,风向)等信息
④数据特征分析:时效性,完整性,结构化,可预测性等特性
⑤主题式网络爬虫设计方案概述

  • 实现思路:本次设计方案首先分析网站页面主要使用requests爬虫程序,实现网页的请求、解析、过滤、存储等,通过pandas库对数据进行分析和数据可视化处理。
  • 该过程遇到的难点:动态加载、反爬虫、导致爬虫难以获取和解析数据,数据可视化的效果和美观性

三、主题页面的结构特征分析

在这里插入图片描述

(1) 导航栏位于界面顶部

(2) 右侧热门城市历史天气

(3) 中间是内容区海口气温走势图以及风向统计

(4) 页面底部是网站信息和网站服务

2. Htmls 页面解析

class="tianqi_pub_nav_box"顶部导航栏

class="tianqi_pub_nav_box"右侧热门城市历史天气

3.节点(标签)查找方法与遍历方法

for循环迭代遍历

温馨提示:篇幅有限,完整代码已打包文件夹,获取方式在:
在这里插入图片描述


四、网络爬虫程序设计

数据来源:查看天气网:http://www.tianqi.com.cn。访问海口市的历史天气网址:https://lishi.tianqi.com/haikou/202311.html,利用Python的爬虫技术从网站上爬取东莞市2023-11月历史天气数据信息。

Part1: 爬取天气网历海口史天气数据并保存未:"海口历史天气【2023年11月】.xls"文件


在这里插入图片描述

  1 import requests  2 from lxml import etree  3 import xlrd, xlwt, os  4 from xlutils.copy import copy  5 
  6 class TianQi():  7     def \_\_init\_\_(self):
  8         pass
  9 
 10     #爬虫部分
 11     def spider(self): 12         city\_dict = { 13             "海口": "haikou"
 14 }
 15         city = '海口'
 16         city = city\_dict\[f'{city}'\]
 17         year = '2023'
 18         month = '11'
 19         start\_url = f'https://lishi.tianqi.com/{city}/{year}{month}.html'
 20         headers = { 21             'authority': 'lishi.tianqi.com',
 22             'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,\*/\*;q=0.8,application/signed-exchange;v=b3;q=0.7',
 23             'accept-language': 'zh-CN,zh;q=0.9',
 24             'cache-control': 'no-cache',
 25             # Requests sorts cookies= alphabetically
 26             'cookie': 'Hm\_lvt\_7c50c7060f1f743bccf8c150a646e90a=1701184759; Hm\_lvt\_30606b57e40fddacb2c26d2b789efbcb=1701184793; Hm\_lpvt\_30606b57e40fddacb2c26d2b789efbcb=1701184932; Hm\_lpvt\_7c50c7060f1f743bccf8c150a646e90a=1701185017',
 27             'pragma': 'no-cache',
 28             'referer': 'https://lishi.tianqi.com/ankang/202309.html',
 29             'sec-ch-ua': '"Google Chrome";v="119", "Chromium";v="119", "Not?A\_Brand";v="24"',
 30             'sec-ch-ua-mobile': '?0',
 31             'sec-ch-ua-platform': '"Windows"',
 32             'sec-fetch-dest': 'document',
 33             'sec-fetch-mode': 'navigate',
 34             'sec-fetch-site': 'same-origin',
 35             'sec-fetch-user': '?1',
 36             'upgrade-insecure-requests': '1',
 37             'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36',
 38         }
 39         response = requests.get(start\_url,headers=headers).text
 40         tree = etree.HTML(response) 41         datas = tree.xpath("/html/body/div\[@class='main clearfix'\]/div\[@class='main\_left inleft'\]/div\[@class='tian\_three'\]/ul\[@class='thrui'\]/li")
 42         weizhi = tree.xpath("/html/body/div\[@class='main clearfix'\]/div\[@class='main\_left inleft'\]/div\[@class='inleft\_tian'\]/div\[@class='tian\_one'\]/div\[@class='flex'\]\[1\]/h3/text()")\[0\]
 43         self.parase(datas,weizhi,year,month)
 44 
 45 
 46    #解析部分
 47     def parase(self,datas,weizhi,year,month): 48         for data in datas: 49             #1、日期
 50             datetime = data.xpath("./div\[@class='th200'\]/text()")\[0\]
 51             #2、最高气温
 52             max\_qiwen = data.xpath("./div\[@class='th140'\]\[1\]/text()")\[0\]
 53             #3、最低气温
 54             min\_qiwen = data.xpath("./div\[@class='th140'\]\[2\]/text()")\[0\]
 55             #4、天气
 56             tianqi = data.xpath("./div\[@class='th140'\]\[3\]/text()")\[0\]
 57             #5、风向
 58             fengxiang = data.xpath("./div\[@class='th140'\]\[4\]/text()")\[0\]
 59             dict\_tianqi = { 60                 '日期':datetime,
 61                 '最高气温':max\_qiwen,
 62                 '最低气温':min\_qiwen,
 63                 '天气':tianqi,
 64                 '风向':fengxiang
 65             }
 66             data\_excel = { 67                 f'{weizhi}【{year}年{month}月】':\[datetime,max\_qiwen,min\_qiwen,tianqi,fengxiang\]
 68             }
 69             self.chucun\_excel(data\_excel,weizhi,year,month)
 70             print(dict\_tianqi)
 71 
 72 
 73    #储存部分
 74     def chucun\_excel(self, data,weizhi,year,month): 75         if not os.path.exists(f'{weizhi}【{year}年{month}月】.xls'):
 76             # 1、创建 Excel 文件
 77             wb = xlwt.Workbook(encoding='utf-8')
 78             # 2、创建新的 Sheet 表
 79             sheet = wb.add\_sheet(f'{weizhi}【{year}年{month}月】', cell\_overwrite\_ok=True)
 80             # 3、设置 Borders边框样式
 81             borders = xlwt.Borders() 82             borders.left = xlwt.Borders.THIN 83             borders.right = xlwt.Borders.THIN 84             borders.top = xlwt.Borders.THIN 85             borders.bottom = xlwt.Borders.THIN 86             borders.left\_colour = 0x40
 87             borders.right\_colour = 0x40
 88             borders.top\_colour = 0x40
 89             borders.bottom\_colour = 0x40
 90             style = xlwt.XFStyle()  # Create Style
 91             style.borders = borders  # Add Borders to Style
 92             # 4、写入时居中设置
 93             align = xlwt.Alignment() 94             align.horz = 0x02  # 水平居中
 95             align.vert = 0x01  # 垂直居中
 96             style.alignment = align 97             # 5、设置表头信息, 遍历写入数据, 保存数据
 98             header = ( 99                 '日期', '最高气温', '最低气温', '天气', '风向')
100             for i in range(0, len(header)):
101                 sheet.col(i).width = 2560 \* 3
102                 #行,列, 内容,   样式
103 sheet.write(0, i, header\[i\], style)
104                 wb.save(f'{weizhi}【{year}年{month}月】.xls')
105         # 判断工作表是否存在
106         if os.path.exists(f'{weizhi}【{year}年{month}月】.xls'):
107             # 打开工作薄
108             wb = xlrd.open\_workbook(f'{weizhi}【{year}年{month}月】.xls')
109             # 获取工作薄中所有表的个数
110             sheets = wb.sheet\_names()
111             for i in range(len(sheets)):
112                 for name in data.keys():
113                     worksheet = wb.sheet\_by\_name(sheets\[i\])
114                     # 获取工作薄中所有表中的表名与数据名对比
115                     if worksheet.name == name:
116                         # 获取表中已存在的行数
117                         rows\_old = worksheet.nrows
118                         # 将xlrd对象拷贝转化为xlwt对象
119                         new\_workbook = copy(wb)
120                         # 获取转化后的工作薄中的第i张表
121                         new\_worksheet = new\_workbook.get\_sheet(i)
122                         for num in range(0, len(data\[name\])):
123 new\_worksheet.write(rows\_old, num, data\[name\]\[num\])
124                         new\_workbook.save(f'{weizhi}【{year}年{month}月】.xls')
125 
126 if \_\_name\_\_ == '\_\_main\_\_':
127     t=TianQi()
128     t.spider()

Part2:根据海口历史天气【2023年11月】.xls生成海口市天气分布图
在这里插入图片描述

1 import pandas as pd
 2 from pyecharts.charts import Pie 3 from pyecharts import options as opts 4 from pyecharts.globals import ThemeType 5 
 6 def on(gender\_counts): 7     total = gender\_counts.sum() 8     percentages = {gender: count / total \* 100 for gender, count in gender\_counts.items()} 9     analysis\_parts = \[\]
10     for gender, percentage in percentages.items():
11         analysis\_parts.append(f"{gender}天气占比为{percentage:.2f}%,")
12     analysis\_report = "天气比例饼状图显示," + ''.join(analysis\_parts)
13     return analysis\_report
14 
15 df = pd.read\_excel("海口历史天气【2023年11月】.xls")
16 gender\_counts = df\['天气'\].value\_counts()
17 analysis\_text = on(gender\_counts)
18 pie = Pie(init\_opts=opts.InitOpts(theme=ThemeType.WESTEROS,bg\_color='#e4cf8e'))
19 
20 pie.add(
21     series\_name="海口市天气分布",
22     data\_pair=\[list(z) for z in zip(gender\_counts.index.tolist(), gender\_counts.values.tolist())\],
23     radius=\["40%", "70%"\],
24     rosetype="radius",
25     label\_opts=opts.LabelOpts(is\_show=True, position="outside", font\_size=14,
26                               formatter="{a}<br/>{b}: {c} ({d}%)")
27 )
28 pie.set\_global\_opts(
29     title\_opts=opts.TitleOpts(title="海口市11月份天气分布",pos\_right="50%"),
30     legend\_opts=opts.LegendOpts(orient="vertical", pos\_top="15%", pos\_left="2%"),
31     toolbox\_opts=opts.ToolboxOpts(is\_show=True)
32 )
33 pie.set\_series\_opts(label\_opts=opts.LabelOpts(formatter="{b}: {c} ({d}%)"))
34 html\_content = pie.render\_embed()
35 
36 # 生成HTML文件
37 complete\_html = f"""
38 <html>
39 <head>
40 <title>天气数据分析</title>
41 
42 </head>
43 <body style="background-color: #e87f7f">
44 <div style='margin-top: 20px;background-color='#e87f7f''>
45 <div>{html\_content}</div>
46 <h3>分析报告:</h3>
47 <p>{analysis\_text}</p>
48 </div>
49 </body>
50 </html>
51 """  
52 # 保存到HTML文件
53 with open("海口历史天气【2023年11月】饼图可视化.html", "w", encoding="utf-8") as file:
54     file.write(complete\_html)

Part3:根据海口历史天气【2023年11月】.xls生成海口市温度趋势
在这里插入图片描述

 1 import pandas as pd 2 import matplotlib.pyplot as plt 3 from matplotlib import font\_manager 4 import jieba 5 
 6 # 中文字体
 7 font\_CN = font\_manager.FontProperties(fname="C:\\Windows\\Fonts\\STKAITI.TTF")
 8 
 9 # 读取数据
10 df = pd.read\_excel('海口历史天气【2023年11月】.xls')
11 
12 # 使用 jieba 处理数据,去除 "C"
13 df\['最高气温'\] = df\['最高气温'\].apply(lambda x: ''.join(jieba.cut(x))).str.replace('℃', '').astype(float)
14 df\['最低气温'\] = df\['最低气温'\].apply(lambda x: ''.join(jieba.cut(x))).str.replace('℃', '').astype(float)
15 # 开始绘图
16 plt.figure(figsize=(20, 8), dpi=80)
17 max\_tp = df\['最高气温'\].tolist()
18 min\_tp = df\['最低气温'\].tolist()
19 x\_day = range(1, 31)
20 # 绘制30天最高气温
21 plt.plot(x\_day, max\_tp, label = "最高气温", color = "red")
22 # 绘制30天最低气温
23 plt.plot(x\_day, min\_tp, label = "最低气温", color = "skyblue")
24 # 增加x轴刻度
25 \_xtick\_label = \["11月{}日".format(i) for i in x\_day\]
26 plt.xticks(x\_day, \_xtick\_label, fontproperties=font\_CN, rotation=45)
27 # 添加标题
28 plt.title("2023年11月最高气温与最低气温趋势", fontproperties=font\_CN)
29 plt.xlabel("日期", fontproperties=font\_CN)
30 plt.ylabel("温度(单位°C)", fontproperties=font\_CN)
31 plt.legend(prop = font\_CN)
32 plt.show()


Part4:根据海口历史天气【2023年11月】.xls生成海口市词汇图
在这里插入图片描述

1 from pyecharts.charts import WordCloud 2 from pyecharts import options as opts 3 from pyecharts.globals import SymbolType 4 import jieba 5 import pandas as pd 6 from collections import Counter 7 
 8 # 读取Excel文件
 9 df = pd.read\_excel('海口历史天气【2023年11月】.xls')
10 # 提取商品名
11 word\_names = df\["风向"\].tolist() + df\["天气"\].tolist()
12 # 提取关键字
13 seg\_list = \[jieba.lcut(text) for text in word\_names\]
14 words = \[word for seg in seg\_list for word in seg if len(word) > 1\]
15 word\_counts = Counter(words)
16 word\_cloud\_data = \[(word, count) for word, count in word\_counts.items()\]
17 
18 # 创建词云图
19 wordcloud = (
20     WordCloud(init\_opts=opts.InitOpts(bg\_color='#00FFFF'))
21         .add("", word\_cloud\_data, word\_size\_range=\[20, 100\], shape=SymbolType.DIAMOND,
22              word\_gap=5, rotate\_step=45,
23              textstyle\_opts=opts.TextStyleOpts(font\_family='cursive', font\_size=15))
24         .set\_global\_opts(title\_opts=opts.TitleOpts(title="天气预报词云图",pos\_top="5%", pos\_left="center"),
25                          toolbox\_opts=opts.ToolboxOpts(
26                              is\_show=True,
27                              feature={
28                                  "saveAsImage": {},
29                                  "dataView": {},
30                                  "restore": {},
31                                  "refresh": {}
32 }
33 )
34 
35 )
36 )
37 
38 # 渲染词图到HTML文件
39 wordcloud.render("天气预报词云图.html")


爬虫课程设计全部代码如下:
 1 import requests
  2 from lxml import etree
  3 import xlrd, xlwt, os
  4 from xlutils.copy import copy
  5 
  6 class TianQi():
  7     def \_\_init\_\_(self):
  8         pass
  9 
 10     #爬虫部分
 11     def spider(self):
 12         city\_dict = {
 13             "海口": "haikou"
 14 }
 15         city = '海口'
 16         city = city\_dict\[f'{city}'\]
 17         year = '2023'
 18         month = '11'
 19         start\_url = f'https://lishi.tianqi.com/{city}/{year}{month}.html'
 20         headers = {
 21             'authority': 'lishi.tianqi.com',
 22             'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,\*/\*;q=0.8,application/signed-exchange;v=b3;q=0.7',
 23             'accept-language': 'zh-CN,zh;q=0.9',
 24             'cache-control': 'no-cache',
 25             # Requests sorts cookies= alphabetically
 26             'cookie': 'Hm\_lvt\_7c50c7060f1f743bccf8c150a646e90a=1701184759; Hm\_lvt\_30606b57e40fddacb2c26d2b789efbcb=1701184793; Hm\_lpvt\_30606b57e40fddacb2c26d2b789efbcb=1701184932; Hm\_lpvt\_7c50c7060f1f743bccf8c150a646e90a=1701185017',
 27             'pragma': 'no-cache',
 28             'referer': 'https://lishi.tianqi.com/ankang/202309.html',
 29             'sec-ch-ua': '"Google Chrome";v="119", "Chromium";v="119", "Not?A\_Brand";v="24"',
 30             'sec-ch-ua-mobile': '?0',
 31             'sec-ch-ua-platform': '"Windows"',
 32             'sec-fetch-dest': 'document',
 33             'sec-fetch-mode': 'navigate',
 34             'sec-fetch-site': 'same-origin',
 35             'sec-fetch-user': '?1',
 36             'upgrade-insecure-requests': '1',
 37             'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36',
 38         }
 39         response = requests.get(start\_url,headers=headers).text
 40         tree = etree.HTML(response)
 41         datas = tree.xpath("/html/body/div\[@class='main clearfix'\]/div\[@class='main\_left inleft'\]/div\[@class='tian\_three'\]/ul\[@class='thrui'\]/li")
 42         weizhi = tree.xpath("/html/body/div\[@class='main clearfix'\]/div\[@class='main\_left inleft'\]/div\[@class='inleft\_tian'\]/div\[@class='tian\_one'\]/div\[@class='flex'\]\[1\]/h3/text()")\[0\]
 43         self.parase(datas,weizhi,year,month)
 44 
 45 
 46    #解析部分
 47     def parase(self,datas,weizhi,year,month):
 48         for data in datas:
 49             #1、日期
 50             datetime = data.xpath("./div\[@class='th200'\]/text()")\[0\]
 51             #2、最高气温
 52             max\_qiwen = data.xpath("./div\[@class='th140'\]\[1\]/text()")\[0\]
 53             #3、最低气温
 54             min\_qiwen = data.xpath("./div\[@class='th140'\]\[2\]/text()")\[0\]
 55             #4、天气
 56             tianqi = data.xpath("./div\[@class='th140'\]\[3\]/text()")\[0\]
 57             #5、风向
 58             fengxiang = data.xpath("./div\[@class='th140'\]\[4\]/text()")\[0\]
 59             dict\_tianqi = {
 60                 '日期':datetime,
 61                 '最高气温':max\_qiwen,
 62                 '最低气温':min\_qiwen,
 63                 '天气':tianqi,
 64                 '风向':fengxiang
 65             }
 66             data\_excel = {
 67                 f'{weizhi}【{year}年{month}月】':\[datetime,max\_qiwen,min\_qiwen,tianqi,fengxiang\]
 68             }
 69             self.chucun\_excel(data\_excel,weizhi,year,month)
 70             print(dict\_tianqi)
 71 
 72 
 73    #储存部分
 74     def chucun\_excel(self, data,weizhi,year,month):
 75         if not os.path.exists(f'{weizhi}【{year}年{month}月】.xls'):
 76             # 1、创建 Excel 文件
 77             wb = xlwt.Workbook(encoding='utf-8')
 78             # 2、创建新的 Sheet 表
 79             sheet = wb.add\_sheet(f'{weizhi}【{year}年{month}月】', cell\_overwrite\_ok=True)
 80             # 3、设置 Borders边框样式
 81             borders = xlwt.Borders()
 82             borders.left = xlwt.Borders.THIN
 83             borders.right = xlwt.Borders.THIN
 84             borders.top = xlwt.Borders.THIN
 85             borders.bottom = xlwt.Borders.THIN
 86             borders.left\_colour = 0x40
 87             borders.right\_colour = 0x40
 88             borders.top\_colour = 0x40
 89             borders.bottom\_colour = 0x40
 90             style = xlwt.XFStyle()  # Create Style
 91             style.borders = borders  # Add Borders to Style
 92             # 4、写入时居中设置
 93             align = xlwt.Alignment()
 94             align.horz = 0x02  # 水平居中
 95             align.vert = 0x01  # 垂直居中
 96             style.alignment = align
 97             # 5、设置表头信息, 遍历写入数据, 保存数据
 98             header = (
 99                 '日期', '最高气温', '最低气温', '天气', '风向')
100             for i in range(0, len(header)):
101                 sheet.col(i).width = 2560 \* 3
102                 #           行,列, 内容,   样式
103                 sheet.write(0, i, header\[i\], style)
104                 wb.save(f'{weizhi}【{year}年{month}月】.xls')
105         # 判断工作表是否存在
106         if os.path.exists(f'{weizhi}【{year}年{month}月】.xls'):
107             # 打开工作薄
108             wb = xlrd.open\_workbook(f'{weizhi}【{year}年{month}月】.xls')
109             # 获取工作薄中所有表的个数
110             sheets = wb.sheet\_names()
111             for i in range(len(sheets)):
112                 for name in data.keys():
113                     worksheet = wb.sheet\_by\_name(sheets\[i\])
114                     # 获取工作薄中所有表中的表名与数据名对比
115                     if worksheet.name == name:
116                         # 获取表中已存在的行数
117                         rows\_old = worksheet.nrows
118                         # 将xlrd对象拷贝转化为xlwt对象
119                         new\_workbook = copy(wb)
120                         # 获取转化后的工作薄中的第i张表
121                         new\_worksheet = new\_workbook.get\_sheet(i)
122                         for num in range(0, len(data\[name\])):
123                             new\_worksheet.write(rows\_old, num, data\[name\]\[num\])
124                         new\_workbook.save(f'{weizhi}【{year}年{month}月】.xls')
125 
126 if \_\_name\_\_ == '\_\_main\_\_':
127     t=TianQi()
128     t.spider()
129 import pandas as pd
130 import jieba
131 from pyecharts.charts import Scatter
132 from pyecharts import options as opts
133 
134 from scipy import stats
135 
136 # 读取数据
137 df = pd.read\_excel('海口历史天气【2023年11月】.xls')
138 
139 # 使用 jieba 处理数据,去除 "C"
140 df\['最高气温'\] = df\['最高气温'\].apply(lambda x: ''.join(jieba.cut(x))).str.replace('℃', '').astype(float)
141 df\['最低气温'\] = df\['最低气温'\].apply(lambda x: ''.join(jieba.cut(x))).str.replace('℃', '').astype(float)
142 
143 # 创建散点图
144 scatter = Scatter()
145 scatter.add\_xaxis(df\['最低气温'\].tolist())
146 scatter.add\_yaxis("最高气温", df\['最高气温'\].tolist())
147 scatter.set\_global\_opts(title\_opts=opts.TitleOpts(title="最低气温与最高气温的散点图"))
148 html\_content = scatter.render\_embed()
149 
150 # 计算回归方程
151 slope, intercept, r\_value, p\_value, std\_err = stats.linregress(df\['最低气温'\], df\['最高气温'\])
152 
153 print(f"回归方程为:y = {slope}x + {intercept}")
154 
155 analysis\_text = f"回归方程为:y = {slope}x + {intercept}"
156 # 生成HTML文件
157 complete\_html = f"""
158 <html>
159 <head>
160     <title>天气数据分析</title>
161 </head>
162 <body style="background-color: #e87f7f">
163     <div style='margin-top: 20px;background-color='#e87f7f''>
164         <div>{html\_content}</div>
165         <p>{analysis\_text}</p>
166     </div>
167 </body>
168 </html>
169 """
170 # 保存到HTML文件
171 with open("海口历史天气【2023年11月】散点可视化.html", "w", encoding="utf-8") as file:
172     file.write(complete\_html)
173 
174 import pandas as pd
175 from flatbuffers.builder import np
176 from matplotlib import pyplot as plt
177 from pyecharts.charts import Pie
178 from pyecharts import options as opts
179 from pyecharts.globals import ThemeType
180 
181 def on(gender\_counts):
182     total = gender\_counts.sum()
183     percentages = {gender: count / total \* 100 for gender, count in gender\_counts.items()}
184     analysis\_parts = \[\]
185     for gender, percentage in percentages.items():
186         analysis\_parts.append(f"{gender}天气占比为{percentage:.2f}%,")
187     analysis\_report = "天气比例饼状图显示," + ''.join(analysis\_parts)
188     return analysis\_report
189 
190 df = pd.read\_excel("海口历史天气【2023年11月】.xls")
191 gender\_counts = df\['天气'\].value\_counts()
192 analysis\_text = on(gender\_counts)
193 pie = Pie(init\_opts=opts.InitOpts(theme=ThemeType.WESTEROS,bg\_color='#e4cf8e'))
194 pie.add(
195     series\_name="海口市天气分布",
196     data\_pair=\[list(z) for z in zip(gender\_counts.index.tolist(), gender\_counts.values.tolist())\],
197     radius=\["40%", "70%"\],
198     rosetype="radius",
199     label\_opts=opts.LabelOpts(is\_show=True, position="outside", font\_size=14,
200                               formatter="{a}<br/>{b}: {c} ({d}%)")
201 )
202 pie.set\_global\_opts(
203     title\_opts=opts.TitleOpts(title="海口市11月份天气分布",pos\_right="50%"),
204     legend\_opts=opts.LegendOpts(orient="vertical", pos\_top="15%", pos\_left="2%"),
205     toolbox\_opts=opts.ToolboxOpts(is\_show=True)
206 )
207 pie.set\_series\_opts(label\_opts=opts.LabelOpts(formatter="{b}: {c} ({d}%)"))
208 html\_content = pie.render\_embed()
209 
210 # 生成HTML文件
211 complete\_html = f"""
212 <html>
213 <head>
214     <title>天气数据分析</title>
215 
216 </head>
217 <body style="background-color: #e87f7f">
218     <div style='margin-top: 20px;background-color='#e87f7f''>
219         <div>{html\_content}</div>
220         <h3>分析报告:</h3>
221         <p>{analysis\_text}</p>
222     </div>
223 </body>
224 </html>
225 """
226 
227 import pandas as pd
228 import matplotlib.pyplot as plt
229 from matplotlib import font\_manager
230 import jieba
231 
232 # 中文字体
233 font\_CN = font\_manager.FontProperties(fname="C:\\Windows\\Fonts\\STKAITI.TTF")
234 
235 # 读取数据
236 df = pd.read\_excel('海口历史天气【2023年11月】.xls')
237 
238 # 使用 jieba 处理数据,去除 "C"
239 df\['最高气温'\] = df\['最高气温'\].apply(lambda x: ''.join(jieba.cut(x))).str.replace('℃', '').astype(float)
240 df\['最低气温'\] = df\['最低气温'\].apply(lambda x: ''.join(jieba.cut(x))).str.replace('℃', '').astype(float)
241 # 开始绘图
242 plt.figure(figsize=(20, 8), dpi=80)
243 max\_tp = df\['最高气温'\].tolist()
244 min\_tp = df\['最低气温'\].tolist()
245 x\_day = range(1, 31)
246 # 绘制30天最高气温
247 plt.plot(x\_day, max\_tp, label = "最高气温", color = "red")
248 # 绘制30天最低气温
249 plt.plot(x\_day, min\_tp, label = "最低气温", color = "skyblue")
250 # 增加x轴刻度
251 \_xtick\_label = \["11月{}日".format(i) for i in x\_day\]
252 plt.xticks(x\_day, \_xtick\_label, fontproperties=font\_CN, rotation=45)
253 # 添加标题
254 plt.title("2023年11月最高气温与最低气温趋势", fontproperties=font\_CN)
255 plt.xlabel("日期", fontproperties=font\_CN)
256 plt.ylabel("温度(单位°C)", fontproperties=font\_CN)
257 plt.legend(prop = font\_CN)
258 plt.show()
259 
260 from pyecharts.charts import WordCloud
261 from pyecharts import options as opts
262 from pyecharts.globals import SymbolType
263 import jieba
264 import pandas as pd
265 from collections import Counter
266 
267 # 读取Excel文件
268 df = pd.read\_excel('海口历史天气【2023年11月】.xls')
269 # 提取商品名
270 word\_names = df\["风向"\].tolist() + df\["天气"\].tolist()
271 # 提取关键字
272 seg\_list = \[jieba.lcut(text) for text in word\_names\]
273 words = \[word for seg in seg\_list for word in seg if len(word) > 1\]
274 word\_counts = Counter(words)
275 word\_cloud\_data = \[(word, count) for word, count in word\_counts.items()\]
276 
277 # 创建词云图
278 wordcloud = (
279     WordCloud(init\_opts=opts.InitOpts(bg\_color='#00FFFF'))
280         .add("", word\_cloud\_data, word\_size\_range=\[20, 100\], shape=SymbolType.DIAMOND,
281              word\_gap=5, rotate\_step=45,
282              textstyle\_opts=opts.TextStyleOpts(font\_family='cursive', font\_size=15))
283         .set\_global\_opts(title\_opts=opts.TitleOpts(title="天气预报词云图",pos\_top="5%", pos\_left="center"),
284                          toolbox\_opts=opts.ToolboxOpts(
285                              is\_show=True,
286                              feature={
287                                  "saveAsImage": {},
288                                  "dataView": {},
289                                  "restore": {},
290                                  "refresh": {}
291                              }
292                          )
293 
294     )
295 )
296 
297 # 渲染词图到HTML文件
298 wordcloud.render("天气预报词云图.html")



五、总结

1.根据散点图的显示回归方:y = 0.6988742964352719x + 10.877423389618516来获取海口市11月份温度趋势
2.根据饼状图可以了解海口市11月份的天气比例,多云天气占比为53.33%,晴天气占比为26.67%,阴天气占比为13.33%,小雨天气占比为6.67%,
3.根据折线图了解海口市11月份的最高温度和最低温度趋势。
4.根据词云图的显示,可以了解当月的天气质量相关内容。

  • 综述:是通过Python爬虫技术获取天气预报数据,_数据爬取方面,通过Python编写爬虫程序,利用网络爬虫技术从天气网站上获取天气预报数据,并进行数据清洗和处理。_数据可视化方面,利用数据可视化工具,将存储的数据进行可视化展示,以便用户更直观地了解天气情况_因此用户更好地理解和应用天气数据,从而做出更准确的决策和规划。____

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2091093.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

聊一聊质量测试框架

目录 质量测试框架的概述&#xff1a; 质量测试框架相关术语&#xff1a; 质量测试框架的构成及特性&#xff1a; 质量测试参考模型&#xff1a; 质量的生存周期的QM&#xff1a; 测量结果的应用&#xff1a; 常见的质量测试框架有哪些&#xff1f; 质量测试框架在使用…

springboot启动很慢,加载xml时卡住 或者 {dataSource-1} inited卡住 或者 primary数据库配置错误,很久启动不起来

springboot启动很慢&#xff0c;加载xml时卡住 或者 {dataSource-1} inited卡住 或者 primary数据库配置错误&#xff0c;很久启动不起来 1.第一步先rebuild一下2.如果还是很慢&#xff0c;可能是你debug启动的同时加了很多断点&#xff0c;需要把断点去掉。3.如果还是不行&…

设计模式-结构型模式-享元模式

1.享元模式定义 摒弃了在每个对象中保存所有数据的方式&#xff0c;通过共享多个对象所共有的相同状态&#xff0c;从而让我们能在有限的内存容量中载入更多对象&#xff1b; 1.1 享元模式优缺点 优点 极大减少内存中相似或相同对象数量&#xff0c;节约系统资源&#xff0c…

Ascend C算子开发(入门)—— 算子开发初体验

文章目录 Ascend C算子开发&#xff08;入门&#xff09;—— 算子开发初体验Host与Device核函数什么是核函数如何编写核函数&#xff1f; 核函数实现例子——Hello World完整核函数泛讲 Ascend C算子开发&#xff08;入门&#xff09;—— 算子开发初体验 Host与Device Host…

从零开始学cv-9:图像滤波

文章目录 前言一、简介&#xff1a;二、图像滤波实现&#xff1a;2.1 均值滤波&#xff1a;2.2 高斯滤波&#xff1a;2.3 中值滤波&#xff1a;2.4 锐化滤波&#xff1a; 前言 在信息化时代&#xff0c;图像已成为人们获取信息、沟通交流的重要载体。随着科技的飞速发展&#…

《高等代数》范德蒙德行列式的证明

说明&#xff1a;此文章用于本人复习巩固&#xff0c;如果也能帮助到大家那就更加有意义了。 注&#xff1a;1&#xff09;利用数学归纳法证明范德蒙德行列式。 2&#xff09;将范德蒙德行列式最后一列除了“1”以外都化为“0”&#xff0c;再按照最后一列展开。 3&#xff09…

Python编码系列—Python项目架构的艺术:最佳实践与实战应用

&#x1f31f;&#x1f31f; 欢迎来到我的技术小筑&#xff0c;一个专为技术探索者打造的交流空间。在这里&#xff0c;我们不仅分享代码的智慧&#xff0c;还探讨技术的深度与广度。无论您是资深开发者还是技术新手&#xff0c;这里都有一片属于您的天空。让我们在知识的海洋中…

线段树解决区间合并类问题

如果只维持一段区间连续1的最长字串长度是无法被线段树维护的&#xff1a;所以可以增加信息来共同维护 1.维护三个信息&#xff1a;连续1的最长字串长度、连续1的最长前缀长度、连续1的最长后缀长度 2.如果一段区域连续1的长度小于区域的总长度&#xff1a; 3.如果一段区域连续…

力扣376-摆动序列(java详细题解)

题目链接&#xff1a;https://leetcode.cn/problems/wiggle-subsequence/ 前情提要&#xff1a; 因为本人最近都来刷贪心类的题目所以该题就默认用贪心方法来做。 贪心方法&#xff1a;局部最优推出全局最优。 如果一个题你觉得可以用局部最优推出全局最优&#xff0c;并且…

最新时光邮局系统,给未来写封信系统PHP源码美化版

源码介绍 最新时光邮局系统&#xff0c;给未来写封信系统PHP源码美化版视频教程。 给未来写封信开源源码&#xff0c;本源码支持用户给未来某个人发送一封信。前端采用MDUI框架后端对于定时发信采用screenphp的方式,未来将会增加其稳定性&#xff0c;寄出的信是可以在数据库查…

绝区零苹果电脑能玩吗,如何在Mac上玩绝区零?绝区零MacBook 下载安装保姆级教程

《绝区零》是一款由米哈游开发的都市动作冒险游戏&#xff0c;游戏的故事背景设定在一个名为「新艾利都」的现代化大都市中&#xff0c;玩家将扮演一对「绳匠」兄妹展开冒险。很多玩家都在问苹果电脑笔记本Mac怎么玩绝区零&#xff0c;今天就给大家介绍一下《绝区零》是一款什么…

信息打点-CDN绕过篇漏洞回链接口探针全网扫描反向邮件

知识点&#xff1a; 0、CDN知识-工作原理及阻碍 1、CDN配置-域名&区域&类型 2、CDN绕过-靠谱十余种技战法 3、CDN绑定-HOSTS绑定指向访问 CDN的全称是Content Delivery Network&#xff0c;即内容分发网络。其基本思路是尽可能避开互联网上有可能影响数据传输速度和…

小程序列表滚动加载下一页数据功能实现指南

在前端小程序开发中&#xff0c;列表页是用户交互的核心部分之一。为了提高用户体验和页面响应速度&#xff0c;实现列表的滚动加载&#xff08;也称为“无限滚动”或“懒加载”&#xff09;功能显得尤为重要。本篇文章将详细介绍如何在小程序中实现这一功能&#xff0c;并提供…

基于vue框架的畅饮水站业务管理系统0wf4k(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;员工,会员,矿泉水,订单信息,派送任务,派送进度,评价记录,空桶回收,员工考勤,员工工资 开题报告内容 基于Vue框架的畅饮水站业务管理系统开题报告 一、研究背景与意义 随着健康意识的不断提升&#xff0c;直饮水、纯净水等健康饮水方式…

关于Seata的AT模式以及XA模式的理解

AT 模式 &#xff08;最终一致性&#xff09;的特点是性能较高&#xff0c;因为它只在第一阶段获取锁&#xff0c;在第一阶段提交后释放锁。相比之下&#xff0c;XA 模式&#xff08;强一致性&#xff09;需要在整个事务过程中占用数据库锁&#xff0c;因此性能相对较低。但是&…

为什么在JDBC中使用PreparedStatement?

为什么在JDBC中使用PreparedStatement&#xff1f; &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在JDBC编程中&#xff0c;PreparedStatement 因其以下优势而备受推崇&#xff1a; 性能提升&#xff1a;预编译的SQL语句可快速执行&#…

【C++11及其特性】explicit关键字

explicit关键字目录 一.explicit的含义1.中文含义2.用法 二.显示构造和隐式构造1.源码2.显示构造---()3.隐式构造---4.加上关键字 三.explicit作用 一.explicit的含义 1.中文含义 2.用法 写在构造函数前,那么在创建对象时就只能显示构造了,默认情况下是显示构造和隐式构造都可…

ctfshow之web55~web57(无字母的rce)

目录 web55 思路一&#xff1a; 思路二&#xff1a; web56 web57 本系列主要针对无字母rce或无字母无数字rce 声明&#xff1a;本章内容是引荐几位师傅的博客&#xff0c;然后根据自己的理解编写而成。 web55 if(isset($_GET[c])){$c$_GET[c];if(!preg_match("/\…

.net dataexcel winform控件 更新 日志

增加 列宽度调整时动态显示列象素大小 更改列的宽度可以使用 column.Width属性进行修改

文章解读与仿真程序复现思路——电网技术@EI\CSCD\北大核心《基于双缓冲区生成对抗模仿学习的电力系统实时安全约束经济调度》

本专栏栏目提供文章与程序复现思路&#xff0c;具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…