当我用Python采集全国加盟品牌详情信息,并进行可视化分析后发现了这些

news2024/11/17 21:40:01

表弟找我说想开个加盟店, 不知道什么品牌好,让我帮他参谋参谋。

还好我会Python,分分钟就获取到了全国加盟品牌信息,稍加分析就筛选出了最适合他的品牌。

话不多说,咱们直接分享干货!

准备工作

开发环境

  • python 3.8
  • pycharm
  • jupyter

模块使用

  • requests
  • parsel
  • csv
  • pandas
  • pyecharts

第三方模块需要手动安装,win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

获取数据部分

流程步骤

明确需求

明确采集网址以及数据内容
网址: http://www.*****.com/brandList (winshangdata 替换 删掉括号)
数据: 每一个品牌基本信息

1、抓包分析, 数据是请求那个链接可以得到

  • 开发者工具进行抓包 --> F12 / FN+F12 / 鼠标右键点击检测选择network
  • 刷新网页
  • 搜索数据

2、如何才能获取多个数据

对于单个数据包链接地址, 进行比较, 查看规律
brandId --> 品牌ID变化
能不能在某一个数据包当中, 找到所有品牌ID --> 列表页面抓包

代码实现步骤

1、发送请求, 对于品牌ID的数据包发送请求

2、获取数据, 获取服务器返回响应数据

3、解析数据, 提取我们需要的内容 ==> 品牌ID

4、发送请求, 请求数据详情页

5、获取数据, 获取服务器返回响应数据

6、解析数据, 提取我们需要的内容 ==> 品牌基本信息

7、保存数据, 把数据保存到表格文件

代码展示

模块

# 导入数据请求模块 需要安装
import requests
# 导入数据解析模块
import parsel
# 导入csv模块
import csv

1、发送请求

# 模拟浏览器 <请求头伪装>
headers = {
    # User-Agent 用户代理 表示浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
for page in range(1, 11):
    print(f'---正在采集第{page}的数据内容---')
    # 请求链接
    url = 'http://www.****.com/wsapi/brand/list3_4'
    # 提交表单
    data = {
        "isHaveLink": "",
        "isTuozhan": "",
        "isXxPp": "",
        "kdfs": "",
        "key": "",
        "orderBy": "1",
        "pageNum": page,
        "pageSize": 60,
        "pid": "",
        "qy_p": "",
        "qy_r": "",
        "xqMj": "",
        "ytlb1": "",
        "ytlb2": ""
    }
    # 发送请求
    response = requests.post(url, json=data, headers=headers)

2、获取数据

json_data = response.json()
print(ison_data)

3、解析数据

json_data = response.json()
for index in json_data['data']['list']:
    link = f'http://www.***.com/brandDetail?brandId={index["brandId"]}'

4-5、发送请求 获取数据

print(html_data)
html_data = requests.get(link, headers=headers).text
break

6、解析数据

html_data = requests.get(link, headers=headers).text
selector = parsel.Selector(html_data)
title = selector.css('h1.detail-one-tit::text').get().strip()  # 品牌
company = selector.css('p.detail-company::text').get()  # 公司
info = selector.css('div.detail-three-tit::text').getall()
value = selector.css('span.detail-option-value::text').getall()
dit = {
    '品牌': title,
    '公司': company,
    '业态类别': info[0],
    '拓展状态': info[1],
    '创立时间': value[0],
    '人均消费/客单价': value[1].strip(),
    '开店方式': value[2],
    '合作期限': value[3],
    '面积要求': value[4],
    '已进购物中心': value[5],
    '详情页': link,
}
# 写入数据
csv_writer.writerow(dit)
print(dit)

7、保存数据到表格

f = open('品牌.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '品牌',
    '公司',
    '业态类别',
    '拓展状态',
    '创立时间',
    '人均消费/客单价',
    '开店方式',
    '合作期限',
    '面积要求',
    '已进购物中心',
    '详情页',
])
csv_writer.writeheader()

数据可视化部分

读取表格

import pandas as pd

df = pd.read_csv('data.csv')
df.head()

将’已进购物中心’列的数据类型转换为字符串,使用str.replace()方法去除’家’字符,并将’–'替换为0,然后再将数据类型转换为整数。

df['已进购物中心'] = df['已进购物中心'].astype(str).str.replace('家', '').str.replace('--', '0').astype(int)

通过将’人均消费/客单价’列的数据类型转换为字符串,使用str.replace()方法将’–‘替换为0,再使用str.split(’-')方法将字符串拆分为列表,并使用str.get(0)方法将取得列表中的第一个元素(即最低消费),最后将数据类型转换为整数。

df['人均消费'] = df['人均消费/客单价'].astype(str).str.replace('--', '0').str.split('-').str.get(0).astype(int)

通过将’人均消费/客单价’列的数据类型转换为字符串,使用str.replace()方法将’–‘替换为0,再使用str.split(’-')方法将字符串拆分为列表,并使用str.get(0)方法将取得列表中的第一个元素(即最低消费), 将数据类型转换为整数。

top10 = df[['品牌', '已进购物中心', '人均消费']].sort_values('已进购物中心', ascending=False)[:10]
ShopList = list(top10['品牌'])
counts = list(top10['已进购物中心'])
price = list(top10['人均消费'])
print(ShopList)
print(counts)
print(price)

使用已进购物中心和人均消费作为两个系列的数据做柱状图展示

from pyecharts import options as opts
from pyecharts.charts import Bar

c = (
    Bar()
    .add_xaxis(ShopList)
    .add_yaxis("已进购物中心", counts)
    .add_yaxis("人均消费", price)
    .set_global_opts(
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
        title_opts=opts.TitleOpts(title="加盟品牌Top10", subtitle="已进购物中心"),
    )
)

人均消费降序

top10 = df[['品牌', '人均消费']].sort_values('人均消费', ascending=False)[:10]
ShopList = list(top10['品牌'])
price = list(top10['人均消费'])
from pyecharts import options as opts
from pyecharts.charts import Bar

c = (
    Bar()
    .add_xaxis(ShopList)
    .add_yaxis("人均消费", price)
    .set_global_opts(
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
        title_opts=opts.TitleOpts(title="加盟品牌Top10", subtitle="人均消费"),
    )
)
c.render_notebook()

面积要求降序

df['面积要求'] = df['面积要求'].astype(str).str.replace('--', '0').str.split('-').str.get(0).astype(int)
top10 = df[['品牌', '面积要求']].sort_values('面积要求', ascending=False)[:10]
ShopList = list(top10['品牌'])
area = list(top10['面积要求'])
from pyecharts import options as opts
from pyecharts.charts import Bar

c = (
    Bar()
    .add_xaxis(ShopList)
    .add_yaxis("面积要求", area)
    .set_global_opts(
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
        title_opts=opts.TitleOpts(title="加盟品牌Top10", subtitle="面积要求"),
    )
)
c.render_notebook()

面积要求折线图

import pyecharts.options as opts
from pyecharts.charts import Line
from pyecharts.faker import Faker


c = (
    Line()
    .add_xaxis(ShopList)
    .add_yaxis("面积要求", area, is_connect_nones=True)
    .set_global_opts(title_opts=opts.TitleOpts(title="加盟品牌Top10-面积"))
#     .render("line_connect_null.html")
)
c.render_notebook()

开店方式饼状图

from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.faker import Faker

c = (
    Pie()
    .add(
        "",
        [
            list(z)
            for z in zip(types, nums)
        ],
        center=["40%", "50%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="开店方式"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
#     .render("pie_scroll_legend.html")
)
c.render_notebook()

好了今天的文章就分享到这里结束啦~

文章不过瘾?我还准备了视频进行详细讲解,文末名片自取,备注【LL】快速通过验证。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/837909.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第三章 API基础

3-1 String类 1、API概述-帮助文档的使用 【1】API概述 【2】如何使用帮助文档 2、键盘录入字符串案例 【1】需求 需求&#xff1a;按照帮助文档的使用步骤学习Scanner类的使用&#xff0c;并实现键盘录入一个字符串&#xff0c;最后输出在控制台 【2】实现 &#xff08;…

SuperNova论文赏析

1. 引言 前序博客有&#xff1a; Nova: Recursive Zero-Knowledge Arguments from Folding Schemes学习笔记 卡内基梅隆大学 Abhiram Kothapalli 和 微软研究中心 Srinath Setty 2022年论文《SuperNova: Proving universal machine executions without universal circuits》…

36.利用解fgoalattain 有约束多元变量多目标规划问题求解(matlab程序)

1.简述 多目标规划的一种求解方法是加权系数法&#xff0c;即为每一个目标赋值一个权系数&#xff0c;把多目标模型转化为一个单目标模型。MATLAB的fgoalattain()函数可以用于求解多目标规划。 基本语法 fgoalattain()函数的用法&#xff1a; x fgoalattain(fun,x0,goal,weig…

计蒜客T1116——验证子串

C实现验证子串的功能:今天复习了一下数据结构的串部分的内容&#xff0c;突然想起来子串匹配的实现&#xff0c;于是计蒜客随便找一道题写一下&#xff0c;核心的代码为裁剪子串和字符串比较两个内容&#xff0c;建议理解背诵&#xff0c;考研大概率会考。 子串裁剪 string Sf…

让这款音频转文字免费软件帮你解放双手吧

嘿&#xff0c;朋友们!你是不是经常遇到这样的场景——你听到一段精彩的演讲、音乐或者语音笔记&#xff0c;却又不方便手动输入文字&#xff1f;别担心&#xff0c;音频转文字技术将解救你出困境&#xff01;说到这&#xff0c;你是不是也对这项技术动心了呢&#xff1f;想知道…

dbfirst下让efcore生成的model继承于一个公共的类

&#xff09;1 Make entities inherit from a base class in Entity Framework Core DB First https://davecallan.com/make-entities-inherit-base-class-in-entity-framework-core-db-first/ 通过EF Core Power Tools vs扩展插件实现 1.1&#xff09;安装扩展Install the…

组织门户支持成员自主公开,快速搭建内容|ModelWhale 版本更新

大暑三秋近&#xff0c;林钟九夏移&#xff0c;ModelWhale 迎来新一轮的版本更新&#xff0c;期待为你带来更好的使用体验。 本次更新中&#xff0c;ModelWhale 主要进行了以下功能迭代&#xff1a; • 新增 门户内容支持成员自主公开&#xff08;团队版✓ &#xff09; • …

uni、css——制作表格样式的模型

案例展示 这里以5列做展示&#xff08;可随意调节&#xff09; 案例代码 <view class"list"><view class"item" v-for"(item,index) in list" :key"index">1</view> <!-- 有内容 --><view clas…

Git 主要命令和操作流程(来自B站黑马)

其中 git 查看日志有好些参数&#xff0c;黑马总结了下&#xff0c;这里记录一下 git 1og--prettyoneline --a11 --graph --abbrev-commit oneline 就是在同一行显示&#xff0c;graph 是以层次关系显示, --abbrev-commit 是查看唯一标识符。那么这么长的命令&#xff0c;每次…

spring-boot-maven-plugin使用

spring-boot-maven-plugin这个插件有7个目标&#xff1a; spring-boot:build-image 使用构建包将应用程序打包到OCI映像中。 spring-boot:build-info 根据当前MavenProject spring-boot:help 显示有关spring-boot-maven插件的帮助信息。 调用mvn-spring-boot:help-Ddetailtr…

Spark写PGSQL分区表

这里写目录标题 需求碰到的问题格式问题分区问题&#xff08;重点&#xff09; 解决完整代码效果 需求 spark程序计算后的数据需要往PGSQL中的分区表进行写入。 碰到的问题 格式问题 使用了字符串格式&#xff0c;导致插入报错。 val frame df.withColumn("insert_t…

一语道破 python 迭代器和生成器

简而言之&#xff1a;迭代器是一个抽象化的概念&#xff0c;在python中表示访问数据集合中元素的一种方式&#xff1b;生成器也是一个抽象化的概念&#xff0c;在python 中&#xff0c;边循环边生成所需数据&#xff0c;是一种时间换空间的方法。从访问数据方式上来看&#xff…

应急响应-主机后门webshell的排查思路(webshell,启动项,隐藏账户,映像劫持,rootkit后门)

0x00 windows主机后门排查思路 针对主机后门windows&#xff0c;linux&#xff0c;在对方植入webshell后&#xff0c;需要立即响应&#xff0c;排查出后门位置&#xff0c;以及排查对外连接&#xff0c;端口使用情况等等 排查对外连接状态&#xff1a; 借助工具&#xff1a;p…

T31开发笔记:librtmp拉流测试

若该文为原创文章&#xff0c;转载请注明原文出处。 T31使用librtmp拉流并保存成FLV文件或H264和AAC文件。 librtmp编译在前面有教程&#xff0c;自行编译。 实现的目的是想要获取获取rtmp的AAC流并播放&#xff0c;实时双向对讲功能。 一、硬件和开发环境 1、硬件&#xff1…

Linux6.31 Kubernetes 二进制部署

文章目录 计算机系统5G云计算第二章 LINUX Kubernetes 部署一、二进制搭建 Kubernetes v1.201.操作系统初始化配置2.部署 etcd 集群3.Kubernetes 集群架构与组件4.部署 Master 组件5.部署 Worker Node 组件6.部署 CNI 网络组件——部署 flannel1&#xff09;K8S 中 Pod 网络通信…

Android 版本 对应的 API版本

Android 14&#xff08;开发者预览版&#xff09; 如需详细了解平台变更&#xff0c;请参阅 Android 14 文档。 Android 13&#xff08;API 级别 33&#xff09; 如需详细了解平台变更&#xff0c;请参阅 Android 13 文档。 Android 12&#xff08;API 级别 31、32&#xf…

《每天5分钟玩转kubernetes》读书笔记

笔记 概念 Pod是脆弱的&#xff0c;但应用是健壮的。 kubelet运行在Cluster所有节点上&#xff0c;负责启动Pod和容器。kubeadm用于初始化Cluster。kubectl是k8s命令行工具。通过kubectl可以部署和管理应用&#xff0c;查看各种资源&#xff0c;创建、删除和更新各种组件。 …

推荐一款非常简单实用的数据库连接工具Navicat Premium

Navicat Premium是一款非常实用的数据库连接工具&#xff0c;别再用HeidiSQL和idea自带的数据库连接了&#xff0c;看完这篇文章&#xff0c;赶紧把Navicat Premium用起来吧。 首先&#xff0c;需要获取Navicat Premium的安装包&#xff0c;可以通过以下网盘链接下载&#xff0…

谷歌联合CMU提出全新语义金字塔概念,无需额外训练使LLMs学会执行视觉任务

​ 论文链接&#xff1a;https://arxiv.org/abs/2306.17842 代码仓库&#xff1a;https://github.com/google-research/magvit/ 在目前的大模型社区中&#xff0c;发展较为成熟的当属以ChatGPT为代表的纯语言模型&#xff08;LLMs&#xff09;&#xff0c;以GPT-4为代表的多模态…

【大数据】ELK最简入门案例(带你进入ELK世界)

文章目录 1. 前言2. 安装3. 启动ELK启动Elasticsearch启动Kibana启动Logstash 4. 测试ELK环境 本文通过最简单纯正的案例带你入门ELK世界。 1. 前言 ELK是Elasticsearch、Logstash、Kibana的缩写&#xff0c;如果对Elasticsearch、Logstash、Kibana不是很了解&#xff0c;可以…