Python爬虫进阶(1),Django+Selenium+Mysql+SimpleUI从零搭建自己的爬虫后台,实现可视化监控爬虫内容信息

news2025/1/16 5:38:57

在这里插入图片描述
如果爬虫做完的话都会发现每个文件要么保存到csv或者是其他格式的文件中,这样做多少会有些麻烦,所以需要将这些内容保存起来方便自己管理和查看内容。

相对于flask而言Django有着相对成熟的一个后台管理系统配合上其他一些插件就可以做到即插即用的效果而不用自己再去花时间去做其他。

本篇采用Django作为后台管理系统,将从零开始手把手搭建自己的爬虫后台。
源码已上传有需要可以直接下载

Django爬虫后台管理系统@TOC

1.Django搭建

先在cmd中给python安装好Django

pip3 install django

然后点击pychram点击New Project
在这里插入图片描述
然后点击Django
选择默认的python3.7版本即可,appname输入你自己的默认app名称即可创建默认的目录
全部处理好后点击create即可创建Django

在这里插入图片描述
创建好Django项目之后会出现默认的目录
目录结构就是
manage是项目入口指定配置文件路径
init是空文件,被当做包使用
url是配置项目url的文件,指引页面路径
wsgi是web服务器的入口

在这里插入图片描述
之后如果一开始没有创建应用名称那么就需要在pycharm的底部点击terminal终端上创建一个app应用名称
在这里插入图片描述
创建好之后如下
在这里插入图片描述
然后创建好应用后要在setting中检查有无安装成功

在这里插入图片描述
然后点击开始启动服务器

在这里插入图片描述
出现这个页面就代表成功
在这里插入图片描述

在这里插入图片描述

2.设计模型

Django中拥有ORM框架所以我们只要对模型进行设计后既可调用数据库中的数据显示到页面中
所以可以设计一张表结构:
爬虫信息表
表名:Search_sc
内容:content_sc
来源:url_sc
日期:time_sc

from django.db import models
class Search_sc(models.Model):
    content_sc = models.CharField(max_length=300)
    url_sc = models.CharField(max_length=300)
    time_sc = models.CharField(max_length=100)
    def __str__(self):
        return "%d" % self.pk


创建好模型之后进行数据迁移
打开terminal终端
python manage.py makemigrations
执行迁移命令
python manage.py migrate

在这里插入图片描述
在这里插入图片描述
这时候默认的Django数据库是sqlit3,只要在sqlit3数据库中出现当前表格就表示显示成功

在这里插入图片描述

3.后台管理

后台管理可以对数据和用户进行相应的管理,需要创建一个管理员

python manage.py createsuperuser
在这里插入图片描述

然后创建好用户之后用下面地址进行登录

http://127.0.0.1:8000/admin
用你之前创建好的用户名和密码进行登录即可

在这里插入图片描述
然后我们进入管理后台就是如下图所示

在这里插入图片描述
这时候没有看到我们的模型因为还没有注册需要再admin.py中进行注册一下

from django.contrib import admin
from .models import Search_sc
admin.site.register(Search_sc)

在这里插入图片描述
然后再次登录Django后台就可以看到这个页面

在这里插入图片描述

4.连接mysql数据库

上面数据建模已经完成下面就进行连接mysql数据库的操作,先创建一个数据库然后用navicat进行连接
在这里插入图片描述
然后修改settings.py文件
在这里插入图片描述

DATABASES = {
    'default': {
        'ENGINE': 'django.db.backends.mysql',# 默认
        'NAME': 'school',# 连接的数据库
        'HOST': '127.0.0.1', # mysql的ip地址
        'PORT': 3306,  # mysql的端口
        'USER': 'root',  # mysql的用户名
        'PASSWORD': ''  # mysql的密码
    }

}

先安装pymysql,

pip3 install pymysql

由于更换了数据库所以init引擎也要进行相应更换在init中进行相应的修改

在这里插入图片描述


import pymysql
 
 
pymysql.install_as_MySQLdb()

然后再进行数据库迁移

python manage.py makemigrations
python manage.py migrate

迁移成功之后在Navicat中就可以看到mysql中被迁移成功后的数据
迁移
这个就是我一开始创建的模型表
在这里插入图片描述

5.用simpleui装饰后台

由于目前来看我们这些后台管理系统并不好看,所以我们需要加装一些插件把后台系统变得好看一些,所以要添加simpleui插件。
先用pip安装插件


pip3 install django-simpleui

在这里插入图片描述
将simpleui添加到setting中

INSTALLED_APPS = [
	'simpleui',
    'django.contrib.admin',
    'django.contrib.auth',
    'django.contrib.contenttypes',
    'django.contrib.sessions',
    'django.contrib.messages',
    'django.contrib.staticfiles',
    'test1.apps.Test1Config',

]

# 更改默认语言为中文
LANGUAGE_CODE = 'zh-hans'
#修改时区
TIME_ZONE = 'Asia/Shanghai'
# 隐藏右侧SimpleUI广告链接和使用分析
 SIMPLEUI_HOME_INFO = False 
 SIMPLEUI_ANALYSIS = False 

修改后登录后台管理系统就会发现进行相应的变化
在这里插入图片描述
在这里插入图片描述

然后对后台的标题和名称进行修改在admin.py中进行修改

from django.contrib import admin
from .models import Search_sc
admin.site.register(Search_sc)
admin.site.site_header = '爬虫管理后台' 
admin.site.site_title = '爬虫管理后台'
admin.site.index_title = '爬虫管理后台'

在这里插入图片描述
侧边栏可通过apps.py进行修改

在这里插入图片描述

from django.apps import AppConfig


class Test1Config(AppConfig):
    default_auto_field = 'django.db.models.BigAutoField'
    name = 'test1'
    verbose_name = '爬虫信息管理'

在这里插入图片描述
由于models中显示是英文所以需要将models改变成中文使用verbos_name,对models.py进行修改

from django.db import models
class Search_sc(models.Model):
    content_sc = models.CharField(max_length=300)
    url_sc = models.CharField(max_length=300)
    time_sc = models.CharField(max_length=100)
    class Meta:
        verbose_name = "爬虫详细信息"
        verbose_name_plural = "爬虫详细信息"
    def __str__(self):
        return "%d" % self.pk

在这里插入图片描述

更多simpleui使用可参考这篇文章:
Django实战: 手把手教你配置Django SimpleUI打造美丽后台(多图)
全部修改后的样子比之前好看很多
在这里插入图片描述

6.selenium爬虫后存入数据库中

后台搭建好之后我们就需要使用selenium进行爬虫然后存入mysql数据库中再把数据展示到Django后台管理系统中

目前我的selenium已经配置好如果没有配置好的需要先去配置一下selenium我用的是最新的版本

如果不了解selenium可以去看这一篇文章
selenium用法详解【从入门到实战】【Python爬虫】【4万字】

import time
import pymysql
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from apscheduler.schedulers.blocking import BlockingScheduler
from selenium.webdriver import Chrome, ChromeOptions
conn = pymysql.connect(host='localhost',  # host属性
                       port=3306,  # 端口号
                       user='',  # 用户名
                       password='',  # 此处填登录数据库的密码
                       db='', # 数据库名
                       charset='utf8'
                       )

opt = ChromeOptions()            # 创建Chrome参数对象
opt.headless = True              # 把Chrome设置成可视化无界面模式,windows/Linux 皆可
# Chrome浏览器
driver = webdriver.Chrome()
driver.get("")#新闻网站
def index():
    # 设置等待5秒,避免爬虫时被封禁
    driver.implicitly_wait(5)
    # 找到外框的获取里面所有的li标签
    content = driver.find_element(By.XPATH,'/html/body/div[7]/div[1]/div[2]/ul/li[1]/span/a').text
    url = driver.find_element(By.XPATH,'/html/body/div[7]/div[1]/div[2]/ul/li[1]/span/a').get_attribute('href')
    time_cf=driver.find_element(By.XPATH, '/html/body/div[7]/div[1]/div[2]/ul/li[1]/span/span').text
    cursor = conn.cursor()
            # 插入数据,insert into 表(列名,列名,列名)values(值,值,值)这个值主要就是对应的你获取到的值
    sql = 'insert into test1_search_sc(content_sc,url_sc,time_sc) values(%s,%s,%s);'
            # 对获取到的数据进行排序如果有重复的则进行筛除
    data_list=[content,url,time_cf]

    list2 = sorted(list(set(data_list)), key=data_list.index)

    try:
             # 插入数据
        cursor.execute(sql,list2)
            # 连接数据
        conn.commit()
        print('插入数据成功')
    except Exception as e:
        print('插入数据失败')
        conn.rollback()
        time.sleep(5)
    conn.close()

if __name__ == "__main__":
        index()


然后进行爬虫就会看到数据已经存入数据库当中

在这里插入图片描述
然后进入我们的爬虫后台就会看到相应的数据在这里显示出来
在这里插入图片描述
点击可进行修改的操作,但是目前来看如果后期数据量多还需要一个上传和下载的功能

在这里插入图片描述

7.Django新增导入导出功能

需要安装Django-import-export

pip3 install django-import-export

然后在settings.py中注册一下

INSTALLED_APPS = [
'simpleui',
    'django.contrib.admin',
    'django.contrib.auth',
    'django.contrib.contenttypes',
    'django.contrib.sessions',
    'django.contrib.messages',
    'django.contrib.staticfiles',
    'test1.apps.Test1Config',
    'import_export',

]
#新增导入导出为TRUE
IMPORT_EXPORT_USE_TRANSACTIONS = True

在这里插入图片描述
然后在admin.py中新增功能,并让表中继承插件

from django.contrib import admin
from .models import Search_sc
from import_export.admin import ImportExportModelAdmin
#将models中数据表字段名注册到admin中
class Search_sc_up(ImportExportModelAdmin):
    list_display = ['content_sc','url_sc','time_sc']

# 在admin注册进去这些表
admin.site.register(Search_sc,Search_sc_up)
admin.site.site_header = '爬虫管理后台'
admin.site.site_title = '爬虫管理后台'
admin.site.index_title = '爬虫管理后台'

在这里插入图片描述
全部做好后重启Django服务器,既可看到新增了导入和导出的功能

在这里插入图片描述
可根据以下这些格式进行导入导出
在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/533080.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MongoDB 查询文档中使用正则选择器($regex)

之前我们介绍过使用文本选择器($text)查询文档,如果您需要进一步了解,可以参考: MongoDB 查询文档中使用文本选择器($text)https://blog.csdn.net/m1729339749/article/details/130605491 本篇…

【计算机组成原理】第六章 总线系统

系列文章目录 第一章 计算系统概论 第二章 运算方法和运算器 第三章 多层次的存储器 第四章 指令系统 第五章 中央处理器 第六章 总线系统 第七章 外围设备 第八章 输入输出系统 文章目录 系列文章目录第六章 总线系统6.1 总线的概念和结构形态6.1.1 总线的基本概念6.1.2 总线…

1335. 工作计划的最低难度(DP,leetcode)-------------------c++实现

1335. 工作计划的最低难度&#xff08;DP,leetcode&#xff09;-------------------c实现 题目表述 你需要制定一份 d 天的工作计划表。工作之间存在依赖&#xff0c;要想执行第 i 项工作&#xff0c;你必须完成全部 j 项工作&#xff08; 0 < j < i&#xff09;。 你…

10-01 单元化架构基础

扩展性&#xff08;Scalability&#xff09; 高伸缩性 添加资源就可以应对处理能力需求的增长用户、流量、数据增长&#xff0c;性能指标不下降 度量增加系统处理能力的指标系统性能 延迟&#xff1a;系统处理单词请求所需的时间吞吐量&#xff1a;单位时间内系统处理次数 伸缩…

前端架构师-week6- ejs源码讲解

ejs 源码详解——彻底搞懂模版动态渲染原理 ejs 执行流程 源码实现思路非常有趣&#xff0c;实现难度实现流程不如前几章源码复杂。但是思路完全不同&#xff0c;用了一套新的思路来实现 ejs 模版渲染。重要的是通过这种思路开阔自己的眼界。ejs 的思路在 vue 中也有用到。 核…

分类预测 | Matlab实现CNN-GSSVM卷积神经网络结合网格搜索算法优化支持向量机多特征分类预测

分类预测 | Matlab实现CNN-GSSVM卷积神经网络结合网格搜索算法优化支持向量机多特征分类预测 目录 分类预测 | Matlab实现CNN-GSSVM卷积神经网络结合网格搜索算法优化支持向量机多特征分类预测预测效果基本介绍模型描述程序设计学习总结 预测效果 基本介绍 分类预测 | Matlab实…

如何在多个服务器上安装WordPress分布式部署

许多网络主机现在保证其服务的正常运行时间为 99.9%&#xff0c;但这仍然每年最多有 8.7 小时的停机时间。 许多公司不能够承担这种风险。例如。在超级碗比赛中失败的体育新闻网站可能会失去忠实的追随者。 我们通过设置维护高可用性 WordPress分布式部署配置来帮助 WordPres…

shell脚本之免交互

目录 一 . Here Document 免交互1.1 Here Document概述示例&#xff1a;支持变量替换 二. Expect基本命令: expect直接执行&#xff0c;需要使用 expect 命令去执行脚本嵌入执行模式&#xff0c;将 expect 过程融入 Shell 当中&#xff0c;方便执行和处理。 一 . Here Document…

camunda子流程(Subprocess)如何使用

在 Camunda 中&#xff0c;子流程&#xff08;Subprocess&#xff09;是一种可嵌入到主流程中的小型流程&#xff0c;可以用于处理复杂的业务逻辑&#xff0c;以提高流程的可读性和可维护性。使用子流程的好处包括&#xff1a; 1、分离复杂的业务逻辑&#xff1a;通过将复杂的…

一条查询语句在MySQL的处理过程

例如查询语句&#xff1a; select user_id、username from t_user where username "张三" and sex 1; 其在MySQL的执行流程如下&#xff1a; 客户端发起查询请求&#xff0c;与SQL 接口建立连接&#xff0c;SQL 接口确定用户是否有查询权限&#xff0c;没有权限…

TensorFlow详解4-RNN+LSTM(1)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、背景和知识点深度学习三大模型&#xff1a;RNN的优势&#xff1a; 二、RNN的局限性三、LSTMLSTM三重门机制&#xff1a;LSTM解决梯度消失的主要原理&#x…

Linux--进程信号(pending, block, Handler)集

信号在产生之后&#xff0c;到未被处理的这段时间内&#xff0c;是保存在进程的PCB结构体内的一张位图中的&#xff0c;位图的每个比特位的编号就代表着改信号是否产生&#xff0c;比特位为1表示该信号产生&#xff0c;0表示不存在。 本篇文章就来详细的解答信号在内核中具体的…

数字革命下的产品:百数十年变迁的启示与思考。

随着数字化时代的到来&#xff0c;软件开发成为各行各业不可或缺的一部分。然而&#xff0c;传统的软件开发方法需要长时间的开发周期&#xff0c;高昂的成本和大量的人力资源。因此&#xff0c;低代码开发平台应运而生。低代码开发平台通过简化开发人员的工作和加速软件开发流…

故障分析 | 一条本该记录到慢日志的 SQL 是如何被漏掉的

背景 生产环境中 select count(*) from table 语句执行很慢&#xff0c;已经远超 long_query_time 参数定义的慢查询时间值&#xff0c;但是却没有记录到慢日志中。在测试环境也很容易复现出该问题&#xff0c;慢查询日志确实没有记录 select count(*) 语句。 慢查询相关参数…

数据结构入门-排序

排序的概念及其英语 排序的概念 排序&#xff1a;所谓排序&#xff0c;就是使一串记录&#xff0c;按照其中的某个或某些关键字的大小&#xff0c;递增或递减的顺序排列起来的操作。稳定性&#xff1a;假定在待排序的记录序列中&#xff0c;存在多个具有相同的关键字的记录&a…

【网络】计算机中的网络

目录 &#x1f341;计算机网络 &#x1f341;计算机网络模型 &#x1f341;布线工程 &#x1f341;布线系统 &#x1f990;博客主页&#xff1a;大虾好吃吗的博客 &#x1f990;专栏地址&#xff1a;网络专栏 计算机网络 计算机网络的功能 数据通信、资源共享、增加可靠性、提…

Dubbo——SpringBoot集成Dubbo(@Autowired和@Reference的区别、Dubbo的服务治理)

Dubbo——原生API实现远程调用_Strine的博客-CSDN博客 在上一篇文章中我们讲了如何使用原生API发起远程调用&#xff0c;显然这种方式肯定是非常麻烦的&#xff0c;因此我们这里就讲如何使用SpringBoot去集成Dubbo将这些配置简化。 生产者服务 添加配置文件 dubbo:applicat…

如何安装Maven并在IDEA配置

下载 1.进入官网完成下载&#xff0c;下载好后解压到你喜欢的目录中去即可&#xff01; Maven – Download Apache Maven 2.解压出来就能看到以下目录结构&#xff0c;我们关注conf目录即可 3.配置Maven的本地仓库&#xff0c;进入conf目录并打开settings.xml&#xff0c;往下…

8.3 综合案例2.0-扫码支付二维码生成

综合案例2.0-扫码支付二维码生成 扫码支付完整流程案例说明1.硬件2.连线图 搭建云平台环境1.添加设备2.创建设备类型3.功能定义&#xff08;创建物模型&#xff09; 代码1.更改MQTT信息2.测试 扫码支付完整流程 参考链接微信支付开发者文档 &#xff08;1&#xff09;商户后台…

数据分析09——Pandas中的索引设置/排序/数据统计(异常值处理)

1、Pandas中的索引设置&#xff1a; Series重置索引 重置索引&#xff1a;s2 s1.reindex([1, 2, 3, 4, 5]) # 这种情况即使列表中索引给多了也没事&#xff0c;会自动填充空值。重置索引&#xff1a;s3 s1.reindex([1, 2, 3, 4, 5], fill_value0) # 这种情况列表中索引给多了…