5.2 Ajax 数据爬取实战

news2025/1/18 21:01:29

目录

1. 实战内容

2、Ajax 分析

3、爬取内容

4、存入MySQL 数据库

4.1 创建相关表

4.2 数据插入表中

5、总代码与结果


1. 实战内容

        爬取Scrape | Movie的所有电影详情页的电影名、类别、时长、上映地及时间、简介、评分,并将这些内容存入MySQL数据库中。

2、Ajax 分析

        根据上一篇文章5.1 Ajax数据爬取之初介绍-CSDN博客,找到详情页的数据包,如下:

        根据数据包,会发现其中 Response中有我们想要的内容。查看其及其他页的Request URL,发现其规律,只需改变后面的数字,构造链接,即可一一爬取信息。

        Response中想要的内容如下(为Response部分内容截图):

        等等,不难发现此内容以字典的形式呈现在我们眼前。

3、爬取内容

        所以用 eval() 将字符串形式的 content 转换为字典,方便提取信息。将提取的信息汇合成字典,便于传递、存入MySQL数据库。

        在爬取的过程中,会发现一些电影数据不完整,会造成错误使得程序崩溃,所以使用try...except...去避免。

import requests


def crawler(url):
    response = requests.get(url)
    content = response.text
    content = eval(content)

    name = content['name']
    alias = content['alias']    # 外文名
    categories = content['categories']
    cate = ','.join(categories)    # 电影种类
    regions = content['regions']
    region = ','.join(regions)    # 地点
    publish_time = content['published_at']
    score = content['score']
    minute = content['minute']    # 时长
    drama = content['drama']
    # print(name, alias, cate, region, publish_time, score, minute, drama)

    movie_dict = {
        'name': name,
        'alias': alias,
        'cate': cate,
        'region': region,
        'publish_time':publish_time,
        'minute': minute,
        'score': score,
        'drama': drama
    }
    print(movie_dict)



if __name__ == '__main__':

    last = 100
    for i in range(1, last+1):
        url = f'https://spa1.scrape.center/api/movie/{i}/'
        try:
            crawler(url)
        except NameError:
            print(f'链接{url}数据不完整')

        以第一个详情页为例子展现输出结果:

        之后,我们可以根据结果存入MySQL数据库。

4、存入MySQL 数据库

4.1 创建相关表

        要存入数据库前,要根据字典的键创建相关表,之后才能存入表中。创建表可以在爬取数据之前创建,不需要每次循环创建一次。

        相关代码见 create_table() 函数,**mysql_local 用法见上一篇文章5.1 Ajax数据爬取之初介绍-CSDN博客 

def creat_table():
    conn = pymysql.connect(**mysql_local)
    cursor = conn.cursor()
    sql = ('CREATE TABLE IF NOT EXISTS movie(id INT AUTO_INCREMENT PRIMARY KEY,'
           'name VARCHAR(100) ,'
           'alias VARCHAR(100) ,'
           'cate VARCHAR(100) ,'
           'region VARCHAR(100) ,'
           'publish_time DATE,'
           'minute VARCHAR(100),'
           'score VARCHAR(100),'
           'drama TEXT)')    # 文本内容

    cursor.execute(sql)
    conn.close()

        sql语句创建表具体可见4.4 MySQL存储-CSDN博客

4.2 数据插入表中

        使用 insert_movie() 函数插入字典数据,具体解析可见4.4 MySQL存储-CSDN博客

def insert_movie(movie_dict):
    conn = pymysql.connect(**mysql_local)
    cursor = conn.cursor()
    keys = ','.join(movie_dict.keys())
    values = ','.join(['%s'] * len(movie_dict))
    sql = f'INSERT INTO movie({keys}) VALUES ({values})'
    # print(sql)
    # print(tuple(movie_dict.values()))
    cursor.execute(sql, tuple(movie_dict.values()))
    conn.commit()
    conn.close()

5、总代码与结果

import requests
import pymysql
from mysql_info import mysql_local


def creat_table():
    conn = pymysql.connect(**mysql_local)
    cursor = conn.cursor()
    sql = ('CREATE TABLE IF NOT EXISTS movie(id INT AUTO_INCREMENT PRIMARY KEY,'
           'name VARCHAR(100) ,'
           'alias VARCHAR(100) ,'
           'cate VARCHAR(100) ,'
           'region VARCHAR(100) ,'
           'publish_time DATE,'
           'minute VARCHAR(100),'
           'score VARCHAR(100),'
           'drama TEXT)')

    cursor.execute(sql)
    conn.close()


def insert_movie(movie_dict):
    conn = pymysql.connect(**mysql_local)
    cursor = conn.cursor()
    keys = ','.join(movie_dict.keys())
    values = ','.join(['%s'] * len(movie_dict))
    sql = f'INSERT INTO movie({keys}) VALUES ({values})'
    # print(sql)
    # print(tuple(movie_dict.values()))
    cursor.execute(sql, tuple(movie_dict.values()))
    conn.commit()
    conn.close()


def crawler(url):
    response = requests.get(url)
    content = response.text
    content = eval(content)

    # id = content['id']
    name = content['name']
    alias = content['alias']    # 外文名
    categories = content['categories']
    cate = ','.join(categories)
    regions = content['regions']
    region = ','.join(regions)
    publish_time = content['published_at']
    score = content['score']
    minute = content['minute']
    drama = content['drama']
    # print(name, alias, cate, region, publish_time, score, minute, drama)

    movie_dict = {
        # 'id': id,
        'name': name,
        'alias': alias,
        'cate': cate,
        'region': region,
        'publish_time':publish_time,
        'minute': minute,
        'score': score,
        'drama': drama
    }
    # print(movie_dict)
    insert_movie(movie_dict)


if __name__ == '__main__':
    creat_table()
    last = 100
    for i in range(1, last+1):
        url = f'https://spa1.scrape.center/api/movie/{i}/'
        try:
            crawler(url)
        except NameError:
            print(f'链接{url}数据不完整')

mysql数据库部分内容:

本人新手,若有错误,欢迎指正;若有疑问,欢迎讨论。若文章对你有用,点个小赞鼓励一下,谢谢,一起加油吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1470072.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在springboot中调用openai Api并实现流式响应

之前在《在springboot项目中调用openai API及我遇到的问题》这篇博客中,我实现了在springboot中调用openai接口,但是在这里的返回的信息是一次性全部返回的,如果返回的文字比较多,我们可能需要等很久。 所以需要考虑将请求接口响应…

LeetCode--代码详解 235.二叉搜索树得最近公共祖先

235.二叉搜索树得最近公共祖先 题目 给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个结点 p、q,最近公共祖先表示为一个结点 x,满足 x 是 p、q 的祖先且 x 的深度尽可…

【架构】面向人工智能 (AI) 的硬件的可靠性(2021)

由于激进的技术扩展,现代系统越来越容易受到可靠性威胁的影响,例如软错误、老化和工艺变化。这些威胁在硬件级别表现为位翻转,并且根据位置,可能会损坏输出,从而导致不准确或潜在的灾难性结果。 传统的缓解技术基于冗…

计算机网络Day03--物理层

信道复用技术 频分复用 时分复用 统计时分复用 频分复用(FDM) 最基本 将整个宽带分为多份,用户在分配到一定的频带后,在通信过程中自始至终都使用这个频带 所有的用户在同一时间占用不同的带宽资源,以并行的方式工…

一文带你彻底搞懂 Python 编程进阶之闭包

什么是闭包:在函数嵌套的情况下,内部的函数使用外部函数中的变量,并且外部函数返回了内部函数,我们将这个内部函数称之为闭包。 闭包是实现装饰器的基础,通过装饰器可以在不修改原函数代码的情况下增强其功能。 在Py…

JDK10新特性:探索Java10的编程新境界

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通鸿蒙》 …

nodejs+vue+ElementUi废品废弃资源回收系统

系统主要是以后台管理员管理为主。管理员需要先登录系统然后才可以使用本系统,管理员可以对系统用户管理、用户信息管理、回收站点管理、站点分类管理、站点分类管理、留言板管理、系统管理进行添加、查询、修改、删除,以保障废弃资源回收系统系统的正常…

异步框架Celery在Django中的运用

参考博客:https://www.cnblogs.com/pyedu/p/12461819.html 参考视频:01 celery的工作机制_哔哩哔哩_bilibili 定义:简单灵活、处理大量消息的分布式系统,专注于实时处理异步队列,支持任务调度 主要架构: …

YOLOv7基础 | 第2种方式:简化网络结构之yolov7.yaml(由104层简化为30层)

前言:Hello大家好,我是小哥谈。通过下载YOLOv7源码可知,原始的yolov7.yaml文件是拆开写的,比较混乱,也不好理解,并且为后续改进增添了很多困难。基于此种情况,笔者就给大家介绍一种将yolov7.yaml文件简化的方法,将104层简化为30层,并且参数量和计算量和原来是一致的,…

RK3568平台开发系列讲解(Linux系统篇)字符设备驱动:分配和注册字符设备

🚀返回专栏总目录 文章目录 一、分配和注册字符设备二、file_operations沉淀、分享、成长,让自己和他人都能有所收获!😄 一、分配和注册字符设备 字符设备在内核中表示为struct cdev的实例。在编写字符设备驱动程序时,目标是最终创建并注册与struct file_operations关联…

线程池的常用实现及执行流程

线程池 线程池线程池接口线程池参数线程池分类动态数目线程池固定数目线程池单例线程池任务调度线程池 线程池的执行流程 线程池 线程池接口 线程池参数 1、corePoolSize:核心线程数,线程池中最少线程,核心线程不会被回收。 2、maximumPoo…

Edting While Playing 瓦片地图编辑器开发整合导入自定义贴图 DEVC++ VS2022都可复制粘贴运行

接 多种类型图片模块读取-CSDN博客 与 Editing While Playing 使用 Easyx 开发的 RPG 地图编辑器 tilemap eaitor-CSDN博客 整合实现平面贴图纹理自定义 操作同上 导入步骤: 先运行程序,然后关闭,同目录下有四个文件夹, 把…

家政小程序有哪些功能 怎么制作

随着人们生活节奏的加快,家政服务变得越来越受到人们的青睐。为了提升家政服务的便捷性和高效性,家政小程序成为了越来越受欢迎的选择。下面具体介绍家政小程序有哪些功能,如何制作。 1. 展示家政服务 在小程序中,上传所有的家政…

Spring Cloud Alibaba - 利用Nacos实现高效动态线程池管理

文章目录 引言概述什么是动态线程池Nacos简介如何利用Nacos实现动态线程池管理应用场景Code版本说明POM配置文件Nacos Config配置文件加载顺序1. bootstrap.yml的加载2. application.yml的加载注意事项示例 nacos配置Data IdNacos中Data ID的命名格式解释${spring.application.…

力扣● 343. 整数拆分 ● 96.不同的二叉搜索树

● 343. 整数拆分 想不到,要勇于看题解。 关键在于理解递推公式。 1、DP数组及其下标的含义:dp[i]是分解i这个数得到的最大的乘积。 2、DP数组如何初始化:dp[0]和dp[1]都没意义,所以直接不赋值,初始化dp[2]1即可。…

maven 打包命令

Maven是基于项目对象模型(POM project object model),可以通过一小段描述信息(配置)来管理项目的构建,报告和文档的软件项目管理工具。 Maven的核心功能便是合理叙述项目间的依赖关系,通俗点讲,就是通过po…

【openGL教程08】基于C++的着色器(02)

LearnOpenGL - Shaders 一、说明 着色器是openGL渲染的重要内容,客户如果想自我实现渲染灵活性,可以用着色器进行编程,这种程序小脚本被传送到GPU的显卡内部,起到动态灵活的着色作用。 二、着色器简述 正如“Hello Triangle”一章…

单片机05__串口USART通信__按键控制向上位机传输字符串

串口USART通信 通用UART介绍 1.通信的概念 计算机与外界进行信息交换的过程称之为通信。 在通信的过程中,通信双方都需要遵守的规则称之为通信协议。 硬件协议:将数据以什么样的方式传输过去 软件协议:将数据以什么样的顺序传输过去 2.常用…

C#与VisionPro联合开发——跳转页面

1、跳转页面并打开相机 From1 所有代码展示 using System; using System.IO; using System.Windows.Forms; //引入VisionPro命名空间 using Cognex.VisionPro;namespace ConnectCamera {public partial class Form1 : Form {public Form1() {InitializeComponent();}CogAcqFif…

云原生之API网关Traefik

1. 前言 说到web服务的开源网关,我首先想到的是Nginx,最早使用的就是它,现在都还在使用它。系统上线了Docker Swarm集群之后,不继续使用Nginx直接做Docker服务的网关,是因为Nginx毕竟比Docker Swarm出现的早&#xff0…