Pymysql将爬取到的信息存储到数据库中

news2026/3/25 9:05:54

爬取平台为电影天堂

获取到的数据仅为测试学习而用

爬取内容为电影名和电影的下载地址

创建表时需要建立三个字段即可

import urllib.request
import re
import pymysql


def film_exists(film_name, film_link):
    """判断插入的数据是否已经存在"""
    sql = "select id from movie_link where film_name=%s and film_link=%s limit 1"
    result_num = my_cur.execute(sql, [film_name, film_link])
    # 使用sql语句查询获取到的电影名和下载地址，如果查询到有一条数据就表示数据已经存在，返回True
    if result_num:
        return True
    else:
        return False


def create_date_table():
    """创建数据库和数据表"""
    # 查看数据库是否存在，存在不创建，继续创建数据表。不存在创建，并创建表。
    exits = my_cur.execute("SHOW DATABASES LIKE 'movie_db';")
    if not exits:
        my_cur.execute("create database movie_db charset=utf8;")
        print("数据库建立成功")
        my_cur.execute("use movie_db;")
        my_cur.execute("""create table if not exists movie_link(id int(11) primary key auto_increment,
        film_name varchar(255) not null,
        film_link varchar(255) not null
        )charset=utf8;""")
        print("数据表建立成功")
    else:
        print("数据库已经存在，继续创建数据表")
        my_cur.execute("use movie_db;")
        my_cur.execute("""create table if not exists movie_link(id int(11) primary key auto_increment,
                film_name varchar(255) not null,
                film_link varchar(255) not null
                )charset=utf8;""")
        print("数据表建立成功")


def add_films(film_name, film_link):
    """向数据表中插入数据"""
    sql = "insert into movie_link values (null,%s,%s);"
    result_insert = my_cur.execute(sql, [film_name, film_link])
    # 如果插入成功返回值应该为影响的行数，不为零就代表插入成功
    if result_insert:
        print("插入成功:", film_name)


def down_view():
    # 打开网页
    respon_data = urllib.request.urlopen("https://dy2018.com/0/")
    # 解码
    respon_decode = respon_data.read().decode("gbk")
    # 正则表达式获取下载页面网址
    films_data = re.findall(r"<a href=\"(.*)\" class=\"ulink\" title=\"(.*)\">", respon_decode)
    # 创建字典存储当前页的电影名和下载页面网址
    films_dict = {}
    count = 1
    # 将电影名和下载页网址从列表中拆包
    for films_url, films_name in films_data:
        # 拼接下载页面网站
        films_url = "https://www.dy2018.com/" + films_url
        # 打开下载页面
        respon_films_data = urllib.request.urlopen(films_url)
        # 解码
        respon_deown = respon_films_data.read().decode("gbk")
        # 使用正则提取下载地址
        down_url = re.search(r">(magnet:.*\.mp4)</a>", respon_deown)
        # 将电影名和下载地址存入字典
        films_dict[films_name] = down_url.group(1)
        print("已爬取第%s个资源" % count)
        count += 1
    return films_dict


def main():
    # 爬取信息并用字典介接收
    down_dict = down_view()
    # 创建数据库和数据表
    create_date_table()
    my_cur.execute("use movie_db;")
    # 将字典中的数据遍历取出，进行判断、添加
    for film_name, film_link in down_dict.items():
        if film_exists(film_name, film_link):
            print("电影[%s]保存失败" % film_name)
            continue
        add_films(film_name, film_link)


if __name__ == '__main__':
    # 建立连接
    my_sql = pymysql.connect(host="localhost", user="root", password="123456")
    # 创建游标对象
    my_cur = my_sql.cursor()
    main()
    # 一定要提交，否则数据不会被保存
    my_sql.commit()
    my_cur.close()
    my_sql.close()

将数据库中的数据当作固定页面返回

import socket
import pymysql


def request_headler(new_client_socket, ip_port):
    request_data = new_client_socket.recv(1024).decode()
    # 接收客户端浏览器发送的请求
    # 判断协议是否为空
    if not request_data:
        print("%s用户已下线" % str(ip_port))
        new_client_socket.close()
        return
    # 拼接响应的报文
    # 响应行
    respon_line = "HTTP/1.1 200 OK\r\n"
    # 响应头
    respon_header = "Server:Python\r\n"
    respon_header += "Content-Type:text/html; charset=utf-8\r\n"
    # 响应空行
    respon_blank = "\r\n"
    # 响应主体
    respon_body=""
    result = my_cur.execute("select * from movie_link;")
    result_data = my_cur.fetchall()
    for data in result_data:
        respon_body += ("%s、%s   <a href=%s>%s</a><br>" % (data[0], data[1], data[2],data[2]))
    # 发送响应报文

    respon_data = (respon_line + respon_header + respon_blank + respon_body).encode()
    new_client_socket.send(respon_data)


def main():
    # 创建套接字
    tcp_sderver_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    # 设置端口重用、
    tcp_sderver_socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, True)
    # 绑定端口
    tcp_sderver_socket.bind(("", 8080))
    # 设置监听，让套接字由主动变为被动接收
    tcp_sderver_socket.listen(128)
    # 接受客户端的请求  定义函数request_handler()
    while True:
        new_client_socket, ip_port = tcp_sderver_socket.accept()
        print("新用户%s来了" % str(ip_port))
        request_headler(new_client_socket, ip_port)
    # 关闭操作


if __name__ == "__main__":
    my_db = pymysql.connect(host="localhost", user="root", password="123456", database="movie_db")
    my_cur = my_db.cursor()
    main()
    my_cur.close()
    my_db.close()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1426529.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！