python-爬虫作业

news2024/11/21 1:24:18

 

# -*- coding:utf-8 -*-
'''
@Author: 董咚咚
@contact: 2648633809@qq.com
@Time: 2023/7/31 17:02
@version: 1.0
'''
import requests
import re

import xlwt
from bs4 import BeautifulSoup

url = "https://www.dygod.net/html/gndy/dyzz/"
hd = {
    'user-Agent':'Mozilla/4.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}

#linkurl = "https://www.dygod.net/html/gndy/dyzz/20230712/120036.html"
def getmanget(linkurl):
    res = requests.get(linkurl)
    res.encoding = res.apparent_encoding
    soup = BeautifulSoup(res.text,"html.parser")
    ret = soup.find_all("a")
    for n in ret:
        if "magnet" in str(n.string):
            return n.string
    return None

def insertDB():
    pass

def saveExcel(worksheet,count,lst):
    for i in range(6):
        worksheet.write(count,i,lst[i])

#代码正式开始
count = 0   #记录爬取电影的数量,每爬取一次,就在下面的列表里面添加一次
total = []   #用来储存记录信息的列表
workbook = xlwt.Workbook(encoding="utf-8")
worksheet = workbook.add_sheet('sheet1')

for i in range(2,3):   #页面数量,就是从第二页到第八页,页数可以自己测试
    url = "https://www.dygod.net/html/gndy/dyzz/index_"+str(i)+".html"
    #print(url)   #用来测试所爬取的网站是否有效
    res = requests.get(url,headers=hd)
    res.encoding = res.apparent_encoding
    #print(res.text)    #获取相关和列表

    soup = BeautifulSoup(res.text,"html.parser")
    #print(soup.title,type(soup.title))   #查看电影的名字
    ret = soup.find_all(class_="tbspan",style = "margin-top:6px") #此内容都可以用Fn+F12查看,找到所有电影的表格
    for x in ret:   #遍历每个电影的表格
        info = []
        #print(x.find("a").string)   #打印除a标签的内容,即电影的名称
        info.append(x.find("a").string)
        pat = re.compile(r"◎译  名(.*)\n")
        ret = re.findall(pat,str(x))
        for n in ret:
            n = n.replace(u'\u3000',u'')    #查看电影译名
            print("◎译  名:",n)
            info.append(str(n).split("/")[0])

        pat = re.compile(r"◎年  代(.*)\n")
        ret = re.findall(pat,str(x))
        for n in ret:
            n = n.replace(u'\u3000',u'')
            print("◎年  代:",n)  #打印出相关的年代
            info.append(str(n))

        pat = re.compile(r"◎片  名(.*)\n")
        ret = re.findall(pat,str(x))
        for n in ret:
            n = n.replace(u'\u3000', u'')
            print("◎片  名:",n)   #打印出相关的片名
            info.append(str(n).split("/")[0])

        pat = re.compile(r"◎产  地(.*)\n")
        ret = re.findall(pat,str(x))
        for n in ret:
            n = n.replace(u'\u3000', u'')
            print("◎产  地:",n)   #打印出相关的片名
            info.append(str(n).split("/")[0])

        pat = re.compile(r"◎类  别(.*)\n")
        ret = re.findall(pat,str(x))
        for n in ret:
            n = n.replace(u'\u3000', u'')
            print("◎类  别:",n)   #打印出相关的片名
            info.append(str(n).split("/")[0])

        pat = re.compile(r"◎字  幕(.*)\n")
        ret = re.findall(pat,str(x))
        for n in ret:
            n = n.replace(u'\u3000', u'')
            print("◎字  幕:",n)   #打印出相关的片名
            info.append(str(n).split("/")[0])

        pat = re.compile(r"◎上映日期(.*)\n")
        ret = re.findall(pat,str(x))
        for n in ret:
            n = n.replace(u'\u3000', u'')
            print("◎上映日期:",n)   #打印出相关的片名
            info.append(str(n).split("/")[0])

        linkurl = "https://www.dygod.net/" + x.find("a").get("href")
        manget = getmanget(linkurl)
        if manget:
            print("下载地址:",manget)
            info.append(str(manget))

        print(count,info)
        saveExcel(worksheet,count,info)
        count+=1
        print("="*150)  #将列表转换成百分比的形式

workbook.save("movie.xls")
print(count)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/830189.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

项目管理困扰?这里有个6W3H解决方案

引言 在项目管理的过程中,我们经常面临各种各样的挑战和问题。例如,如何确定项目的目标?如何分配资源?何时开始执行项目?在哪里进行项目?这些问题如果没有得到正确的解答,将会严重影响项目的进…

LAXCUS:私域部署的DataBricks

随着大数据技术的不断发展,越来越多的企业开始关注数据的价值和应用。Databricks作为一家开源的大数据平台,为企业提供了强大的数据分析和处理能力。然而,传统的Databricks部署方式存在一定的局限性,比如需要依赖于云服务提供商的…

go 语言实战入门案例之猜数字

文章和代码已经归档至【Github仓库:https://github.com/timerring/backend-tutorial 】或者公众号【AIShareLab】回复 go 也可获取。 猜数字 第一个例子里面,我们会使用 Golang 来构建一个猜数字游戏。 在这个游戏里面,程序首先会生成一个介…

如何在群晖NAS中使用cpolar内网穿透

如何在群晖nas中使用cpolar内网穿透 文章目录 如何在群晖nas中使用cpolar内网穿透 今天,我们来为大家介绍,如何在群晖系统中,使用图形化界面的cpolar。 cpolar经过图形化改造后,使用方法已经简便了很多,基本与其他应用…

如何正确使用 ThreadLocal,你真的用对了吗? | 京东云技术团队

引言: 当多线程访问共享且可变的数据时,涉及到线程间同步的问题,并不是所有时候,都要用到共享数据,所以就需要ThreadLocal出场了。 ThreadLocal又称线程本地变量,使用其能够将数据封闭在各自的线程中&…

振弦传感器信号转换器应用山体滑坡安全监测

振弦传感器信号转换器应用山体滑坡安全监测 随着人类文明的进步,自然灾害对人们的生活和财产安全造成的威胁也越来越大。山体滑坡作为自然灾害中的一种,给人们的生活和财产安全带来了极大的威胁。因此,进行山体滑坡的安全监测显得尤为重要。振…

Vue2:基础入门2

Vue2:基础入门2 Date: July 29, 2023 Sum: Computed计算属性、watch侦听器、水果车 计算属性 基础及案例: 概念: 基于现有的数据,计算出来的新属性。 依赖的数据变化,自动重新计算。 计算属性本质上就是一个 func…

C语言中的常量

整型常量 常量是指在程序运行期间其数值不发生变化的数据。整型常量通常简称为整数。 整数可以是十进制数、八进制数和十六进制数。例如,十进制的数值3356可以有下列二种不同的表示形式: 八进制数 06434十六进制数 0xd1c Tip:当我们判断十六进制或八进…

【JavaEE初阶】博客系统后端

文章目录 一. 创建项目 引入依赖二. 设计数据库三. 编写数据库代码四. 创建实体类五. 封装数据库的增删查改六. 具体功能书写1. 博客列表页2. 博客详情页3. 博客登录页4. 检测登录状态5. 实现显示用户信息的功能6. 退出登录状态7. 发布博客 一. 创建项目 引入依赖 创建blog_sy…

Qt编写自定义控件:自定义表头实现左右两端上部分圆角

如上图,左上角和右上角凸出来了。设置表格圆角和表头圆角和QHeaderView::section圆角都不管用。解决此问题需要重写QHeaderView的paintSection()函数: class CustomHeaderView : public QHeaderView { public:explicit CustomHeaderView(Qt::Orientati…

使用toad库进行机器学习评分卡全流程

1 加载数据 导入模块 import pandas as pd from sklearn.metrics import roc_auc_score,roc_curve,auc from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression import numpy as np import math import xgboost as xgb …

Layui实现OA会议系统之会议管理模块总合

目录 一、项目背景 二、项目概述 1. 概述 2. 环境搭建 3. 工具类引用 4. 功能设计 4.1 会议发布 4.2 我的会议 4.3 会议审批 4.4 会议通知 4.5 待开会议 4.6 历史会议 4.7 所有会议 5. 性能优点 5.1 兼容性好 5.2 可维护性和可扩展性 5.3 轻量灵活 5.4 模块化设计…

C++ 第六弹 STL

目录 1.什么是stl 2.六大组件-容器-序列式容器-C98 string 3.六大组件-容器-序列式容器-C98 vector 4.六大组件-容器-序列式容器-C98 list 5.六大组件-容器-序列式容器-C98 deque 6.六大组件-容器-序列式容器-C11 array 7.六大组件-容器-序列式容器-C11 forward_list 8…

Kaggle狗图像分类实战

文章目录 Kaggle狗图像分类实战d2l安装问题python语法学习os.path.joind2l 数据加载streamlit Kaggle狗图像分类实战 d2l安装问题 d2l安装失败,报错如上图 去下面的网站下载到该项目文件目录下再pip install即可 Python d2l项目安装包(第三方库)下载详情页面 - …

若依打印sql

官方issue 自动生成的代码,sql日志怎么没有打印 在ruoyi-admin中的application.yml配置如下。 # 日志配置,默认 logging:level:com.ruoyi: debugorg.springframework: warn#添加配置com.ying: debug输出sql

java 分支控制语句

在程序中,程序运行的流程控制决定程序是如何执行的。 顺序控制 介绍: 程序从上到下的逐行的执行,中间没有任何判断和跳转。 使用:java中定义变量时,采用合法的前向引用。如: public class Test{int num…

成都链安:7月区块链安全事件爆发式增长,导致损失超4.11亿美元

7月,各类安全事件数量及造成的损失较6月爆发式增长。7月发生较典型安全事件超36起,各类安全事件造成的损失总金额约4.11亿美元(虚拟货币案件涉案金额除外),较6月上涨约321%。Rug Pull导致损失约2065万美元,…

【linux基础(三)】Linux基本指令(下)

💓博主CSDN主页:杭电码农-NEO💓   ⏩专栏分类:Linux从入门到开通⏪   🚚代码仓库:NEO的学习日记🚚   🌹关注我🫵带你学更多操作系统知识   🔝🔝 Linux基本指令 1. 前言2. 取头…

HTML 是什么?它的全称是什么?

聚沙成塔每天进步一点点 专栏简介HTML是什么?HTML的全称是什么?写在最后 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅!这个专栏是为那些对We…

VMware ESXI虚拟网络和物理网络的对接

探讨VMware ESXI虚拟网络和物理网络的对接 前提: 在上篇搭建了ESXI 6.7,那和VMware Workstation一样想要创建虚拟机前提就必须先创建网络。没有网络连最基本的通信都没有,那肯定不行。所以我们解析要研究一下ESXI的网络。 物理连接模式&am…