数据采集:selenium 获取 CDN 厂家各省市节点 IP

news2025/1/25 9:12:46

写在前面


  • 工作需要遇到,简单整理
  • 理解不足小伙伴帮忙指正

对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的,是人的逃避方式,是对大众理想的懦弱回归,是随波逐流,是对内心的恐惧 ——赫尔曼·黑塞《德米安》


逻辑相对简单,主要通过 站长之家 https://cdn.chinaz.com/,获取全国省市的 CDN节点 IP 信息

采集流程:

  1. 获取CDN 厂家信息

在这里插入图片描述

  1. 跳转页面到指定的厂家,择需要获取的省份

在这里插入图片描述

  1. 获取当前页IP,循环处理分页数据

在这里插入图片描述

  1. 处理完当前省份,循环跳转其他省份处理
  2. 处理完当前厂家,循环处理其他厂家

代码:

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
"""
@File    :   cdn_data_dns.py
@Time    :   2023/08/21 21:46:47
@Author  :   Li Ruilong
@Version :   1.0
@Contact :   liruilonger@gmail.com
@Desc    :   省市CDN 节点IP数据获取
"""

# here put the import lib

from seleniumwire import webdriver
import json
import time
from selenium.webdriver.common.by import By
import pandas as pd
import re

ip_pattern = r"\b(?:\d{1,3}\.){3}\d{1,3}\b"

# 自动登陆
driver = webdriver.Chrome()
with open('C:\\Users\山河已无恙\\Documents\GitHub\\reptile_demo\\demo\\cookie.txt', 'r', encoding='u8') as f:
    cookies = json.load(f)

driver.get('https://cdn.chinaz.com/')
for cookie in cookies:
    driver.add_cookie(cookie)

driver.get('https://cdn.chinaz.com/')

time.sleep(6)
#CND 商家排行获取 https://cdn.chinaz.com/
CDN_Manufacturer = []
new_div_element = driver.find_element(By.CSS_SELECTOR, ".toplist-main")
div_elements = new_div_element.find_element(By.CSS_SELECTOR, ".ullist")
div_cdn = div_elements.find_elements(By.XPATH,"//a[contains(@href,'server')]")

#CDN_Manufacturer.extend(div_elements)

current_window_1 = driver.current_window_handle
for i,mdn_ms in enumerate(div_cdn):
    try:
        #driver.execute_script("arguments[0].click();", mdn_ms)
        ip_addresse = []
        print(mdn_ms.text)
    
        cloud_cdn_name = mdn_ms.text
        mdn_ms.click()
        time.sleep(2)
        driver.switch_to.window(driver.window_handles[-1])
        # 滚动到页面底部
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight/2)")
        time.sleep(5)
        areas_list =  ["安徽", "河北", "河南", "湖北", "湖南", "江西", "陕西", "山西", "四川", "重庆"]
        for a in areas_list:              
            areas =  driver.find_element(By.CSS_SELECTOR,"#areas")
            nmg =  areas.find_element(By.XPATH,"//a/font[contains(text(),'"+a+"')]")
            nmg.click()
            time.sleep(2)
            new_div_element = driver.find_element(By.CSS_SELECTOR, ".box")
            new_table_element = str(new_div_element.text).split("\n")
            ip_addresses = re.findall(ip_pattern, str(new_table_element))
            ip_addresse.extend(ip_addresses)

            if len(driver.find_elements(By.XPATH,"//a[contains(@title, '尾页')]")) < 2:
                #driver.close() 
                #driver.switch_to.window(current_window_1)
                ips = {}
                ips[cloud_cdn_name] = ip_addresse
                df = pd.DataFrame(ips)
                df.to_csv('CDN_M_省份_'+a +'_'+cloud_cdn_name+'.csv', index=False) 
                print("单页数据,数据已保存为CSV文件",'CDN_M_'+a +'_'+cloud_cdn_name+'.csv')  
                continue
            sum_page = driver.find_element(By.XPATH,"//a[contains(@title, '尾页')]")
            attribute_value = sum_page.get_attribute('val')
            print(attribute_value)
            current_window_2 = driver.current_window_handle
            for page in range(1,int(attribute_value)):
                try:
                    next_page = driver.find_element(By.XPATH,"//a[contains(@title, '下一页')]")
                    next_page.click()
                    time.sleep(5)
                    new_div_element = driver.find_element(By.CSS_SELECTOR, ".box")
                    new_table_element = str(new_div_element.text).split("\n")
                    ip_addresses = re.findall(ip_pattern, str(new_table_element))
                    ip_addresse.extend(ip_addresses)
                except:
                    print(a,cloud_cdn_name,"没有IP")
                    time.sleep(5)
                    pass
                    continue    
            ips = {}
            ips[cloud_cdn_name] = ip_addresse
            df = pd.DataFrame(ips)
            df.to_csv('CDN_M_省份_'+a+'_'+cloud_cdn_name+'.csv', index=False) 
            print("数据已保存为CSV文件",'  CDN_M_省份_'+a+'_'+cloud_cdn_name+'.csv')  
    except:
        print(cloud_cdn_name,"没有IP")
        pass
        continue
    finally:
        pass
        driver.close() 
        driver.switch_to.window(current_window_1)
        continue

博文部分内容参考

© 文中涉及参考链接内容版权归原作者所有,如有侵权请告知



© 2018-2023 liruilonger@gmail.com, All rights reserved. 保持署名-非商用-相同方式共享(CC BY-NC-SA 4.0)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/924313.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

nacos安装部署

docker下载安装&#xff08;双端口&#xff0c;支持seata使用&#xff09; 1、docker run --name nacos -e MODEstandalone -d -p 8848:8848 -p 9848:9848 -p 9849:9849 nacos/nacos-server 2、访问&#xff1a;http://localhost:8848/&#xff0c;账号密码nacos

山西电力市场日前价格预测【2023-08-25】

日前价格预测 预测明日&#xff08;2023-08-25&#xff09;山西电力市场全天平均日前电价为314.22元/MWh。其中&#xff0c;最高日前电价为336.17元/MWh&#xff0c;预计出现在18: 30。最低日前电价为283.05元/MWh&#xff0c;预计出现在24: 00。 价差方向预测 1&#xff1a; 实…

千呼万唤!字节首个大模型产品“豆包”面世公测,无需邀请码!

相较其他大厂&#xff0c;字节跳动在大模型领域的进展一直比较神秘&#xff0c;最近相关项目终于露出了冰山一角。 字节跳动旗下首个AI对话产品“豆包”目前已经上线&#xff0c;面向公众开始测试&#xff0c;无需邀请码&#xff0c;直接可以在官网&#xff08;https://www.do…

Mysql 设置表字段自动赋值创建时间,以及自动更新某一个字段的更新时间

使用场景 一般表设计中记录都有创建时间以及更新时间&#xff0c;而 Mysql 也支持了这种通用的设计需求。 即&#xff1a;可以通过默认值来给时间字段自动赋值&#xff0c;在创建时的默认值就是当前时间也就是记录的创建时间。 记录更新&#xff1a;即某一记录更新时我们要更…

骨传导耳机适合运动时佩戴吗?精选五款适合运动时佩戴的耳机

当专业运动耳机已经成了运动新贵们的常用穿戴拍档&#xff0c;给夜跑、骑行、撸铁增添了更多期待和振奋。而骨传导耳机凭借自身健康、舒适、安全的聆听方式,迅速脱颖而出成为运动健身中最健康的黑科技耳机&#xff0c;但由于市面上的骨传导耳机技术参差不齐&#xff0c;一不留神…

解决生僻字,中兴新支点操作系统通过GB 18030-2022《中文编码字符集》认证

您认识上图中的这个字吗&#xff1f; 上面一个“鸟”&#xff0c;下面一个“甲”&#xff0c;这个字读“nia&#xff08;四声&#xff09;”。它是云南丽江傈僳族中一支氏族的姓氏。这个氏族以鸟为图腾。因信息系统中无法输入显示“nia”字&#xff0c;氏族里近700人不得不妥协…

springboot使用properties

一、方式1&#xff1a; 1.1.配置类&#xff1a; package cn.zyq.stater.config;import cn.zyq.stater.bean.User4; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.beans.factory.annotation.Value; import org.springframework…

C语言实现基于数组的环形缓冲队列

背景 在C语言编程场景中&#xff0c;常常需要对一段不定长数据进行缓存。这里提出一种基于数组的环形缓冲队列&#xff0c;解决上述场景的问题。 原理 如下图所示&#xff0c;首先定义数据长度为buf[8]&#xff0c;初始化指针为in/out 其中in为缓冲数据的输入指针 out为缓…

智慧党建VR虚拟3D数字化展厅发展和传承传统文化

三维全景虚拟现实技术应用在虚拟展馆中&#xff0c;主要是通过全景照片的虚拟与建模&#xff0c;营造出三维虚拟仿真的场景&#xff0c;从而结合展馆展示的需求&#xff0c;营造出更加有效的氛围&#xff0c;起到优化展示效果的作用。 三维全景虚拟现实技术的应用&#xff0c;能…

记录:yolov8训练自己的数据集

一、LabelImg标注自己的原图数据集 .xml标注格式 二、带标签的数据增强 先将原始数据&#xff08;图片&#xff0c;标注&#xff09;转移到项目根目录&#xff0c;然后再数据增强&#xff0c;避免标注内容路径错误。 亮度变换加旋转 # 一、亮度 img_dir multi/images # 原始…

科研论文配图绘制指南——基于Python—第二章2.seaborn

目录 第二章2.2 Seaborn2.2.2 多子图网格型图2.2.3 绘图风格、颜色主题和绘图元素缩放比例 第二章 2.2 Seaborn Seaborn是Python中一个非常受用户欢迎的可视化库。Seaborn 在 Matplotlib 的基础上进行了更加高级的封装&#xff0c;用户能够使用极少的代码绘制出拥有丰富统计信…

线程的生命周期详解

一个线程的生命周期有6个阶段&#xff1a; 新建&#xff0c;是刚使用new方法&#xff0c;new出来的线程&#xff1b;就绪&#xff0c;是调用的线程的start()方法后&#xff0c;这时候线程处于等待CPU分配资源阶段&#xff1b;运行&#xff0c;当就绪的线程被调度并获得CPU资源时…

【第三阶段】kotlin语言的内置函数takeif

package Stage3fun main() {println(checkPermission("root","123")) }//检查校验 //username.takeif{true/false} true:返回username本身 false:返回nullfun checkPermission(userame:String,pwd:String):String{return userame.takeIf { permissionSy…

linux————Keepalived—web双机热备

一、概述 Keepalived 是一个基于 VRRP 协议来实现的 LVS 服务高可用方案&#xff0c;可以解决静态路由出现的单点故障问题。 原理 在一个 LVS 服务集群中通常有主服务器&#xff08;MASTER&#xff09;和备份服务器&#xff08;BACKUP&#xff09;两种角色的服务器&#xff0c…

线索二叉树——找前驱、后继

前言 一个二叉树被线索化之后&#xff0c;一个节点的前驱或后继会存在两种情况&#xff0c; 1、tag1&#xff0c;有明确的线索化前驱或后继&#xff0c; 2、tag0&#xff0c;只存在左右孩子&#xff0c;但是没用明确的线索化前驱后继&#xff0c;需要分析 //线索二叉树结点定义…

类的加载过程三:initialization

1、类的加载初始化 初始化阶段就是执行类构造器方法<clinit>()的过程。此方法不需要定义&#xff0c;是javac编译器自动收集类中的所有 类变量 的赋值动作和 静态代码块 中的语句合并而来。 构造器方法中指令按语句在源文件中出现的顺序执行。 package com.jvm.java;pub…

SpringIoC组件的高级特性

目录 一、Bean组件的周期与作用域 二、FactoryBean接口 一、Bean组件的周期与作用域 1.1 Bean组件的生命周期 什么是Bean的周期方法 我们可以在组件类中定义方法&#xff0c;然后当IoC容器实例化和销毁组件对象的时候进行调用&#xff01;这两个方法我们成为生命周期方法&a…

并行矩阵乘法(C++ mpi 并行实现)

矩阵乘法有2种思路&#xff0c;我最先想到的是第一种思路&#xff0c;但是时间、空间复杂度都比较高。后面参考了一些资料&#xff0c;实现了第二种思路。 一、思路1&#xff1a;按行、列分块 矩阵乘法有一个很好的性质&#xff0c;就是结果矩阵的每个元素是不互相依赖的&…

如何快速开发一个软件?这篇文章讲明白了

在当今快节奏的数字化世界中&#xff0c;软件开发已成为企业和个人必不可少的一环。然而&#xff0c;传统的软件开发流程往往耗时费力&#xff0c;需要大量的编码和测试工作。幸运的是&#xff0c;现代技术已经带来了许多创新的方式来加速软件开发过程。其中&#xff0c;利用简…

使用ChatGPT创造商业价值变现的思路 | 纯分享

​ 谷歌的Bard和OpenAI的ChatGPT等人工智能工具风靡全球。尽管关于AI如何以及是否应该被广泛使用&#xff0c;甚至关于它们是否真正具有“智能”这一说法&#xff0c;仍存在许多争议和激烈的讨论&#xff0c;但是这些工具早已潜移默化地出现在我们身边。 最大的原因之一在于这…