网络爬虫的实战项目:使用JavaScript和Axios爬取Reddit视频并进行数据分析

news2025/1/24 2:24:11

亿牛云代理.png

概述

网络爬虫是一种程序或脚本,用于自动从网页中提取数据。网络爬虫的应用场景非常广泛,例如搜索引擎、数据挖掘、舆情分析等。本文将介绍如何使用JavaScript和Axios这两个工具,实现一个网络爬虫的实战项目,即从Reddit这个社交媒体平台上爬取视频,并进行数据分析。本文的目的是帮助读者了解网络爬虫的基本原理和步骤,以及如何使用代理IP技术,避免被目标网站封禁。

正文

1. JavaScript和Axios简介

JavaScript是一种编程语言,主要用于网页开发,可以在浏览器中执行各种动态效果和交互功能。JavaScript也可以在服务器端运行,例如使用Node.js这个平台,可以实现网络爬虫等任务。Axios是一个JavaScript库,用于执行HTTP请求,通常用于网络爬虫。Axios的优点是支持Promise,可以方便地处理异步操作,以及拦截请求和响应,添加自定义逻辑。Axios的安装和使用非常简单,只需要在Node.js中执行以下命令:

// 安装Axios
npm install axios

// 引入Axios
const axios = require('axios')

2. Reddit简介

Reddit是一个社交媒体平台,包含各种类型的内容,包括视频。Reddit的视频有两种来源,一种是直接上传到Reddit的视频,另一种是来自其他网站的视频链接,例如YouTube。Reddit的视频可以按照不同的主题(称为subreddit)进行分类,例如r/videos、r/funny、r/gaming等。Reddit的视频也可以按照不同的排序方式进行浏览,例如热门(hot)、最新(new)、最佳(top)等。Reddit的视频的URL格式如下:

https://www.reddit.com/r/[subreddit]/[sort]/.json

其中,[subreddit]是视频的主题,[sort]是视频的排序方式。例如,以下URL是r/videos主题下的热门视频:

https://www.reddit.com/r/videos/hot/.json

3. 爬取Reddit视频的步骤

爬取Reddit视频的步骤如下:

  • 定义目标URL,即要爬取的视频的主题和排序方式
  • 使用Axios发送GET请求,获取目标URL的JSON数据
  • 解析JSON数据,提取视频的标题、作者、得分、评论数、时长、文件或链接等信息
  • 判断视频的来源,如果是直接上传到Reddit的视频,直接下载视频文件;如果是来自其他网站的视频链接,使用第三方工具或API,获取视频文件或链接
  • 保存视频文件或链接到本地或数据库
  • 对视频数据进行分析,例如统计视频的数量、平均得分、平均评论数、平均时长等指标,或者使用图表、词云等方式,可视化视频数据

4. 爬取Reddit视频的代码

以下是使用JavaScript和Axios爬取Reddit视频的代码,代码中使用了代理IP技术,以防止被目标网站封禁。代理IP技术的原理是通过第三方服务商,提供一系列的IP地址,让网络爬虫每次请求时,使用不同的IP地址,从而隐藏真实的IP地址。本文使用了爬虫代理的域名、端口、用户名、密码,作为代理IP的示例,读者可以根据自己的需要,选择其他的代理IP服务商。

// 引入Axios
const axios = require('axios')

// 定义目标URL,这里以r/videos主题下的热门视频为例
const targetURL = 'https://www.reddit.com/r/videos/hot/.json'

// 定义代理IP的域名、端口、用户名、密码,这里以亿牛云爬虫代理为例
const proxyHost = 'www.16yun.cn'
const proxyPort = '9020'
const proxyUser = '16YUN'
const proxyPass = '16IP'

// 定义代理IP的认证信息,使用Base64编码
const proxyAuth = 'Basic ' + Buffer.from(proxyUser + ':' + proxyPass).toString('base64')

// 定义Axios的配置对象,设置代理IP的相关参数
const axiosConfig = {
  proxy: {
    host: proxyHost,
    port: proxyPort
  },
  headers: {
    Proxy-Authorization: proxyAuth
  }
}

// 使用Axios发送GET请求,获取目标URL的JSON数据
axios.get(targetURL, axiosConfig)
  .then(response => {
    // 如果请求成功,解析JSON数据
    const data = response.data
    // 提取视频列表
    const videos = data.data.children
    // 遍历视频列表
    for (let video of videos) {
      // 提取视频的标题、作者、得分、评论数、时长、文件或链接等信息
      const title = video.data.title
      const author = video.data.author
      const score = video.data.score
      const comments = video.data.num_comments
      const duration = video.data.media ? video.data.media.reddit_video.duration : null
      const file = video.data.media ? video.data.media.reddit_video.fallback_url : null
      const link = video.data.url
      // 打印视频信息
      console.log(`标题:${title}`)
      console.log(`作者:${author}`)
      console.log(`得分:${score}`)
      console.log(`评论数:${comments}`)
      console.log(`时长:${duration}`)
      console.log(`文件:${file}`)
      console.log(`链接:${link}`)
      console.log('----------------------')
      // 判断视频的来源,如果是直接上传到Reddit的视频,直接下载视频文件;如果是来自其他网站的视频链接,使用第三方工具或API,获取视频文件或链接
      // 这里省略具体的下载或获取视频的代码,读者可以根据自己的需要,实现相应的功能
      // 保存视频文件或链接到本地或数据库
      // 这里省略具体的保存视频的代码,读者可以根据自己的需要,实现相应的功能
    }
    // 对视频数据进行分析,例如统计视频的数量、平均得分、平均评论数、平均时长等指标,或者使用图表、词云等方式,可视化视频数据
    // 这里省略具体的分析视频的代码,读者可以根据自己的需要,实现相应的功能
  })
  .catch(error => {
    // 如果请求失败,打印错误信息
    console.error(error)
  })

结语

本文介绍了如何使用JavaScript和Axios这两个工具,实现一个网络爬虫的实战项目,即从Reddit这个社交媒体平台上爬取视频,并进行数据分析。本文的目的是帮助读者了解网络爬虫的基本原理和步骤,以及如何使用代理IP技术,避免被目标网站封禁。本文的代码仅供参考,读者可以根据自己的需要,修改或扩展代码,实现更多的功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1176765.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C# winform 定时器

1.加入Timer using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.IO; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms;namespace Te…

Linux实现进度条小程序(包含基础版本和模拟下载过程版本)

Linux实现进度条小程序[包含基础版本和模拟下载过程版本] Linux实现进度条小程序1.预备的两个小知识1.缓冲区1.缓冲区概念的引出2.缓冲区的概念 2.回车与换行1.小例子2.倒计时小程序 2.基础版进度条1.的回车方式的打印2.百分比的打印3.状态提示符的打印 3.升级版进度条1.设计:进…

一题都看不懂,大厂的面试是真的变态......

最近我的一个读者朋友去了字节面试,来给我发信息吐槽,说字节的面试太困难了,像他这种三年经验的测试员,在技术面,居然一题都答不上来,这要多高的水平才能有资格去面试字节的测试岗位。 确实,字…

nacos的部署与配置中心

文章目录 一、nacos部署安装的方式单机模式:集群模式:多集群模式: 二、安装的步骤1、预备环境准备2、载安装包以及安装2.1、Nacos有以下两种安装方式:2.2、更换数据源数据源切换为MySQL 2.3、开启控制台授权登录(可选) 3、配置中心的使用3.1、创建配置信…

星戈瑞Sulfo Cy3-COOH生物学有那些常见应用呢?

Sulfo Cy3-COOH(磺酸基花青3羧酸)(来自星戈瑞的花菁染料)是一种常用的荧光标记物,应用于生物学研究中,其常见应用包括但不限于以下几个领域: 1.免疫荧光染色:Sulfo Cy3-COOH通常用于标记抗体,用…

《进化优化》第7章 遗传规划

文章目录 7.1 LISP: 遗传规划的语言Lisp程序的交叉 7.2 遗传规划的基础7.2.1 适应度的度量7.2.2 终止准则7.2.3 终止集合7.2.4 函数集合7.2.5 初始化7.2.6 遗传规划的参数 7.3 最短时间控制的遗传规划7.4 遗传规划的膨胀7.5 演化实体而非计算机程序7.6 遗传规划的数学分析 遗传…

使用Selenium Grid远程执行测试

我们将在同一台工作电脑上,分别启动主控(Hub)和节点(Node)2个Selenium Grid服务,IP地址均使用环回地址127.0.0.1,端口分别为4444和5555。开始以下操作前,请确认你的机器上已经安装、…

VERT2450 Antenna

VERT2450 Vertical Antenna (2.4-2.5 and 4.9-5.9 GHz) Dualband Includes one VERT2450 Dual Band 2.4 to 2.48 GHz and 4.9 to 5.9 GHz omni-directional vertical antenna, at 3dBi Gain.

GPT-4V:AI在医疗领域的应用

OpenAI最新发布的GPT-4V模型为ChatGPT增添了语音和图像功能,为用户提供了更多在日常生活中使用ChatGPT的方式。这次更新将为用户带来更加便捷、直观的交互体验,用户可以直接通过拍照上传图片,并提出相关问题。OpenAI的最终目标是构建一个安全…

数据库多数据组合 取别名,某项多项数据为null,导致整个结果为null,SQLSERVER,MYSQL

最近遇到一个通过查多项数据,并且组合拼接展示的场景, 发现所有数据单查都没问题,唯独含有一个或多个结果是null的拼接结果出了问题 简单的demo如下: 此时我们可以看到拼接的结果返回[null],我们想要的是即使是null也拼接进去获取其他展示情况我们视需求开发而定, 比如我现在…

阿里云python训练营-Python基础学习01

基础知识 a "hello" b "hello" print(a is b, a b) # True True print(a is not b, a ! b) # False False a ["hello"] b ["hello"] print(a is b, a b) # False True print(a is not b, a ! b) # True False 注意&#xff1a…

Java 设计模式——外观模式

目录 1.概述2.结构3.实现3.1.子系统类3.2.外观类3.3.测试 4.优缺点5.使用场景6.源码解析 1.概述 (1)有些人可能炒过股票,但其实大部分人都不太懂,这种没有足够了解证券知识的情况下做股票是很容易亏钱的,刚开始炒股肯…

2023测试开发常见面试题

1. 什么是软件测试, 谈谈你对软件测试的了解 软件测试就是验证产品特性是否符合用户需求, 软件测试贯穿于软件的整个生命周期. >>> 那软件测试具体是什么呢 ? 就拿生活中的例子来说, 比如说我们去商场买衣服, 会有以下几个步骤: 第一步:…

leetcode:189. 轮转数组(python3解法)

难度:中等 给定一个整数数组 nums,将数组中的元素向右轮转 k 个位置,其中 k 是非负数。 示例 1: 输入: nums [1,2,3,4,5,6,7], k 3 输出: [5,6,7,1,2,3,4]解释: 向右轮转 1 步: [7,1,2,3,4,5,6] 向右轮转 2 步: [6,7,1,2,3,4,5] 向右轮转 3…

Spring @Value注解读取yml配置文件中的list和map

配置文件 myConfig:userList: 张三,李四userMap: {"张三":"10","李四":"20"} 读取代码 Value("${myConfig.userList}")private List<String> userList;Value("#{${myConfig.userMap}}")private Map<S…

数据结构线性表——单链表

前言&#xff1a;小伙伴们又见面啦&#xff0c;这篇文章我们来一起学习线性表的第二模块——单链表。 单链表的学习就要开始上强度啦&#xff0c;小伙伴们一定要努力&#xff0c;坚持&#xff01; 目录 一.什么是单链表 二.单链表与顺序表的区别 三.单链表的实现 1.单链表…

如何使用Node.js快速创建HTTP服务器并实现公网访问本地Server

文章目录 前言1.安装Node.js环境2.创建node.js服务3. 访问node.js 服务4.内网穿透4.1 安装配置cpolar内网穿透4.2 创建隧道映射本地端口 5.固定公网地址 前言 Node.js 是能够在服务器端运行 JavaScript 的开放源代码、跨平台运行环境。Node.js 由 OpenJS Foundation&#xff0…

11月起,33个省份纳入数电票开票试点范围内,发票无纸化已是大势所趋!

10月底&#xff0c;北京、贵州、山东&#xff08;不含青岛市&#xff09;、湖南、宁夏5个地区相继发布开展数电票试点工作的通知&#xff0c;至此&#xff0c;全国已有33个省份纳入数电票开票试点范围内。根据上述5地区发布的相关公告&#xff0c;11月1日将正式推行“数电票”开…

Java-认识类和对象

本章重点&#xff1a; 1. 掌握类的定义方式以及对象的实例化 2. 掌握类中的成员变量和成员方法的使用 3. 掌握对象的整个初始化过程 4. 掌握封装特性 5. 掌握代码块 6. 掌握内部类 1. 面向对象的初步认知 1.1 什么是面向对象 Java是一门纯面向对象的语言(Object Oriented Pro…

HarmonyOS ArkTS基础知识

概述 上一节&#xff0c;学习了TypeScript的基础语法&#xff0c;而在鸿蒙开发当中&#xff0c;有基于自己的编程语言&#xff0c;便是ArkTS。它是一种声明式UI的编程范式的语言&#xff0c;开发框架如下图所示&#xff1a; 根据框架图&#xff0c;分析&#xff0c;我将它大致…