使用 puppeteer 库采集豆瓣音频简单代码示例

news2025/1/15 15:44:06

今天要给大家分享的采集代码,主要是使用 puppeteer 库进行编写的,用于采集豆瓣网相关音频。这段代码也是非常的简单实用,一起来看看吧。
请添加图片描述

// 引入 puppeteer 库
const puppeteer = require('puppeteer');

// 定义获取代理服务器的函数
function getProxy() {
  return new Promise((resolve, reject) => {
    // 使用 https://www.duoip.cn/get_proxy 获取代理服务器
    const url = 'https://www.duoip.cn/get_proxy';
    const proxy = require('proxy-agent');
    const request = require('request');
    const options = {
      url: url,
      agent: proxy(url, options),
      json: true,
    };
    request.get(options, (error, response, body) => {
      if (error) {
        reject(error);
      } else {
        resolve(body.proxy);
      }
    });
  });
}

// 定义下载音频的函数
async function downloadAudio(url, proxy) {
  // 创建一个 puppeteer 的浏览器实例
  const browser = await puppeteer.launch({
    headless: true,
    args: ['--no-sandbox', '--disable-setuid-sandbox', '--disable-dev-shm-usage'],
  });
  // 创建一个新的页面
  const page = await browser.newPage();
  // 设置代理服务器
  await page.setProxy({
    server: proxy,
    port: 8080,
  });
  // 导航到 www.douban.com
  await page.goto('https://www.douban.com', {
    waitUntil: 'networkidle2',
  });
  // 获取音频链接
  // 这里需要根据实际情况获取音频链接,例如通过查找音频播放器的 DOM 元素并获取其 src 属性
  const audioUrl = 'your_audio_url';
  // 使用 JavaScript 下载音频
  const audio = await page.evaluate(async (url) => {
    const response = await fetch(url);
    const blob = await response.blob();
    return URL.createObjectURL(blob);
  }, audioUrl);
  // 保存音频
  const link = document.createElement('a');
  link.href = audio;
  link.download = 'downloaded_audio.mp3';
  document.body.appendChild(link);
  link.click();
  document.body.removeChild(link);
  // 关闭浏览器
  await browser.close();
}

// 主函数
async function main() {
  const proxy = await getProxy();
  const audioUrl = 'your_audio_url';
  await downloadAudio(audioUrl, proxy);
}

main();

在这个程序中,我们首先引入了 puppeteer 库,并定义了 getProxy 函数来获取代理服务器。接着,我们定义了 downloadAudio 函数,用于下载音频。最后,我们编写了 main 函数,用于调用 getProxy 和 downloadAudio 函数。

不过在实际使用过程中,示例程序中的 your_audio_url 需要替换为实际的音频链接。同时,你需要根据实际情况修改代码,以便在页面上查找音频播放器的 DOM 元素并获取其 src 属性。今天的代码示例就到这里,希望那个能对大家有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1153748.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

针灸养生服务预约小程序的效果如何

针灸服务的市场需求度很高,每个城市中都有不少相关品牌,对商家来说,如何引流拓客、打造品牌是生意开展的首要条件之一,且主要以同城用户为主,或连锁情况下为各店引流,但传统线下模式很难实现生意拓展。 那…

蓝桥杯每日一题2023.10.31

题目描述 全球变暖 - 蓝桥云课 (lanqiao.cn) 题目分析 果然有关连通块类的问题使用dfs都较为好写~~ 我们可以通过判断连通块的代码来加上部分条件算出被完全淹没的岛屿个数 在岛屿中如果有为"#"的a[i][j]上下左右全部是"#"则说明此岛屿一定不会被完全…

2023年【低压电工】找解析及低压电工模拟考试

题库来源:安全生产模拟考试一点通公众号小程序 低压电工找解析是安全生产模拟考试一点通生成的,低压电工证模拟考试题库是根据低压电工最新版教材汇编出低压电工仿真模拟考试。2023年【低压电工】找解析及低压电工模拟考试 1、【单选题】()仪表可直接用…

VIVO应用商店评论数据抓取

VIVO应用商店的app评论数据抓取 每个应用的评论能获取到最新的 100页 数据 每页20条,也就是 2000条评论数据 接口: pl.appstore.vivo.com.cn/port/comments/ 爬取运行截图:

嵌入式应用选择正确的系统设计方法:第二部分

在设计嵌入式系统之前,我们需要知道我们在设计什么。在这种情况下,术语“要求”和“规范”以多种方式使用-有些人将它们用作同义词,而另一些人将它们用作不同的阶段。它们在这里用来表示设计过程中相关但截然不同的步骤。 需求 是对客户需求…

Leaflet地图工具

2023 年 5 月 18 日 — Leaflet 1.9.4 正式发布! Leaflet 是一个开源并且对移动端友好的交互式地图 JavaScript 库。 它大小仅仅只有 42 KB of JS, 并且拥有绝大部分开发者所需要的所有地图特性 。 Leaflet 简单、高效并且易用。 它可以高效的运行在桌面和移动平台, 拥有着大…

[Machine Learning][Part 7]神经网络的基本组成结构

这里我们将探索神经元/单元和层的内部工作原理。特别是,与之前学习的回归/线性模型和逻辑模型进行比较。最后接介绍tensorflow以及如何利用tensorflow来实现这些模型。 神经网络和大脑的神经元工作原理类似,但是比大脑的工作原理要简单的多。大脑中神经元的工作原理…

Ajax学习笔记第6天--COOKIE

放弃该放弃的是无奈,放弃不该放弃的是无能,不放弃该放弃的是无知,不放弃不该放弃的是执着! 【1. cookie】 1.Cookie机制 而Web应用程序是使用HTTP协议传输数据的。HTTP协议是无状态的协议。一旦数据交换完毕,客户端与…

python爬虫,如何在代理的IP被封后立刻换下一个IP继续任务?

前言 在实际的爬虫应用中,爬虫程序经常会通过代理服务器来进行网络访问,以避免访问过于频繁而受到网站服务器的限制。但是,代理服务器的IP地址也可能被目标网站限制,导致无法正常访问。这时候,我们需要在代理IP被封后…

聚观早报 |华为nova 11 SE登场;vivo Y100正式发布

【聚观365】10月31日消息 华为nova 11 SE登场 vivo Y100正式发布 PTC Arena落地中国 2023财年苹果印度业务营收 iQOO 12外观设计揭晓 华为nova 11 SE登场 半年前,华为发布了nova 11系列手机,以“敢拍,敢出色”为宣传口号,继…

Variations-of-SFANet-for-Crowd-Counting代码复现

前文对Variations-of-SFANet-for-Crowd-Counting做了一点基础梳理,并对开源框架的可视化代码进行了验证,链接如下: Variations-of-SFANet-for-Crowd-Counting记录-CSDN博客 Variations-of-SFANet-for-Crowd-Counting可视化代码-CSDN博客 这…

数字时代新趋势:TikTok算法与海外网红营销的融合策略

在当今数字化时代,社交媒体已经成为品牌推广和市场营销的重要渠道。TikTok作为全球范围内最受欢迎的短视频平台之一,以其独特的算法和用户参与度,正日益成为海外网红营销的热门选择。本文Nox聚星将和大家探讨TikTok算法和海外网红营销之间的融…

五种UI设计师的必备界面设计工具,干货来袭!

工具的重要性对设计师来说是不言而喻的。任何想法都需要通过工具来实现。要成为一名优秀的UI设计师,你需要掌握更多的技能来增强你的竞争力。同时,我们也给那些想成为UI设计师的朋友一些工具建议。接下来,让我们来看看那些UI设计师需要掌握的…

AUTOSAR CAN协议栈架构总览介绍

Classic AUTOSAR层级架构简介 如下图是Classic AUTOSAR层级架构图,每个层主要功能如下 微控制器抽象层:使上层软件和微处理器型号无关,包含MCU中内部外设的驱动以及MCU内存映射的外部设备的驱动ECU抽象层:使上层软件和ECU硬件设计无关,包含ECU板上外部设备的驱动以及内部…

已解决WARNING: You are using pip version 20.1.1:however,version 22.3.1 is available.

成功解决(pip提示升级):已解决WARNING: You are using pip version 20.1.1:however,version 22.3.1 is available. You should consider upgrading via the ‘e: \python\python.exe -m pip install --upgrade pip’ c…

2023年【低压电工】作业考试题库及低压电工操作证考试

题库来源:安全生产模拟考试一点通公众号小程序 低压电工作业考试题库参考答案及低压电工考试试题解析是安全生产模拟考试一点通题库老师及低压电工操作证已考过的学员汇总,相对有效帮助低压电工操作证考试学员顺利通过考试。 1、【单选题】()仪表由固定…

java数据机构.冒泡排序,选择排序 插入排序 递归算法,递归求阶乘,快速排序

排序算法 冒泡排序选择排序插入排序递归算法递归求1~100的和递归求阶乘 快速排序总结 冒泡排序 相邻两个元素比较,大的放右边,小的放左边 第一轮循环结束最大值已经找到,在数组最右边(归为算法) 第二轮在剩余的元素比较找到次大值,第二轮可以少循环一次 如果有n个数据,总共我们…

第18期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以…

微信小程序怎么制作?【小程序开发平台教学】

随着移动互联网的快速发展,微信小程序已经成为了人们日常生活中不可或缺的一部分。从购物、支付、出行到社交、娱乐、教育,小程序几乎涵盖了我们生活的方方面面。那么,对于有营销需求的企业商家来说,如何制作一个自己的微信小程序…

wow这么洋气的羽绒服,看起来太暖和了吧

超足充绒量+杜邦三防工艺 高立领连帽设计+腰部抽绳调节 独特压线设计+实用大口袋 洋气又实用的一款羽绒服!!