零代码编程：用ChatGPT批量自动下载archive.org上的音频书

news2026/2/16 10:06:43

http://archive.org 是一个神奇的网站，可以下载各种古旧的软件、书籍、音频、视频，还可以搜索各个网站的历史网页。

比如说，一些儿童故事音频就可以在http://archive.org下载到，可以用来做英语听力启蒙用。

举个例子，要下载https://archive.org/details/107frogandtoadallyear_202004这个网页上的所有音频内容，该怎么办呢？

右击，检查网页，点击网络，然后选择媒体，然后可以看到正在播放的音频文件，右击复制链接，如下：

https://archive.org/details/107frogandtoadallyear_202004/2-12+Alone.mp3

查看网页源代码，搜索某一个音频文件标题：Alone.mp3

找到了音频文件的地址：

<span class="track-number">22</span>

<span class="track-title">2-12 Alone

</span>

05:10

</span>

</button>

接下来就好办了，在ChatGPT中输入提示词：

你是一个Python编程专家，现在要完成一个下载网页中音频的任务，具体步骤如下：

打开网站：https://archive.org/details/107frogandtoadallyear_202004

解析源代码，找出所有itemprop="hasPart"的div元素，定位其中itemprop="associatedMedia" 的link元素；

提取link元素的href值，作为音频下载的URL地址；

多线程下载这个音频文件，保存到电脑D盘的文件夹：Frog and Toad Audio Collection

注意：每一步都要输出信息

要有反爬虫措施，比如下载一个音频文件后暂停3秒；

音频下载的Python源代码：

import requests

from bs4 import BeautifulSoup

import os

import time

import threading

class Downloader(threading.Thread):

def __init__(self, url, path):

threading.Thread.__init__(self)

self.url = url

self.path = path

def run(self):

print(f'Starting download {self.path}')

r = requests.get(self.url, stream=True)

with open(self.path, 'wb') as f:

for chunk in r.iter_content(chunk_size=1024):

if chunk:

f.write(chunk)

print(f'Finished download {self.path}')

time.sleep(3) # pause for 3 seconds

def get_audio_links(url):

r = requests.get(url)

soup = BeautifulSoup(r.text, 'html.parser')

audio_links = []

for div in soup.find_all('div', itemprop='hasPart'):

link = div.find('link', itemprop='associatedMedia')

if link:

audio_links.append(link['href'])

return audio_links

def download_audios(url, directory):

if not os.path.exists(directory):

os.makedirs(directory)

audio_links = get_audio_links(url)

downloaders = []

for i, audio_link in enumerate(audio_links):

path = os.path.join(directory, f'audio{i}.mp3')

downloader = Downloader(audio_link, path)

downloader.start()

downloaders.append(downloader)

for downloader in downloaders:

downloader.join()

url = 'https://archive.org/details/107frogandtoadallyear_202004'

directory = 'D:\\Frog and Toad Audio Collection'

download_audios(url, directory)

程序运行，很快就把网页中的音频下载完了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1052529.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

零代码编程：用ChatGPT批量自动下载archive.org上的音频书

相关文章

【开发篇】四、数据源、JdbcTemplate、内嵌H2

【JVM】双亲委派模型

坠落防护挂点装置

【C++】unordered_set与unordered_map的封装

Java | Maven（知识点查询）

7、Docker网络

火热报名中 | 2天峰会、20+热门议题，AutoESG 2023数智低碳---中国汽车碳管理创新峰会亮点抢先看！

Linux高级应用——web网站服务（2）

用友U8 CRM客户关系管理任意文件上传漏洞复现【附POC】

牛客（计算几何

Spring面试题25：Spring如何控制bean加载先后顺序

AIOT入门指南：探索人工智能与物联网的交汇点

MySQL学习笔记25

一点C知识：数据类型和内存地址。

QSS之QScrollArea

if条件分支计算分段函数

Adams齿轮副

解决Nacos配置刷新问题：如何启用配置刷新功能以及与`@RefreshScope`注解的关联问题

《HelloGitHub》第 90 期

轻量自高斯注意力（LSGA）机制