Windows 上下载并提取 Wikipedia

Windows 上下载并提取 Wikipedia

news2025/4/27 2:17:44

下载资源

很久以前看过了 Wikipedia 是支持 dump 的，不得不说真是造福人类的壮举。我其实也用不到这个，但是看见不少人是用来做 NLP 语料训练的。不过最近我也想尝试一些新的东西（我就是单纯想要这个文本数据），所以就去把它给下载下来了。这个东西很大的，下载可能需要很久的时间，所以需要自己解决这个过程中面临的问题。

在这里插入图片描述

我下载的是 English Wikipedia，差不多 20 G，上面的 wiki_extract 是我自己建立的空目录，准备用来存放提取的文件的。

提取资源

下载的是一个压缩文件，里面是 xml 格式的，这里不直接解压它了。而是通过一个程序来提取它：wikiextractor。
不过这个程序的作者说了，它在 Windows 平台可能会有问题，我不信邪真的去尝试了，结果真的报错了，这里看起来是我的 Python 版本（Python 3.11）太高了导致：

在这里插入图片描述

那怎么办好呢？我最近安装了 Docker Desktop，以前我对这个东西是十分抗拒的，因为很多年以前它对 Windows 的支持并不好，但是今非昔比了，现在它和 WSL2 结合之后，真的成了一个十分有用的工具了！！！

DockerDesktop 安装并启动

在这里插入图片描述

不过在国内拉取镜像受到网络因素的影响，十分难受。我因为我大学时弄的一个阿里云的服务器，所以添加了阿里云的镜像加速功能。下面的内容，要求你了解一些 docker 的内容，其实也很简单了，直接按部就班应该也没有问题。

拉取python镜像，这里选择一个版本相对较低：

docker pull python:3.7

然后把本地的 E:\Wiki 挂载到容器的 /wiki 目录，再开一个交互式终端，直接跟着下面的操作来一气呵成吧！

在这里插入图片描述

因为容器里面是没有 wikiextractor 的，所以需要自己安装一下，也不用写一个 Dockerfile 来构建镜像了，那简直是浪费时间，反正你也就用一次。即用即装反而是最优解了（不过容器停止了以后，啥也没有了，哈哈。）。

我把 processes 参数设置成了 20，这个任务对于 CPU 的压力还是蛮大的：

在这里插入图片描述

下面补充一个提取的 Gif 图：

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1037983.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

C++ list容器的实现及讲解

C++ list容器的实现及讲解

所需要的基础知识对C类的基本了解默认构造函数操作符重载 this指针引用模板等知识具有一定的了解，阅读该文章会很轻松。链表节点 template<class T>struct list_node{T _data;list_node<T>* _next;list_node<T>* _prev;list_node(const T&…

阅读更多...

Lyapunov optimization 李雅普诺夫优化

Lyapunov optimization 李雅普诺夫优化

文章目录正文引言Lyapunov drift for queueing networks 排队网络的Lyapunov漂移Quadratic Lyapunov functions 二次李雅普诺夫函数Bounding the Lyapunov drift 李亚普诺夫漂移的边界A basic Lyapunov drift theorem 一个基本的李雅普诺夫漂移定理 Lyapunov optimization for…

阅读更多...

甲方测试如何做好外包项目的测试验收？

甲方测试如何做好外包项目的测试验收？

春节匆匆而过，打工人陆续回到了工作岗位又开始卷了起来。小酋也一样，已经返岗几天，今天趁着节后综合症消去大半又该聊点什么了。最近在做一个视频AI分析项目的测试验收，今天就围绕“如何做好外包项目的测试验收”为题，…

阅读更多...

详细学习Mybatis（1）

详细学习Mybatis（1）

详细学习Mybatis（1） 一、MyBatis概述1.1 框架1.2 三层框架1.3 了解Mybatis 二、Mybatis入门开发2.1 入门2.2、MyBatis入门程序的一些小细节2.3、MyBatis事务管理机制深度解析2.4、在开发中junit是如何使用的2.5、Mybatis集成日志框架logback 一、MyBatis…

阅读更多...

从网络方面解决Android Sutdio遇到的Unable to access Android SDK add-on list问题

从网络方面解决Android Sutdio遇到的Unable to access Android SDK add-on list问题

依然说一下环境： 家庭宽带网络win11环境安装的Android Studio版本：android-studio-2022.3.1.19-windowsJava版本：OpenJDK11 （这个应该无所谓） 问题描述： Unable to access Android SDK add-on list 要我…

阅读更多...

Pytorch之LeNet-5图像分类

Pytorch之LeNet-5图像分类

💂 个人主页:风间琉璃🤟 版权: 本文由【风间琉璃】原创、在CSDN首发、需要转载请联系博主💬 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦目录前言一、LeNet-5 二、LeNet-5网络实现 1.定义LeNet-5模型 2.加载数…

阅读更多...

解决apk签名时 no conscrypt_openjdk_jni in java.library.path 方法

解决apk签名时 no conscrypt_openjdk_jni in java.library.path 方法

使用下面命令时若出现no conscrypt_openjdk_jni in java.library.path java -jar signapk.jar platform.x509.pem platform.pk8 app-debug.apk app-debug_sign.apk 缺少相关库，从以下位置下载，只在 android11下测试通过。 https://download.csdn.net…

阅读更多...

2023 年前端 UI 组件库概述，百花齐放！

2023 年前端 UI 组件库概述，百花齐放！

UI组件库提供了各种常见的 UI 元素，比如按钮、输入框、菜单等，只需要调用相应的组件并按照需求进行配置，就能够快速构建出一个功能完善的 UI。虽然市面上有许多不同的UI组件库可供选择，但在2023年底也并没有出现一两个明确的解决…

阅读更多...

java面试题-常见技术场景

java面试题-常见技术场景

常见技术场景 1.单点登录这块怎么实现的 1.1 概述单点登录的英文名叫做：Single Sign On（简称SSO）,只需要登录一次，就可以访问所有信任的应用系统在以前的时候，一般我们就单系统，所有的功能都在同一个…

阅读更多...

EtherCAT转Modbus网关做为 MODBUS 从站配置案例

EtherCAT转Modbus网关做为 MODBUS 从站配置案例

兴达易控EtherCAT转Modbus网关可以用作MODBUS从站的配置。这种网关允许将Modbus协议与EtherCAT协议进行转换，从而实现不同通信系统之间的互操作性。通过将Modbus从站配置到网关中，可以实现对Modbus设备的访问和控制。同时，该网关还可以扩展Mo…

阅读更多...

mysql基本语句学习（基本）

mysql基本语句学习（基本）

1.本地登录 mysql -u root -p 密码 mysql开启远程 1.查看数据库 show databases; 2.查看当前所示数据库 select database(); 3.创建数据库 create database 数据库名字； 4.查看创建数据库语句 show create database 数据库名字； 2.…

阅读更多...

(十一)VBA常用基础知识：worksheet的各种操作之sheet删除

(十一)VBA常用基础知识：worksheet的各种操作之sheet删除

当前sheet确认 2.Sheets(1).Delete Sub Hello()8 Sheets(1).DeleteSheets(1).Delete End Sub实验得知， Sheets(1).Delete删除的是最左边的sheet 另外，因为有弹出提示信息的确认框，这个在代码执行时，会导致还需要手动点击一下&a…

阅读更多...

仿制 Google Chrome 的恐龙小游戏

仿制 Google Chrome 的恐龙小游戏

通过仿制 Google Chrome 的恐龙小游戏，我们可以掌握如下知识点： 灵活使用视口单位掌握绝对定位JavaScript 来操作 CSS 变量requestAnimationFrame 函数的使用无缝动画实现页面结构实现页面结构通过上述的页面结构我们可以知道，此游戏中…

阅读更多...

【多态】虚函数表存储在哪个区域？

【多态】虚函数表存储在哪个区域？

A:栈 B:堆 C:代码段（常量区） D:数据段（静态区） 答案 ： 代码段（常量区） 验证如下： class Person { public:virtual void BuyTicket() { cout << "Person::BuyTicket()&q…

阅读更多...

【Hash表】判断有没有重复元素-力扣 217

【Hash表】判断有没有重复元素-力扣 217

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan 的首页,持续学…

阅读更多...

认识HTTP和HTTPS协议

认识HTTP和HTTPS协议

HTTPS 是什么 HTTPS 也是一个应用层协议. 是在 HTTP 协议的基础上引入了一个加密层. 为什么要引入加密层呢？ HTTP 协议内容都是按照文本的方式明文传输的. 这就导致在传输过程中出现一些被篡改的情况. HTTPS就是在HTTP的基础上进行了加密，进一步的保…

阅读更多...

群体遗传学-选择消除分析

群体遗传学-选择消除分析

一、选择消除分析所谓选择性清除：当一个有利突变发生后，这个突变基因的适合度越高，就越容易被选择固定。当这个基因被快速固定之后，与此基因座连锁的染色体区域，由于搭车效应也被固定下来，大片紧密连锁的染…

阅读更多...

【跟小嘉学习区块链】二、Hyperledger Fabric 架构详解

【跟小嘉学习区块链】二、Hyperledger Fabric 架构详解

系列文章目录【跟小嘉学习区块链】一、区块链基础知识与关键技术解析【跟小嘉学习区块链】一、区块链基础知识与关键技术解析文章目录系列文章目录[TOC](文章目录) 前言一、Hyperledger 社区1.1、Hyperledger(面向企业的分布式账本)1.2、Hyperledger社区组织结构二、Hype…

阅读更多...

UDS 28服务

UDS 28服务

28服务主要是用来控制报文接收和发送。具体的服务控制格式： controlType 通信控制类型 tips：Bit7 用于是否抑制积极响应。 communication 报文类型例子

阅读更多...

Mysql 数据类型、运算符

Mysql 数据类型、运算符

数据类型数据类型的选择不是越大越好，因为我们业务层一般都是在内存上工作的，效率以及速度是比较快的，但是我们的数据库涉及磁盘的IO操作磁盘的IO操作相对来说是要慢很多的，所以我们在定义表结构的时候每一个字段的数据类型还是比…

阅读更多...

推荐文章

最新文章