利用TypeScript 和 jsdom 库实现自动化抓取数据

news2025/1/16 0:52:59

以下是一个使用 TypeScript 和 jsdom 库的下载器程序,用于下载zhihu的内容。此程序使用了 duoip.cn/get_proxy 这段代码。

在这里插入图片描述

import { JSDOM } from 'jsdom';
import { getProxy } from 'https://www.duoip.cn/get_proxy';

const zhihuUrl = 'https://www.zhihu.com';

(async () => {
  // 获取代理服务器
  const proxy = await getProxy();
  console.log('使用代理服务器:', proxy);

  // 创建一个 JSDOM 实例,并设置代理服务器
  const dom = new JSDOM(`<!DOCTYPE html><html><head><meta charset="UTF-8"></head><body></body></html>`, {
    proxy: proxy,
    userAgent: 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
  });

  // 使用 fetch 方法获取 zhihu 主页内容
  const response = await dom.window.fetch(zhihuUrl);
  const html = await response.text();

  // 打印获取到的 HTML 内容
  console.log('zhihu 主页 HTML:', html);
})();

这个程序首先引入了 JSDOM 和 getProxy 函数。然后定义了一个名为 zhihuUrl 的常量,用于存储要下载的 URL。接下来,使用 async/await 语法定义了一个异步函数,用于执行下载操作。

首先,调用 getProxy 函数获取代理服务器。然后,创建一个 JSDOM 实例,并为其设置代理服务器和用户代理。接着,使用 dom.window.fetch 方法获取 zhihu 主页内容,并将结果存储在 html 变量中。最后,将获取到的 HTML 内容打印出来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1111636.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

01、Python 安装 ,Pycharm 安装

目录 安装安装 Python安装 Pycharm 创建项目简单添加文件运行 简单爬取下载小视频 安装 python-3.8.10-amd64.exe – 先安装这个 pycharm-community-2022.2.exe 再安装这个 安装 Python python-3.8.10-amd64.exe 安装&#xff08;这个是其他版本的安装&#xff0c;步骤一样…

Linux安装MINIO

MINIO简介MINIO目录 mkdir -p /opt/minio/data && cd /opt/minio MINIO下载 wget https://dl.minio.org.cn/server/minio/release/linux-amd64/minio MINIO授权 chmod x minio MINIO端口 firewall-cmd --zonepublic --add-port7171/tcp --permanent && firewal…

RTOS(6)任务管理

任务状态理论 我们是怎么实现&#xff0c;两个同优先级的任务之间交替执行的呢&#xff1f; 任务切换的基础&#xff1a;tick中断&#xff01; tick为1ms一个周期&#xff0c;可以通过修改时钟配置修改&#xff1b; running&#xff1a;正在进行的任务3为running&#xff…

20231019 filezilla 配置 Windows与Ubuntu文件传输

SFTP协议&#xff0c;传文件&#xff0c;否则会报无权限错

RTOS(7)同步互斥与通信概述

同步与互斥 同步的例子 循环检测有缺陷&#xff0c;还是得blocked掉&#xff0c;不然会很占用cpu&#xff0c;浪费资源&#xff1b; 互斥的例子 单纯的使用全局变量来实现互斥不太靠谱&#xff0c;当执行时间过长的时候会概率性的出现错误 通信的例子 FreeRtos的解决方案 …

Linux操作系统从BIOS到bootloader是如何运行的

操作系统一般都会在安装在硬盘上&#xff0c;在 BIOS 的界面上。你会看到一个启动盘的选项。启动盘有什么特点呢&#xff1f;它一般在第一个扇区&#xff0c;占 512 字节&#xff0c;而且以 0xAA55 结束。这是一个约定&#xff0c;当满足这个条件的时候&#xff0c;就说明这是一…

浅谈轨道交通建筑能耗分析及节能措施

叶根胜 安科瑞电气股份有限公司 上海嘉定 201801 摘要&#xff1a;面对城市轨道交通的能耗增长&#xff0c;优化地铁车站建筑、降低运营能耗是促进公共交通可持续化发展的必经之路。通风空调系统的能耗占比较大&#xff0c;节能潜力也是大的。本文以上海首条绿色地铁的项目实…

C#计数排序算法

前言 计数排序是一种非比较性的排序算法&#xff0c;适用于排序一定范围内的整数。它的基本思想是通过统计每个元素的出现次数&#xff0c;然后根据元素的大小依次输出排序结果。 实现原理 首先找出待排序数组中的最大值max和最小值min。创建一个长度为max-min1的数组count&a…

售后服务管理升级要怎么做?如何用好售后工单管理系统?

随着数字经济的发展&#xff0c;市场服务趋于多样化&#xff0c;客户对售后服务也有更高的要求&#xff0c;市场竞争日益激烈&#xff0c;越来越多的供应商企业认识到单凭优异的质量&#xff0c;颇具竞争力的价格已不能保证企业的竞争优势&#xff0c;事实表明&#xff0c;用户…

[原创] ElasticSearch集群故障案例分析: 警惕通配符查询

[携程旅行网&#xff1a; 吴晓刚] 许多有RDBMS/SQL背景的开发者&#xff0c;在初次踏入ElasticSearch世界的时候&#xff0c;很容易就想到使用(Wildcard Query)来实现模糊查询&#xff08;比如用户输入补全)&#xff0c;因为这是和SQL里like操作最相似的查询方式&#xff0c;用…

常见面试题-Redis专栏(一)

typora-copy-images-to: imgs了解 redis 中的大key吗&#xff1f;多大算是大key呢&#xff1f;如何解决&#xff1f; 答&#xff1a; redis 的大 key 指的是 key 对应的 value 所占用的内存比较大。 对于 string 类型来说&#xff0c;一般情况下超过 10KB 则认为是大 key&…

waf、yakit和ssh免密登录

WAF安全狗 脏数据适用于所有漏洞绕过waf&#xff0c;但是前提条件垃圾信息必须放在危险信息前&#xff0c;是不能打断原有数据包的结构&#xff0c;不能影响后端对数据包的解析。 以DVWA靶场文件上传为例 新建php文件 上传文件被安全狗拦截 使用bp抓包查看 在数据包Content-…

Anomalib 图像异常检测算法

图像异常检测算法 1.简介1.1. 问题描述1.2. 挑战与需求 2. 图像异常检测定义2.1 异常的定义及类型2.2 图像数据中的异常 3. 图像异常检测技术研究现状4.方法5.安装和使用5.1 安装PyPI 安装本地安装 5.2 训练5.3 特征提取与&#xff08;预训练&#xff09;backones5.4 自定义数据…

DVWA-弱会话IDS

弱会话IDS Session简介&#xff1a; 用户登录后&#xff0c;在服务器就会创建一个会话(session)&#xff0c;叫做会话控制&#xff0c;接着访问页面的时候就不用登录&#xff0c;只需要携带Session去访问即可。 sessionID作为特定用户访问站点所需要的唯一内容。如果能够计算…

HTML构建图文并茂类页面----HTML插入图片

插入图片 插入方式1&#xff1a;使用img标签插入图片 例如&#xff1a;<img src"img/2ee18-231100-163232346010b0.jpg" alt"用户注册按钮位置" title"用户注册1" width"1138px"/> 插入方式2 图片做背景&#xff1a;使用styl…

HarmonyOS音频开发指导:使用AVPlayer开发音频播放功能

如何选择音频播放开发方式 在HarmonyOS系统中&#xff0c;多种API都提供了音频播放开发的支持&#xff0c;不同的API适用于不同音频数据格式、音频资源来源、音频使用场景&#xff0c;甚至是不同开发语言。因此&#xff0c;选择合适的音频播放API&#xff0c;有助于降低开发工…

二维码智慧门牌管理系统:打造智慧城市之路

文章目录 前言一、二维码智慧门牌管理系统开发背景二、二维码智慧门牌管理系统开发目标三、二维码智慧门牌管理系统的实现四、二维码智慧门牌管理系统在智慧城市构建中的重要性 前言 随着科技的不断发展&#xff0c;智慧城市已经成为了现代城市规划与发展的核心。为了实现智慧…

C/C++ 快速入门

参考&#xff1a;https://blog.csdn.net/gao_zhennan/article/details/128769439 1 下载Visual Studio Code并安装中文插件&#xff0c;此处不再叙述 2 插件安装C/C插件 3 使用快捷键【Ctr ~】打打开终端 验证并未安装编译器 4 我们即将使用【MinGW-64】做为编译器 https:…

谷歌浏览器网页显示不完整解决方法

谷歌浏览器是非常多用户都在用的一款电脑软件&#xff0c;谷歌浏览器以启动速度快、浏览速度快、界面简单、极强的稳定性等优点受到大家的喜爱&#xff0c;在使用的时候&#xff0c;您可能会遇到打不开网页或显示不全等情况&#xff0c; 那么谷歌浏览器显示不完全怎么解决呢&am…

水族店通过小程序商城经营的作用是什么

对水族店商家而言&#xff0c;市场高需求下&#xff0c;自然可售卖的产品非常广&#xff0c;除了鱼苗外&#xff0c;还有配套的鱼缸、鱼料、驱虫剂、氧气套具等。这些产品中部分是常需的&#xff0c;同时也有较强的同城属性。 在实际经营中&#xff0c;水族店商家经营难题也不…