nodeJS爬虫-爬取虎嗅新闻

news2025/1/24 11:24:52
1.安装依赖库到本地,需要的库有:安装方法见Node.js笔记说明
const superagent = require('superagent');
const cheerio = require('cheerio');
const async = require('async');
const fs = require('fs');
const url = require('url');
const request = require('request');

2.爬取首页:
 

const huxiuUrl = 'https://www.huxiu.com/';


function Huxiu_hot3(url){
this.url = url;
this.getindex = function(){
superagent.get(this.url).end(function(err, res) {
    if (err) {
     return console.error(err);
    }
    //cheerio nodejs版的JQ
    let $ = cheerio.load(res.text);
    //获取首页所有的链接
    //console.log(res.text);
   });
 }

}



var test = new Huxiu_hot3(huxiuUrl);
test.getindex();

(1)这里要介绍一下superagent:
         superagent是nodeJS里一个非常方便的客户端请求代码模块;
         请求方式有:
         get(默认)
         post
         put
         delete
         head
(2)语法:
request(RequestType, RequestUrl).end(callback(err, res));

(3)写法:
var request = require('superagent') 
request        //request表示superagent对象
   .post('/api/pet') 
   .send({ name: 'Manny', species: 'cat' }) 
   .set('X-API-Key', 'foobar') 
   .set('Accept', 'application/json') 
   .then(res => { alert('yay got ' + JSON.stringify(res.body)); 

});

3.页面数据解析: 我们通过cheerio的load方法解析整个文档,就是html页面所有内容,可以通过console.log($.html());在控制台查看
(1)利用JQuery语法操作DOM: cheerio是一个node的库,可以理解为一个Node.js版本的jquery,用来从网页中以 css selector取数据,使用方式和jquery基本相同。
$('div.big-pic-box div>a:first-child').each(function(idx,element){
    let $element = $(element);
    //console.log($element.attr('href'));
});

(2)Jquery遍历函数: each() 方法规定为每个匹配元素规定运行的函数。
语法:$(selector).each(function(index,element))

* index - 选择器的 index 位置
* element - 当前的元素(也可使用 "this" 选择器)

(3) url.resolve方法使用说明:  为URL或 href 插入 或 替换原有的标签; 用于拼接所需的URL
//由于该方法属于url模块,使用前需要引入url模块(var url= require(“url”) )
var url = require('url');
var a = url.resolve('/one/two/three', 'four') ,
b = url.resolve('http://example.com/', '/one'),
c = url.resolve('http://example.com/one', '/two');
console.log(a +","+ b +","+ c);
//输出结果:
///one/two/four
//http://example.com/one
//http://example.com/two

(4)获取到页面解析到的目标URL:
$('div.big-pic-box div>a:first-child').each(function(idx,element){
    let $element = $(element);
    //console.log($element.attr('href'));
    let href = url.resolve(huxiuUrl, $element.attr('href'));
    // allUrl.push(href);
    console.log(href);
});

4. &#x(unicode编码后的汉字)JS转换方法:
let content = $('.article-wrap div.article-content-wrap').html(); //返回的是unicode编码的数据,需要 unicode 转中文
content = unescape(content.replace(/&#x/g,'%u').replace(/;/g,''))
console.log(content);

5.Json和字符串的相互转换:
(1) json.stringfy()将js对象(Object)、数组转换成字符串;
(2)json.parse()将字符串{}转成json对象,例如;只有转化为JSON格式才能使用  ret.id 这种方式获取id的值
"{"token":"EAAehsk05sX4BAAoUt2w6Ecf1MxLY17V6DT3S9Wb9n4Ml7dGQ07lczhZAAUEXLXNXP87avp0LNfCc5eTilBguJOTAD1E8rtakT5pKJNxCiZAFsWPqw3yu2WiaWxHBRtbeBpreZCWpP2gqUnvv2O06MX3Wn7rHdlkcw0dfPCS0WjAfkX16Qe08nJOLHNfdIhcXnfkybeO5LIltFYdCQUh46JY96ZAogmkJiO0H4xB25QZDZD","id":"111374853316990","name":"Chunyu Tian","picture":"https://graph.facebook.com/v3.2/111374853316990/picture?height=64&width=64&migration_overrides=%7Boctober_2012%3Atrue%7D"}"

6.JS读取文件夹下所有文件名:
let  fs = require('fs');
let  join = require('path').join;
/**
*
* @param startPath  起始目录文件夹路径
* @returns {Array}
*/
function findSync(startPath) {
    let result=[];
    function finder(path) {
        let files=fs.readdirSync(path);
        files.forEach((val,index) => {
            let fPath=join(path,val);
            let stats=fs.statSync(fPath);
            if(stats.isDirectory()) finder(fPath);
            if(stats.isFile()) result.push(fPath);
        });

    }
    finder(startPath);
    return result;
}
let fileNames=findSync('./');

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1289663.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Apache Doris 详细教程(一)

1、Doris简介 1.1、doris概述 Apache Doris 由百度大数据部研发(之前叫百度 Palo,2018 年贡献到 Apache 社区后, 更名为 Doris ),在百度内部,有超过 200 个产品线在使用,部署机器超过 1000 台…

用OpenCV与MFC写一个图像格式转换及简单处理程序

打开不同格式的图形文件,彩色装灰度图像、锐化、高斯滤波、边界检测及将其存储为需求格式是图像处理的最基本的操作。如果单纯用MFC编程,是一个令人头痛的事情,有不少的代码量。可用OpenCV与MFC编程就变得相对简单。下面来详细演示这一编程操…

股票所有均线都跌破应该怎么操作?

股票跌破所有均线说明股票趋势是走坏的,并且均线对股票起到压制作用,投资者有两种操作方式,第一种是割肉换股,投资者可以在股票小幅上涨时,将股票全部卖出,再买入最近比较强势的个股,赚取收益、…

ubuntu安装MySQL8

1.下载mysql8 MySQL :: Download MySQL Installer (Archived Versions) 选择对应的mysql版本和对应的ubuntu版本图即可 2.下载后上传到sftp文件夹中,然后通过以下命令解压 tar -xvf mysql-server_8.0.29-1ubuntu20.04_amd64.deb-bundle.tar 3.依次安装即可 &#…

数据结构与算法之美学习笔记:32 | 字符串匹配基础(上):如何借助哈希算法实现高效字符串匹配?

标题 前言BF 算法RK 算法解答开篇 & 内容小结 前言 本节课程思维导图: 从今天开始,我们来学习字符串匹配算法。我们用的最多的比如 Java 中的 indexOf(),Python 中的 find() 函数等,它们底层就是依赖接下来要讲的字符串匹配算…

解决:spring boot+mybatis进行增删改查的时候,接收到前端数据,并且执行成功了,但是数据库里面添加的内容都是空值

在写spring boot整合mybatis的时候,我在Apifox里面测试,数据也传递过去了,后端服务器也接收到了参数,就是数据库里面添加的都是空值??? 前端接收到了数据,并且没有报错 Apifox里面也…

【微服务】spring循环依赖深度解析

目录 一、循环依赖概述 1.2 spring中的循环依赖 二、循环依赖问题模拟 2.1 循环依赖代码演示 2.2 问题分析与解决 2.2.1 使用反射中间容器 三、spring循环依赖问题解析 3.1 spring中的依赖注入 3.1.1 field属性注入 3.1.2 setter方法注入 3.1.3 构造器注入 3.2 spri…

Python中字符串列表的相互转换详解

更多资料获取 📚 个人网站:ipengtao.com 在Python编程中,经常会遇到需要将字符串列表相互转换的情况。这涉及到将逗号分隔的字符串转换为列表,或者将列表中的元素连接成一个字符串。本文将深入讨论这些情景,并提供丰富…

JAVA网络编程——BIO、NIO、AIO深度解析

I/O 一直是很多Java同学难以理解的一个知识点,这篇帖子将会从底层原理上带你理解I/O,让你看清I/O相关问题的本质。 1、I/O的概念 I/O 的全称是Input/Output。虽常谈及I/O,但想必你也一时不能给出一个完整的定义。搜索了谷哥欠,发…

吉利护航,宣称比友商“更懂车”,魅族造车的底气与底色

继小米、华为后,又一家手机厂商宣布跨界造车。 在近日举办的2023魅族秋季无界生态发布会上,星纪魅族集团(下称“魅族”)董事长兼CEO沈子瑜宣布,魅族正式进入汽车市场,将在2024年第一季度启动“DreamCar共创…

CoreDNS实战(十一)-分流与重定向

本文主要介绍了目前CoreDNS服务在外部域名递归结果过程中出现的一些问题以及使用dnsredir插件进行分流和alternate插件进行重试优化的操作。 1 自建DNS服务现状 一般来说,无论是bind9、coredns、dnsmasq、pdns哪类dns服务器,我们自建的监听在UDP53端口…

微信怎么自动跟圈?怎么一键转发好友的朋友圈?

做私域、微商的小伙伴们每天需要发许多朋友圈来推广产品,一个人手上就有好几个微信的话,每个微信都要发朋友圈的话,非常麻烦。有没有一键转发同步好友朋友圈的功能呢? 朋友圈互动 1)查看朋友圈:可通过昵称…

智能优化算法应用:基于梯度算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于梯度算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于梯度算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.梯度算法4.实验参数设定5.算法结果6.参考文献7.MATLAB…

识别和修复网站上损坏链接的最佳实践

如果您有一个网站,我们知道您花了很多时间在它上面,以使其成为最好的资源。如果你的链接不起作用,你的努力可能是徒劳的。您网站上的断开链接可能会以两种方式损害您的业务: 它们对企业来说是可怕的,因为当消费者点击…

接上文 IBM ServeRAID M1015阵列卡 支持RAID5

模块到了,由于着急测试没直接拍照,就是一个跟指甲盖大小的模块,直接安装到阵列卡U1接口上,,不知道U1是哪个位置的参考前文,安装到机器上之后的图片如下 启动服务器,进入WebBIOS,选择…

Databend 如何利用 GPT-4 进行质量保证

背景 在数据库行业,质量是核心要素。 Databend 的应用场景广泛,特别是在金融相关领域,其查询结果的准确性对用户至关重要。因此,在快速迭代的过程中,如何确保产品质量,成为我们面临的重大挑战。 随着 Da…

微信小程序基础bug

1.苹果11手机小程序请求数据不显示 设置-》隐私-》分析与改进-》开启 ”与开发者共享“ 2.<navigator>组件回退delta不成功 tabBar 页面是不能实现后退的效果的. 因为, 当我们跳转到 tabBar 页面&#xff0c;会关闭其他所有非tabBar 页面,所以当处于 tabBar 页面时, 无…

Spring Cache【娓娓道来】

目录​​​​​​​ 1.自我介好&#x1f633;&#x1f633;&#x1f633; 2.常用注解 &#x1f495;&#x1f495;&#x1f495; 3.EnableCaching&#x1f926;‍♂️&#x1f926;‍♂️&#x1f926;‍♂️ 4.CachePut&#x1f937;‍♀️&#x1f937;‍♀️&#x1f93…

7.上传project到服务器及拉取服务器project到本地、更新代码冲突解决

1.上传project到SVN服务器 1.在eclipse中&#xff0c;从show view里调出SVN资源库视图 2.在SVN资源库窗口的空白位置右键选择新建资源库位置 3.填好服务器的地址 4.资源库导入成功,SVN资源库视图下出现导入的资源库 5.新建project 6.写好project的初始版本 7.右键project --&…

C++基础 -46- 类的静态函数成员

类的静态函数成员可以不创建类直接访问 #include "iostream"using namespace std;class base {public:static void show(){cout << "hello world" << endl;} };int main() {base::show(); }类的静态函数成员不能访问非静态成员 class base…