不会写代码,咋做爬虫

news2024/11/18 12:23:18

随着时代的发展,大数据越来越重要,数据获取很关键
提到数据获取大家应该都会想到爬虫,但是我不会写代码怎么玩爬虫
今天给大家分享一个不会代码也可以进行爬虫的工具,实现无代码进行数据获取

强调

这里介绍的工具大家合理合法使用,不要随意爬取数据

1.工具介绍、安装

web scraper

直达链接:web scraper
在这里插入图片描述
大姐可以通过浏览器加装这个插件,然后你在简单的学习了解一点前端界面知识,比如最基本的HTML、CSS 等,我们就可以借助这个插件进行无代码数据获取。
插件安装包:

链接:https://pan.baidu.com/s/1LYT_cym28epYYudr49EDIw?pwd=0200 
提取码:0200

大家可以直接下载,然后安装在自己的浏览器,推荐谷歌浏览器
浏览器插件安装教程:

  1. 下载压缩包到本地,并解压
    在这里插入图片描述

  2. 打开浏览器插件管理中心
    在这里插入图片描述
    我这里是以谷歌浏览器为演示,其他的浏览器也是大差不差,大家自行摸索

  3. 插件安装
    在这里插入图片描述
    记得先打开开发者模式
    然后找到解压的文件,将.crx文件拖拽进来就行了

安装检验
随便打开一个网站,摁下F12,控制板的菜单栏出现 web scraper 就是成功了
在这里插入图片描述

2.小试牛刀

1.控制台进入初界面

在这里插入图片描述

2.创建sitemap

一般最开始抓取,我们新建一个sitemap
在这里插入图片描述
sitemap name就是根据项目自己随意了,我这里为了抓取douban_top250数据,所有我就直接这样写了,url就是目标网站了,大家根据实际进行填写
在这里插入图片描述

3.add new selector

在这里插入图片描述自己定义数据id之后,选择数据类型
在这里插入图片描述
数据类型包括text文本、link链接、Link popup弹出链接、Image图像、Table表格、等选项
选择完数据类型之后,点击 select 直接在界面选择目标数据所在位置
在这里插入图片描述
然后根据需要是否选择勾选 multiple ,如果要选择多个记录需勾选此项。从两个或多个选中 multiple 的选择器中提取的数据不会合并到一个单独记录中。
最后点击save保存,我们的一个基本的元素选择就结束了
选择更多元素大家可以自己继续选择,这里不再一一演示了

4.data preview

元素抓取是否正确,我们可以通过右上角 data preview 预览,查看是否正确
在这里插入图片描述

5.scrape

数据获取,在我们前期的一系列准备下,我们目前只需要点击scraps获取数据。
在这里插入图片描述
进行scrape时,注意设置延迟,默认2000就可以
在这里插入图片描述

数据导出

在这里插入图片描述
这是抓取的数据,直接再网页插件可视,当然也是可以选择export data导出
在这里插入图片描述
导出文件格式两中选择,根据需要选择
在这里插入图片描述

3.不要随意使用

这里只是给不会爬虫但是想获取信息的朋友推荐一个插件,但是大家获取数据一定要合法,不要随意爬取别人数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/733973.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用黑盒测试在 Go 中重写 Bash 脚本

目录 前言: 开始 准备工作 描述行为:Bats 简介 行为描述:陷阱 描述行为:设计测试 重写:让我们开始用go吧! 重构和更新:实现胜利 结论 前言: 使用黑盒测试在Go中重写Bash脚本…

Linux bio数据结构

数据结构 /** main unit of I/O for the block layer and lower layers (ie drivers and* stacking drivers)*/ struct bio {struct bio *bi_next; /* request queue link */struct gendisk *bi_disk;unsigned int bi_opf; /* bottom bits req flags,* top bits REQ_OP. Us…

go入门demo

go快速学习: 官网学习方案(选择自己喜欢的语言):A Tour of Go 视频:B站是个不错的选择 (转go入门使用)推荐视频:1-课程需知与课程提纲_哔哩哔哩_bilibili1-课程需知与课程提纲是8小时转职Gol…

把握住golang中的template,方能驾驭得了Hugo主题的template

笔者小站:秋码记录 不置可否,Hugo的template同样是使用golang的标准库html/template。为了能实现一个属于自己独特的Hugo theme,或是修改他人的主题,都得对其模板语法有所知晓,方能改的称心如意,亦或是制作…

HarmonyOS学习路之开发篇—数据管理(融合搜索)

融合搜索概述 HarmonyOS融合搜索为开发者提供搜索引擎级的全文搜索能力,可支持应用内搜索和系统全局搜索,为用户提供更加准确、高效的搜索体验。 基本概念 全文索引 记录字或词的位置和次数等属性,建立的倒排索引。 全文搜索 通过全文索引进…

GEE:哨兵数据时间序列计算物候时期EOS/SOS

作者:CSDN _养乐多_ 本文将介绍使用哨兵数据时间序列计算植被物候时期EOS/SOS的代码。 文章目录 一、需要代码请私聊二、代码三、代码链接 一、需要代码请私聊 二、代码 //待更新 三、代码链接 //待更新 声明: 本人作为一名作者,非常重…

11 Java的三元运算符使用

三元运算符使用规则: 关系表达式 ? 表达式1 : 表达式2; 如果关系表达式成立,则结果是表达式1,如果不成立,则结果为表达式2。 package demo;public class Demo1 {public static void main(String[] args) {int a 20;int b 30;i…

基于simulink使用二维规范化互相关进行模式匹配和目标跟踪(附源码)

一、前言 此示例演示如何使用二维规范化互相关进行模式匹配和目标跟踪。双击“编辑参数”块以选择要检测的类似目标的数量。您还可以更改金字塔因子。通过增加它,您可以更快地将目标模板与每个视频帧匹配。更改金字塔因子可能需要更改阈值。 此外,还可…

从零实现深度学习框架——深入浅出PackedSequence

引言 本着“凡我不能创造的,我就不能理解”的思想,本系列文章会基于纯Python以及NumPy从零创建自己的深度学习框架,该框架类似PyTorch能实现自动求导。 💡系列文章完整目录: 👉点此👈 要深入理解…

使用RabbitMQ

使用RabbitMQ 1 Docker安装RabbitMQ 1.1 安装RabbitMQ # 下载含有管理页面的镜像 docker pull rabbitmq:3.8.8-management# 创建容器 # 5672:应用访问端口;15672:控制台Web端口号; docker run -itd \ --namemy-rabbitmq \ --re…

【Python】Python基础知识总结

🎉欢迎来到Python专栏~Python基础知识总结 ☆* o(≧▽≦)o *☆嗨~我是小夏与酒🍹 ✨博客主页:小夏与酒的博客 🎈该系列文章专栏:Python学习专栏 文章作者技术和水平有限,如果文中出现错误,希望…

5. 学成在线案例

1.典型的企业级网站 2.目的:整体感知企业级网站布局流程,复习以前的知识 5.1 准备素材和工具 1.学成在线PSD源文件 2.开发工具 PS(切图) / cutterman插件 vscode(代码) chrome(测试) 5.2 案例准备工作 采取结构与样式相分离思想: 1.创…

【备战秋招】每日一题:2022.11.3-华为机试-去除多余空格

为了更好的阅读体检,可以查看我的算法学习网 在线评测链接:P1058 题目描述 塔子哥最近接到导师的一个任务,需要他帮忙去除文本多余空格,但不去除配对单引号之间的多余空格。给出关键词的起始和结束下标,去除多余空格后刷新关键词…

豆瓣T250电影

爬取电影名字、年份、评分、评价人数 import requests import re import csv"""1、拿到页面源代码"""headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.…

IntelliJ IDEA安装Mybatis 插件Free Mybatis plugin

需求描述 在开发一些Mybatis的项目,经常需要写一个Mapper接口,在找代码过程,经常需要去找对应的xml文件,所以非常的不方便。自从有了免费的free-mybatis-plugin插件之后 ,在可以实现在idea里一键跳转到对应的xml文件&…

CRC16_Verilog

CRC校验 CRC即循环冗余校验码(Cyclic Redundancy Check):是数据通信领域中最常用的一种查错校验码,其特征是信息字段和校验字段的长度可以任意选定。循环冗余检查(CRC)是一种数据传输检错功能,…

Mac系统远程连接Windows11

一、远程桌面连接Windows11 1、下载并安装Microsoft Remote Desktop for mac。(Microsoft Remote Desktop for mac简介,下载链接) 2、Windows11开启远程桌面。 3、为当前Windows11账号设置密码。 二、ssh连接Windows11 1、下载并安装OpenSS…

numpy与python版本不匹配-ImportError: Unable to import required dependencies: numpy

问题 你在运行python代码的时候,是否遇到过下面这种错误 ImportError: Unable to import required dependencies: numpy: IMPORTANT: PLEASE READ THIS FOR ADVICE ON HOW TO SOLVE THIS ISSUE!Importing the numpy C-extensions failed. This error can happen f…

【优选算法题练习】day2

文章目录 一、11. 盛最多水的容器1.题目简介2.解题思路3.代码4.运行结果 二、611. 有效三角形的个数1.题目简介2.解题思路3.代码4.运行结果 三、剑指 Offer 57. 和为s的两个数字1.题目简介2.解题思路3.代码4.运行结果 总结 一、11. 盛最多水的容器 1.题目简介 11. 盛最多水的…

笔试刷过的题---选择

1.若使求解TSP算法,则时间复杂度是() 2.用1*3的瓷砖密铺3*20的地板有()种方式 答:1278 3.可以用于路径规划的算法 有多种算法可以用于路径规划,以下是一些常见的算法: Dijkstra算…