excel爬虫相关学习1:简单的excel爬虫

news2024/11/27 23:39:05

目录

1 什么是excel 爬虫

2 EXCEL爬虫

2.1 excel 爬虫的入口

 2.2 需要配置的信息

2.2.1 如何获得 ua信息

2.3 获取的信息

2.3.1 获取信息的基本内容

2.3.2 获取过程

2.3.3 我们只用关注“表视图 ” 即可

2.4 EXCEL获得的爬虫数据 加载到excel里

2.5 数据到了excel表后可以加工

2.6  如何处理已经下载到excel里的 爬虫table数据呢?

2.6.1 点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0 等原始的下载数据表和链接(右键呼出属性)

2.6.2 右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据

2.7  设置table表自动更新

2.7.1 设置自动更新

2.7.2 自动更新作用


1 什么是excel 爬虫

excel也可以爬虫,我是一本书上看到的,还有点意思

好处:

  • 而且可以不用写代码,纯界面操作
  • 理解起来,对新手还是比较友好的
  • 功能还不少
  • 但是如果懂爬虫,懂html,js等,对理解excel爬虫还是有好处的,比如,

2 EXCEL爬虫

2.1 excel 爬虫的入口

 2.2 需要配置的信息

  • url
  • 网页请求相关,比如  ua,cookies 等 headers信息
  • 然后点击确定即可

2.2.1 如何获得 ua信息

  • 网页检查
  • 刷新网页
  • 网页url对应的选项
  • networks /request headers 可以找到 UA信息 User-Agent:

2.3 获取的信息

2.3.1 获取信息的基本内容

  • 网页url
  • docment
  • table
  • 可能因为excel 主要用来处理 表格,所以excel 爬虫着重突出了 table 
  • 其实就是html里的 <table></table>的tag

2.3.2 获取过程

  • 快的网页一瞬间就完成了
  • 如果反映慢则可能看到如下过程
  1. 正在连接url
  2. 获取数据
  3. 数据下载完成

 

2.3.3 我们只用关注“表视图 ” 即可

  • 表视图
  • web视图,没啥用

 

2.4 EXCEL获得的爬虫数据 加载到excel里

  • 点击  加载,存储到excel, 用新的sheet 存档当前excel里
  • 点击 加载到
  • 点击 转换数据,会跳转到  power query 处理数据

2.5 数据到了excel表后可以加工

  • 数据到了excel表后可以加工
  • 也可以使用 power query 加工(暂时不熟悉,留白)

2.6  如何处理已经下载到excel里的 爬虫table数据呢?

2.6.1 点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0 等原始的下载数据表和链接(右键呼出属性)

2.6.2 右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据

  • 入口:右键table对应区域,选择 “从表格/区域 获取数据” 可以重新打开 power query来处理数据
  • 左上角 侧边栏 会显示多个爬取的table0 表(默认下载的表名)
  • 右下角会显示 爬取的时间

2.7  设置table表自动更新

2.7.1 设置自动更新

  • 点击 “查询和连接” 或者 “现有链接” 可以重新呼出 table0

  • 然后,点击右边侧边栏的table0 右键呼出属性

  • 属性窗口里的设置

2.7.2 自动更新作用

  • 可以定时,循环监控网页内容,爬取下来

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/664815.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决关于由于找不到vcruntime140_1.dll丢失的解决方法(有效的解决方法)

vcruntime140_1.dll是什么什么文件呢&#xff1f;为什么电脑在运行一些游戏的时候会出现丢失vcruntime140_1.dll&#xff0c;然后游戏运行失败?这个dll文件是电脑重要的运行库文件。丢失了会导致很多程序无法运行。 本教程操作系统&#xff1a;Windows vcruntime140_1.dll丢失…

AN10834-MIFARE ISOIEC 14443 PICC selection.pdf

AN10834-MIFARE ISOIEC 14443 PICC selection.pdf 1简介 在读卡器&#xff08;系统&#xff09;和智能卡之间交换数据之前&#xff0c;必须正确选择智能卡。该卡选择过程&#xff08;卡激活&#xff09;在用于非接触式接近系统的ISO14443-3中进行了描述。非接触式应用的急剧增…

k8s部署成功后却显示结点一直处于NotReady状态解决方案

直接说结论&#xff1a;原因是服务器的/opt/cni/bin/目录中没有flannel插件&#xff0c;安装flannel 到/opt/cni/bin/目录下即可。具体步骤往下看。 [rootK8SMaster ~]# journalctl -f -u kubelet.service 先看下报错&#xff0c;发现我一直显示NotReady的原因是由于 [faile…

windows系统安装显卡驱动软件和CUDA11.1的详细教程

深度学习目标检测框架在进行图像计算时需要GPU进行加速&#xff0c;需要用到硬件GPU显卡&#xff0c;目标检测框架和硬件GPU建立联系需要通过①显卡驱动软件&#xff1b;②CUDA软件依次建立联系。这两个软件&#xff0c;可直接从NVIDIA官网下载&#xff0c;版本没有非常严格的需…

【玩转Linux操作】详细讲解Linux的 at定时任务

&#x1f38a;专栏【玩转Linux操作】 &#x1f354;喜欢的诗句&#xff1a;更喜岷山千里雪 三军过后尽开颜。 &#x1f386;音乐分享【Counting Stars】 欢迎并且感谢大家指出小吉的问题&#x1f970; 文章目录 &#x1f354;基本介绍⭐怎么保证atd进程启动了 &#x1f354;at命…

Unity3D期末大作业(捕鱼达人)【免费开源】

目录 1 游戏简介 2 游戏各模块 2.1 主界面 2.2 加载界面 2.3 主游戏场景 2.4 游戏内道具 2.4.1 炮塔 2.4.2 技能 2.4.3 宝箱 2.4.4 鱼类 3 参考教程 4 项目地址 4.1 运行环境 4.2 源工程文件链接 4.3 结课报告 1 游戏简介 大部分人都玩过这个游戏吧&#xff0c;这…

chatgpt赋能python:使用Python来寻找两个列表不同元素的方法

使用Python来寻找两个列表不同元素的方法 在编写Python程序时&#xff0c;我们经常需要比较两个列表的元素&#xff0c;找出它们之间的不同之处。在搜索引擎优化&#xff08;SEO&#xff09;方面&#xff0c;这种比较对于找出两个网站内容的差异也非常有用。在这篇文章中&…

chatgpt赋能python:Python找出三个整数中的最大数

Python 找出三个整数中的最大数 在编程中&#xff0c;经常需要寻找一组数中的最大值。Python 提供了多种方法来实现此目的。本文将针对三个整数寻找最大值进行说明。 方法一&#xff1a;使用if语句 首先&#xff0c;我们可以使用if语句进行比较&#xff0c;找出最大值。 de…

开发日记-凌鲨中的评估体系

软件项目很难进行很好的管理&#xff0c;本质上是无法有效的评估项目成员的贡献&#xff0c;无法有效的评估技术债务。 由于人性的复杂&#xff0c;大多数的评估规则都能被绕过。比如&#xff1a; 代码行数的指标&#xff0c;造成大量冗余和无用代码。千行代码BUG率&#xff…

react知识点汇总一

以下是一些React中经典的知识点&#xff1a; 什么是React&#xff1f;它有哪些特点和优势&#xff1f; React是一个由Facebook开发的UI框架&#xff0c;用于构建单页面应用程序。它的特点和优势包括&#xff1a; 组件化&#xff1a;React的应用程序主要由多个组件组成&#…

【C++语法堂】STL标准库学习_list容器

目录 STL标准库学习_list 【1】List的介绍及使用 【2】List常用的接口 【2.1】构造函数 【2.2】析构函数 【2.3】迭代器相关 【2.4】容量相关 【2.5】元素访问相关 【2.6】修改相关 【2.7】运行相关 【2.8】观察相关 【2.9】非成员函数重载 【3】list模拟实现 【…

io.netty学习(六)字节缓冲区 ByteBuf(上)

目录 前言 ByteBuf类 ByteBuffer 实现原理 ByteBuffer 写入模式 ByteBuffer 读取模式 ByteBuffer 写入模式切换为读取模式 clear() 与 compact() 方法 ByteBuffer 使用案例 总结 前言 网络数据传输的基本单位是字节&#xff0c;缓冲区就是存储字节的容器。在存取字节…

双目结构光 实现高度测量

这里使用了两个大恒金星相机&#xff0c;一个投影仪。 相机镜头以及投影仪的架设&#xff1a; 相机镜头以及投影仪的架设&#xff1a; 注意相对位置的摆放&#xff0c;投影仪的光源照亮范围要超过相机的视野。 相机与光源调整好位置后&#xff0c;调整成像效果。两个镜头的光…

传教士与野人过河问题(numpy、pandas)

努力是为了不平庸~ 学习的最大理由是想摆脱平庸&#xff0c;早一天就多一份人生的精彩&#xff1b;迟一天就多一天平庸的困扰。 目录 一、问题描述 二、问题解释 1.算法分析 2.程序执行流程 3.编写程序对问题进行求解 三、问题思路 1. 算法分析&#xff1a; 2. 实验执…

flink 实时数仓构建与开发[记录一些坑]

记-flink 实时数仓搭建、开发、维护笔记 业务场景描述数仓架构数仓分层odsdimdwddws 数仓建模注意项数仓建模开发规范命名规范 问题与原因分析1、debezium 采集pg 表&#xff0c;数据类型问题2、业务库出现大批量刷表数据&#xff0c;debezium采集connector 可能会挂3、业务库出…

MySQL面试题--索引概念以及底层

目录 概述 索引的底层数据结构 二叉树 B树 B树 B树与B树对比: 面试回答 大纲 回答 概述 索引&#xff08;index&#xff09;是帮助MySQL高效获取数据的数据结构(有序)。 在数据之外&#xff0c;数据库系统还维护着满足特定查找算法的数据结构&#xff08;B树&#xff0…

chatgpt赋能python:Python扩展开发:从入门到精通

Python扩展开发&#xff1a;从入门到精通 Python是一门高效、可扩展、易学易用的编程语言。Python的优秀性能在科学计算、数据处理、web开发等领域表现突出。然而&#xff0c;Python在特定的应用场景中&#xff0c;如图像处理和机器学习等领域&#xff0c;需要更高效的代码执行…

8.4 IP地址与端口号

目录 IP地址 IP地址及编址方式 IP 地址及其表示方法 点分十进制记法举例 IP 地址采用 2 级结构 分类的 IP 地址 分类的 IP 地址 多归属主机 各类 IP 地址的指派范围 ​编辑 一般不使用的特殊的 IP 地址 ​编辑 分类的 IP 地址的优点和缺点 划分子网 无分类编址 CIDR 无…

【C/C++数据结构与算法】C语言万年历

目录 项目分析 项目效果 头文件及全局变量 获取天数 打印月份、年份日历 main函数 项目分析 实现查询某一个年份、月份&#xff0c;以日历的格式打印为了观赏性利用符号对打印的每一个日期进行分格特殊节日日期能够在日历中标注出来万年历的起始日期是公元1年&#xff0…

【随笔闲谈】软件工程导论

目录 一、软件工程概述 二、启动阶段 三、计划阶段 四、实施阶段 五、收尾阶段 一、软件工程概述 软件危机&#xff1a;在计算机软件的开发和维护过程中遇到的一系列严重问题。 软件危机的产生与自身的特点有关&#xff0c;还与软件开发、管理的方法不正确有关。 软件危…