爬虫是什么?

news2024/10/6 19:29:12

目录

1.什么是互联网爬虫?

2.爬虫核心?

3.爬虫的用途?

4.爬虫分类?

5.反爬手段?


1.什么是互联网爬虫?

如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的数据.

解释1:通过一个程序,根据Url(http://www.taobao.com)进行爬取网页,获取有用信息

解释2:使用程序模拟浏览器,去向服务区请求,获取响应信息

2.爬虫核心?

1.爬取网页:爬取整个网页 包含了网页中所有得内容

2.解析数据:将网页中你得到的数据进行解析

3.难点:爬虫和反爬虫之间的博弈

3.爬虫的用途?

  • 数据分析/人工数据集
  • 社交软件冷启动
  • 舆情监控
  • 竞争对手监控

出行:票都只有在12306平台售卖 但是你会发现飞猪等平台也有这是为什么?因为这些其他平台利用爬虫高频次地访问12306网站.

社交:陌陌这款软件很久以前如果你有在上面进行一定的社交你会发现大部分人都不会理你,因为他们都从微博上爬下来的假人.

4.爬虫分类?

通用爬虫:
实例    
百度、360、google、sougou等搜索引擎‐‐‐伯乐在线        
功能    
访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务        
robots协议    
一个约定俗成的协议,添加robots.txt文件,来说明本网站哪些内容不可以被抓取,起不到限制作用        
自己写的爬虫无需遵守        
网站排名(SEO)    
1. 根据pagerank算法值进行排名(参考个网站流量、点击率等指标)        
2. 百度竞价排名        
缺点    
1. 抓取的数据大多是无用的        
2.不能根据用户的需求来精准获取数据 

聚焦爬虫
功能    
根据需求,实现爬虫程序,抓取需要的数据        
设计思路    
1.确定要爬取的url        
如何获取Url            
2.模拟浏览器通过http协议访问url,获取服务器返回的html代码        
如何访问            
3.解析html字符串(根据一定规则提取需要的数据)        
如何解析 

5.反爬手段?

1.User‐Agent:
User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版
本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
   
2.代理IP
西次代理    
快代理    
什么是高匿名、匿名和透明代理?它们有什么区别?    
1.使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP。        
2.使用匿名代理,对方服务器可以知道你使用了代理,但不知道你的真实IP。        
3.使用高匿名代理,对方服务器不知道你使用了代理,更不知道你的真实IP。        
3.验证码访问
打码平台    
      云打码平台
      超级🦅
4.动态加载网页  网站返回的是js数据 并不是网页的真实数据
selenium驱动真实的浏览器发送请求    
5.数据加密 
分析js代码 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1868515.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【vue3】【vant】 移动端中国传统文化和民间传说案例

更多项目点击👆👆👆完整项目成品专栏 【vue3】【vant】 移动端中国传统文化和民间传说案例 获取源码方式项目说明:其中功能包括项目包含:项目运行环境运行截图和视频 获取源码方式 加Q群:632562109项目说…

APP 自动化测试框架如何设计?

自动化测试框架是为了增强测试效率和准确性而设计的工具。它可以帮助开发人员和测试人员在软件开发周期中自动执行各种测试任务。在本文中,我们将从零开始详细介绍如何设计一个自动化测试框架。 1. 确定测试需求: 在设计测试框架之前,首先需…

本安防爆手机为什么能在石油化工行业使用

本安防爆手机专为石油化工行业等易燃易爆环境设计,具备严格的防爆安全标准和环境适应性,确保在石油化工厂的作业安全使用。这些手机不仅具备普通手机的通讯功能,更能有效防止电火花等潜在点火源的产生,为石油化工工作人员提供可靠…

Todesk远程连接Ubuntu卡100%,以及小窗口打不开

Todesk远程连接Ubuntu卡100%,以及小窗口打不开 使用Todesk远程连接Ubuntu一直卡100%进不去还有todesk里的小悬浮窗打开就会小时(小下拉框会消失) 使用Todesk远程连接Ubuntu一直卡100%进不去 还有todesk里的小悬浮窗打开就会小时(小…

使用 Java Swing 和 XChart 创建多种图表

在现代应用程序开发中,数据可视化是一个关键部分。本文将介绍如何使用 Java Swing 和 XChart 库创建各种类型的图表。XChart 是一个轻量级的图表库,支持多种类型的图表,非常适合在 Java 应用中进行快速的图表绘制。 1、环境配置 在开始之前&…

Web应用安全测试-专项漏洞(一)

Web应用安全测试-专项漏洞(一) 专项漏洞部分注重测试方法论,每个专项仅列举一个例子。实际测试过程中,需视情况而定。 文章目录 Web应用安全测试-专项漏洞(一)Web组件(SSL/WebDAV)漏…

AI职场调研 - 被AI替代的工作分析报告

研究背景 随着人工智能(AI)技术的快速发展,其在职场中的应用日益广泛,引发了对工作被AI替代的担忧。本研究旨在分析在自由职业市场中,哪些工作更有可能被AI替代,并探讨AI对工作市场的实际影响。 研究目标 识别最有可能被AI替代…

DevExpress Office File API教程 - 如何使用AI服务增强Word文档可访问性和语言支持?

DevExpress Office File API是一个专为C#, VB.NET 和 ASP.NET等开发人员提供的非可视化.NET库。有了这个库,不用安装Microsoft Office,就可以完全自动处理Excel、Word等文档。开发人员使用一个非常易于操作的API就可以生成XLS, XLSx, DOC, DOCx, RTF, CS…

不会还有人没有用过git rebase合并分支吧?一文详解git merge与git rebase区别

文章目录 什么是git merge?使用git merge的场景git merge的示例 什么是git rebase?使用git rebase的场景git rebase的示例 git merge与git rebase的区别如何选择git merge和git rebase?结论 🎉欢迎来到Java学习路线专栏~探索Java中…

技术流 | 运维平台大型“生产事故”录播和实战重现

【本文作者:擎创科技 资深专家禹鼎侯】 本文写于2021年,最近重读觉得特别有现场感。这也是运维人面对生产环境时遇到的各种惊心动魄的事件之一。惊险,但又顺利解决。是最好的结果。 事情是酱紫的。 那天上午,轻轻松松完成了一个新…

自媒体内容创作者必备:ChatGPT助你提升文章质量

随着自媒体的迅猛发展,越来越多的人加入到内容创作的行列。然而,要在这个竞争激烈的领域脱颖而出,不仅需要创意和独特的观点,更需要高质量的文章内容。在这方面,ChatGPT作为一个智能写作助手,能够帮助自媒体…

第三届仿真模拟、电子信息科学与技术国际学术会议(SMEI 2024,8月02-04)

随着仿真模拟技术的成熟和进步,仿真模拟技术越来越广泛地应用于工业工程、管理科学、社会经济、交通运输、生态环境、军事装备等各个科学领域,并深刻影响着信息技术和信息产业的发展。围绕仿真模拟、电子信息科学与技术等方面内容,为更好地促…

昇思25天学习打卡营第4天|MindSpore快速入门-FCN图像语义分割

FCN图像语义分割 全卷积网络(Fully Convolutional Networks,FCN)是UC Berkeley的Jonathan Long等人于2015年在Fully Convolutional Networks for Semantic Segmentation[1]一文中提出的用于图像语义分割的一种框架。 FCN是首个端到端&#…

SAP 自动登录

文章目录 前言一、程序介绍/笔者需求二、程序原理介绍 a.基本原理 b.为什么不设置界面? c.为什么用户信息不走配置文件? d.注意事项 三、如何使用 a.下载程序 b.配置并执行登录 …

大模型笔记1: Longformer环境配置

论文: https://arxiv.org/abs/2004.05150 首先保证电脑上配置了git. git环境配置: https://blog.csdn.net/Andone_hsx/article/details/87937329 3.1、找到git安装路径中bin的位置,如:D:\Program Files\Git\bin 找到git安装路径中git-core的…

收银系统源码-开源收银系统-私有化独立部署

千呼新零售2.0-支持OEM私有化独立部署和全开源源码 千呼新零售2.0-支持OEM私有化独立部署和全开源源码 千呼新零售2.0-支持OEM私有化独立部署和全开源源码 千呼新零售2.0-支持OEM私有化独立部署和全开源源码 如需了解请私信交流

Java知识点整理 14 — MyBatisX代码生成器

在后端开发过程中大多数的工作都是在重复编写各种CRUD(增删改查)代码,费时费力。 所以要灵活运用各类现成的代码生成器,协助我们自动生成常用的增删改查代码,而无需自己重复编写,从而大幅提升开发效率。 …

【系统架构设计师】六、信息系统基础知识(电子政务|企业信息化|电子商务|信息化战略体系)

目录 一、电子政务EG 1.1 电子政务的内容 1.2 电子政务的主要特征 二、企业信息化EI 2.1 企业信息化实现 2.2 企业信息化方法 三、电子商务EC 四、信息化战略体系 五、客户关系CRM 5.1 CRM的功能 5.2 CRM解决方案具备的要素 5.3 CRM的实现过程 六、供应链管理SCM 七…

TEMU半托管模式引领跨境电商新风尚

TEMU半托管模式作为2024年的热门话题,正吸引着越来越多卖家的目光。继全托管模式取得巨大成功之后,半托管模式的推出无疑为跨境电商行业注入了新的活力。 在选品方向上,TEMU半托管模式强调商品的聚焦与精选。卖家在选择上架商品时&#xff0c…

404 Not Found(nginx)

#vue-router history 配置location / {add_header Access-Control-Allow-Origin *;add_header Access-Control-Allow-Headers *;add_header Cross-Origin-Embedder-Policy require-corp;add_header Cross-Origin-Opener-Policy same-origin;try_files $uri $uri/ router;index …