ML03 网页数据抓取（note）

news2026/2/12 18:41:18

很多机器学习数据集是从网页上抓取过来的。
网页数据抓取与网页爬虫的区别：数据抓取：特定的数据，网页爬虫：将整个网页获取
数据科学家主要进行网页数据抓取，对网页上的特定数据感兴趣。

网页数据获取工具

curl 通常不起作用
通常使用headless 浏览器，没有头，没有界面的浏览器。

如果要大量爬取，需要使用IP代理池。

案例-房价预测

在这里插入图片描述
换成不同的page, 或者不同的城市，将这些要获取的对象放入代码中。

原始网页

在这里插入图片描述
BeautifulSoup: 主要用于解析HTML

在这里插入图片描述

在这里插入图片描述
将需要的信息抽取返回保存

在这里插入图片描述
爬虫关键是内存，可能会同时爬多个网页，内存消耗大。
如果ip被禁，重启会重新分配ip

爬取图片

在这里插入图片描述
图片抓取后，将图片存在云端比较耗钱。

法律性

在这里插入图片描述
爬虫本身是不违法的，最好不要去爬一些需要登陆login 的信息，这些一般是隐私数据。
不要去爬一些有版权的信息，比如有版权的视频、文档等。爬本身没有问题，但是保存下来有问题。
爬虫结果不要用于盈利。

总结

来源

https://www.bilibili.com/video/BV1JM4y137kK/?spm_id_from=333.999.0.0&vd_source=3fd64243313f29b58861eb492f248b34添加链接描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/531811.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【夜莺(Flashcat)V6监控】2.夜莺告警相关:初级使用

【夜莺(Flashcat)V6监控】2.夜莺告警相关:初级使用

介绍夜莺监控系统不仅提供了强大的数据采集和可视化功能，还提供了灵活的告警配置能力，帮助我们实时掌握系统的运行状况，快速响应和解决潜在问题。本章主要给大家介绍邮件、微信、钉钉配置并告警；简单几台机器随时看就好了&…

阅读更多...

指针穿梭，数据流转：探秘C语言实现单向不带头不循环链表

指针穿梭，数据流转：探秘C语言实现单向不带头不循环链表

本篇博客会讲解链表的最简单的一种结构：单向不带头不循环链表，并使用C语言实现。概述链表是一种线性的数据结构，而本篇博客讲解的是链表中最简单的一种结构，它的一个结点的声明如下： // 单链表存储的数据类型 typ…

阅读更多...

Dcat Admin文件上传漏洞复现

Dcat Admin文件上传漏洞复现

Dcat Admin框架 Dcat Admin是一个基于laravel-admin二次开发而成的后台系统构建工具，只需极少的代码即可快速构建出一个功能完善的高颜值后台系统。支持页面一键生成CURD代码，内置丰富的后台常用组件，开箱即用，让开发者告别冗杂的…

阅读更多...

060基于深度学习的建筑物房屋检测

060基于深度学习的建筑物房屋检测

视频演示和demo仓库地址找060期： 银色子弹zg的个人空间-银色子弹zg个人主页-哔哩哔哩视频效果图如下: 代码所有文件: 运行01create_txt.py会将data文件下的图片路径及标签保存在txt文本内， 运行02train.py会对图片进行读取并训练模型保存在runs文件…

阅读更多...

训练自己的ChatGPT(ChatGLM微调 )

训练自己的ChatGPT(ChatGLM微调 )

目录准备操作上传数据数据训练进度推理验证异常处理总结参考资料 ChatGLM微调 ptuning 准备接上文https://blog.csdn.net/dingsai88/article/details/130639365 部署好ChatGLM以后，对它进行微调操作如果已经使用过 API 或者web模式的应该已经…

阅读更多...

Linux安装elasticsearch、ik分词器、kibana

Linux安装elasticsearch、ik分词器、kibana

这里写目录标题前言下载IK分词器下载Elasticsearch下载Kibana下载JDK安装JDK安装Elasticsearch与IK分词器安装Kibana错误调试参考链接扩展部分前言一个PHP程序员接入Elasticsearch并不是公司项目的需求，而是自己平时积累了很多项目信息、代码片段、解决问题的网…

阅读更多...

设计模式之【模板方法模式】，模板方法和函数式回调，哪个才是趋势？

设计模式之【模板方法模式】，模板方法和函数式回调，哪个才是趋势？

文章目录一、什么是模板方法模式1、主要角色2、应用场景3、优缺点4、注意事项及细节二、实例1、炒菜案例（1）模板方法模式的钩子方法 2、重构JDBC案例三、模板方法模式与Callback回调模式1、回调基本原理2、案例一：回调方式重构JDBC3、案例…

阅读更多...

Camtasia Studio2023最新版喀秋莎电脑录制屏幕编辑器

Camtasia Studio2023最新版喀秋莎电脑录制屏幕编辑器

不管是在我们平日的工作当中，还是生活当中，camtasia studio可以方便地进行屏幕操作的录制和配音、视频的剪辑和过场动画、添加说明字幕和水印、制作视频封面和菜单、视频压缩和播放。你都会因为一些事情，从而需要进行录屏的需求。而Camtasi…

阅读更多...

超详细，unity如何制作人物行走的遥杆？

超详细，unity如何制作人物行走的遥杆？

介绍在游戏中，移动遥杆是一种常见的用户界面元素，它允许玩家通过触摸或鼠标输入来控制游戏对象的移动。移动遥杆通常由一个圆形或方形的背景和一个可以拖动的小球（称为拇指杆）组成。玩家可以通过拖动拇指杆来控制游戏对象的移动…

阅读更多...

某IC交易网 js逆向解析学习【2023/05/16】

某IC交易网 js逆向解析学习【2023/05/16】

文章目录文章目录文章目录前言网址目标参数确认加密点cookie解密第一步hex1算法解析rind和rnns完结撒花前言可以关注我哟，一起学习，主页有更多练习例子如果哪个练习我没有写清楚，可以留言我会补充如果有加密的网站可以留言发给我，一起学习共享学习路程如侵权，联系我…

阅读更多...

Vue.js表单输入绑定

Vue.js表单输入绑定

对于Vue来说，使用v-bind并不能解决表单域对象双向绑定的需求。所谓双向绑定，就是无论是通过input还是通过Vue对象，都能修改绑定的数据对象的值。Vue提供了v-model进行双向绑定。本章将重点讲解表单域对象的双向绑定方法和技巧。 10.1 实现双…

阅读更多...

单片机的介绍

单片机的介绍

目录一、介绍 1.单片机简介 2.单片机型号 3.体系二、硬件基础 1.引言 2.电路基础电的类比电流电压电路 3.电子元器件电阻电容二极管三极管 4.常见电气接口传统音频视频电源 RJ45网口 DB9串口 5.开发板/最小系统板三、STM32介绍 1.简介…

阅读更多...

JAVA电商 B2B2C商城系统多用户商城系统直播带货新零售商城 o2o商城电子商务拼团商城分销商城

JAVA电商 B2B2C商城系统多用户商城系统直播带货新零售商城 o2o商城电子商务拼团商城分销商城

JAVA电商 B2B2C商城系统多用户商城系统直播带货新零售商城 o2o商城电子商务拼团商城分销商城 1. 鸿鹄Cloud架构清单 2. Commonservice（通用服务） 通用服务：对spring Cloud组件的使用&封装，是一套完整的针对于分布式微…

阅读更多...

Android Studio中的布局讲解

Android Studio中的布局讲解

文章目录 1.LinearLayout（线性布局）2.RelativeLayout（相对布局）相对于兄弟元素：相对于父元素对齐方式间隔 3.GridLayout（网格布局）设置最大列数设置最大行数指定控件的位置 4.FrameLayout&#…

阅读更多...

包管理工具：pnpm | 京东云技术团队

包管理工具：pnpm | 京东云技术团队

作者：京东零售杨秀竹 pnpm 是什么 pnpm（ performant npm ）指的是高性能的 npm，与 npm 和 yarn 一样是一款包管理工具，其根据自身独特的包管理方法解决了 npm、yarn 内部潜在的安全及性能问题，在多数情况…

阅读更多...

耗子叔-我的互联网引路人

耗子叔-我的互联网引路人

早上一早看到各大程序员群提到左耳朵耗子-陈皓，因为心梗辞世的信息，真的让人难以置信，因为据我所知他还不到50。虽然我从来没见过他，交谈也很少，但是我知道他的情况，知道他的公司，知道他的好恶…

阅读更多...

不要再问我加密的问题了，使用crypto-js中的AES加密方法，连续多次加密/解密，注意事项

不要再问我加密的问题了，使用crypto-js中的AES加密方法，连续多次加密/解密，注意事项

每日鸡汤，每个你想要学习的念头，都是未来的你向自己求救需求：有一段字符串text，有3个key，后端用这三个key一次加密；然后把加密后的字符串返回给前端，前端用这3个key依次解密，得到原…

阅读更多...

剖析：在线帮助中心对企业能够起到什么作用？

剖析：在线帮助中心对企业能够起到什么作用？

随着互联网技术的不断发展和普及，越来越多的企业开始将自己的业务转移到了线上。这种转移不仅能够大幅度提高企业的效率，还能够让企业的服务更加贴近用户的需求。然而，在线服务也存在着一些问题，比如用户可能会遇到一些困难&#…

阅读更多...

大人，时代变了！缺少成本票可不能买发票啊，是有办法的！

大人，时代变了！缺少成本票可不能买发票啊，是有办法的！

业务是流程，财税是结果，税收问题千千万，关注《税算盘》来帮你找答案。企业所得税和增值税一样，都是我国重要的税收之一。企业所得税征收对象为企业的利润部分，再度细分就与企业的成本票有关。企业所得税高是如今众…

阅读更多...

电商系统分类树查询功能优化方案总结

电商系统分类树查询功能优化方案总结

前言分类树查询功能，在各个业务系统中可以说随处可见，特别是在电商系统中。但就是这样一个简单的分类树查询功能，我们却优化了5次。到底是怎么回事呢？ 背景我们的网站使用了SpringBoot推荐的模板引擎：Thymelea…

阅读更多...

推荐文章

最新文章