数据获取与预处理

news2024/11/27 4:00:27

文章目录

  • Requests简介
  • Requests库安装
  • Requests库的基本操作
    • Requests库的7个主要方法
    • Request方法
    • get方法
    • Response对象的属性
    • head方法
    • post方法


Requests简介

提示:这里可以添加本文要记录的大概内容:

首先他是个第三方库,应用非常广泛
采用Apache2Licensed开源的HTTP协议
在urllib库基础上使用Python编写的爬虫库


提示:以下是本篇文章正文内容,下面案例可供参考

Requests库安装

在这里插入图片描述
在这里插入图片描述

Requests库的基本操作

【例】测试网站:哭笑不得语音情感组——情感标注页面
http://emotion.bxbw-jyz.cn/Home/index/showPartData.html
在这里插入图片描述
在这里插入图片描述

代码如下(示例):

import requests
r = requests.get("http://emotion.bxbw-jyz.cn/Home/index/showPartData.html")
demo = r.text
print(demo)

这行代码把页面所有代码全部输出了
在这里插入图片描述
百度谷歌尽量不要爬虫

Requests库的7个主要方法

方法说明HTTP协议
requests.request()构造一个请求HTTP
requests.get()获取HTML网页的主要方法GET
requests.head()获取HTML网页头的信息方法HEAD
requests.post()向HTML网页提交POST请求方法POST
requests.put()向HTML网页提交PUT请求的方法PUT
requests.patch()向HTML网页提交局部修改请求PATCH
requests.delete()向HTML页面提交删除请求DELETE

【例】http://www.baidu.com/s?wd=keyword

import requests
kv={'wd':'Python'}
r = requests.get("http://www.baidu.com/s",
              params=kv)
demo=r.text
print(r.request.url)
print(len(demo))

在这里插入图片描述
【例】http://emotion.bxbw-jyz.cn/Home/index/showPartData.html

import requests
r=requests.get("http://emotion.bxbw-jyz.cn/Home/index/showPartData.html")
print(r.status_code)
print(type(r))

在这里插入图片描述

Request方法

requests.request(method,url,**kwargs)
参数说明:
method:请求方式
url:页面url链接
**kwargs:控制访问参数,共13个

(1)params:字典或字节序列,作为参数增加到url中
requests.request(method,url,**kwargs)
**kwargs:控制访问参数,共13个

(2) data:字典:
字节序列或文件对象,Request内容

get方法

r=requests.get(url)
url:页面url链接
从服务器获取请求资源
生成Response对象(服务器返回的资源)

requests.get(url, params,**kwargs)
参数说明:
url:页面url链接
params:字典或字节序列
**kwargs:控制访问参数,共12个

Response对象的属性

属性说明
r.status_code返回状态码
r.text响应内容的字符串形式
r.encoding网页的编码方式
r.apparent_encoding分析得到的编码方式
r.content响应内容的二进制方式

head方法

requests.head (url,**kwargs)
参数说明:
URL:页面URL链接
**kwargs:控制访问参数,共12个

【例】http://emotion.bxbw-jyz.cn/Home/index/showPartData.html
【# 井号后的注释与运行截图后红圈对应的东西一致】

import requests
r=requests.head("http://emotion.bxbw-jyz.cn/Home/index/showPartData.html")
print(r.headers)  # r.headers(代表着那几行数据)
print(r.text)

在这里插入图片描述

【同上一例】

import requests
r=requests.head("http://emotion.bxbw-jyz.cn/Home/index/showPartData.html")
print(r.headers)  
print(r.text)   # r.text(代表空行)

在这里插入图片描述

post方法

requests.post(URL,data,json,**kwargs

参数说明:
URL:页面URL链接
data:字典或字节序列
json:JSON格式的数据
**kwargs:控制访问参数,共11个

【例】

import requests
base_url="http://httpbin.org"
form_data={"user":"python39","pwd":'2022'}
#将参数存在字典里
r=requests.post(base_url+'/post',data=form_data)
print(r.url) #打印URL
print(r.status_code)
print(r.json())
print(r.text)  #此处代码对应红框以外的数据

在这里插入图片描述

【例】http://emotion.bxbw-jyz.cn/Home/Index/CheckLogion.html

import requests
datas={
       'login_name':'jn',
       'login_psd':'123456',
       }
r=requests.post("http://emotion.bxbw-jyz.cn/Home/Index/CheckLogion.html",data=datas)
demo=r.text
print(demo)

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/4102.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《数据结构》(六)八大排序(下)

承接上篇的八大排序,今天本篇文章主要讲归并排序,冒泡排序,快速排序(挖坑,左右指针,前指针)和计数排序 八大排序交换排序冒泡排序冒泡排序思想代码冒泡排序总结快速排序快速排序思想三数取中快速排序之挖坑法挖坑法代码…

量化股票查询代码是什么?

量化股票查询代码是什么?接下来用一些代码来分析一下,如下: 做空95:HHV((HIGHLOWOPEN2*CLOSE)/5H-L,5),COLORBLUE;做空68: HHV((HIGH-LOWOPEN2*CLOSE)/5*2-L,5),COLORRED; 平衡点:LLV((HIGHLOWOPEN2*CLOSE…

狗厂员工来面试本想难为一下,问他内存溢出,结果被虐得连console.log也不敢写了

这次说到的面试题是关于node服务端内存溢出的问题,狗厂员工来面试本想难为一下,现在我连console.log也不敢写了 关于这道node内存溢出的问题,大哥从以下几个方面讲的,讲完我觉得自己得到了升华,现在搞得连代码也快不敢…

AI人脸检测/安全帽检测智能分析网关告警消息配置——微信告警消息配置

AI智能分析网关内置多种深度学习算法,可支持对接入的多路视频流进行智能检测、智能识别等,包括人脸检测与识别、车辆检测与识别、车牌识别、烟火识别、安全帽识别、区域入侵检测等。将智能分析网关与EasyCVR视频融合平台联合使用,可实现智能告…

Linux命令从入门到实战 ---- 用户管理命令

文章目录useradd添加新用户passwd设置用户密码id查看用户是否存在查看创建了哪些用户su切换用户userdel删除用户who查看登录用户信息sudo设置普通用户具有root权限用户组groupadd 新增用户组usermod修改用户groupdel删除用户组groupmod修改用户组总结useradd添加新用户 将usera…

安卓学习笔记5.3 按钮、图像视图与图像按钮

文章目录零、本讲学习目标一、导入新课二、新课讲解(一)按钮控件1、继承关系图2、常用属性(二)图像视图1、继承关系图2、常用属性(三)图像按钮1、继承关系图2、常用属性(四)教学案例…

vue无需改动代码的SEO【百度爬取】优化--puppeteer(详细流程)

vue无需改动代码的SEO优化–puppeteer(详细流程) 目录vue无需改动代码的SEO优化--puppeteer(详细流程)一级目录二级目录三级目录一、安装puppeteer:npm install puppeteer --save安装依赖二、编写puppeteer服务js文件p…

DDD领域驱动设计基础

什么领域驱动模型 领域驱动模型一种设计思想,我们又称为DDD设计思想。是一种为了解决传统设计思想带来的维护困难,沟通困难和交互困难而产生的一种新的思想。 架构模式的演进 单体架构 采用面向对象的设计方法,系统包括业务接入层、业务逻…

Eclipse切JRE环境后如何恢复- Unrecognized option: --enable-preview

场景 使用switch 新特性 配合 lambda 练习小案例 // 需求: 1 2 3 -> 一、二、 三 int num 1; switch ( num) {// jdk13 可以缺省 break 并且 单语句可以省略 花括号 case 1 -> { System.out.println("一"); }case 2 -> System.out.p…

[附源码]计算机毕业设计JAVAjsp宠物店管理系统

[附源码]计算机毕业设计JAVAjsp宠物店管理系统 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybat…

Mybatis-Plus知识点[MyBatis+MyBatis-Plus的基础运用]

目录 前言 一、了解Mybatis-Plus 1.简介 2.Mybatis-Plus具有的特性 3.支持数据库 4.框架结构 5.官网链接 二、快速开始 2.1.创建数据库以及表 2.2.创建工程 2.3 MybatisMybatis-Plus的使用 2.3.1创建一个itcast-mybatis-plus-simple的maven项目 2.3.2写UserMapper接口 2.3.3写U…

北京化工大学数据结构2022/11/3作业 题解

目录 问题 A: 二叉树非递归前序遍历-附加代码模式 问题 B: 二叉树非递归中序遍历-附加代码模式 问题 C: 二叉树非递归后序遍历-附加代码模式 问题 D: 求二叉树中序遍历序根节点的下标 问题 E: 根据前序中序还原二叉树 问题 F: 算法6-12:自底向上的赫夫曼编码 …

ServletConfig和ServletContext接口

一、ServletConfig接口详解 1、简介 Servlet 容器初始化 Servlet 时,会为这个 Servlet 创建一个 ServletConfig 对象,并将 ServletConfig 对象作为参数传递给 Servlet 。通过 ServletConfig 对象即可获得当前 Servlet 的初始化参数信息。一个 Web 应用中…

微电网优化调度(风、光、储能、柴油机)(Python代码实现)

💥💥💥💞💞💞欢迎来到本博客❤️❤️❤️💥💥💥 ​ 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻…

【Linux命令】文件和目录权限

【Linux命令】文件和目录权限 权限查看 众所周知,可以使用 ls -l 来查看文件和目录的详细信息,那么输出的东西是什么呢? 我们先来看 文件类型: -:普通文件;d:目录文件;b&#xff…

网络协议:TCP三次握手与四次挥手

本篇内容包括:TCP/IP 传输协议(TCP/IP 传输协议简介,IP 协议,UDP 协议,TCP 协议介绍),TCP 的三次握手、TCP 的四次挥手 以及 TCP 协议是怎么保证有效传输等内容。 一、TCP/IP 传输协议 1、TCP/…

【仿牛客网笔记】 Redis,一站式高性能存储方案——Redis入门

Redis可以开发对性能要求较高的功能。还可以利用Redis重构我们现有的功能。 NoSQL关系型数据库之外的统称。 快照有称为RDB 以快照的形式 不适合实时的去做,适合一段时间做一次。 日志又称AOF 以日志的形式每执行一次就存入到硬盘中,可以做到实时的存储以…

JAVA外卖订餐系统毕业设计 开题报告

本文给出的java毕业设计开题报告,仅供参考!(具体模板和要求按照自己学校给的要求修改) 选题目的和意义 目的:本课题主要目标是设计并能够实现一个基于java的外卖点菜系统,管理员通过后台添加菜品&#xf…

卷积神经网络CNN

卷积神经网络CNN CNN通常用于影像处理 为什么需要CNN 为什么需要CNN,我用普通的fully connected的反向传播网络进行图像训练会怎样 需要过多参数 假设一张彩色的图为100100的,那么像素点就是1001003,那么输入层为三万维 假设下一层隐含层有…

移动Web:Less 预处理及Koala工具

css 预处理器,后缀名为 .less。 less 代码无法被浏览器识别,实际开发需要转换成 css,使用 liink 标签引入 css 文件。 插件工具 Easy Less VS Code 内置插件(less 文件保存自动生成 css 文件) 更改编译后 css 存储路径…