『python爬虫』beautifulsoup库获取文本的方法.get_text()、.text 和 .string区别(保姆级图文)

news2025/4/9 10:33:26

目录

    • 区别
      • .string(不推荐用)
      • .text(get_text的简化版少敲代码的时候用)
      • .get_text(推荐用,功能强大,为什么不爱呢?)
    • 示例代码
    • 总结


欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中

区别

省流直接看get_text 推荐用这个

.string(不推荐用)

BeautifulSoup 提供的属性

  1. 如果只有单个子标签且本标签内部没有文本,且子标签内不能有其他标签(获取子标签内的文本)
  2. 如果没有子标签且本标签内部有文本(获取本标签的文本)
  3. 其他情况都返回None
  4. 总结:标签内部不能同时有子标签和本标签文本,而且子标签也不能有孙子标签.

.text(get_text的简化版少敲代码的时候用)

  • BeautifulSoup 提供的属性,用于获取指定标签直接包含的文本内容,包括子标签内的文本内容。
  • 比.string的优势:可以允许获取儿子标签和孙子标签的文本内容.
    如果
  • 空内容时不会返回None而是返回""

.get_text(推荐用,功能强大,为什么不爱呢?)

  • BeautifulSoup 提供的方法,用于获取指定标签及其子孙标签的所有文本内容,并将它们合并成一个字符串。你可以通过参数来控制获取文本的方式,例如指定分隔符、去除空白字符等。

  • 空内容时不会返回None而是返回""


示例代码

在这里插入图片描述

html_doc = """
<html><head><title class="story_start"><p>标题</p></title></head>
<body>
<p class="title"><b>故事名</b></p>

<p class="story">东汉末年,桃园结义</p>
<a href="http://example.com/elsie" class="zhangfei" id="zhangfei_id">张飞</a>,
<a href="http://example.com/lacie" class="guanyu" id="guanyu_id">关羽</a> and
<a href="http://example.com/tillie" class="liubei" id="liubei_id">刘备</a>;
<p>第一回</p>;


<div class="story_end">
div标签内容(爷爷)
    <div>
        div子标签内容(爸爸)
        <div>
            div子标签的子标签内容(儿子)
        </div>
    </div>
    <div>div子标签内容(妈妈)</div>
</div>

"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')

#获取节点信息  在html.parser模式下
obj=soup.select(".story_end")[0]
print(".string 有标签也有子标签,返回none",obj.string)
print(".text",obj.text)
print(".get_text",obj.get_text(separator=' ', strip=True))

# .string的补充说明
obj=soup.select(".story_start")[0]
print(".string 如果只有标签也可以获取得到子标签的文本,即便子标签内没有文本",obj.string)


总结

大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2023 mzh

Crated:2023-3-1

欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
『未完待续』


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1977644.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[BJDCTF2020]Cookie is so stable1

打开题目 查看页面源码 点击hint查看源码 提示看cookie&#xff0c;burp抓包查看cookie 试一下 尝试{{7*7}}&#xff0c;发现ssti漏洞&#xff0c;判断是twig 抓包&#xff0c;发现user为注入点 输入payload {{_self.env.registerUndefinedFilterCallback("exec"…

.NET 8 通用权限框架 前后端分离,开箱即用

目录 前言​ 项目介绍 1、支持各种数据库 2、前端运行步骤 3、演示环境 4、项目地址 5、在线文档 项目使用 项目功能 项目截图 总结 前言​ 推荐一个基于.NET 8 实现的通用权限开发框架Admin.NET&#xff0c;前端使用Vue3/Element-plus开发。 基于.NET 8(Furion)/Sq…

【中项】系统集成项目管理工程师-第9章 项目管理概论-9.9价值交付系统

前言&#xff1a;系统集成项目管理工程师专业&#xff0c;现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。 软考同样是国家人社部和工信部组织的国家级考试&#xff0c;全称为“全国计算机与软件专业技术资格&#xff08;水平&#xff09;考试”&…

十分钟速通 Vue 动态 Class、Style

计算属性 大家有没有思考过这样一个问题&#xff0c;下面这段代码&#xff0c;功能上没什么问题&#xff0c;但是读起来很费劲&#xff0c;因为需要思考过后&#xff0c;才能知道这段代码的意思。 <p>{{ message.split().reverse().join() }}</p>这完全不符合面向…

[NISACTF 2022]ezpie- 入土为安的第十五天

pwn的第3天 PIE保护ret2text栈 按照签到题的套路是找main&#xff0c;buf,shell,bin/sh/ 但是是PIE保护 那有什么不一样的呢 PIE保护&#xff1a; ​ PIE全称是position-independent executable&#xff0c;中文解释为地址无关可执行文件&#xff0c;该技术是一个针对代码…

C++ | (一)C++入门基础

从本篇文章开始&#xff0c;我们正式进行C的系统学习。C是在C语言的基础上添加了面向对象编程的特性&#xff0c;是C语言的延伸&#xff0c;并遵循C语言的绝大多数语法。如果想学习C&#xff0c;必须要有一定的C语言基础&#xff0c;这样学起来才不会太过痛苦。 本文章即假设读…

Vue分析脚手架结构

1.分析结构 <!DOCTYPE html> <html lang""><head><meta charset"utf-8"><!-- 针对IE浏览器 得一个特殊配置&#xff0c;含义是让IE浏览器以最高得渲染级别渲染页面 --><meta http-equiv"X-UA-Compatible" cont…

吃瓜用户看广告获取密码访问网页内容流量主模式源码

用户看广告获取密码访问网页内容&#xff0c;网站生成内容&#xff0c;用户需要浏览内容跳转至小程序&#xff0c;观看广告后获取密码&#xff0c;输入密码查看网页内容。 与之前得9.9付费进群区别就是内容体现在了网页里&#xff0c;用户不需要进群查看。并且不需要付费&…

HTML 基础结构

目录 1. 文档声明 2. 根标签 3. 头部元素 4. 主题元素 5. 注释 6. 演示 1. 文档声明 <!DOCTYPE html>&#xff1a;声明文档类型&#xff0c;表示该文档是 html 文档&#xff0c; 2. 根标签 &#xff08;1&#xff09;所有的其他标签都要放在一对根标签中&#…

MySQL精简笔记

基础类型 整型&#xff1a;bit&#xff0c;tinyint&#xff0c;smallint&#xff0c;int&#xff0c;bigint浮点&#xff1a;fload&#xff0c;double&#xff08;M&#xff1a;整数小数的位数&#xff0c;D&#xff1a;小数的位数&#xff09;无符号&#xff1a; decimal&…

C++类和对象知识巩固:相关习题解析

目录 1&#xff0c;求下面析构的顺序 2&#xff0c;以下调用了多少次拷贝构造 3&#xff0c;计算日期到天数的转换 4&#xff0c;日期差值 5&#xff0c;打印日期 6&#xff0c;累加天数 7&#xff0c;求123...n&#xff0c;要求不能使用乘除法、for、while、if、else、…

springboot2自定义starter

1.创建maven项目。首先根据springboot 约定规范&#xff0c;Starter项目的命名规范如下&#xff1a; 建议自定义的starter 以 xxx-spring-boot-starter 命名&#xff0c;官方的Starter一般都是以spring-boot-starter-为前缀。这样做的目的是为了避免与官方或其他第三方提供的St…

C#-读取测序数据的ABI文件并绘制svg格式峰图

本地环境&#xff1a;win10&#xff0c;visual studio 2022 community 目录 前言问题描述实现效果解决思路实现要点ABI文件的组织方式svg绘制问题变色碱基值 动态设置svg图像宽度 前言 本文是在已有的代码基础上进行的开发&#xff0c;前期已经实现&#xff1a; ABI文件的解析…

8090怀旧视频素材去哪里找?怀旧童年的素材库分享给你

在这个充满活力的现代社会中&#xff0c;对80和90年代的复古风情的怀旧情感愈加浓厚。那些年的音乐、电影、日常生活乃至街头巷尾的景象&#xff0c;总能唤起人们的美好回忆。对于视频创作者而言&#xff0c;制作一部带有80和90年代怀旧风格的视频&#xff0c;不仅能触动观众的…

cgroup:Linux的资源控制机制

文章目录 1 cgroup 的主要功能1.1 资源限制1.2 优先级控制1.3 资源隔离1.4 资源监控 2 cgroup 的层次结构3 cgroup 子系统4 示例&#xff1a;使用 cgroup 控制 CPU 和内存4.1 创建 cgroup4.2 设置资源限制4.3 将进程添加到 cgroup 5 使用 systemd 管理 cgroup6 总结参考链接封面…

【人工智能】NLP入门指南:自然语言处理基础全解析

文章目录 前言一、NLPNLP&#xff08;自然语言处理&#xff09;NLU&#xff08;自然语言理解&#xff09;NLG&#xff08;自然语言生成&#xff09; 二、分词1.什么是分词2.常见的分词工具3.jieba分词 三、词向量1.什么是词向量2.文本张量表示方法3.常见的词向量模型3.1 ont-ho…

QT键盘和鼠标事件

这些事件都在QWidget 中的保护成员方法中 都是虚函数在头文件中声明了 需要类外重现实现 如果头文件中声明 类外无实现就会报错 void Widget::keyPressEvent(QKeyEvent *event) {switch (event->key()) {//获取按键case Qt::Key_W://按键wqDebug()<<"按下w"…

【Linux】网络基础_4

文章目录 十、网络基础5. socket编程网络翻译服务 未完待续 十、网络基础 5. socket编程 网络翻译服务 基于UDP&#xff0c;我们实现一个简单的翻译。 我们导入之前写的代码&#xff1a; InetAddr.hpp&#xff1a; #pragma once#include <iostream> #include <sys…

2000-2022年各地级市能源消费数据(夜间灯光ArcGIS计算)

2000-2022年各地级市能源消费数据&#xff08;夜间灯光ArcGIS计算&#xff09; 1、时间&#xff1a;2000-2022年 2、指标&#xff1a;城市、省份、年份、能源消费总量(百吨标准煤) 3、范围&#xff1a;337个地级市 4、计算方法&#xff1a; 利用ArcGIS计算各地级市的DN总和…

【python案例】基于Python 爬虫的房地产数据可视化分析设计与实现

引言 研究背景与意义 房地产行业在我国属于支柱性产业&#xff0c;在我国社会经济发展中一直扮演着重要角色。房价问题&#xff0c;尤其是大中城市的房价问题&#xff0c;一直是政府、大众和众多研究人员关注的热点。如何科学地预测房价是房价问题的研究方向之一。随着互联网…