信息标记形式 (XML, JSON, YAML)

news2025/1/11 21:39:35

文章目录

  • 🖥️介绍
  • 🖥️三种形式
    • 🏷️XML (Extensible Markup Language)
      • 🔖规范
      • 🔖注释
      • 🔖举例
      • 🔖其他
    • 🏷️JSON (JavaScript Object Notation)
      • 🔖规范
      • 🔖注释
      • 🔖举例
    • 🏷️YAML (YAML Ain't a Markup Language)
      • 🔖规范
      • 🔖注释
      • 🔖举例
  • 🖥️比较
  • END

🖥️介绍

ref: Python网络爬虫与信息提取_北京理工大学_中国大学MOOC(慕课) 单元5

信息标记形式是当今网络世界中非常重要的一部分。目前主要被大众认可的有三类。xml,json,yaml

  1. 标记后的信息可形成信息组织结构,增加了信息维度
  2. 标记的结构与信息一样具有重要价值
  3. 标记后的信息可用于通信、存储或展示
  4. 标记后的信息更利于程序理解和运用

🖥️三种形式

🏷️XML (Extensible Markup Language)

可扩展标记语言_百度百科 (baidu.com)

可扩展标记语言 (Extensible Markup Language, XML) ,标准通用标记语言的子集,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 XML是标准通用标记语言 可扩展性良好,内容与形式分离,遵循严格的语法要求,保值性良好等优点。

在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。是Internet环境中跨平台的、依赖于内容的技术,也是当今处理分布式结构信息的有效工具。早在1998年,W3C就发布了XML1.0规范,使用它来简化Internet的文档信息传输。

🔖规范

  1. 文档结构:XML文档由根元素开始,所有其他元素都嵌套在根元素内。

  2. 标签:XML元素由开始标签和结束标签组成,标签名称区分大小写。

  3. 属性:元素可以有属性,属性值必须用引号包围。

  4. 实体引用:XML提供了一些预定义的实体引用,如<代表小于号<>代表大于号>

  5. 注释:注释以<!--开始,以-->结束。

  6. 命名规则:元素名称可以包含字母、数字、下划线和点,但不能以数字或下划线开头。

  7. 空元素:空元素可以用自闭合标签表示,如<element />

  8. 字符数据:元素内容可以包含文本,称为字符数据(CDATA),可以使用<]>来包含特殊字符。

  9. 命名空间:XML支持使用命名空间来避免元素名称冲突。

  10. 文档类型声明:XML文档可以包含一个文档类型声明(DOCTYPE),用于指定文档的结构。

<?xml version="1.0" encoding="utf-8"?>

🔖注释

<root>
  <!-- 这是一个注释,它不会影响XML文档的结构 -->
  <element attribute="value">内容</element>
  <!-- 这是另一个注释 -->
</root>

🔖举例

<?xml version="1.0" encoding="UTF-8" ?>
<name>cuber-lotus</name>
<age>114514</age>
<bilibili>
    <id>天赐细莲</id>
    <url>https://space.bilibili.com/8172252</url>
</bilibili>
<language>c</language>
<language>cpp</language>
<language>python</language>
<language>golang</language>
<language>javascript</language>
<language>java</language>
<girlfriend />

🔖其他

XML与HTML区别

(1)可扩展性方面:HTML不允许用户自行定义自己的标识或属性,而在XML中,用户能够根据需要自行定义新的标识及属性名,以便更好地从语义上修饰数据。

(2)结构性方面:HTML不支持深层的结构描述,XML的文件结构嵌套可以复杂到任意程度,能表示面向对象的等级层次。

(3)可校验性方面:HTML没有提供规范文件以支持应用软件对HTML文件进行结构校验,而XML文件可以包括一个语法描述,使应用程序可以对此文件进行结构校验。

(4)可以通过将html文件转换为符合xml标准的xhtml文件,实现html标准和xml标准的结合。

🏷️JSON (JavaScript Object Notation)

JSON_百度百科 (baidu.com)

JSON(JavaScript Object Notation, JS对象简谱)是一种轻量级的数据交换格式。它基于 ECMAScript(European Computer Manufacturers Association, 欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。

🔖规范

  1. 数据结构:JSON由键值对组成,键是字符串,值可以是字符串、数字、数组、布尔值或对象。
  2. 键值对:键值对用冒号分隔,键和值用逗号分隔。
  3. 字符串:字符串用双引号包围。
  4. 数字:数字不需要引号。
  5. 布尔值:布尔值为truefalse
  6. 数组:数组由方括号包围,元素可以是字符串、数字、布尔值、数组或对象。
  7. 对象:对象由大括号包围,对象中的键值对由逗号分隔。
  8. 注释:JSON标准不支持注释,但某些解析器可能允许使用特定的语法。
  9. 空值:使用null表示空值。
  10. 转义字符:字符串中使用反斜杠转义特殊字符。

🔖注释

无注释。

🔖举例

{
    "name": "cuber-lotus",
    "age": 114514,
    "bilibili": {
        "id": "天赐细莲",
        "url": "https://space.bilibili.com/8172252"
    },
    "language": [
        "c",
        "cpp",
        "python",
        "golang",
        "javascript",
        "java"
    ],
    "girlfriend": null
}

🏷️YAML (YAML Ain’t a Markup Language)

The Official YAML Web Site

YAML_百度百科 (baidu.com)

YAML(/ˈjæməl/,尾音类似camel骆驼)是一个可读性高,用来表达数据序列化的格式。YAML参考了其他多种语言,包括:C语言、Python、Perl,并从XML、电子邮件的数据格式(RFC 2822)中获得灵感。Clark Evans在2001年首次发表了这种语言,另外Ingy döt Net与Oren Ben-Kiki也是这语言的共同设计者。当前已经有数种编程语言或脚本语言支持(或者说解析)这种语言。

YAML是"YAML Ain’t a Markup Language"(YAML不是一种标记语言)的递归缩写。在开发的这种语言时,YAML 的意思其实是:“Yet Another Markup Language”(仍是一种标记语言),但为了强调这种语言以数据做为中心,而不是以标记语言为重点,而用反向缩略语重命名。

🔖规范

  1. 缩进:使用空格缩进,通常2或4个空格。
  2. 键值对:键后跟冒号和空格,然后是值。
  3. 列表:以短横线开头,后跟空格。
  4. 字典:键值对,键后跟冒号和空格,值换行。
  5. 注释:以井号开头,注释到行尾。
  6. 多行字符串:使用竖线或大于号。
  7. 引用:使用锚点和别名。
  8. 数据类型:支持字符串、整数、浮点数等。
  9. 引用文件:使用!include
  10. 数据类型转换:使用特定标记指定类型。

🔖注释

#开头的注释。

# 定义一个引用
reference: &ref_name  # 这是引用的注释
  name: John Doe  # 这是引用内容的注释

🔖举例

name: cuber-lotus
age: 114514
bilibili:
  id: 天赐细莲
  url: 'https://space.bilibili.com/8172252'
language:
  - c
  - cpp
  - python
  - golang
  - javascript
  - java
girlfriend: null

🖥️比较

xml

  1. 最早的通用标记语言,可扩展性好,但繁琐
  2. Internet上的信息交互与传递

json

  1. 信息有类型,适合程序处理(js),较xml简介
  2. 移动应用云和节点的信息通信,无注释

yaml

  1. 信息无类型,文本信息比例最高,可读性好
  2. 各类系统的配置文件,有注释易读

END

关注我,学习更多C/C++,算法,计算机知识

B站:

👨‍💻主页:天赐细莲 bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1708893.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器之心 | 清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜

本文来源公众号“机器之心”&#xff0c;仅用于学术分享&#xff0c;侵权删&#xff0c;干货满满。 原文链接&#xff1a;清华接手&#xff0c;YOLOv10问世&#xff1a;性能大幅提升&#xff0c;登上GitHub热榜 相同性能情况下&#xff0c;延迟减少 46%&#xff0c;参数减少 2…

知识产权与标准化

知识产权与标准化 导航 文章目录 知识产权与标准化导航一、知识产权概述二、保护范围与对象三、保护期限四、知识产权归属五、侵权判定六、标准的分类 一、知识产权概述 知识产权:知识产权是指人们就其智力劳动成果所依法享有的专有权利&#xff0c;通常是国家赋予创造者对其…

SNP数据转型解析:云服务在现代企业数字化转型的必要性

为什么当今的企业想为数字化工作环境做好准备并保持竞争力&#xff0c;很难避免使用云服务呢&#xff1f; 要理解为什么企业没有云的替代选择&#xff0c;我们需要了解云服务的含义 - 它不仅仅指存储数据的另一个位置。各种云模型提供了极大的灵活性&#xff0c;可以根据需要操…

149.二叉树:二叉树的前序遍历(力扣)

代码解决 这段代码实现了二叉树的前序遍历&#xff0c;前序遍历的顺序是&#xff1a;访问根节点 -> 递归遍历左子树 -> 递归遍历右子树。以下是详细解释&#xff0c;包括各个部分的注释&#xff1a; // 二叉树节点的定义 struct TreeNode {int val; // 节…

栈的特性及代码实现(C语言)

目录 栈的定义 栈的结构选取 链式储存结构和顺序栈储存结构的差异 栈的代码实现 "stack.h" "stack.c" 总结 栈的定义 栈&#xff1a;栈是限定仅在表尾进行插入和删除操作的线性表。 我们把运行插入的和删除的一段叫做栈顶&#xff08;TOP&#xff…

坦克飞机大战项目详解:从包结构到测试发布

新书上架~&#x1f447;全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目录 一、项目初始化与包结构构建 代码案例&#xff1a; 二、资源文件与配置文件管理 代码案例…

Clickhouse 嵌套数据类型总结—— Clickhouse 基础篇(三)

文章目录 创建嵌套类型的表插入读取数据在嵌套类型上使用数组函数 在 clickhouse 中存储嵌套类型的关键字是 Nested, 只支持一级嵌套。数据结构类似于在数据结构类似于在表的单元格里面嵌套“一张表格”&#xff0c;如下图所示&#xff1a; 嵌套类型是列存储&#xff0c;本质…

rv1126 imx307修改驱动使能图像垂直反转180度

查看imx307芯片手册 修改&#xff0c;3007地址的bit0为1 修改imx307驱动代码加入这一句代码&#xff0c;直接写死&#xff0c;这样拍出来的照片就使垂直翻转180度的了 // SPDX-License-Identifier: GPL-2.0 /** imx307 driver** Copyright (C) 2020 Rockchip Electronics Co.…

Elasticsearch 认证模拟题 - 1

1、题目 定义一个数据流&#xff0c;满足 data-stream_*_*&#xff0c;数据首先分布在 data_hot&#xff0c;5分钟后移动到 data_warm&#xff0c;3分钟后到 data_cold&#xff0c;再过 8 分钟删除。 1.1 考点 生命周期索引模板数据流 1.2 答案 # 修改生命周期策略修改时间…

SpringBoot整合RabbitMQ的快速使用教程

目录 一、引入依赖 二、配置rabbitmq的连接信息等 1、生产者配置 2、消费者配置 三、设置消息转换器 四、生产者代码示例 1、配置交换机和队列信息 2、生产消息代码 五、消费者代码示例 1、消费层代码 2、业务层代码 在分布式系统中&#xff0c;消息队列是一种重要…

RTOS(6)任务

重点&#xff1a; 一、FreeRtos任务的API调用 1.创建任务&#xff08;静态、动态创建&#xff09; 动态创建: ①先写任务函数 ②定义函数的handle指针 ③调用动态创建任务的API&#xff1a;xTaskCreate&#xff08;任务函数&#xff0c;任务名称&#xff0c;栈深度&#x…

【css3】01-css3新特性样式篇

目录 1 背景 1.1 设置背景图片的定位 1.2 背景裁切-规定背景的绘制区域 1.3 设置背景图片尺寸 2 边框 2.1 盒子阴影box-shadow 2.2 边框图片border-image 3 文本 -文字阴影text-shadow 1 背景 1.1 设置背景图片的定位 background-origin&#xff1a;规定背景图片的定位…

遇到了导师放养,该怎么坚持?

最近收到学生读者的留言&#xff0c;抱怨科研的困难。导师忙碌且学生众多&#xff0c;自己只是众多学生之一&#xff0c;常常处于放养状态。除了每周的组会外&#xff0c;几乎无法接触到导师。在这种状态下&#xff0c;缺乏方向和动力&#xff0c;非常担心无法顺利毕业&#xf…

Llama模型家族之使用 Supervised Fine-Tuning(SFT)微调预训练Llama 3 语言模型(三)通过web页面方式微调

LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;一&#xff09; 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;二&#xff09; 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;三&#xff09; 基于 LlaMA…

【Linux】自己实现一个bash进程

bash就是命令行解释器&#xff0c;就是Linux操作系统让我们看到的&#xff0c;与用户进行交互的一种外壳&#xff08;shell&#xff09;&#xff0c;当然了bash也是一个进程&#xff0c;它有时候就是通过创建子进程来执行我们输入的命令的。这无疑就离不开我们上篇博客所说的进…

如何解决链游中可能出现的延迟或网络拥堵问题?

随着区块链技术的不断发展和普及&#xff0c;链游&#xff08;基于区块链的游戏&#xff09;作为新兴的娱乐形式&#xff0c;正逐渐走进大众的视野。然而&#xff0c;与传统游戏相比&#xff0c;链游在运行过程中可能会遇到一些特有的问题&#xff0c;其中最为突出的就是延迟和…

Windows hook介绍与代码演示

Windows Hook 是一种机制&#xff0c;允许应用程序监视系统或处理特定事件。它可以拦截和更改消息&#xff0c;甚至可以插入到其他应用程序的消息处理机制中。Windows 提供了多种挂钩类型&#xff0c;例如键盘挂钩、鼠标挂钩、消息挂钩等。 hook代码实现 下面是一个使用 Wind…

微服务架构下的‘黑带’安全大师:Spring Cloud Security全攻略!

深入探讨了微服务间的安全通信、安全策略设计以及面对经典安全问题的应对策略。无论你是微服务的新手还是资深开发者&#xff0c;都能在本文中找到提升安全功力的秘籍。让我们一起成为微服务架构下的‘黑带’安全大师&#xff01; 文章目录 1. 引言微服务安全挑战与重要性Sprin…

【软件工程】【23.04】p1

关键字&#xff1a; 软件模型、提炼、加工表达工具、通信内聚、访问依赖、边界类交互分析、RUP核心工作流、首先测试数据流、软件验证过程、CMMI过程域分类工程类&#xff1b; 软件工程目的、功能需求是需求的主体、结构化方法、耦合、详细设计工具、类、类图、RUP采用用例技…

rk3568_mutex

文章目录 前言1、什么是mutex?1.1mutex互斥体API函数二、实验2.1实验目的2.2源码2.3结果图前言 本文记录的是rk3568开发板基础上做的mutex实验 1、什么是mutex? mutex是互斥体,它是比信号量semaphore更加专业的机制。 在我们编写Linux驱动的时候遇到需要互斥的地方建议使用…