Linux Shell_cut命令(按列提取文本字符)

news2024/11/17 7:54:02

linux cut命令(按列提取文本字符)

在这里插入图片描述

cut是一个选取命令,就是将一段数据经过分析,取出我们想要的。一般来说,选取信息通常是针对“行”来进行分析的,并不是整篇信息分析的

  • 语法格式
cut  [-bn] [file]cut [-c] [file]cut [-df] [file]
  • 使用说明

cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。

如果不指定 File 参数,cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一。

  • 主要参数
  • **-b :**以字节为单位进行分割。这些字节位置将忽略多字节字符边界,除非也指定了 -n 标志。
  • **-c :**以字符为单位进行分割。
  • **-d :**自定义分隔符,默认为制表符。
  • **-f :**与-d一起使用,指定显示哪个区域。
  • **-n :**取消分割多字节字符。仅和 -b 标志一起使用。如果字符的最后一个字节落在由 -b 标志的 List 参数指示的范围之内,该字符将被写出;否则,该字符将被排除。

cut命令主要是接受三个****定位方法

  • 字节(bytes),用选项-b
  • 字符(characters),用选项-c
  • 域(fields),用选项-f

(3)以“字节”定位

当执行ps命令时,会输出类似如下的内容:

[rocrocket@rocrocket programming]$ who
rocrocket :0           2009-01-08 11:07
rocrocket pts/0        2009-01-08 11:23 (:0.0)
rocrocket pts/1        2009-01-08 14:15 (:0.0)
#果我们想提取每一行的第3个字节,就这样:
[rocrocket@rocrocket programming]$ who|cut -b 3
c
c
c

(4) 如果“字节”定位中,我想提取第3,第4、第5和第8个字节,怎么办?

-b支持形如3-5的写法,而且多个定位之间用逗号隔开就成了。看看例子吧:

[rocrocket@rocrocket programming]$ who|cut -b 3-5,8
croe
croe
croe

但有一点要注意,cut命令如果使用了-b选项,那么执行此命令时,cut会先把-b后面所有的定位进行从小到大排序,然后再提取。可不能颠倒定位的顺序哦。这个例子就可以说明这个问题:

[rocrocket@rocrocket programming\]\$ who|cut -b 8,3-5
croe
croe
croe

(5) 还有哪些类似“3-5”这样的小技巧,列举一下吧!

[rocrocket@rocrocket programming\]\$ who
rocrocket :0           2009-01-08 11:07
rocrocket pts/0        2009-01-08 11:23 (:0.0)
rocrocket pts/1        2009-01-08 14:15 (:0.0)
[rocrocket@rocrocket programming\]\$ who|cut -b -3
roc
roc
roc
[rocrocket@rocrocket programming\]\$ who|cut -b 3-
crocket :0           2009-01-08 11:07
crocket pts/0        2009-01-08 11:23 (:0.0)
crocket pts/1        2009-01-08 14:15 (:0.0)

想必你也看到了,-3表示从第一个字节到第三个字节,而3-表示从第三个字节到行尾。如果你细心,你可以看到这两种情况下,都包括了第三个字节“c”。

如果我执行who|cut -b -3,3-,你觉得会如何呢?答案是输出整行,不会出现连续两个重叠的c的。看:

[rocrocket@rocrocket programming\]\$ who|cut -b -3,3-
rocrocket :0           2009-01-08 11:07
rocrocket pts/0        2009-01-08 11:23 (:0.0)
rocrocket pts/1        2009-01-08 14:15 (:0.0)

(6)给个以字符为定位标志的最简单的例子吧!

下面例子你似曾相识,提取第3,第4,第5和第8个字符:

[rocrocket@rocrocket programming\]\$ who|cut -c 3-5,8
croe
croe
croe

不过,看着怎么和-b没有什么区别啊?莫非-b和-c作用一样? 其实不然,看似相同,只是因为这个例子举的不好,who输出的都是单字节字符,所以用-b和-c没有区别,如果你提取中文,区别就看出来了,来,看看中文提取的情况:

[rocrocket@rocrocket programming\]\$ cat cut\_ch.txt
星期一
星期二
星期三
星期四
[rocrocket@rocrocket programming\]\$ cut -b 3 cut\_ch.txt  

[rocrocket@rocrocket programming\]\$ cut -c 3 cut\_ch.txt
一
二
三
四

看到了吧,用-c则会以字符为单位,输出正常;而-b只会傻傻的以字节(8位二进制位)来计算,输出就是乱码。

既然提到了这个知识点,就再补充一句,如果你学有余力,就提高一下。
当遇到多字节字符时,可以使用-n选项,-n用于告诉cut不要将多字节字符拆开。

例子如下:

[rocrocket@rocrocket programming\]\$ cat cut\_ch.txt |cut -b 2  

[rocrocket@rocrocket programming\]\$ cat cut\_ch.txt |cut -nb 2

[rocrocket@rocrocket programming\]\$ cat cut\_ch.txt |cut -nb 1,2,3
星
星
星
星

(7)域是怎么回事呢?解释解释:)

为什么会有“域”的提取呢,因为刚才提到的-b和-c只能在固定格式的文档中提取信息,而对于非固定格式的信息则束手无策。这时候“域”就派上用场了。如果你观察过/etc/passwd文件,你会发现,它并不像who的输出信息那样具有固定格式,而是比较零散的排放。但是,冒号在这个文件的每一行中都起到了非常重要的作用,冒号用来隔开每一个项。

我们很幸运,cut命令提供了这样的提取方式,具体的说就是设置“间隔符”,再设置“提取第几个域”,就OK了!

以/etc/passwd的前五行内容为例:

[rocrocket@rocrocket programming\]\$ cat /etc/passwd|head -n 5
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
[rocrocket@rocrocket programming\]\$ cat /etc/passwd|head -n 5|cut -d : -f 1
root
bin
daemon
adm
lp

看到了吧,用-d来设置间隔符为冒号,然后用-f来设置我要取的是第一个域,再按回车,所有的用户名就都列出来了!呵呵 有成就感吧!

当然,在设定-f时,也可以使用例如3-5或者4-类似的格式:

[rocrocket@rocrocket programming\]\$ cat /etc/passwd|head -n 5|cut -d : -f 1,3-5
root:0:0:root
bin:1:1:bin
daemon:2:2:daemon
adm:3:4:adm
lp:4:7:lp
[rocrocket@rocrocket programming\]\$ cat /etc/passwd|head -n 5|cut -d : -f 1,3-5,7
root:0:0:root:/bin/bash
bin:1:1:bin:/sbin/nologin
daemon:2:2:daemon:/sbin/nologin
adm:3:4:adm:/sbin/nologin
lp:4:7:lp:/sbin/nologin
[rocrocket@rocrocket programming\]\$ cat /etc/passwd|head -n 5|cut -d : -f -2
root:x
bin:x
daemon:x
adm:x
lp:x

(8)如果遇到空格和制表符时,怎么分辨呢?我觉得有点乱,怎么办?

有时候制表符确实很难辨认,有一个方法可以看出一段空格到底是由若干个空格组成的还是由一个制表符组成的。

[rocrocket@rocrocket programming\]\$ cat tab\_space.txt
this is tab finish.
this is several space      finish.
[rocrocket@rocrocket programming\]\$ sed -n l tab\_space.txt
this is tab\\tfinish.\$
this is several space      finish.\$

看到了吧,如果是制表符(TAB),那么会显示为\t符号,如果是空格,就会原样显示。
通过此方法即可以判断制表符和空格了。
注意,上面sed -n后面的字符是L的小写字母哦,不要看错。

(9)我应该在cut -d中用什么符号来设定制表符或空格呢?

其实cut的-d选项的默认间隔符就是制表符,所以当你就是要使用制表符的时候,完全就可以省略-d选项,而直接用-f来取域就可以了。

如果你设定一个空格为间隔符,那么就这样:

[rocrocket@rocrocket programming]$ cat tab_space.txt |cut -d ’ ’ -f 1
this
this
注意,两个单引号之间可确实要有一个空格哦,不能偷懒。
而且,你只能在-d后面设置一个空格,可不许设置多个空格,因为cut只允许间隔符是一个字符。

[rocrocket@rocrocket programming]$ cat tab_space.txt |cut -d ’ ’ -f 1
cut: the delimiter must be a single character
Try `cut --help’ for more information.

(10)cut有哪些缺陷和不足?

猜出来了吧?对,就是在处理多空格时。

如果文件里面的某些域是由若干个空格来间隔的,那么用cut就有点麻烦了,因为cut只擅长处理“以一个字符间隔”的文本内容

底层原理

Linux cut 命令的底层实现主要是用 C 语言编写的。这个命令是 GNU coreutils 的一部分,其源代码可以在 coreutils/cut.c 找到。

cut 命令的工作原理主要是通过读取输入(可以是文件或者是标准输入),然后根据指定的字段(field)、字符(character)或者字节(byte)进行切割。这个过程主要涉及到以下几个步骤:

  1. 打开并读取输入:这个过程可能涉及到文件 I/O 操作,例如 fopenfread 等系统调用。
  2. 解析命令行参数:cut 命令支持多种参数,例如 -d(指定字段分隔符)、-f(指定要显示的字段)等,解析这些参数需要用到字符串处理函数,例如 strtok
  3. 切割输入:根据指定的字段、字符或字节进行切割,这个过程可能涉及到字符串处理函数,例如 strncpy
  4. 输出结果:将切割后的结果输出到标准输出或者文件,这个过程涉及到文件 I/O 操作,例如 fwrite

以上是 cut 命令的一般工作原理,具体的实现可能会有所不同,具体可以参考源代码进行理解。

使用C++ 实现cut命令

以下是一个简单的 C++17 实现,它模拟了 Linux cut 命令的一些基本功能,如 -d(指定字段分隔符)和 -f(指定要显示的字段)。

#include <iostream>
#include <fstream>
#include <sstream>
#include <vector>
#include <string>
#include <algorithm>

std::vector<std::string> split(const std::string& s, char delimiter) {
    std::vector<std::string> tokens;
    std::string token;
    std::istringstream tokenStream(s);
    while (std::getline(tokenStream, token, delimiter)) {
        tokens.push_back(token);
    }
    return tokens;
}

void cut(const std::string& filename, char delimiter, int field) {
    std::ifstream file(filename);
    if (!file.is_open()) {
        std::cerr << "Could not open file " << filename << std::endl;
        return;
    }

    std::string line;
    while (std::getline(file, line)) {
        auto tokens = split(line, delimiter);
        if (field < 1 || field > tokens.size()) {
            std::cerr << "Field " << field << " does not exist in line: " << line << std::endl;
            continue;
        }
        std::cout << tokens[field - 1] << std::endl;
    }
}

int main(int argc, char* argv[]) {
    if (argc != 4) {
        std::cerr << "Usage: " << argv[0] << " <filename> <delimiter> <field>" << std::endl;
        return 1;
    }

    std::string filename = argv[1];
    char delimiter = argv[2][0];
    int field = std::stoi(argv[3]);

    cut(filename, delimiter, field);

    return 0;
}

这个程序接受三个命令行参数:文件名、字段分隔符和要显示的字段。然后,它打开指定的文件,读取每一行,将每一行按照指定的分隔符切割成多个字段,然后输出指定的字段。

请注意,这个程序假设字段分隔符是单个字符,而且它没有处理错误的情况,例如文件不存在、字段不存在等。在实际使用中,你可能需要增加更多的错误处理代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/604928.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023届-SLAM算法校招面经

23年6月初终于尘埃落定&#xff0c;今年受大环境影响&#xff0c;这一路可以说是步履维艰&#xff0c;我的投递的行业主要面向机器人和自动驾驶&#xff0c;投递岗位大部分是算法工程师&#xff0c;其中也包括C开发和少量的测试岗&#xff0c;在面试过程中加深了对车企、自动驾…

15天学会EasyX 第1天:EasyX的下载与配置安装

本文为山城瑞宝创作&#xff0c;转载请标注版权&#xff01; 本文所指的编译器为Dev-c&#xff0c;如果有任何问题请私信我。 如果是使用VS的伙伴&#xff0c;直接去官网一键安装就可以了&#xff08;会略讲&#xff09;。 EasyX官网地址&#xff1a;https://easyx.cn/ 目录 …

【模块七----面向对象基础部分】

面向对象基础部分 面向对象的编程思想介绍&#xff1a; 一 、类和对象&#xff1a;1.1类&#xff1a;创建对象前必须先有类的存在类和对象的关系&#xff1a;类的组成&#xff1a;属性行为类的创建实例&#xff1a; 1.2 对象&#xff1a;对象的创建格式&#xff1a;使用对象的成…

新来的00后这么猛,这薪资我看了都吓一跳,这是正常人吗?

2023年很卷吗&#xff1f;不&#xff0c;只能说你还得学&#xff01; 都说00后已经躺平了&#xff0c;但是有一说一&#xff0c;该卷的还是卷&#xff01; 这不&#xff0c;前段时间我们公司新招来了一个00后小伙&#xff0c;工作都没2年&#xff0c;跳槽到我们公司就起薪18K&…

MarkDown的基本使用方法

为了给官方的文档知识总结&#xff1a;Markdown 基本语法 | Markdown 官方教程 #空格内容&#xff1a;‘#’表示标题的等级&#xff0c;越少表示标题级别越高&#xff08;字越大&#xff09; 在一行的末尾加两个或多个空格再回车&#xff0c;就是我们普通的文本回车。【还有一…

FreeRTOS基础学习

一、学习资源&#xff1a; 1、正点原子免费教学视频&#xff1a; 原子哥&#xff0c;专注电子技术教学 2、FreeRTOS官方网站&#xff1a; FreeRTOS - Market leading RTOS (Real Time Operating System) for embedded systems with Internet of Things extensions 3、PPT与源码…

Node.js+vue多用户个人博客网站i03nz

基于nodejs语言设计并实现了个人博客。该系统基于B/S即所谓浏览器/服务器模式&#xff0c;应用Vue框架&#xff0c;选择MySQL作为后台数据库。系统主要包括首页、个人中心、用户管理、文章分类管理、博客文章管理、留言板管理、系统管理等功能模块。要循序渐进&#xff0c;心急…

chatgpt赋能python:Python列表分割与排序:完美解决数据处理问题

Python列表分割与排序&#xff1a;完美解决数据处理问题 在Python的开发实践中&#xff0c;数据处理是一项必不可少的操作。列表&#xff08;list&#xff09;是Python语言中常用的数据类型之一&#xff0c;列表中的元素可以是任意类型。列表的分割和排序是Python中常见的操作…

Apk编译过程1 - Android Studio 与 gradle

Apk编译过程1 - Android Studio 与 gradle 文章目录 Apk编译过程1 - Android Studio 与 gradlegradlewAndroid studio 的 gradle plugingradle脚本AGP&#xff1a;Android Gradle Plugin gradle 是 Android 开发者比较熟悉的构建工具了&#xff0c;因为 Android Studio 默认使用…

Java常用类及使用方法

目录 1.String 1.String的基本概念 2.String的不可变性 3.String的实例化方式及内存解析 1.两种方式 2.new构造器的方式的内存解析 3.字符串对象的存储 4.字符串拼接后的内存解析 6.String中的常用方法 7.什么时候indexOf (str)和LastIndexOf (str)返回值相同 8.Str…

用gpt定制一个pytest接口测试框(附源码)

目的&#xff1a; 描述我的需求和目标让gpt给我写一个测试接口框架 并且让他自己完善。 我说:帮我写一个基于python语言的 pytest的接口测试框架 支持post get put delete请求 添加详细的断言&#xff0c;处理身份验证和授权&#xff0c;处理HTTP错误 加上allure2报告和有请求…

代码随想录第51天

1.最佳买卖股票时机含冷冻期 淦&#xff0c;自己写&#xff0c;用3个状态死活写不出来。 动规五部曲&#xff0c;分析如下&#xff1a; 确定dp数组以及下标的含义 dp[i][j]&#xff0c;第i天状态为j&#xff0c;所剩的最多现金为dp[i][j]。 其实本题很多同学搞的比较懵&…

SecurityAccess(0x27)服务

SecurityAccess&#xff08;0x27&#xff09;服务 此服务的目的是提供访问数据和/或诊断服务的手段&#xff0c;这些服务因安全&#xff0c;排放或安全原因而受到限制。 用于将 例程或数据下载/上传到服务器和从服务器读取特定存储器位置的诊断服务是可能需要安全访问的情况。…

使用Inkscape绘制矢量电路图

GNU Inkscape是一个免费的开源矢量图形编辑器&#xff0c;非常适合画论文中的矢量插图。 Inkscape Inkscape支持win mac linux全平台&#xff08;下载&#xff09;&#xff0c;windows端还发布了uwp版本&#xff0c;可在Windows store安装。 基本操作&#xff1a; inkscape工…

2023年前端面试题汇总-性能优化

1. CDN 1.1. CDN的概念 CDN&#xff08;Content Delivery Network&#xff0c;内容分发网络&#xff09;是指一种通过互联网互相连接的电脑网络系统&#xff0c;利用最靠近每位用户的服务器&#xff0c;更快、更可靠地将音乐、图片、视频、应用程序及其他文件发送给用户&…

简谈软件版本周期 | Alpha、Beta、RC、Stable版本之间的区别

目录 &#x1f48c; 引言 ⭕ 软件版本周期 &#x1f6e0;️ 软件开发期 ⚖️ 软件完成期 &#x1f4b0; 商业软件版本 &#x1f48c; 引言 定义好版本号&#xff0c;对于产品的版本发布与持续更新很重要&#xff1b;但是对于版本怎么定义&#xff0c;规则如何确定&#x…

【微服务架构】无法在Sentinel Dashboard查看到服务的监控信息原因

&#xff08;目前项目中使用的Hystrix&#xff0c;而Hystrix已经不维护了&#xff0c;至今仍然是2018年发布的1.5.8版本。&#xff09; 开始学习一下新的服务治理框架Sentinel Sentinel官网介绍 在集成Sentinel案例中碰到的问题 微服务&#xff0c;无法在sentinel dashboard…

Oracle中的数据导出(3)

假如我现在不想再打开DOS界面输入命令导出数据&#xff0c;那又有什么简单便捷的方法实现呢&#xff1f; 我将在本篇描述一种自动化的操作方法&#xff0c;简单讲就是&#xff1a;我把需要查询的数据脚本放在桌面的一个mini&#xff0c;通过双击快捷图标直接实现数据结果导出到…

VMware ESXI7.0.3的安装

文章目录 一、VMware ESXI7.0版本的安装与配置1.1、VMware概述。1.2、VMware 解析&#xff1a;1.3、VMware ESXI解析&#xff1a;2.1、准备资料2.2.1、VMware ESXI的ISO下载 3.1、安装ESXI4.1、浏览器键入esxi上述ipv4地址&#xff1a;192.168.229.171 一、VMware ESXI7.0版本的…

VMware ESXi 8.0b Unlocker OEM BIOS 集成 REALTEK 网卡驱动和 NVMe 驱动 (集成驱动版)

VMware ESXi 8.0b Unlocker & OEM BIOS 集成 REALTEK 网卡驱动和 NVMe 驱动 (集成驱动版) 发布 ESXi 8.0 集成驱动版&#xff0c;在个人电脑上运行企业级工作负载 请访问原文链接&#xff1a;https://sysin.org/blog/vmware-esxi-8-sysin/&#xff0c;查看最新版。原创作…