目录
前言
01 什么是字符串
02 字符串是怎么工作的呢?
2.1 字符
2.2 字符串
2.3 如何知道指向hello world的这个指针多大
03 使用字符串
04 字符串传参
前言
本期我们将讨论 C++ 中的字符串。
首先,什么是字符串?
01 什么是字符串
字符串是一个接一个字符的一组字符。
字符可以是字母、数字、符号,这类东西基本上就是文本,这些对我们来说很常见,作为人类,我们想要在电脑上以某种方式来表示文本。当然文本可以是一个单个的字符,也可以是一整个段落,可以是一个单词,也可以是一堆单词,所有这些被称为字符串的东西都是一个文本字符串。
所以我们会有这样的问题,当我们编程的时候,需要一些方法能够在我们的程序中将文本表现出来,这就要用到 C++ 字符串。对于我们来说,这是一种能够表示和处理文本的方法。
02 字符串是怎么工作的呢?
为了理解 C++ 中的字符串是如何工作的,你首先需要理解字符到底是什么以及字符是如何运作的。
2.1 字符
字符通常以字母符号、数字等以不同形式呈现
你可能已经注意到在 C++ 中有一种数据类型叫做 char,它是 character 的缩写,它代表一个字母的内存,它再一些情况下很有用,
- 因为它能把指针转换为 char 型指针,你可以用字节来做指针运算。
- char 对于分配内存缓冲区也很有用,因为如果你想分配1k的内存,你可以分配1024个 char。
- 它对字符串和文本也很有用,因为 C++ 对待字符的默认方式是通过 ASCII 字符进行文本编码的。
我们用一个字节来表示一个字符,也就是8个比特,这意味着我们有2的8次方种可能的结果,也就是256种可能性,有些语言的字符数量远远超过了这个数量,所以我们不能所有语言都只用一个字节表示一个字符,8个比特根本不够。然而16个比特,也就是16位字符编码,我们就有2的16次方种不同的可能性,也就是65536种字符可以表示,这个基本是足够的。
还有很多其它的编码,但是在 C++ 中我们一般使用原始数据类型,在这里,我们暂时认定 char 是一个字节。
2.2 字符串
接下来我们讨论一下字符串是如何在 C++ 中运作的。
字符,就是 char 类型数据,而字符串实际上就是字符数组,而数组又是一组元素的集合,所以,一组字符组成了字符串或文本。
你可能已经注意到,在本系列中,我们经常将字符串称为 const char* ,让我们来看看它是如何工作的。
#include <iostream>
int main()
{
const char *buffer = "hello world" ;
return 0;
}
我们可以通过 const char* 声明一个字符串,让它等于双引号下的某种文字。
这其实是 C 语言风格定义字符串的方式,C++ 有一个库可以使得字符串操作更为简单,但即使是这样,了解这种方式是如何工作的仍然很重要。
你其实不是必须把它声明为 const,但是人们通常这样做的原因是不想去改变这些的值。因为字符串是不可变的,这意味着你不能扩展字符串使它变大。这是一个固定分配的内存块,如果你想要一个最大的字符串,它需要执行一次重新分配分配并删除旧的字符串。
- 这里的 char* 并不意味着它是在堆上分配的,你不能通过调用 delete 来删除它,——记住一点,如果你们没有使用 new,就不要使用 delete。
- 现在这个字符串我们无法修改其中的某个值。比如 buffer[2] = 's',这会导致错误。所以如果你知道你不会修改字符串,就可以加上 const。
一个字符串在内存中是什么样的呢?
我们设置一个断点来调试一下。
你可以看到 hello world这个词就是由12个字符组成。还可以看到紧接着有一个被设置为0的字节,它被称为空终止字符,那是字符串结束的地方。
2.3 如何知道指向hello world的这个指针多大
或许你已经注意到了,我们似乎从来不知道 buffer有多大,因为它只是一个指针,那么如何知道它的大小呢?
空终止符可以帮助我们。
字符串是从指针的内存地址开始,一直往后继续,直到它碰到0。当我们决定将其打印到控制台的时候,你可以看到它正常被输出,但它只是一个指针,那么它是如何知道终点的呢?——直到/0,因为这就是它的空终止符。
如果你想自己声明字符串,我们也可以使用下面这种方式。
#include <iostream>
int main()
{
const char *buffer = "hello world" ;
char buf[] = {'h','e','l','l','o'};
return 0;
}
我们可以使用 char 类型的数组来完成。
它有5个字符,我们对它进行了初始化,把它设置为单个字符,C++ 的字符是通过单引号定义的。
上面的 buf是一个数组,不是一个字符串。这只是一个包含5个字符的数组,没有设置空终止符,
我们对程序做上面的修改,这样buf才是一个字符串。
‘\0’ 就是 null,它的 ASCII 码值是0,这里也可以直接写0。
我们应该如何在 C++ 中用字符串呢?
03 使用字符串
在 C++ 中的标准库有一个名为 String 的类,实际上还有一个类叫 BaseString,它是一个模板类,String 是 baseString 类的模板版本,模板参数是 char,这叫做模板特化 template specialization 。意思就是将 BaseString 模板类中的模板参数设为 char,char 是每一个字符背后的实际类型(还有一种叫做 wstring 的东西,也就是宽字符串)。
在 C++ 中使用的字符串是 std::string 。
那它是怎么工作的呢?
基本上它是由一个 char 数组以及一些用来操作数组的函数构成的。
首先第一件事就是 #include,其实在 name里面已经有 string 的定义了,你可以看到我们的上面的代码中没有包含头文件 string 也可以正常运行。
string 有一个构造函数,它接受 char 或者 const char 参数,你把鼠标悬浮在字符串上面,你可以看到 ganlan 实际上是一个 const char 数组。
尽管 iostream 对 string 已经有一个定义了,因为一些特殊的原因,我还是建议你包含一下。std::string 是一个有很多功能的类。比如 size(),我们可以得到它的尺寸,如果我们是 const char 或者 char,我们就需要用到 C 中的函数,比如 strlen(),还有 strcpy() 可以用来复制字符串。上面所有的这些功能,在 string 中都可以找到,这就是我们现在使用字符串的方式。另一件常见的操作是追加字符串。
我想在 test 后加上 hello,如果按照下面的写法会出现错误。
原因很简单,你实际上是想将两个 const char 的数组相加。这个双引号里面的东西是 const char 数组,它不是真正的字符串,我们总不能把两个指针相加吧。
所以如果你想完成这个操作,一个简单的方法就是把它分开成多行,然后再做相加的操作。
name 是一个字符串,你把它加到一个字符串上,+= 这个操作符在 string 类被重载了,这样写是没有问题的。
04 字符串传参
我写了一个 test函数,我要传递一个字符串,那么你不应该像上面那样写。
不这样做的原因是:
这实际上是一个副本。
当你这样给函数传递给一个函数时,你实际上时复制这个类对象。如果想要做 string += "h" 这样的事情,它不会影响到传递的原始字符串,所以,这显然是一个只读函数,我们不能在里面修改任何东西。
这意味着程序会动态地在堆上分配一个全新的 char 数组来存储已经得到的完全相同的文本,这个过程相当慢。在某些情况下,这是一个主要的短板。因为字符串操作是很频繁的,因此当你传递一个这样的字符串而且是在只读的情况下,需要确保通过常量引用传递它。
可以在在参数类型前面加上 const 和引用 &,这样,就告诉我们,这是一个引用,意味着它不会被复制,意味着我们承诺不会在这里修改它。
以上就是字符串的主要内容了。