字符串输入前的注意事项
如果想把一个字符串读入程序,首先必须预留该字符串的空间,然后用输入函数获取该字符串
这意味着必须要为字符串分配足够的空间。
不要指望计算机在读取字符串时顺便计算它的长度,然后再分配空间(计算机不会这样做,除非你编写一个处理这些任务的函数)。
假设编写了如下代码:
char *name;
scanf("%s",name);
虽然可能会通过编译(编译器很可能给出警告),但是在读入name时,name可能会擦写掉程序中的数据或代码,从而导致程序异常中止。
因为scanf()要把信息拷贝至参数指定的地址上,而此时该参数是个未初始化的指针,name可能会指向任何地方。大多数程序员都认为出现这种情况很搞笑,但仅限于评价别人的程序时。
最简单的方法是,在声明时显式指明数组的大小:
char name[81];
scanf("%s",name);
现在name是一个已分配块(81字节)的地址。还有一种方法是使用C库函数来分配内存
为字符串分配内存后,便可读入字符串。C语言提供了许多读取字符串的函数:gets(),fgets(),gets_s()函数
gets()
特点
在读取字符串时,scanf()和转换说明%s只能读取一个单词。可是在程序中经常要读取一整行输入,而不仅仅是一个单词。许多年前,gets()函数就用于处理这种情况。
gets()函数简单易用,它读取整行的输入,直至遇到换行符,然后丢弃换行符,储存其余字符,并在这些字符的末尾添加一个空字符使其成为一个C字符串。
使用示例:
#include <stdio.h>
int main()
{
char words[81];
gets(words) ; // 典型用法
printf("s\n", words);
}
结果
//输入abcd
abcd
但是我们拿着上面这段代码去运行的时候,就会发现编译器报错或者发出警告,这是为什么呢?
缺点
问题就出现在gets唯一的参数是words,它无法检查数组是否装得下输入行。
因此gets()函数只知道数组的开始处(通过传入的数组名),但是并不知道数组中有多少个元素。
如果输入的字符串过长,会导致缓冲区溢出(buffer overflow),即多余的字符超出了指定的目标空间。
如果这些多余的字符只是占用了尚未使用的内存,就不会立即出现问题;
如果它们擦写掉程序中的其他数据,会导致程序异常中止:或者还有其他情况。
为了让输入的字符串容易溢出,把程序中的STLEN设置为5,程序的输出如下:
//输入abcd
abcd
Segmentation fault:11
“Segmentation fault”(分段错误)似乎不是个好提示,的确如此。在UNIX系统中,这条消息说明该程序试图访问未分配的内存。
C 提供解决某些编程问题的方法可能会导致陷入另一个尴尬棘手的困境。
但是,为什么要特别提到gets()函数?
因为该函数的不安全行为造成了安全隐患。
过去,有些人通过系统编程,利用gets()插入和运行一些破坏系统安全的代码。
不久,C编程社区的许多人都建议在编程时摒弃gets()。制定C99标准的委员会把这些建议放入了标准,承认了gets()的问题并建议不要再使用它。尽管如此,在标准中保留gets()也合情合理,因为现有程序中含有大量使用该函数的代码。而且,只要使用得当,它的确是一个很方便的函数。
好景不长,C11标准委员会采取了更强硬的态度,直接从标准中废除了gets()函数。然而在实际应用中,编译器为了能兼容以前的代码,大部分都继续支持gets()函数。不过,VS2022就不支持了
fgets()
过去通常用fgets()来代替gets(),fgets()函数稍微复杂些,在处理输入方面与gets()略有不同。
原型
在C语言中,fgets()
函数用于从指定的输入流中读取一行字符串。它接受三个参数:输入缓冲区指针,缓冲区大小和要读取的输入流。
使用fgets()
函数的语法如下:
char *fgets(char *str, int size, FILE *stream);
fgets()函数的第2个参数指明了读入字符的最大数量。
如果该参数的值是n,那么fgets()
函数从输入流中读取至多n - 1个字符(因为会自动加\0),或者遇到换行符('\n')为止。
fgets()函数的第3个参数指明要读入的文件。如果读入从键盘输入的数据,则以stdin(标准输入)作为参数,该标识符定义在stdio.h中。
fgets()函数返回指向char的指针。如果一切进行顺利,该函数返回的地址与传入的第1个参数相同,但是,如果函数读到文件结尾,它将返回一个特殊的指针:空指针(null pointer)。该指针保证不会指向有效的数据,所以可用于标识这种特殊情况。在代码中,可以用数字0来代替,不过在C语言中用宏NULL来代替更常见(如果在读入数据时出现某些错误,该函数也返回NULL)。
读取规则
它将读取到的字符逐个存储在字符数组中,直到达到指定的大小或者遇到换行符为止。
如果没有遇到换行符,或者输入流中没有更多字符可读,fgets()
函数会在最后一个字符后面添加一个空字符('\0')(如果数组没存满,系统会自动添加\0直到装满),表示字符串的结束。
看个例子
#include<stdio.h>
int main()
{
char a[10];
fgets(a, 10, stdin);
printf("%s", a);
}
输入1234567890(超出指定大小),结果是
123456789
输入1234,按enter(遇到换行符),结果是
1234
我们可以再看个例子啊
#include <stdio.h>
int main(void)
{
char words[10];
puts("Enter strings (empty line to quit):");
while (fgets(words, 14, stdin) != NULL && (words[0] != '\n'))
fputs(words, stdout);
puts("Done.");
}
输入By the way,the gets() function, 结果是
有人就会有疑问了啊,这输入的东西不是超除了words的大小吗?那为什么还能正常打印?
实际上它确实超过了,但是这是循环!
程序中的fgets()一次读入 10 -1个字符(该例中为9个字符)。所以,一开始它只读入了“By the wa”,并储存为By the wa\0:接着fputs()打印该字符串,而且并未换行。然后while循环进入下一轮迭代,fgets()继续从剩余的输入中读入数据,即读入“y,the ge”并储存为y,the ge\0;接着fputs()在刚才打印字符串的这一行接着打印第2次读入的字符串。然后while 进入下一轮迭代,fgets()继续读取输入、fputs()打印字符串,这一过程循环进行,直到读入最后的“tion\n”。fgets()将其储存为tion\n\0,fputs()打印该字符串,由于字符串中的\n,光标被移至下一行开始处。
保留换行符
需要注意的是,fgets()
函数会保留输入流中的换行符,所以读取到的字符串可能包含换行符。如果你希望去除换行符,可以使用strtok()
或者手动处理字符串。
系统采用缓冲的IO,这意味着用户在按下enter键之前,输入都会被存在临时存储区(缓冲区)。
这点与gets()不同,gets()会丢弃换行符。
我们可以先借用puts()函数的特性:自动在字符串末尾加换行符
我们可以验证一下
#include <stdio.h>
int main(void)
{
char words[14];
puts("请输入:");
fgets(words, 14, stdin);
printf("见证奇迹的时刻:\n");
puts(words);
printf("sjajj");
}
结果是:
apple pie,比fgets()读入的整行输入短,因此,apple pie\n\0被储存在数组中(因为fgets()会自动存储换行符)。当puts()显示该字符串时又在末尾添加了换行符,调用puts()时apple pie\n\0里的换行符起作用将光标移动到下一行,但是puts自动在字符串末尾添加换行符,所以光标再次移动到下一行。因此apple pie下面有一行空行。
系统使用缓冲的I/O。这意味着用户在按下Return键之前,输入都被储存在临时存储区(即,缓冲区)中。按下Enter键就在输入中增加了一个换行符,并把整行输入发送给fgets()。对于输出,fputs()把字符发送给另一个缓冲区,当发送换行符时,缓冲区中的内容被发送至屏幕上。
fgets()储存换行符有好处也有坏处。
坏处是你可能并不想把换行符储存在字符串中,这样的换行符会带来一些麻烦。
好处是对于储存的字符串而言,检查末尾是否有换行符可以判断是否读取了一整行。如果不是一整行,要妥善处理一行中剩下的字符。
处理掉换行符
首先,如何处理掉换行符?
一个方法是在已储存的字符串中查找换行符,并将其替换成空字符:
while (words[i] !='\n')// 假设\n在words中
i++;
words[i]='\0';
其次,如果仍有字符串留在输入行怎么办?
一个可行的办法是,如果目标数组装不下一整行输入,就丢弃那些多出的字符
while(getchar()!='\n')
contine;
gets_s()函数
C11标准新增的gets_s()函数也可代替gets()。该函数与gets()函数更接近,而且可以替换现有代码中的 gets()。但是,它是stdio.h.输入/输出函数系列中的可选扩展,所以支持C11的编译器也不一定支持它。
C11新增的gets_s()函数(可选)和fgets()类似,用一个参数限制读入的字符数。
特性
- gets_s()只从标准输入中读取数据,所以不需要第3个参数。
- 如果gets_s()读到换行符,会丢弃它而不是储存它。
- 如果gets_s()读到最大字符数都没有读到换行符,会执行以下几步。首先把目标数组中的首字符设置为空字符,读取并丢弃随后的输入直至读到换行符或文件结尾,然后返回空指针。接着,调用依赖实现的“处理函数”(或你选择的其他函数),可能会中止或退出程序。
第2个特性说明,只要输入行未超过最大字符数,gets_s()和gets()几乎一样,完全可以用gets_s()换gets()。第3个特性说明,要使用这个函数还需要进一步学习。
三种输入方式的选择
我们来比较一下gets()、fgets()和gets_s()的适用性。
如果目标存储区装得下输入行,3个函数都没问题。但是fgets()会保留输入末尾的换行符作为字符串的一部分,要编写额外的代码将其替换成字符。
如果输入行太长会怎样?
使用gets()不安全,它会擦写现有数据,存在安全隐患。gets_s()函数很全,但是,如果并不希望程序中止或退出,就要知道如何编写特殊的“处理函数”。另外,如果打算让程继续运行,gets_s(会丢弃该输入行的其余字符,无论你是否需要。由此可见,当输入太长,超过数组容纳的字符数时,fgets()函数最容易使用,而且可以选择不同的处理方式。如果要让程序继续使用输中超出的字符,可以参考程序清单11.8中的处理方法。
所以,当输入与预期不符时,gets_s()完全没有fgets()函数方便、灵活。也许这也是gets s二民的因之一。鉴于此,fgets()通常是处理类似情况的最佳选择。