前言:
过去C语⾔并不适合⾮英语国家(地区)使⽤。 C语⾔最初假定字符都是单字节的。但是这些假定并不是在世界的任何地⽅都适⽤。
C语⾔字符默认是采⽤ASCII编码的,ASCII字符集采⽤的是单字节编码,且只使⽤了单字节中的低7 位,最⾼位是没有使⽤的,可表⽰为0xxxxxxxx;可以看到,ASCII字符集共包含128个字符,在英语 国家中,128个字符是基本够⽤的,但是,在其他国家语⾔中,⽐如,在法语中,字⺟上⽅有注⾳符 号,它就⽆法⽤ ASCII 码表⽰。
于是,⼀些欧洲国家就决定,利⽤字节中闲置的最⾼位编⼊新的符 号。⽐如,法语中的é的编码为130(⼆进制10000010)。这样⼀来,这些欧洲国家使⽤的编码体 系,可以表⽰最多256个符号。但是,这⾥⼜出现了新的问题。不同的国家有不同的字⺟,因此,哪 怕它们都使⽤256个符号的编码⽅式,代表的字⺟却不⼀样。
比如,亚洲国家的⽂字,使⽤的符号就更多了,汉字就多达10万左右。⼀个字节只能表⽰256种符号, 肯定是不够的,就必须使⽤多个字节表达⼀个符号。⽐如,简体中⽂常⻅的编码⽅式是 GB2312,使 ⽤两个字节表⽰⼀个汉字,所以理论上最多可以表⽰ 256 x 256 = 65536 个符号。 后来为了使C语⾔适应国际化,C语⾔的标准中不断加⼊了国际化的⽀持。
- ⽐如:加⼊了宽字符的类型 wchar_t 和宽字符的输⼊和输出函数,加⼊了头⽂件,其中提供了允许程序员针对特定 地区(通常是国家或者说某种特定语⾔的地理区域)调整程序⾏为的函数。
<locale.h>:
- 因为不同地区的语言不同,所以产生了<locale.h>来适应不同地区的字符和一些格式,一些函数,一些行为。
- 因为<locale.h>所以不同地区都可以在C语言上实现该地区的格式,语言和行为。
功能:提供的函数⽤于控制C标准库中对于不同的地区会产⽣不⼀样⾏为的部分。
在标准中,依赖地区的部分大致有以下⼏项:
- 数字量的格式
- 货币量的格式
- 字符集
- ⽇期和时间的表⽰形式
当然,当我们进行地区的修改后,<locale.h>内部也会发生影响,从而我们不想要将一些我们熟悉的函数被影响的话,我们需要使用一下宏定义:
- LC_COLLATE: 影响字符串比较函数 strcol1()和 strxfrm()。
- LC_CTYPE: 影响字符处理函数的行为。
- LCMONETARY: 影响货币格式
- LC_NUMERIC: 影响 printf() 的数字格式
- LC_TIME: 影响时间格式 strftime()和 wcsftime()。
- LC_ALL- 针对所有类项修改,将以上所有类别设置为给定的语言环境。
setlocale:
- 用于我们修改地区后,对<locale.h>内部的某些函数进行修改和影响
- 它分为两种修改方式,一种是 "C" (正常模式),另一种是 " " (本地模式)
原型:
char* setlocale (int category, const char* locale);
- int categorty 表示的是上文中的修改方式
- 而const char*locale 表示的就是该函数的两种修改方式。
实例:
int main()
{
setlocale(LC_ALL,"c");
return 0;
}
宽字符:
和普通字符相比,普通字符在控制台中占据的是一个字节,而宽字符则占据了两个字节。
宽字符的打印:
- 如若要打印宽字符,要加上<locale.h>作为头文件。
- 且宽字符的字面量必须加上前缀“L",否则C语言会把字面量当作窄字符类型(普通字符)处理。
- 前缀“L"在单引号前面,表示宽字符,对应 wprintf()的占位符为 %c;在双引号前面,表示宽字符串,对应 wprintf()的占位符为 %1s。
实例:
#include <stdio.h>
#include<locale.h>
int main()
{
setlocale(LC_ALL, "");
wchar_t ch1 = L'●';
wchar_t ch2 = L'★';
wprintf(L"%lc\n", ch1);
wprintf(L"%lc\n", ch2);
return 0;
}