Unicode 编码表

news2024/11/17 1:32:09

正则查找:

中文文字+中文符号+表情符号+...
[^\x00-\xff]

其中 \x00-\xff 匹配 ASCII 代码中十六进制代码为 00-ff 的字符,
加个取反 ^ ,则就表示表示匹配非单字节的字符,例如汉字,汉字符号等字符集。

中文文字(简体+繁体)
[\x{4e00}-\x{9fa5}]

最常用的范围是 U+4E00~U+9FA5, 即名为:CJK Unified Ideographs 的区块。

:: --------------------------------------------------------------------------------------------------------------------

https://blog.csdn.net/yewadehasdied/article/details/84170721#unicode编码的分布
https://blog.oasisfeng.com/2006/10/19/full-cjk-unicode-range/#完整的CJK Unicode范围(5.0版)

PS:Unicode 中 U+4E00~U+9FFF 的码表:
http://www.unicode.org/charts/PDF/U4E00.pdf

在这里可以根据 Unicode 码查到所有的字符:
http://www.unicode.org/cgi-bin/GetUnihanData.pl

:: --------------------------------------------------------------------------------------------------------------------

https://zh.wikipedia.org/zh-cn/Unicode区段


[Unicode区段与包含的文字]
注: TAB 键使用 50个空格。

平面	区段范围	区段名称		码位数[a]	已定义字元数	文字[b][c][d][e][f]
		汉语	英语
 0 BMP	U+0000..U+007F	基本拉丁字母	Basic Latin[g]	128	128	拉丁字母(52个)、通用(76个)
 0 BMP	U+0080..U+00FF	拉丁字母补充-1	Latin-1 Supplement[h]	128	128	拉丁字母(64个)、通用(64个)
 0 BMP	U+0100..U+017F	拉丁字母扩展-A	Latin Extended-A	128	128	拉丁
 0 BMP	U+0180..U+024F	拉丁字母扩展-B	Latin Extended-B	208	208	拉丁
 0 BMP	U+0250..U+02AF	国际音标扩展	IPA Extensions	96	96	拉丁
 0 BMP	U+02B0..U+02FF	占位修饰符号	Spacing Modifier Letters	80	80	注音符号(2个)、拉丁(14个)、通用(64个)
 0 BMP	U+0300..U+036F	组合附加符号	Combining Diacritical Marks	112	112	继承
 0 BMP	U+0370..U+03FF	希腊字母和科普特字母	Greek and Coptic	144	135	科普特字母(14个)、希腊字母(117个)、通用(4个)
 0 BMP	U+0400..U+04FF	西里尔字母	Cyrillic	256	256	西里尔字母(254个)、继承(2个)
 0 BMP	U+0500..U+052F	西里尔字母补充	Cyrillic Supplement	48	48	西里尔字母
 0 BMP	U+0530..U+058F	亚美尼亚字母	Armenian	96	91	亚美尼亚字母
 0 BMP	U+0590..U+05FF	希伯来文字母	Hebrew	112	88	希伯来字母
 0 BMP	U+0600..U+06FF	阿拉伯文字母	Arabic	256	256	阿拉伯字母(238个)、通用(6个)、继承(12个)
 0 BMP	U+0700..U+074F	叙利亚字母	Syriac	80	77	叙利亚字母
 0 BMP	U+0750..U+077F	阿拉伯文补充	Arabic Supplement	48	48	阿拉伯文
 0 BMP	U+0780..U+07BF	它拿字母	Thaana	64	50	它拿字母(塔纳语)
 0 BMP	U+07C0..U+07FF	西非书面文字	NKo	64	62	西非书面文字
 0 BMP	U+0800..U+083F	撒玛利亚字母	Samaritan	64	61	撒玛利亚字母
 0 BMP	U+0840..U+085F	曼达安字母	Mandaic	32	29	曼达安字母
 0 BMP	U+0860..U+086F	叙利亚文补充	Syriac Supplement	16	11	叙利亚文
 0 BMP	U+0870..U+089F	阿拉伯字母扩展-B	Arabic Extended-B	48	41	阿拉伯字母
 0 BMP	U+08A0..U+08FF	阿拉伯字母扩展-A	Arabic Extended-A	96	96	阿拉伯字母(95个)、通用(1个)
 0 BMP	U+0900..U+097F	天城文(梵文)	Devanagari	128	128	天城文(122个)、通用(2个)、继承(4个)
 0 BMP	U+0980..U+09FF	孟加拉文	Bengali	128	96	孟加拉文
 0 BMP	U+0A00..U+0A7F	古木基文	Gurmukhi	128	80	古木基文
 0 BMP	U+0A80..U+0AFF	古吉拉特文	Gujarati	128	91	古吉拉特文
 0 BMP	U+0B00..U+0B7F	奥里亚文	Oriya	128	91	奥里亚文
 0 BMP	U+0B80..U+0BFF	泰米尔文	Tamil	128	72	泰米尔文
 0 BMP	U+0C00..U+0C7F	泰卢固文	Telugu	128	100	泰卢固文
 0 BMP	U+0C80..U+0CFF	卡纳达文	Kannada	128	91	卡纳达文
 0 BMP	U+0D00..U+0D7F	马拉雅拉姆文	Malayalam	128	118	马拉雅拉姆文
 0 BMP	U+0D80..U+0DFF	僧伽罗文	Sinhala	128	91	僧伽罗文
 0 BMP	U+0E00..U+0E7F	泰文	Thai	128	87	泰文(86个)、通用(1个)
 0 BMP	U+0E80..U+0EFF	寮文(老挝语)	Lao	128	83	寮文
 0 BMP	U+0F00..U+0FFF	藏文	Tibetan	256	211	藏文字母(207个)、通用(4个)
 0 BMP	U+1000..U+109F	缅甸文	Myanmar	160	160	缅文
 0 BMP	U+10A0..U+10FF	格鲁吉亚字母	Georgian	96	88	格鲁吉亚字母(87个)、通用(1个)
 0 BMP	U+1100..U+11FF	谚文字母	Hangul Jamo	256	256	谚文(朝鲜文)
 0 BMP	U+1200..U+137F	埃塞俄比亚字母	Ethiopic	384	358	吉兹字母
 0 BMP	U+1380..U+139F	埃塞俄比亚字母补充	Ethiopic Supplement	32	26	吉兹字母
 0 BMP	U+13A0..U+13FF	切罗基文	Cherokee	96	92	切罗基文
 0 BMP	U+1400..U+167F	统一加拿大原住民音节文字	Unified Canadian Aboriginal Syllabics	640	640	加拿大原住民音节文字
 0 BMP	U+1680..U+169F	欧甘字母	Ogham	32	29	欧甘字母
 0 BMP	U+16A0..U+16FF	卢恩字母	Runic	96	89	卢恩字母(86个)、通用(3个)
 0 BMP	U+1700..U+171F	他加禄字母	Tagalog	32	23	他加禄字母
 0 BMP	U+1720..U+173F	哈努诺文	Hanunoo	32	23	哈努诺字母(21个)、通用(2个)
 0 BMP	U+1740..U+175F	布希德字母	Buhid	32	20	布希德文
 0 BMP	U+1760..U+177F	塔格班瓦字母	Tagbanwa	32	18	塔格班瓦字母
 0 BMP	U+1780..U+17FF	高棉文	Khmer	128	114	高棉文
 0 BMP	U+1800..U+18AF	蒙古文	Mongolian	176	158	蒙古文字母(155个)、通用(3个)
 0 BMP	U+18B0..U+18FF	统一加拿大原住民音节文字扩展	Unified Canadian Aboriginal Syllabics Extended	80	70	加拿大原住民音节文字
 0 BMP	U+1900..U+194F	林布文	Limbu	80	68	林布文
 0 BMP	U+1950..U+197F	德宏傣文	Tai Le	48	35	德宏傣文
 0 BMP	U+1980..U+19DF	新傣仂文	New Tai Le	96	83	新傣仂文
 0 BMP	U+19E0..U+19FF	高棉文符号	Khmer Symbols	32	32	高棉文
 0 BMP	U+1A00..U+1A1F	布吉文	Buginese	32	30	布吉文
 0 BMP	U+1A20..U+1AAF	老傣文	Tai Tham	144	127	老傣仂文
 0 BMP	U+1AB0..U+1AFF	组合附加符号扩展	Combining Diacritical Marks Extended	80	31	继承
 0 BMP	U+1B00..U+1B7F	巴厘字母	Balinese	128	124	巴厘字母
 0 BMP	U+1B80..U+1BBF	巽他字母	Sundanese	64	64	巽他字母
 0 BMP	U+1BC0..U+1BFF	巴塔克字母	Batak	64	56	巴塔克字母
 0 BMP	U+1C00..U+1C4F	绒巴文	Lepcha	80	74	绒巴文
 0 BMP	U+1C50..U+1C7F	桑塔利文	Ol Chiki	48	48	桑塔利文
 0 BMP	U+1C80..U+1C8F	西里尔字母扩展-C	Cyrillic Extended-C	16	9	西里尔字母
 0 BMP	U+1C90..U+1CBF	格鲁吉亚字母扩展	Georgian Extended	48	46	格鲁吉亚字母
 0 BMP	U+1CC0..U+1CCF	巽他字母补充	Sundanese Supplement	16	8	巽他字母
 0 BMP	U+1CD0..U+1CFF	吠陀扩展	Vedic Extensions	48	43	通用(16个)、继承(27个)
 0 BMP	U+1D00..U+1D7F	音标扩展	Phonetic Extensions	128	128	西里尔字母(2个)、希腊字母(15个)、拉丁字母(111个)
 0 BMP	U+1D80..U+1DBF	音标扩展补充	Phonetic Extensions Supplement	64	64	希腊字母(1个)、拉丁字母(63个)
 0 BMP	U+1DC0..U+1DFF	组合附加符号补充	Combining Diacritical Marks Supplement	64	64	继承
 0 BMP	U+1E00..U+1EFF	拉丁字母扩展附加	Latin Extended Additional	256	256	拉丁
 0 BMP	U+1F00..U+1FFF	希腊字母扩展	Greek Extended	256	233	希腊字母
 0 BMP	U+2000..U+206F	一般标点	General Punctuation	112	111	通用(109个)、继承(2个)
 0 BMP	U+2070..U+209F	上标及下标	Superscripts and Subscripts	48	42	拉丁(15个)、通用(27个)
 0 BMP	U+20A0..U+20CF	货币符号	Currency Symbols	48	33	通用
 0 BMP	U+20D0..U+20FF	符号用组合附加符号	Combining Diacritical Marks for Symbols	48	33	继承
 0 BMP	U+2100..U+214F	类字母符号	Letterlike Symbols	80	80	希腊文(1个)、拉丁(4个)、通用(75个)
 0 BMP	U+2150..U+218F	数字形式	Number Forms	64	60	拉丁(41个)、通用(19个)
 0 BMP	U+2190..U+21FF	箭头	Arrows	112	112	通用
 0 BMP	U+2200..U+22FF	数学运算符	Mathematical Operators	256	256	通用
 0 BMP	U+2300..U+23FF	杂项技术符号	Miscellaneous Technical	256	256	通用
 0 BMP	U+2400..U+243F	控制图形	Control Pictures	64	39	通用
 0 BMP	U+2440..U+245F	光学字符识别	Optical Character Recognition	32	11	通用
 0 BMP	U+2460..U+24FF	带圈字母数字	Enclosed Alphanumerics	160	160	通用
 0 BMP	U+2500..U+257F	制表符	Box Drawing	128	128	通用
 0 BMP	U+2580..U+259F	方块元素	Block Elements	32	32	通用
 0 BMP	U+25A0..U+25FF	几何图形	Geometric Shapes	96	96	通用
 0 BMP	U+2600..U+26FF	杂项符号	Miscellaneous Symbols	256	256	通用
 0 BMP	U+2700..U+27BF	装饰符号	Dingbats	192	192	通用
 0 BMP	U+27C0..U+27EF	杂项数学符号-A	Miscellaneous Mathematical Symbols-A	48	48	通用
 0 BMP	U+27F0..U+27FF	追加箭头-A	Supplemental Arrows-A	16	16	通用
 0 BMP	U+2800..U+28FF	点字图案	Braille Patterns	256	256	盲文
 0 BMP	U+2900..U+297F	追加箭头-B	Supplemental Arrows-B	128	128	通用
 0 BMP	U+2980..U+29FF	杂项数学符号-B	Miscellaneous Mathematical Symbols-B	128	128	通用
 0 BMP	U+2A00..U+2AFF	补充数学运算符	Supplemental Mathematical Operators	256	256	通用
 0 BMP	U+2B00..U+2BFF	杂项符号和箭头	Miscellaneous Symbols and Arrows	256	253	通用
 0 BMP	U+2C00..U+2C5F	格拉哥里字母	Glagolitic	96	96	格拉哥里字母
 0 BMP	U+2C60..U+2C7F	拉丁字母扩展-C	Latin Extended-C	32	32	拉丁字母
 0 BMP	U+2C80..U+2CFF	科普特字母	Coptic	128	123	科普特字母
 0 BMP	U+2D00..U+2D2F	格鲁吉亚字母补充	Georgian Supplement	48	40	格鲁吉亚字母
 0 BMP	U+2D30..U+2D7F	提非纳文	Tifinagh	80	59	提非纳文
 0 BMP	U+2D80..U+2DDF	埃塞俄比亚字母扩展	Ethiopic Extended	96	79	吉兹字母
 0 BMP	U+2DE0..U+2DFF	西里尔字母扩展-A	Cyrillic Extended-A	32	32	西里尔字母
 0 BMP	U+2E00..U+2E7F	补充标点	Supplemental Punctuation	128	94	通用
 0 BMP	U+2E80..U+2EFF	中日韩汉字部首补充	CJK Radicals Supplement	128	115	汉字
 0 BMP	U+2F00..U+2FDF	康熙部首	Kangxi Radicals	224	214	汉字
 0 BMP	U+2FF0..U+2FFF	表意文字描述字符	Ideographic Description Characters	16	12	通用(汉字结构描述字符)
 0 BMP	U+3000..U+303F	中日韩符号和标点	CJK Symbols and Punctuation	64	64	汉字(15个)、谚文(2个)、通用(43个)、继承(4个)
 0 BMP	U+3040..U+309F	日文平假名	Hiragana	96	93	平假名(89个)、通用(2个)、继承(2个)
 0 BMP	U+30A0..U+30FF	日文片假名	Katakana	96	96	片假名(93个)、通用(3个)
 0 BMP	U+3100..U+312F	注音符号	Bopomofo	48	43	注音符号
 0 BMP	U+3130..U+318F	谚文相容字母	Hangul Compatibility Jamo	96	94	谚文(朝鲜文兼容字母)
 0 BMP	U+3190..U+319F	汉文训读符号	Kanbun	16	16	通用
 0 BMP	U+31A0..U+31BF	注音符号扩展	Bopomofo Extended	32	32	注音符号(闽南语、客家语扩展)
 0 BMP	U+31C0..U+31EF	中日韩笔画	CJK Strokes	48	36	通用
 0 BMP	U+31F0..U+31FF	片假名语音扩展	Katakana Phonetic Extensions	16	16	片假名
 0 BMP	U+3200..U+32FF	中日韩围绕字元及月份	Enclosed CJK Letters and Months	256	255	谚文(62个)、片假名(47个)、通用(146个)
 0 BMP	U+3300..U+33FF	中日韩相容字元(日期合并)	CJK Compatibility	256	256	片假名(88个)、通用(168个)//中文字符开始
 0 BMP	U+3400..U+4DBF	中日韩统一表意文字扩展区A	CJK Unified Ideographs Extension A	6,592	6,592	汉字
 0 BMP	U+4DC0..U+4DFF	易经六十四卦符号	Yijing Hexagram Symbols	64	64	通用
 0 BMP	U+4E00..U+9FFF	中日韩统一表意文字 (基本区)	CJK Unified Ideographs	20,992	20,992	汉字//中文字符结束
 0 BMP	U+A000..U+A48F	彝文音节	Yi Syllables	1,168	1,165	彝文
 0 BMP	U+A490..U+A4CF	彝文部首	Yi Radicals	64	55	彝文
 0 BMP	U+A4D0..U+A4FF	傈僳文	Lisu	48	48	老傈僳文
 0 BMP	U+A500..U+A63F	瓦伊文	Vai	320	300	瓦伊文
 0 BMP	U+A640..U+A69F	西里尔字母扩展-B	Cyrillic Extended-B	96	96	西里尔字母
 0 BMP	U+A6A0..U+A6FF	巴姆穆文字	Bamum	96	88	巴姆穆文字
 0 BMP	U+A700..U+A71F	声调修饰符号	Modifier Tone Letters	32	32	通用
 0 BMP	U+A720..U+A7FF	拉丁字母扩展-D	Latin Extended-D	224	193	拉丁(188个)、通用(5个)
 0 BMP	U+A800..U+A82F	锡尔赫特文	Syloti Nagri	48	45	锡尔赫特文
 0 BMP	U+A830..U+A83F	通用印度数字形式	Common Indic Number Forms	16	10	通用
 0 BMP	U+A840..U+A87F	八思巴文	Phags-pa	64	56	八思巴字
 0 BMP	U+A880..U+A8DF	索拉什特拉文	Saurashtra	96	82	索拉什特拉文
 0 BMP	U+A8E0..U+A8FF	天城文扩展	Devanagari Extended	32	32	天城文
 0 BMP	U+A900..U+A92F	克耶字母	Kayah Li	48	48	克耶字母(47个)、通用(1个)
 0 BMP	U+A930..U+A95F	勒姜字母	Rejang	48	37	勒姜字母
 0 BMP	U+A960..U+A97F	谚文字母扩展-A	Hangul Jamo Extended-A	32	29	谚文
 0 BMP	U+A980..U+A9DF	爪哇字母	Javanese	96	91	爪哇字母(90个)、通用(1个)
 0 BMP	U+A9E0..U+A9FF	缅甸文扩展-B	Myanmar Extended-B	32	31	缅甸文
 0 BMP	U+AA00..U+AA5F	占文	Cham	96	83	占文
 0 BMP	U+AA60..U+AA7F	缅甸文扩展-A	Myanmar Extended-A	32	32	缅文
 0 BMP	U+AA80..U+AADF	傣越文	Tai Viet	96	72	傣越文
 0 BMP	U+AAE0..U+AAFF	梅泰文扩展	Meetei Mayek Extensions	32	23	曼尼普尔文
 0 BMP	U+AB00..U+AB2F	埃塞俄比亚字母扩展-A	Ethiopic Extended-A	48	32	吉兹字母
 0 BMP	U+AB30..U+AB6F	拉丁字母扩展-E	Latin Extended-E	64	60	拉丁(56个)、希腊语(1个)、通用(3个)
 0 BMP	U+AB70..U+ABBF	切罗基文补充	Cherokee Supplement	80	80	切罗基文
 0 BMP	U+ABC0..U+ABFF	梅泰文	Meetei Mayek	64	56	梅泰文
 0 BMP	U+AC00..U+D7AF	谚文音节	Hangul Syllables	11,184	11,172	谚文(朝鲜文)
 0 BMP	U+D7B0..U+D7FF	谚文字母扩展-B	Hangul Jamo Extended-B	80	72	谚文(朝鲜文)
 0 BMP	U+D800..U+DB7F	高半代用区	High Surrogates	896	0	未知
 0 BMP	U+DB80..U+DBFF	高半私人代用区	High Private Use Surrogates	128	0	未知
 0 BMP	U+DC00..U+DFFF	低半代用区	Low Surrogates	1,024	0	未知
 0 BMP	U+E000..U+F8FF	私用区	Private Use Area	6,400	6,400	未知
 0 BMP	U+F900..U+FAFF	中日韩兼容表意文字	CJK Compatibility Ideographs	512	472	汉字
 0 BMP	U+FB00..U+FB4F	字母表达形式	Alphabetic Presentation Forms	80	58	亚美尼亚文(5个)、希伯来文(46个)、拉丁(7个)
 0 BMP	U+FB50..U+FDFF	阿拉伯字母表达形式-A	Arabic Presentation Forms-A	688	631	阿拉伯字母(629个)、通用(2个)
 0 BMP	U+FE00..U+FE0F	变体选择符	Variation Selectors	16	16	继承
 0 BMP	U+FE10..U+FE1F	竖排形式	Vertical Forms	16	10	通用(中文竖排标点)
 0 BMP	U+FE20..U+FE2F	组合用半符号	Combining Half Marks	16	16	西里尔字母(2个)、继承(14个)
 0 BMP	U+FE30..U+FE4F	中日韩相容形式	CJK Compatibility Forms	32	32	通用(竖排变体、下划线、顿号)
 0 BMP	U+FE50..U+FE6F	小写变体形式	Small Form Variants	32	26	通用
 0 BMP	U+FE70..U+FEFF	阿拉伯字母表达形式-B	Arabic Presentation Forms-B	144	141	阿拉伯字母(140个)、通用(1个)
 0 BMP	U+FF00..U+FFEF	半形及全形字符	Halfwidth and Fullwidth Forms	240	225	谚文(52个)、片假名(55个)、拉丁(52个)、通用(66个)|全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母
 0 BMP	U+FFF0..U+FFFF	特殊	Specials	16	5	通用
 1 SMP	U+10000..U+1007F	线形文字B音节文字	Linear B Syllabary	128	88	线形文字B
 1 SMP	U+10080..U+100FF	线形文字B表意文字	Linear B Ideograms	128	123	线形文字B
 1 SMP	U+10100..U+1013F	爱琴海数字	Aegean Numbers	64	57	通用
 1 SMP	U+10140..U+1018F	古希腊数字	Ancient Greek Numbers	80	79	希腊文
 1 SMP	U+10190..U+101CF	古代符号	Ancient Symbols	64	14	希腊文(1个)、通用(13个)
 1 SMP	U+101D0..U+101FF	斐斯托斯圆盘	Phaistos Disc	48	46	通用(45个)、继承(1个)
 1 SMP	U+10280..U+1029F	吕基亚字母	Lycian	32	29	吕基亚字母
 1 SMP	U+102A0..U+102DF	卡里亚字母	Carian	64	49	卡利亚字母
 1 SMP	U+102E0..U+102FF	科普特闰余数字	Coptic Epact Numbers	32	28	通用(27个)、继承(1个)
 1 SMP	U+10300..U+1032F	古意大利字母	Old Italic	48	39	古意大利字母
 1 SMP	U+10330..U+1034F	哥特字母	Gothic	32	27	哥特字母
 1 SMP	U+10350..U+1037F	古彼尔姆文	Old Permic	48	43	古彼尔姆文
 1 SMP	U+10380..U+1039F	乌加里特字母	Ugaritic	32	31	乌加里特字母
 1 SMP	U+103A0..U+103DF	古波斯楔形文字	Old Persian	64	50	古波斯楔形文字
 1 SMP	U+10400..U+1044F	德瑟雷特字母	Deseret	80	80	德瑟雷特字母
 1 SMP	U+10450..U+1047F	萧伯纳字母	Shavian	48	48	萧伯纳字母
 1 SMP	U+10480..U+104AF	奥斯曼亚字母	Osmanya	48	40	奥斯曼亚字母
 1 SMP	U+104B0..U+104FF	欧塞奇字母	Osage	80	72	欧塞奇字母
 1 SMP	U+10500..U+1052F	爱尔巴桑字母	Elbasan	48	40	爱尔巴桑字母
 1 SMP	U+10530..U+1056F	高加索阿尔巴尼亚字母	Caucasian Albanian	64	53	高加索阿尔巴尼亚文
 1 SMP	U+10570..U+105BF	维斯库奇文	Vithkuqi	80	70	维斯库奇文
 1 SMP	U+10600..U+1077F	线形文字A	Linear A	384	341	线形文字A
 1 SMP	U+10780..U+107BF	拉丁字母扩展-F	Latin Extended-F	64	57	拉丁字母
 1 SMP	U+10800..U+1083F	塞浦路斯音节文字	Cypriot Syllabary	64	55	塞浦路斯音节文字
 1 SMP	U+10840..U+1085F	帝国亚拉姆文	Imperial Aramaic	32	31	帝国亚拉姆文字
 1 SMP	U+10860..U+1087F	帕尔迈拉字母	Palmyrene	32	32	帕尔迈拉字母
 1 SMP	U+10880..U+108AF	纳巴泰字母	Nabataean	48	40	纳巴泰字母
 1 SMP	U+108E0..U+108FF	哈特拉文	Hatran	32	26	哈特拉文
 1 SMP	U+10900..U+1091F	腓尼基字母	Phoenician	32	29	腓尼基字母
 1 SMP	U+10920..U+1093F	吕底亚字母	Lydian	32	27	吕底亚字母
 1 SMP	U+10980..U+1099F	麦罗埃文圣书体	Meroitic Hieroglyphs	32	32	麦罗埃文圣书体
 1 SMP	U+109A0..U+109FF	麦罗埃文草书体	Meroitic Cursive	96	90	麦罗埃文草书体
 1 SMP	U+10A00..U+10A5F	佉卢文	Kharoshthi	96	68	佉卢文
 1 SMP	U+10A60..U+10A7F	古南阿拉伯字母	Old South Arabian	32	32	古南阿拉伯字母
 1 SMP	U+10A80..U+10A9F	古北阿拉伯字母	Old North Arabian	32	32	古北阿拉伯字母
 1 SMP	U+10AC0..U+10AFF	摩尼字母	Manichaean	64	51	摩尼字母
 1 SMP	U+10B00..U+10B3F	阿维斯陀字母	Avestan	64	61	阿维斯陀字母
 1 SMP	U+10B40..U+10B5F	碑刻帕提亚文	Inscriptional Parthian	32	30	碑刻帕提亚文
 1 SMP	U+10B60..U+10B7F	碑刻巴列维文	Inscriptional Pahlavi	32	27	碑刻巴列维文
 1 SMP	U+10B80..U+10BAF	诗篇巴列维文	Psalter Pahlavi	48	29	诗篇巴列维文
 1 SMP	U+10C00..U+10C4F	古突厥文	Old Turkic	80	73	古突厥文
 1 SMP	U+10C80..U+10CFF	古匈牙利字母	Old Hungarian	128	108	古匈牙利字母
 1 SMP	U+10D00..U+10D3F	哈乃斐罗兴亚文字	Hanifi Rohingya	64	50	哈乃斐罗兴亚文字
 1 SMP	U+10E60..U+10E7F	卢米文数字	Rumi Numeral Symbols	32	31	阿拉伯文
 1 SMP	U+10E80..U+10EBF	雅兹迪文	Yezidi	64	47	雅兹迪文
 1 SMP	U+10EC0..U+10EFF	阿拉伯字母扩展-C	Arabic Extended-C	64	3	阿拉伯字母
 1 SMP	U+10F00..U+10F2F	古粟特字母	Old Sogdian	48	40	古粟特字母
 1 SMP	U+10F30..U+10F6F	粟特字母	Sogdian	64	42	粟特字母
 1 SMP	U+10F70..U+10FAF	回鹘字母	Old Uyghur	64	26	回鹘字母
 1 SMP	U+10FB0..U+10FDF	花剌子模字母	Chorasmian	48	28	花剌子模字母
 1 SMP	U+10FE0..U+10FFF	埃利迈文	Elymaic	32	23	埃利迈文
 1 SMP	U+11000..U+1107F	婆罗米文	Brahmi	128	115	婆罗米文
 1 SMP	U+11080..U+110CF	凯提文	Kaithi	80	68	凯提文
 1 SMP	U+110D0..U+110FF	索拉僧平文字	Sora Sompeng	48	35	索拉僧平文字
 1 SMP	U+11100..U+1114F	查克马文	Chakma	80	71	查克马文
 1 SMP	U+11150..U+1117F	马哈佳尼文	Mahajani	48	39	马哈佳尼文
 1 SMP	U+11180..U+111DF	夏拉达文	Sharada	96	96	夏拉达文
 1 SMP	U+111E0..U+111FF	古僧伽罗文数字	Sinhala Archaic Numbers	32	20	古僧伽罗文数字
 1 SMP	U+11200..U+1124F	可吉文	Khojki	80	65	可吉文
 1 SMP	U+11280..U+112AF	穆尔塔尼文	Multani	48	38	穆尔塔尼文
 1 SMP	U+112B0..U+112FF	库达瓦迪文	Khudawadi	80	69	库达瓦迪文
 1 SMP	U+11300..U+1137F	古兰塔文	Grantha	128	86	古兰塔文
 1 SMP	U+11400..U+1147F	纽瓦字母	Newa	128	97	纽瓦字母
 1 SMP	U+11480..U+114DF	底罗仆多文	Tirhuta	96	82	底罗仆多文
 1 SMP	U+11580..U+115FF	悉昙文字	Siddham	128	92	悉昙文字
 1 SMP	U+11600..U+1165F	莫迪文	Modi	96	79	莫迪文
 1 SMP	U+11660..U+1167F	蒙古文补充	Mongolian Supplement	32	13	蒙古文
 1 SMP	U+11680..U+116CF	塔克里文	Takri	80	68	塔克里文
 1 SMP	U+11700..U+1174F	阿洪姆文	Ahom	80	65	阿洪姆文
 1 SMP	U+11800..U+1184F	多格拉文	Dogra	80	60	多格拉文
 1 SMP	U+118A0..U+118FF	瓦兰齐地文	Warang Citi	96	84	瓦兰齐地文
 1 SMP	U+11900..U+1195F	岛屿字母	Dhives Akuru (Dives Akuru)	96	72	岛屿字母
 1 SMP	U+119A0..U+119FF	南迪城文	Nandinagari	96	65	南迪城文
 1 SMP	U+11A00..U+11A4F	札那巴札尔方形字母	Zanabazar Square	80	72	札那巴札尔方形字母
 1 SMP	U+11A50..U+11AAF	索永布文字	Soyombo	96	83	索永布文字
 1 SMP	U+11AB0..U+11ABF	加拿大原住民音节文字扩展-A	Unified Canadian Aboriginal Syllabics Extended-A	16	16	加拿大原住民音节文字
 1 SMP	U+11AC0..U+11AFF	包钦豪文	Pau Cin Hau	64	57	包钦豪文
 1 SMP	U+11B00..U+11B5F	天城文扩展-A	Devanagari Extended-A	96	10	天城文
 1 SMP	U+11C00..U+11C6F	拜克舒基文	Bhaiksuki	112	97	拜克舒基文
 1 SMP	U+11C70..U+11CBF	玛钦文	Marchen	80	68	玛钦文
 1 SMP	U+11D00..U+11D5F	马萨拉姆贡德文字	Masaram Gondi	96	75	马萨拉姆贡德文字
 1 SMP	U+11D60..U+11DAF	贡贾拉贡德文字	Gunjala Gondi	80	63	贡贾拉贡德文字
 1 SMP	U+11EE0..U+11EFF	望加锡文	Makasar	32	25	望加锡文
 1 SMP	U+11F00..U+11F5F	卡维文	Kawi	96	86	卡维文
 1 SMP	U+11FB0..U+11FBF	老傈僳文补充	Lisu Supplement	16	1	老傈僳文
 1 SMP	U+11FC0..U+11FFF	泰米尔文补充	Tamil Supplement	64	51	泰米尔文
 1 SMP	U+12000..U+123FF	楔形文字	Cuneiform	1,024	922	楔形文字
 1 SMP	U+12400..U+1247F	楔形文字数字和标点符号	Cuneiform Numbers and Punctuation	128	116	楔形文字
 1 SMP	U+12480..U+1254F	早期王朝楔形文字	Early Dynastic Cuneiform	208	196	楔形文字
 1 SMP	U+12F90..U+12FFF	塞浦路斯-米诺斯文字	Cypro-Minoan	112	99	塞浦路斯-米诺斯文字
 1 SMP	U+13000..U+1342F	埃及圣书体	Egyptian Hieroglyphs	1,072	1,072	埃及圣书体
 1 SMP	U+13430..U+1345F	埃及圣书体格式控制	Egyptian Hieroglyph Format Controls	48	38	埃及圣书体
 1 SMP	U+14400..U+1467F	安纳托利亚象形文字	Anatolian Hieroglyphs	640	583	安纳托利亚象形文字
 1 SMP	U+16800..U+16A3F	巴姆穆文字补充	Bamum Supplement	576	569	巴姆穆文字
 1 SMP	U+16A40..U+16A6F	默禄文	Mro	48	43	默禄文
 1 SMP	U+16A70..U+16ACF	唐萨文	Tangsa	96	89	唐萨文
 1 SMP	U+16AD0..U+16AFF	巴萨文	Bassa Vah	48	36	巴萨文
 1 SMP	U+16B00..U+16B8F	救世苗文	Pahawh Hmong	144	127	救世苗文
 1 SMP	U+16E40..U+16E9F	梅德法伊德林文	Medefaidrin	96	91	梅德法伊德林文
 1 SMP	U+16F00..U+16F9F	柏格理苗文	Miao	160	149	柏格理苗文
 1 SMP	U+16FE0..U+16FFF	表意符号和标点符号	Ideographic Symbols and Punctuation	32	7	汉字(2个)、契丹小字(1个)、女书(1个)、西夏文(1个)、通用(2个)
 1 SMP	U+17000..U+187FF	西夏文	Tangut	6,144	6,136	西夏文
 1 SMP	U+18800..U+18AFF	西夏文部件	Tangut Components	768	768	西夏文
 1 SMP	U+18B00..U+18CFF	契丹小字	Khitan Small Script	512	470	契丹小字
 1 SMP	U+18D00..U+18D7F	西夏文补充	Tangut Supplement	128	9	西夏文
 1 SMP	U+1AFF0..U+1AFFF	假名扩展-B	Kana Extended-B	16	13	片假名
 1 SMP	U+1B000..U+1B0FF	假名补充	Kana Supplement	256	256	平假名(255个)、片假名(1个)
 1 SMP	U+1B100..U+1B12F	假名扩展-A	Kana Extended-A	48	35	平假名(32个)、片假名(3个)
 1 SMP	U+1B130..U+1B16F	小型假名扩展	Small Kana Extension	64	9	平假名 (4个)、片假名 (5个)
 1 SMP	U+1B170..U+1B2FF	女书	Nushu	400	396	女书
 1 SMP	U+1BC00..U+1BC9F	杜普雷速记	Duployan	160	143	杜普雷速记
 1 SMP	U+1BCA0..U+1BCAF	速记格式控制符	Shorthand Format Controls	16	4	通用
 1 SMP	U+1CF00..U+1CFCF	赞玫尼圣歌音乐符号	Znamenny Musical Notation	208	185	赞玫尼圣歌音乐符号
 1 SMP	U+1D000..U+1D0FF	拜占庭音乐符号	Byzantine Musical Symbols	256	246	通用
 1 SMP	U+1D100..U+1D1FF	音乐符号	Musical Symbols	256	233	通用(211个)、继承(22个)
 1 SMP	U+1D200..U+1D24F	古希腊音乐记号	Ancient Greek Musical Notation	80	70	希腊语
 1 SMP	U+1D2C0..U+1D2DF	卡克托维克数字	Kaktovik Numerals	32	20	因努伊特数字
 1 SMP	U+1D2E0..U+1D2FF	玛雅数字	Mayan Numerals	32	20	通用
 1 SMP	U+1D300..U+1D35F	太玄经符号	Tai Xuan Jing Symbols	96	87	通用
 1 SMP	U+1D360..U+1D37F	算筹	Counting Rod Numerals	32	25	通用
 1 SMP	U+1D400..U+1D7FF	字母和数字符号	Mathematical Alphanumeric Symbols	1,024	996	通用
 1 SMP	U+1D800..U+1DAAF	萨顿书写符号	Sutton SignWriting	688	672	萨顿书写符号
 1 SMP	U+1DF00..U+1DFFF	拉丁字母扩展-G	Latin Extended-G	256	37	拉丁字母
 1 SMP	U+1E000..U+1E02F	格拉哥里字母补充	Glagolitic Supplement	48	38	格拉哥里字母
 1 SMP	U+1E030..U+1E08F	西里尔字母扩展-D	Cyrillic Extended-D	96	63	西里尔字母
 1 SMP	U+1E100..U+1E14F	创世纪苗文	Nyiakeng Puachue Hmong	80	71	创世纪苗文
 1 SMP	U+1E290..U+1E2BF	投投文	Toto	48	31	投投文
 1 SMP	U+1E2C0..U+1E2FF	文乔字母	Wancho	64	59	文乔字母
 1 SMP	U+1E4D0..U+1E4FF	蒙达里字母	Nag Mundari	48	42	蒙达里字母
 1 SMP	U+1E7E0..U+1E7FF	埃塞俄比亚字母扩展-B	Ethiopic Extended-B	32	28	吉兹字母
 1 SMP	U+1E800..U+1E8DF	门德基卡库文	Mende Kikakui	224	213	门德基卡库文
 1 SMP	U+1E900..U+1E95F	阿德拉姆字母	Adlam	96	88	阿德拉姆字母
 1 SMP	U+1EC70..U+1ECBF	印度西亚格数字	Indic Siyaq Numbers	80	68	通用
 1 SMP	U+1ED00..U+1ED4F	奥斯曼西亚格数字	Ottoman Siyaq Numbers	80	61	通用
 1 SMP	U+1EE00..U+1EEFF	阿拉伯字母数字符号	Arabic Mathematical Alphabetic Symbols	256	143	阿拉伯文
 1 SMP	U+1F000..U+1F02F	麻将牌	Mahjong Tiles	48	44	通用
 1 SMP	U+1F030..U+1F09F	多米诺骨牌	Domino Tiles	112	100	通用
 1 SMP	U+1F0A0..U+1F0FF	扑克牌	Playing Cards	96	82	通用
 1 SMP	U+1F100..U+1F1FF	带圈字母数字补充	Enclosed Alphanumeric Supplement	256	200	通用
 1 SMP	U+1F200..U+1F2FF	带圈表意文字补充	Enclosed Ideographic Supplement	256	64	平假名(1个)、通用(63个)
 1 SMP	U+1F300..U+1F5FF	杂项符号和象形文字	Miscellaneous Symbols and Pictographs	768	768	通用
 1 SMP	U+1F600..U+1F64F	表情符号	Emoticons	80	80	通用
 1 SMP	U+1F650..U+1F67F	装饰符号	Ornamental Dingbats	48	48	通用
 1 SMP	U+1F680..U+1F6FF	交通和地图符号	Transport and Map Symbols	128	118	通用
 1 SMP	U+1F700..U+1F77F	炼金术符号	Alchemical Symbols	128	124	通用
 1 SMP	U+1F780..U+1F7FF	几何图形扩展	Geometric Shapes Extended	128	103	通用
 1 SMP	U+1F800..U+1F8FF	追加箭头-C	Supplemental Arrows-C	256	150	通用
 1 SMP	U+1F900..U+1F9FF	补充符号和象形文字	Supplemental Symbols and Pictographs	256	256	通用
 1 SMP	U+1FA00..U+1FA6F	棋类符号	Chess Symbols	112	98	通用
 1 SMP	U+1FA70..U+1FAFF	符号和象形文字扩展-A	Symbols and Pictographs Extended-A	144	107	通用
 1 SMP	U+1FB00..U+1FBFF	遗留计算符号	Symbols for Legacy Computing	256	212	通用
 2 SIP	U+20000..U+2A6DF	中日韩统一表意文字扩展区B	CJK Unified Ideographs Extension B	42,720	42,720	汉字
 2 SIP	U+2A700..U+2B73F	中日韩统一表意文字扩展区C	CJK Unified Ideographs Extension C	4,160	4,154	汉字
 2 SIP	U+2B740..U+2B81F	中日韩统一表意文字扩展区D	CJK Unified Ideographs Extension D	224	222	汉字
 2 SIP	U+2B820..U+2CEAF	中日韩统一表意文字扩展区E	CJK Unified Ideographs Extension E	5,776	5,762	汉字
 2 SIP	U+2CEB0..U+2EBEF	中日韩统一表意文字扩展区F	CJK Unified Ideographs Extension F	7,488	7,473	汉字
 2 SIP	U+2F800..U+2FA1F	中日韩相容表意文字补充区	CJK Compatibility Ideographs Supplement	544	542	汉字
 3 TIP	U+30000..U+3134F	中日韩统一表意文字扩展区G	CJK Unified Ideographs Extension G	4944	4939	汉字
 3 TIP	U+31350..U+323AF	中日韩统一表意文字扩展区H	CJK Unified Ideographs Extension H	4192	4192	汉字
14 SSP	U+E0000..U+E007F	标签	Tags	128	97	通用
14 SSP	U+E0100..U+E01EF	变体选择符补充	Variation Selectors Supplement	240	240	继承
15 PUA-A	U+F0000..U+FFFFF	补充私人使用区-A	Supplementary Private Use Area-A	65,536	65,534	未知
16 PUA-B	U+100000..U+10FFFF	补充私人使用区-B	Supplementary Private Use Area-B	65,536	65,534	未知
 
a. 代码点包括未分配的代码点(非字符或保留代码点)。
b. 根据文字属性的定义,文字在区段中有一个或多个字符,与区段名称无关
c. “通用”、“未知”(Zyyy) 与“继承”(Zinh 或 Qaai) 参考自ISO 15924的4位代码
d. Unicode区段资料文件,根据 Unicode 13.0
e. UAX 24:Unicode文字属性(4位代码)
f. UAX 24:文字资料档案
g. 在ISO/IEC 10646称为“C0 Controls and Basic Latin”。
h. 在ISO/IEC 10646称为“C1 Controls and Latin-1 Supplement”。

[Unicode区段与包含的文字]
注: TAB 键使用 50个空格。

平面    区段范围    区段名称        码位数[a]    已定义字元数    文字[b][c][d][e][f]
        汉语    英语
 0 BMP    U+0000..U+007F    基本拉丁字母    Basic Latin[g]    128    128    拉丁字母(52个)、通用(76个)
 0 BMP    U+0080..U+00FF    拉丁字母补充-1    Latin-1 Supplement[h]    128    128    拉丁字母(64个)、通用(64个)
 0 BMP    U+0100..U+017F    拉丁字母扩展-A    Latin Extended-A    128    128    拉丁
 0 BMP    U+0180..U+024F    拉丁字母扩展-B    Latin Extended-B    208    208    拉丁
 0 BMP    U+0250..U+02AF    国际音标扩展    IPA Extensions    96    96    拉丁
 0 BMP    U+02B0..U+02FF    占位修饰符号    Spacing Modifier Letters    80    80    注音符号(2个)、拉丁(14个)、通用(64个)
 0 BMP    U+0300..U+036F    组合附加符号    Combining Diacritical Marks    112    112    继承
 0 BMP    U+0370..U+03FF    希腊字母和科普特字母    Greek and Coptic    144    135    科普特字母(14个)、希腊字母(117个)、通用(4个)
 0 BMP    U+0400..U+04FF    西里尔字母    Cyrillic    256    256    西里尔字母(254个)、继承(2个)
 0 BMP    U+0500..U+052F    西里尔字母补充    Cyrillic Supplement    48    48    西里尔字母
 0 BMP    U+0530..U+058F    亚美尼亚字母    Armenian    96    91    亚美尼亚字母
 0 BMP    U+0590..U+05FF    希伯来文字母    Hebrew    112    88    希伯来字母
 0 BMP    U+0600..U+06FF    阿拉伯文字母    Arabic    256    256    阿拉伯字母(238个)、通用(6个)、继承(12个)
 0 BMP    U+0700..U+074F    叙利亚字母    Syriac    80    77    叙利亚字母
 0 BMP    U+0750..U+077F    阿拉伯文补充    Arabic Supplement    48    48    阿拉伯文
 0 BMP    U+0780..U+07BF    它拿字母    Thaana    64    50    它拿字母(塔纳语)
 0 BMP    U+07C0..U+07FF    西非书面文字    NKo    64    62    西非书面文字
 0 BMP    U+0800..U+083F    撒玛利亚字母    Samaritan    64    61    撒玛利亚字母
 0 BMP    U+0840..U+085F    曼达安字母    Mandaic    32    29    曼达安字母
 0 BMP    U+0860..U+086F    叙利亚文补充    Syriac Supplement    16    11    叙利亚文
 0 BMP    U+0870..U+089F    阿拉伯字母扩展-B    Arabic Extended-B    48    41    阿拉伯字母
 0 BMP    U+08A0..U+08FF    阿拉伯字母扩展-A    Arabic Extended-A    96    96    阿拉伯字母(95个)、通用(1个)
 0 BMP    U+0900..U+097F    天城文(梵文)    Devanagari    128    128    天城文(122个)、通用(2个)、继承(4个)
 0 BMP    U+0980..U+09FF    孟加拉文    Bengali    128    96    孟加拉文
 0 BMP    U+0A00..U+0A7F    古木基文    Gurmukhi    128    80    古木基文
 0 BMP    U+0A80..U+0AFF    古吉拉特文    Gujarati    128    91    古吉拉特文
 0 BMP    U+0B00..U+0B7F    奥里亚文    Oriya    128    91    奥里亚文
 0 BMP    U+0B80..U+0BFF    泰米尔文    Tamil    128    72    泰米尔文
 0 BMP    U+0C00..U+0C7F    泰卢固文    Telugu    128    100    泰卢固文
 0 BMP    U+0C80..U+0CFF    卡纳达文    Kannada    128    91    卡纳达文
 0 BMP    U+0D00..U+0D7F    马拉雅拉姆文    Malayalam    128    118    马拉雅拉姆文
 0 BMP    U+0D80..U+0DFF    僧伽罗文    Sinhala    128    91    僧伽罗文
 0 BMP    U+0E00..U+0E7F    泰文    Thai    128    87    泰文(86个)、通用(1个)
 0 BMP    U+0E80..U+0EFF    寮文(老挝语)    Lao    128    83    寮文
 0 BMP    U+0F00..U+0FFF    藏文    Tibetan    256    211    藏文字母(207个)、通用(4个)
 0 BMP    U+1000..U+109F    缅甸文    Myanmar    160    160    缅文
 0 BMP    U+10A0..U+10FF    格鲁吉亚字母    Georgian    96    88    格鲁吉亚字母(87个)、通用(1个)
 0 BMP    U+1100..U+11FF    谚文字母    Hangul Jamo    256    256    谚文(朝鲜文)
 0 BMP    U+1200..U+137F    埃塞俄比亚字母    Ethiopic    384    358    吉兹字母
 0 BMP    U+1380..U+139F    埃塞俄比亚字母补充    Ethiopic Supplement    32    26    吉兹字母
 0 BMP    U+13A0..U+13FF    切罗基文    Cherokee    96    92    切罗基文
 0 BMP    U+1400..U+167F    统一加拿大原住民音节文字    Unified Canadian Aboriginal Syllabics    640    640    加拿大原住民音节文字
 0 BMP    U+1680..U+169F    欧甘字母    Ogham    32    29    欧甘字母
 0 BMP    U+16A0..U+16FF    卢恩字母    Runic    96    89    卢恩字母(86个)、通用(3个)
 0 BMP    U+1700..U+171F    他加禄字母    Tagalog    32    23    他加禄字母
 0 BMP    U+1720..U+173F    哈努诺文    Hanunoo    32    23    哈努诺字母(21个)、通用(2个)
 0 BMP    U+1740..U+175F    布希德字母    Buhid    32    20    布希德文
 0 BMP    U+1760..U+177F    塔格班瓦字母    Tagbanwa    32    18    塔格班瓦字母
 0 BMP    U+1780..U+17FF    高棉文    Khmer    128    114    高棉文
 0 BMP    U+1800..U+18AF    蒙古文    Mongolian    176    158    蒙古文字母(155个)、通用(3个)
 0 BMP    U+18B0..U+18FF    统一加拿大原住民音节文字扩展    Unified Canadian Aboriginal Syllabics Extended    80    70    加拿大原住民音节文字
 0 BMP    U+1900..U+194F    林布文    Limbu    80    68    林布文
 0 BMP    U+1950..U+197F    德宏傣文    Tai Le    48    35    德宏傣文
 0 BMP    U+1980..U+19DF    新傣仂文    New Tai Le    96    83    新傣仂文
 0 BMP    U+19E0..U+19FF    高棉文符号    Khmer Symbols    32    32    高棉文
 0 BMP    U+1A00..U+1A1F    布吉文    Buginese    32    30    布吉文
 0 BMP    U+1A20..U+1AAF    老傣文    Tai Tham    144    127    老傣仂文
 0 BMP    U+1AB0..U+1AFF    组合附加符号扩展    Combining Diacritical Marks Extended    80    31    继承
 0 BMP    U+1B00..U+1B7F    巴厘字母    Balinese    128    124    巴厘字母
 0 BMP    U+1B80..U+1BBF    巽他字母    Sundanese    64    64    巽他字母
 0 BMP    U+1BC0..U+1BFF    巴塔克字母    Batak    64    56    巴塔克字母
 0 BMP    U+1C00..U+1C4F    绒巴文    Lepcha    80    74    绒巴文
 0 BMP    U+1C50..U+1C7F    桑塔利文    Ol Chiki    48    48    桑塔利文
 0 BMP    U+1C80..U+1C8F    西里尔字母扩展-C    Cyrillic Extended-C    16    9    西里尔字母
 0 BMP    U+1C90..U+1CBF    格鲁吉亚字母扩展    Georgian Extended    48    46    格鲁吉亚字母
 0 BMP    U+1CC0..U+1CCF    巽他字母补充    Sundanese Supplement    16    8    巽他字母
 0 BMP    U+1CD0..U+1CFF    吠陀扩展    Vedic Extensions    48    43    通用(16个)、继承(27个)
 0 BMP    U+1D00..U+1D7F    音标扩展    Phonetic Extensions    128    128    西里尔字母(2个)、希腊字母(15个)、拉丁字母(111个)
 0 BMP    U+1D80..U+1DBF    音标扩展补充    Phonetic Extensions Supplement    64    64    希腊字母(1个)、拉丁字母(63个)
 0 BMP    U+1DC0..U+1DFF    组合附加符号补充    Combining Diacritical Marks Supplement    64    64    继承
 0 BMP    U+1E00..U+1EFF    拉丁字母扩展附加    Latin Extended Additional    256    256    拉丁
 0 BMP    U+1F00..U+1FFF    希腊字母扩展    Greek Extended    256    233    希腊字母
 0 BMP    U+2000..U+206F    一般标点    General Punctuation    112    111    通用(109个)、继承(2个)
 0 BMP    U+2070..U+209F    上标及下标    Superscripts and Subscripts    48    42    拉丁(15个)、通用(27个)
 0 BMP    U+20A0..U+20CF    货币符号    Currency Symbols    48    33    通用
 0 BMP    U+20D0..U+20FF    符号用组合附加符号    Combining Diacritical Marks for Symbols    48    33    继承
 0 BMP    U+2100..U+214F    类字母符号    Letterlike Symbols    80    80    希腊文(1个)、拉丁(4个)、通用(75个)
 0 BMP    U+2150..U+218F    数字形式    Number Forms    64    60    拉丁(41个)、通用(19个)
 0 BMP    U+2190..U+21FF    箭头    Arrows    112    112    通用
 0 BMP    U+2200..U+22FF    数学运算符    Mathematical Operators    256    256    通用
 0 BMP    U+2300..U+23FF    杂项技术符号    Miscellaneous Technical    256    256    通用
 0 BMP    U+2400..U+243F    控制图形    Control Pictures    64    39    通用
 0 BMP    U+2440..U+245F    光学字符识别    Optical Character Recognition    32    11    通用
 0 BMP    U+2460..U+24FF    带圈字母数字    Enclosed Alphanumerics    160    160    通用
 0 BMP    U+2500..U+257F    制表符    Box Drawing    128    128    通用
 0 BMP    U+2580..U+259F    方块元素    Block Elements    32    32    通用
 0 BMP    U+25A0..U+25FF    几何图形    Geometric Shapes    96    96    通用
 0 BMP    U+2600..U+26FF    杂项符号    Miscellaneous Symbols    256    256    通用
 0 BMP    U+2700..U+27BF    装饰符号    Dingbats    192    192    通用
 0 BMP    U+27C0..U+27EF    杂项数学符号-A    Miscellaneous Mathematical Symbols-A    48    48    通用
 0 BMP    U+27F0..U+27FF    追加箭头-A    Supplemental Arrows-A    16    16    通用
 0 BMP    U+2800..U+28FF    点字图案    Braille Patterns    256    256    盲文
 0 BMP    U+2900..U+297F    追加箭头-B    Supplemental Arrows-B    128    128    通用
 0 BMP    U+2980..U+29FF    杂项数学符号-B    Miscellaneous Mathematical Symbols-B    128    128    通用
 0 BMP    U+2A00..U+2AFF    补充数学运算符    Supplemental Mathematical Operators    256    256    通用
 0 BMP    U+2B00..U+2BFF    杂项符号和箭头    Miscellaneous Symbols and Arrows    256    253    通用
 0 BMP    U+2C00..U+2C5F    格拉哥里字母    Glagolitic    96    96    格拉哥里字母
 0 BMP    U+2C60..U+2C7F    拉丁字母扩展-C    Latin Extended-C    32    32    拉丁字母
 0 BMP    U+2C80..U+2CFF    科普特字母    Coptic    128    123    科普特字母
 0 BMP    U+2D00..U+2D2F    格鲁吉亚字母补充    Georgian Supplement    48    40    格鲁吉亚字母
 0 BMP    U+2D30..U+2D7F    提非纳文    Tifinagh    80    59    提非纳文
 0 BMP    U+2D80..U+2DDF    埃塞俄比亚字母扩展    Ethiopic Extended    96    79    吉兹字母
 0 BMP    U+2DE0..U+2DFF    西里尔字母扩展-A    Cyrillic Extended-A    32    32    西里尔字母
 0 BMP    U+2E00..U+2E7F    补充标点    Supplemental Punctuation    128    94    通用
 0 BMP    U+2E80..U+2EFF    中日韩汉字部首补充    CJK Radicals Supplement    128    115    汉字
 0 BMP    U+2F00..U+2FDF    康熙部首    Kangxi Radicals    224    214    汉字
 0 BMP    U+2FF0..U+2FFF    表意文字描述字符    Ideographic Description Characters    16    12    通用(汉字结构描述字符)
 0 BMP    U+3000..U+303F    中日韩符号和标点    CJK Symbols and Punctuation    64    64    汉字(15个)、谚文(2个)、通用(43个)、继承(4个)
 0 BMP    U+3040..U+309F    日文平假名    Hiragana    96    93    平假名(89个)、通用(2个)、继承(2个)
 0 BMP    U+30A0..U+30FF    日文片假名    Katakana    96    96    片假名(93个)、通用(3个)
 0 BMP    U+3100..U+312F    注音符号    Bopomofo    48    43    注音符号
 0 BMP    U+3130..U+318F    谚文相容字母    Hangul Compatibility Jamo    96    94    谚文(朝鲜文兼容字母)
 0 BMP    U+3190..U+319F    汉文训读符号    Kanbun    16    16    通用
 0 BMP    U+31A0..U+31BF    注音符号扩展    Bopomofo Extended    32    32    注音符号(闽南语、客家语扩展)
 0 BMP    U+31C0..U+31EF    中日韩笔画    CJK Strokes    48    36    通用
 0 BMP    U+31F0..U+31FF    片假名语音扩展    Katakana Phonetic Extensions    16    16    片假名
 0 BMP    U+3200..U+32FF    中日韩围绕字元及月份    Enclosed CJK Letters and Months    256    255    谚文(62个)、片假名(47个)、通用(146个)
 0 BMP    U+3300..U+33FF    中日韩相容字元(日期合并)    CJK Compatibility    256    256    片假名(88个)、通用(168个)//中文字符开始
 0 BMP    U+3400..U+4DBF    中日韩统一表意文字扩展区A    CJK Unified Ideographs Extension A    6,592    6,592    汉字
 0 BMP    U+4DC0..U+4DFF    易经六十四卦符号    Yijing Hexagram Symbols    64    64    通用
 0 BMP    U+4E00..U+9FFF    中日韩统一表意文字 (基本区)    CJK Unified Ideographs    20,992    20,992    汉字//中文字符结束
 0 BMP    U+A000..U+A48F    彝文音节    Yi Syllables    1,168    1,165    彝文
 0 BMP    U+A490..U+A4CF    彝文部首    Yi Radicals    64    55    彝文
 0 BMP    U+A4D0..U+A4FF    傈僳文    Lisu    48    48    老傈僳文
 0 BMP    U+A500..U+A63F    瓦伊文    Vai    320    300    瓦伊文
 0 BMP    U+A640..U+A69F    西里尔字母扩展-B    Cyrillic Extended-B    96    96    西里尔字母
 0 BMP    U+A6A0..U+A6FF    巴姆穆文字    Bamum    96    88    巴姆穆文字
 0 BMP    U+A700..U+A71F    声调修饰符号    Modifier Tone Letters    32    32    通用
 0 BMP    U+A720..U+A7FF    拉丁字母扩展-D    Latin Extended-D    224    193    拉丁(188个)、通用(5个)
 0 BMP    U+A800..U+A82F    锡尔赫特文    Syloti Nagri    48    45    锡尔赫特文
 0 BMP    U+A830..U+A83F    通用印度数字形式    Common Indic Number Forms    16    10    通用
 0 BMP    U+A840..U+A87F    八思巴文    Phags-pa    64    56    八思巴字
 0 BMP    U+A880..U+A8DF    索拉什特拉文    Saurashtra    96    82    索拉什特拉文
 0 BMP    U+A8E0..U+A8FF    天城文扩展    Devanagari Extended    32    32    天城文
 0 BMP    U+A900..U+A92F    克耶字母    Kayah Li    48    48    克耶字母(47个)、通用(1个)
 0 BMP    U+A930..U+A95F    勒姜字母    Rejang    48    37    勒姜字母
 0 BMP    U+A960..U+A97F    谚文字母扩展-A    Hangul Jamo Extended-A    32    29    谚文
 0 BMP    U+A980..U+A9DF    爪哇字母    Javanese    96    91    爪哇字母(90个)、通用(1个)
 0 BMP    U+A9E0..U+A9FF    缅甸文扩展-B    Myanmar Extended-B    32    31    缅甸文
 0 BMP    U+AA00..U+AA5F    占文    Cham    96    83    占文
 0 BMP    U+AA60..U+AA7F    缅甸文扩展-A    Myanmar Extended-A    32    32    缅文
 0 BMP    U+AA80..U+AADF    傣越文    Tai Viet    96    72    傣越文
 0 BMP    U+AAE0..U+AAFF    梅泰文扩展    Meetei Mayek Extensions    32    23    曼尼普尔文
 0 BMP    U+AB00..U+AB2F    埃塞俄比亚字母扩展-A    Ethiopic Extended-A    48    32    吉兹字母
 0 BMP    U+AB30..U+AB6F    拉丁字母扩展-E    Latin Extended-E    64    60    拉丁(56个)、希腊语(1个)、通用(3个)
 0 BMP    U+AB70..U+ABBF    切罗基文补充    Cherokee Supplement    80    80    切罗基文
 0 BMP    U+ABC0..U+ABFF    梅泰文    Meetei Mayek    64    56    梅泰文
 0 BMP    U+AC00..U+D7AF    谚文音节    Hangul Syllables    11,184    11,172    谚文(朝鲜文)
 0 BMP    U+D7B0..U+D7FF    谚文字母扩展-B    Hangul Jamo Extended-B    80    72    谚文(朝鲜文)
 0 BMP    U+D800..U+DB7F    高半代用区    High Surrogates    896    0    未知
 0 BMP    U+DB80..U+DBFF    高半私人代用区    High Private Use Surrogates    128    0    未知
 0 BMP    U+DC00..U+DFFF    低半代用区    Low Surrogates    1,024    0    未知
 0 BMP    U+E000..U+F8FF    私用区    Private Use Area    6,400    6,400    未知
 0 BMP    U+F900..U+FAFF    中日韩兼容表意文字    CJK Compatibility Ideographs    512    472    汉字
 0 BMP    U+FB00..U+FB4F    字母表达形式    Alphabetic Presentation Forms    80    58    亚美尼亚文(5个)、希伯来文(46个)、拉丁(7个)
 0 BMP    U+FB50..U+FDFF    阿拉伯字母表达形式-A    Arabic Presentation Forms-A    688    631    阿拉伯字母(629个)、通用(2个)
 0 BMP    U+FE00..U+FE0F    变体选择符    Variation Selectors    16    16    继承
 0 BMP    U+FE10..U+FE1F    竖排形式    Vertical Forms    16    10    通用(中文竖排标点)
 0 BMP    U+FE20..U+FE2F    组合用半符号    Combining Half Marks    16    16    西里尔字母(2个)、继承(14个)
 0 BMP    U+FE30..U+FE4F    中日韩相容形式    CJK Compatibility Forms    32    32    通用(竖排变体、下划线、顿号)
 0 BMP    U+FE50..U+FE6F    小写变体形式    Small Form Variants    32    26    通用
 0 BMP    U+FE70..U+FEFF    阿拉伯字母表达形式-B    Arabic Presentation Forms-B    144    141    阿拉伯字母(140个)、通用(1个)
 0 BMP    U+FF00..U+FFEF    半形及全形字符    Halfwidth and Fullwidth Forms    240    225    谚文(52个)、片假名(55个)、拉丁(52个)、通用(66个)|全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母
 0 BMP    U+FFF0..U+FFFF    特殊    Specials    16    5    通用
 1 SMP    U+10000..U+1007F    线形文字B音节文字    Linear B Syllabary    128    88    线形文字B
 1 SMP    U+10080..U+100FF    线形文字B表意文字    Linear B Ideograms    128    123    线形文字B
 1 SMP    U+10100..U+1013F    爱琴海数字    Aegean Numbers    64    57    通用
 1 SMP    U+10140..U+1018F    古希腊数字    Ancient Greek Numbers    80    79    希腊文
 1 SMP    U+10190..U+101CF    古代符号    Ancient Symbols    64    14    希腊文(1个)、通用(13个)
 1 SMP    U+101D0..U+101FF    斐斯托斯圆盘    Phaistos Disc    48    46    通用(45个)、继承(1个)
 1 SMP    U+10280..U+1029F    吕基亚字母    Lycian    32    29    吕基亚字母
 1 SMP    U+102A0..U+102DF    卡里亚字母    Carian    64    49    卡利亚字母
 1 SMP    U+102E0..U+102FF    科普特闰余数字    Coptic Epact Numbers    32    28    通用(27个)、继承(1个)
 1 SMP    U+10300..U+1032F    古意大利字母    Old Italic    48    39    古意大利字母
 1 SMP    U+10330..U+1034F    哥特字母    Gothic    32    27    哥特字母
 1 SMP    U+10350..U+1037F    古彼尔姆文    Old Permic    48    43    古彼尔姆文
 1 SMP    U+10380..U+1039F    乌加里特字母    Ugaritic    32    31    乌加里特字母
 1 SMP    U+103A0..U+103DF    古波斯楔形文字    Old Persian    64    50    古波斯楔形文字
 1 SMP    U+10400..U+1044F    德瑟雷特字母    Deseret    80    80    德瑟雷特字母
 1 SMP    U+10450..U+1047F    萧伯纳字母    Shavian    48    48    萧伯纳字母
 1 SMP    U+10480..U+104AF    奥斯曼亚字母    Osmanya    48    40    奥斯曼亚字母
 1 SMP    U+104B0..U+104FF    欧塞奇字母    Osage    80    72    欧塞奇字母
 1 SMP    U+10500..U+1052F    爱尔巴桑字母    Elbasan    48    40    爱尔巴桑字母
 1 SMP    U+10530..U+1056F    高加索阿尔巴尼亚字母    Caucasian Albanian    64    53    高加索阿尔巴尼亚文
 1 SMP    U+10570..U+105BF    维斯库奇文    Vithkuqi    80    70    维斯库奇文
 1 SMP    U+10600..U+1077F    线形文字A    Linear A    384    341    线形文字A
 1 SMP    U+10780..U+107BF    拉丁字母扩展-F    Latin Extended-F    64    57    拉丁字母
 1 SMP    U+10800..U+1083F    塞浦路斯音节文字    Cypriot Syllabary    64    55    塞浦路斯音节文字
 1 SMP    U+10840..U+1085F    帝国亚拉姆文    Imperial Aramaic    32    31    帝国亚拉姆文字
 1 SMP    U+10860..U+1087F    帕尔迈拉字母    Palmyrene    32    32    帕尔迈拉字母
 1 SMP    U+10880..U+108AF    纳巴泰字母    Nabataean    48    40    纳巴泰字母
 1 SMP    U+108E0..U+108FF    哈特拉文    Hatran    32    26    哈特拉文
 1 SMP    U+10900..U+1091F    腓尼基字母    Phoenician    32    29    腓尼基字母
 1 SMP    U+10920..U+1093F    吕底亚字母    Lydian    32    27    吕底亚字母
 1 SMP    U+10980..U+1099F    麦罗埃文圣书体    Meroitic Hieroglyphs    32    32    麦罗埃文圣书体
 1 SMP    U+109A0..U+109FF    麦罗埃文草书体    Meroitic Cursive    96    90    麦罗埃文草书体
 1 SMP    U+10A00..U+10A5F    佉卢文    Kharoshthi    96    68    佉卢文
 1 SMP    U+10A60..U+10A7F    古南阿拉伯字母    Old South Arabian    32    32    古南阿拉伯字母
 1 SMP    U+10A80..U+10A9F    古北阿拉伯字母    Old North Arabian    32    32    古北阿拉伯字母
 1 SMP    U+10AC0..U+10AFF    摩尼字母    Manichaean    64    51    摩尼字母
 1 SMP    U+10B00..U+10B3F    阿维斯陀字母    Avestan    64    61    阿维斯陀字母
 1 SMP    U+10B40..U+10B5F    碑刻帕提亚文    Inscriptional Parthian    32    30    碑刻帕提亚文
 1 SMP    U+10B60..U+10B7F    碑刻巴列维文    Inscriptional Pahlavi    32    27    碑刻巴列维文
 1 SMP    U+10B80..U+10BAF    诗篇巴列维文    Psalter Pahlavi    48    29    诗篇巴列维文
 1 SMP    U+10C00..U+10C4F    古突厥文    Old Turkic    80    73    古突厥文
 1 SMP    U+10C80..U+10CFF    古匈牙利字母    Old Hungarian    128    108    古匈牙利字母
 1 SMP    U+10D00..U+10D3F    哈乃斐罗兴亚文字    Hanifi Rohingya    64    50    哈乃斐罗兴亚文字
 1 SMP    U+10E60..U+10E7F    卢米文数字    Rumi Numeral Symbols    32    31    阿拉伯文
 1 SMP    U+10E80..U+10EBF    雅兹迪文    Yezidi    64    47    雅兹迪文
 1 SMP    U+10EC0..U+10EFF    阿拉伯字母扩展-C    Arabic Extended-C    64    3    阿拉伯字母
 1 SMP    U+10F00..U+10F2F    古粟特字母    Old Sogdian    48    40    古粟特字母
 1 SMP    U+10F30..U+10F6F    粟特字母    Sogdian    64    42    粟特字母
 1 SMP    U+10F70..U+10FAF    回鹘字母    Old Uyghur    64    26    回鹘字母
 1 SMP    U+10FB0..U+10FDF    花剌子模字母    Chorasmian    48    28    花剌子模字母
 1 SMP    U+10FE0..U+10FFF    埃利迈文    Elymaic    32    23    埃利迈文
 1 SMP    U+11000..U+1107F    婆罗米文    Brahmi    128    115    婆罗米文
 1 SMP    U+11080..U+110CF    凯提文    Kaithi    80    68    凯提文
 1 SMP    U+110D0..U+110FF    索拉僧平文字    Sora Sompeng    48    35    索拉僧平文字
 1 SMP    U+11100..U+1114F    查克马文    Chakma    80    71    查克马文
 1 SMP    U+11150..U+1117F    马哈佳尼文    Mahajani    48    39    马哈佳尼文
 1 SMP    U+11180..U+111DF    夏拉达文    Sharada    96    96    夏拉达文
 1 SMP    U+111E0..U+111FF    古僧伽罗文数字    Sinhala Archaic Numbers    32    20    古僧伽罗文数字
 1 SMP    U+11200..U+1124F    可吉文    Khojki    80    65    可吉文
 1 SMP    U+11280..U+112AF    穆尔塔尼文    Multani    48    38    穆尔塔尼文
 1 SMP    U+112B0..U+112FF    库达瓦迪文    Khudawadi    80    69    库达瓦迪文
 1 SMP    U+11300..U+1137F    古兰塔文    Grantha    128    86    古兰塔文
 1 SMP    U+11400..U+1147F    纽瓦字母    Newa    128    97    纽瓦字母
 1 SMP    U+11480..U+114DF    底罗仆多文    Tirhuta    96    82    底罗仆多文
 1 SMP    U+11580..U+115FF    悉昙文字    Siddham    128    92    悉昙文字
 1 SMP    U+11600..U+1165F    莫迪文    Modi    96    79    莫迪文
 1 SMP    U+11660..U+1167F    蒙古文补充    Mongolian Supplement    32    13    蒙古文
 1 SMP    U+11680..U+116CF    塔克里文    Takri    80    68    塔克里文
 1 SMP    U+11700..U+1174F    阿洪姆文    Ahom    80    65    阿洪姆文
 1 SMP    U+11800..U+1184F    多格拉文    Dogra    80    60    多格拉文
 1 SMP    U+118A0..U+118FF    瓦兰齐地文    Warang Citi    96    84    瓦兰齐地文
 1 SMP    U+11900..U+1195F    岛屿字母    Dhives Akuru (Dives Akuru)    96    72    岛屿字母
 1 SMP    U+119A0..U+119FF    南迪城文    Nandinagari    96    65    南迪城文
 1 SMP    U+11A00..U+11A4F    札那巴札尔方形字母    Zanabazar Square    80    72    札那巴札尔方形字母
 1 SMP    U+11A50..U+11AAF    索永布文字    Soyombo    96    83    索永布文字
 1 SMP    U+11AB0..U+11ABF    加拿大原住民音节文字扩展-A    Unified Canadian Aboriginal Syllabics Extended-A    16    16    加拿大原住民音节文字
 1 SMP    U+11AC0..U+11AFF    包钦豪文    Pau Cin Hau    64    57    包钦豪文
 1 SMP    U+11B00..U+11B5F    天城文扩展-A    Devanagari Extended-A    96    10    天城文
 1 SMP    U+11C00..U+11C6F    拜克舒基文    Bhaiksuki    112    97    拜克舒基文
 1 SMP    U+11C70..U+11CBF    玛钦文    Marchen    80    68    玛钦文
 1 SMP    U+11D00..U+11D5F    马萨拉姆贡德文字    Masaram Gondi    96    75    马萨拉姆贡德文字
 1 SMP    U+11D60..U+11DAF    贡贾拉贡德文字    Gunjala Gondi    80    63    贡贾拉贡德文字
 1 SMP    U+11EE0..U+11EFF    望加锡文    Makasar    32    25    望加锡文
 1 SMP    U+11F00..U+11F5F    卡维文    Kawi    96    86    卡维文
 1 SMP    U+11FB0..U+11FBF    老傈僳文补充    Lisu Supplement    16    1    老傈僳文
 1 SMP    U+11FC0..U+11FFF    泰米尔文补充    Tamil Supplement    64    51    泰米尔文
 1 SMP    U+12000..U+123FF    楔形文字    Cuneiform    1,024    922    楔形文字
 1 SMP    U+12400..U+1247F    楔形文字数字和标点符号    Cuneiform Numbers and Punctuation    128    116    楔形文字
 1 SMP    U+12480..U+1254F    早期王朝楔形文字    Early Dynastic Cuneiform    208    196    楔形文字
 1 SMP    U+12F90..U+12FFF    塞浦路斯-米诺斯文字    Cypro-Minoan    112    99    塞浦路斯-米诺斯文字
 1 SMP    U+13000..U+1342F    埃及圣书体    Egyptian Hieroglyphs    1,072    1,072    埃及圣书体
 1 SMP    U+13430..U+1345F    埃及圣书体格式控制    Egyptian Hieroglyph Format Controls    48    38    埃及圣书体
 1 SMP    U+14400..U+1467F    安纳托利亚象形文字    Anatolian Hieroglyphs    640    583    安纳托利亚象形文字
 1 SMP    U+16800..U+16A3F    巴姆穆文字补充    Bamum Supplement    576    569    巴姆穆文字
 1 SMP    U+16A40..U+16A6F    默禄文    Mro    48    43    默禄文
 1 SMP    U+16A70..U+16ACF    唐萨文    Tangsa    96    89    唐萨文
 1 SMP    U+16AD0..U+16AFF    巴萨文    Bassa Vah    48    36    巴萨文
 1 SMP    U+16B00..U+16B8F    救世苗文    Pahawh Hmong    144    127    救世苗文
 1 SMP    U+16E40..U+16E9F    梅德法伊德林文    Medefaidrin    96    91    梅德法伊德林文
 1 SMP    U+16F00..U+16F9F    柏格理苗文    Miao    160    149    柏格理苗文
 1 SMP    U+16FE0..U+16FFF    表意符号和标点符号    Ideographic Symbols and Punctuation    32    7    汉字(2个)、契丹小字(1个)、女书(1个)、西夏文(1个)、通用(2个)
 1 SMP    U+17000..U+187FF    西夏文    Tangut    6,144    6,136    西夏文
 1 SMP    U+18800..U+18AFF    西夏文部件    Tangut Components    768    768    西夏文
 1 SMP    U+18B00..U+18CFF    契丹小字    Khitan Small Script    512    470    契丹小字
 1 SMP    U+18D00..U+18D7F    西夏文补充    Tangut Supplement    128    9    西夏文
 1 SMP    U+1AFF0..U+1AFFF    假名扩展-B    Kana Extended-B    16    13    片假名
 1 SMP    U+1B000..U+1B0FF    假名补充    Kana Supplement    256    256    平假名(255个)、片假名(1个)
 1 SMP    U+1B100..U+1B12F    假名扩展-A    Kana Extended-A    48    35    平假名(32个)、片假名(3个)
 1 SMP    U+1B130..U+1B16F    小型假名扩展    Small Kana Extension    64    9    平假名 (4个)、片假名 (5个)
 1 SMP    U+1B170..U+1B2FF    女书    Nushu    400    396    女书
 1 SMP    U+1BC00..U+1BC9F    杜普雷速记    Duployan    160    143    杜普雷速记
 1 SMP    U+1BCA0..U+1BCAF    速记格式控制符    Shorthand Format Controls    16    4    通用
 1 SMP    U+1CF00..U+1CFCF    赞玫尼圣歌音乐符号    Znamenny Musical Notation    208    185    赞玫尼圣歌音乐符号
 1 SMP    U+1D000..U+1D0FF    拜占庭音乐符号    Byzantine Musical Symbols    256    246    通用
 1 SMP    U+1D100..U+1D1FF    音乐符号    Musical Symbols    256    233    通用(211个)、继承(22个)
 1 SMP    U+1D200..U+1D24F    古希腊音乐记号    Ancient Greek Musical Notation    80    70    希腊语
 1 SMP    U+1D2C0..U+1D2DF    卡克托维克数字    Kaktovik Numerals    32    20    因努伊特数字
 1 SMP    U+1D2E0..U+1D2FF    玛雅数字    Mayan Numerals    32    20    通用
 1 SMP    U+1D300..U+1D35F    太玄经符号    Tai Xuan Jing Symbols    96    87    通用
 1 SMP    U+1D360..U+1D37F    算筹    Counting Rod Numerals    32    25    通用
 1 SMP    U+1D400..U+1D7FF    字母和数字符号    Mathematical Alphanumeric Symbols    1,024    996    通用
 1 SMP    U+1D800..U+1DAAF    萨顿书写符号    Sutton SignWriting    688    672    萨顿书写符号
 1 SMP    U+1DF00..U+1DFFF    拉丁字母扩展-G    Latin Extended-G    256    37    拉丁字母
 1 SMP    U+1E000..U+1E02F    格拉哥里字母补充    Glagolitic Supplement    48    38    格拉哥里字母
 1 SMP    U+1E030..U+1E08F    西里尔字母扩展-D    Cyrillic Extended-D    96    63    西里尔字母
 1 SMP    U+1E100..U+1E14F    创世纪苗文    Nyiakeng Puachue Hmong    80    71    创世纪苗文
 1 SMP    U+1E290..U+1E2BF    投投文    Toto    48    31    投投文
 1 SMP    U+1E2C0..U+1E2FF    文乔字母    Wancho    64    59    文乔字母
 1 SMP    U+1E4D0..U+1E4FF    蒙达里字母    Nag Mundari    48    42    蒙达里字母
 1 SMP    U+1E7E0..U+1E7FF    埃塞俄比亚字母扩展-B    Ethiopic Extended-B    32    28    吉兹字母
 1 SMP    U+1E800..U+1E8DF    门德基卡库文    Mende Kikakui    224    213    门德基卡库文
 1 SMP    U+1E900..U+1E95F    阿德拉姆字母    Adlam    96    88    阿德拉姆字母
 1 SMP    U+1EC70..U+1ECBF    印度西亚格数字    Indic Siyaq Numbers    80    68    通用
 1 SMP    U+1ED00..U+1ED4F    奥斯曼西亚格数字    Ottoman Siyaq Numbers    80    61    通用
 1 SMP    U+1EE00..U+1EEFF    阿拉伯字母数字符号    Arabic Mathematical Alphabetic Symbols    256    143    阿拉伯文
 1 SMP    U+1F000..U+1F02F    麻将牌    Mahjong Tiles    48    44    通用
 1 SMP    U+1F030..U+1F09F    多米诺骨牌    Domino Tiles    112    100    通用
 1 SMP    U+1F0A0..U+1F0FF    扑克牌    Playing Cards    96    82    通用
 1 SMP    U+1F100..U+1F1FF    带圈字母数字补充    Enclosed Alphanumeric Supplement    256    200    通用
 1 SMP    U+1F200..U+1F2FF    带圈表意文字补充    Enclosed Ideographic Supplement    256    64    平假名(1个)、通用(63个)
 1 SMP    U+1F300..U+1F5FF    杂项符号和象形文字    Miscellaneous Symbols and Pictographs    768    768    通用
 1 SMP    U+1F600..U+1F64F    表情符号    Emoticons    80    80    通用
 1 SMP    U+1F650..U+1F67F    装饰符号    Ornamental Dingbats    48    48    通用
 1 SMP    U+1F680..U+1F6FF    交通和地图符号    Transport and Map Symbols    128    118    通用
 1 SMP    U+1F700..U+1F77F    炼金术符号    Alchemical Symbols    128    124    通用
 1 SMP    U+1F780..U+1F7FF    几何图形扩展    Geometric Shapes Extended    128    103    通用
 1 SMP    U+1F800..U+1F8FF    追加箭头-C    Supplemental Arrows-C    256    150    通用
 1 SMP    U+1F900..U+1F9FF    补充符号和象形文字    Supplemental Symbols and Pictographs    256    256    通用
 1 SMP    U+1FA00..U+1FA6F    棋类符号    Chess Symbols    112    98    通用
 1 SMP    U+1FA70..U+1FAFF    符号和象形文字扩展-A    Symbols and Pictographs Extended-A    144    107    通用
 1 SMP    U+1FB00..U+1FBFF    遗留计算符号    Symbols for Legacy Computing    256    212    通用
 2 SIP    U+20000..U+2A6DF    中日韩统一表意文字扩展区B    CJK Unified Ideographs Extension B    42,720    42,720    汉字
 2 SIP    U+2A700..U+2B73F    中日韩统一表意文字扩展区C    CJK Unified Ideographs Extension C    4,160    4,154    汉字
 2 SIP    U+2B740..U+2B81F    中日韩统一表意文字扩展区D    CJK Unified Ideographs Extension D    224    222    汉字
 2 SIP    U+2B820..U+2CEAF    中日韩统一表意文字扩展区E    CJK Unified Ideographs Extension E    5,776    5,762    汉字
 2 SIP    U+2CEB0..U+2EBEF    中日韩统一表意文字扩展区F    CJK Unified Ideographs Extension F    7,488    7,473    汉字
 2 SIP    U+2F800..U+2FA1F    中日韩相容表意文字补充区    CJK Compatibility Ideographs Supplement    544    542    汉字
 3 TIP    U+30000..U+3134F    中日韩统一表意文字扩展区G    CJK Unified Ideographs Extension G    4944    4939    汉字
 3 TIP    U+31350..U+323AF    中日韩统一表意文字扩展区H    CJK Unified Ideographs Extension H    4192    4192    汉字
14 SSP    U+E0000..U+E007F    标签    Tags    128    97    通用
14 SSP    U+E0100..U+E01EF    变体选择符补充    Variation Selectors Supplement    240    240    继承
15 PUA-A    U+F0000..U+FFFFF    补充私人使用区-A    Supplementary Private Use Area-A    65,536    65,534    未知
16 PUA-B    U+100000..U+10FFFF    补充私人使用区-B    Supplementary Private Use Area-B    65,536    65,534    未知
 
a. 代码点包括未分配的代码点(非字符或保留代码点)。
b. 根据文字属性的定义,文字在区段中有一个或多个字符,与区段名称无关
c. “通用”、“未知”(Zyyy) 与“继承”(Zinh 或 Qaai) 参考自ISO 15924的4位代码
d. Unicode区段资料文件,根据 Unicode 13.0
e. UAX 24:Unicode文字属性(4位代码)
f. UAX 24:文字资料档案
g. 在ISO/IEC 10646称为“C0 Controls and Basic Latin”。
h. 在ISO/IEC 10646称为“C1 Controls and Latin-1 Supplement”。

:: --------------------------------------------------------------------------------------------------------------------

Unicode CJK(中文字符) 的范围分布在多个区段中,带有 CJK 的区块名中都拥有汉字。
最常用的范围是 U+4E00~U+9FA5,即名为:CJK Unified Ideographs 的区块,
但 U+9FA6~U+9FFF 之间的字符还属于空码,暂时还未定义,但不能保证以后不会被定义。

注意:
在正则表达式中使用 [\u4e00-\u9fa5] 这种方式属于写死的代码,并不能根据平台所提供的字符集范围不同而改变,
不过对于要求不是很高的话的是可以了。如果对字符集的要求很高,可以采用下面的这种 Unicode 块的方式:

    Java code:
        String regex = " [\\p{InCJK Unified Ideographs}&&\\P{Cn}]] " ;

在当前的 JDK 版中与 [\u4e00-\u9fa5] 的意义一致。
但这样可以匹配 Java 平台所支持 Unicode 块名为 CJK Unified Ideogrpahs 中已定义的字符,这种方式就属于“活”代码。
今后的 JDK 版本升级了,定义到了 \u9fa6 的字符,同样能够满足匹配。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/410402.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python形态学滤波:腐蚀、膨胀、开、闭运算

文章目录二值形态学灰度形态学最基础的形态学操作有四个,分别是腐蚀、膨胀、开计算和闭计算,scipy.ndimage分别实现了二值数组和灰度数组的这四种运算 二值灰度binary_erosiongrey_erosion腐蚀binary_dilationgrey_dilation膨胀binary_closinggrey_clos…

快速部署专业领域AI处理网站

当前AI大型语言模型展示了很强的信息整合与处理能力,但一些专业知识方面的问答知识量还不够完善,我们在AI的基础上增加了内容训练数据库,相关内容自动添加到AI内容数据库索引。在使用时,可以实时根据对话内容进行检索调取相关上下…

谷歌发布Self-Debug方法,让大模型学会自己修bug,一次性生成正确代码

文 | 智商掉了一地你有没有想过,让一台计算机诊断和修复自己生成的错误代码?一篇最新的研究论文介绍了一种名为 Self-Debugging 的技术,通过在生成的代码中添加自解释的信息,让计算机像一个可以自己修复代码的程序员一样调试自己的…

CAN CRC校验15_CAN FD与CAN协议区别

1 概述 CAN-FD:可以理解成CAN协议的升级版,只升级了协议,物理层未改变。 CAN与CAN-FD主要区别:传输速率不同、数据长度不同、帧格式不同、ID长度不同。 2 传输速率不同 CAN:最大传输速率1Mbps。 CAN-FD&#xff1…

MIPI D-PHYv2.5笔记(16) -- Preamble Sequence、HS-Idle State、Sync Patterns

声明:作者是做嵌入式软件开发的,并非专业的硬件设计人员,笔记内容根据自己的经验和对协议的理解输出,肯定存在有些理解和翻译不到位的地方,有疑问请参考原始规范看 Preamble Sequence 前导码序列(Preamble …

chatGPT爆火,什么时候中国能有自己的“ChatGPT“

目录 引言 一、ChatGPT爆火 二、中国何时能有自己的"ChatGPT" 三、为什么openai可以做出chatGPT? 四、结论 引言 随着人工智能技术的不断发展,自然语言处理技术也逐渐成为了研究的热点之一。其中,ChatGPT作为一项领先的自然语言处理技术…

【ChatGPT】ChatGPT还能保持多久的神话?

文章目录引言正文ChatGPT的由来ChatGPT的影响乱象频出ChatGPT未来的走势引言 最近ChatGPT的热度持续拔高,一个功能强大的AI迅速引爆了全世界,上到技术大佬,下到平民百姓,都在讨论并使用这个“跨时代的”的技术。有人拿它聊天&…

前端已死?金三银四?你收到offer了吗?

目录 一、前言 二、“唱衰” 三、不局限于框架、前端 四、打动面试官 五、正向加成 六、小结 一、前言 最近在脉脉、知乎等平台都有人在渲染前端从业人员的危机,甚至使用“前端已死”的字眼,颇有“语不惊人死不休”的意味,对老鸟来说&a…

惊呆了,2小时我就学会了Charles抓包的详细教程

目录 一、什么是Charles 二、下载Charles 三、设置Charles代理 四、配置设备代理 五、抓包操作 六、常见问题及解决方法 抓包不到某些应用程序 Charles抓包后网站出现异常 七、总结 一、什么是Charles Charles是一个跨平台的HTTP代理服务工具,可以用来查看…

Zabbix“专家坐诊”第187期问答汇总

问题一 Q:zabbix server 5.0有办法不通过脚本监控SSL证书到期时间么? A:目前还是流行通过脚本方式去获取。 Q:如果是通配符证书应该怎么监控? A:通过解析域名获取对应的过期时间的,或者证书在…

使用ChatGPT快速实现灰度和RGBA图片转换为RGB三通道图片的Python数据清洗demo

使用ChatGPT快速实现灰度和RGBA图片转换为RGB三通道图片的Python数据清洗demo 任务需求 Imagenet数据集,由于原始图片有灰度图片、彩色图片和RGBA图片,我们的要求是将灰度图片和4通道图片通过Image.open(img_pathimg_name).convert(RGB)转换为RGB三通道…

链式二叉树及相关操作(前,中,后,层序遍历)

欢迎来到 Claffic 的博客 💞💞💞 “春来无事,只为花忙。” 前言: 上一期给大家介绍了二叉树的一种顺序结构:堆,这一期承接上一期,给大家继续介绍二叉树的另一种结构:链式结构。 目录…

深度学习部署(十九): CUDA RunTime API YOLOV5后处理cpu解码以及gpu解码

跟着杜老师学AI 看看我们干了什么, 就是把bouding box恢复成框而已 1.1 知识点和先验知识 对于模型推理后的后处理,可以直接使用cuda核函数进行解码,效率比较高nms也可以在核函数里面实现这里演示了一个yolov5的实际案例,后续其他的操作都…

反序列化渗透与攻防(四)之Fastjson反序列化漏洞

Fastjson反序列化漏洞 Fastjson介绍 Fastjson是一个阿里巴巴开源的一款使用Java语言编写的高性能功能完善的JSON库,通常被用于将Java Bean和JSON 字符串之间进行转换。它采用一种“假定有序快速匹配”的算法,把JSON Parse的性能提升到极致,…

leedcode刷题(4)

各位朋友们,大家好。这两天我将为大家分享我在学习栈的过程中遇到的题目,我们一起来看看。 文章目录逆波兰表达式求值题目要求用例输入提示做题思路代码实现c语言实现代码Java语言实现代码有效的括号Java代码实现逆波兰表达式求值 leedcode之逆波兰表达…

Python工程师Java之路(t)使用Shell脚本部署SpringBoot

文章目录1、概述2、在服务器上安装Maven2、在服务器上安装Git3、Shell脚本4、SpringBoot部署测试1、概述 #mermaid-svg-MhYgFNGEE2jsSopb {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-MhYgFNGEE2jsSopb .error-ic…

【中级软件设计师】—数据库系统考点总结篇(三)

【中级软件设计师】—数据库系统考点总结篇(三) 课程大纲与考点分布 1 数据库系统的体系结构 分布式数据库的透明性 1.1 三级模式—两级映射 1.2 数据库的设计过程 1.3 E-R模型 首先每个实体要单独转成一个关系模式,总共三个实体三个关系模式…

ubuntu20.04安装Intel核显QSV编译FFmpeg支持QSV硬件加速

Intel Video And Audio For Linux: libva: Libva is an implementation for VA-APIlibva下可以接入各种driver,以支持不同的设备 VA-API(Video Acceleration API): is an open-source library and API specification(规格说明,技术参数)libv…

现在的年轻人真会玩,开发界面都这么时尚,不服老都不行了

文章目录一、你还在用传统的开发界面吗二、年轻人的界面1.动漫型2.偶像型3.提神型三、更换背景的操作第一步第二步第三步一、你还在用传统的开发界面吗 不比不知道,一比吓一跳,都2023年了,你还在用Pycharm的默认背景写代码吗?已经…

深度学习训练营_第J5周_DenseNet+ SE-Net实战

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊|接辅导、项目定制 本周进行SE模块在DenseNet上的改进实验,之后将改进思路迁移到YOLOv5模型上测试 首先是学习SE模块 SE模块:Squeeze-an…