使用 str.isascii()
方法检查字符串是否为 ASCII,例如 if my_str.isascii():
。 如果字符串为空或字符串中的所有字符都是 ASCII,则 str.isascii()
方法返回 True,否则返回 False。
my_str = 'www.jiyik.com'
if my_str.isascii():
# 👇️ this runs
print('The string contains only ASCII characters')
else:
print('The string does NOT contain only ASCII characters')
print('jiyik'.isascii()) # 👉️ True
print('www jiyik'.isascii()) # 👉️ True
print(''.isascii()) # 👉️ True
print('ab фг'.isascii()) # 👉️ False
我们使用 str.isascii()
方法来检查字符串是否仅包含 ASCII 字符。
如果字符串为空或字符串中的所有字符都是 ASCII,str.isascii
方法返回 True,否则返回 False。
print(''.isascii()) # 👉️ True
print('JIYIK'.isascii()) # 👉️ True
print('WWW JIYIK'.isascii()) # 👉️ True
print('WWW_JIYIK!.?'.isascii()) # 👉️ True
print('ФФФ'.isascii()) # 👉️ False
ASCII 字符的代码点在 U+0000-U+007F
范围内。
如果我们认为空字符串不是 ASCII,请检查字符串的长度。
my_str = ''
if my_str.isascii() and len(my_str) > 0:
print('The string contains only ASCII characters')
else:
# 👇️ this runs
print('The string does NOT contain only ASCII characters')
或者,我们可以使用 try/except
语句。
使用 try/except 检查字符串是否为 ASCII
要检查字符串是否为 ASCII:
- 使用
str.encode()
方法使用 ASCII 编码对字符串进行编码。 - 在
except
块中捕获潜在的UnicodeEncodeError
异常。 - 如果
str.encode()
方法成功运行,则字符串为 ASCII。
def is_ascii(string):
try:
string.encode('ascii')
except UnicodeEncodeError:
return False
else:
return True
print(is_ascii('jiyik')) # 👉️ True
print(is_ascii('www jiyik')) # 👉️ True
print(is_ascii('')) # 👉️ True
print(is_ascii('ab фг')) # 👉️ False
我们使用 try/except/else
语句来检查字符串是否仅包含 ASCII 字符。
try
语句使用 str.encode()
方法将字符串编码为 ASCII 编码的字节。
str.encode
方法将字符串的编码版本作为字节对象返回。 默认编码为 utf-8。
如果字符串无法使用 ASCII 编码编码为字节,则会引发 UnicodeEncodeError
并在 except 块中进行处理。
如果 str.encode()
方法成功运行,则不会引发错误并且 else 块运行。
或者,我们可以使用 all()
函数。
使用 all() 检查字符串是否为 ASCII
要检查字符串是否为 ASCII:
- 使用生成器表达式迭代字符串。
- 检查每个字符的 Unicode 码位是否小于 128。
- 如果所有字符都满足条件,则字符串为 ASCII。
def is_ascii(string):
return all(ord(char) < 128 for char in string)
print(is_ascii('jiyik')) # 👉️ True
print(is_ascii('www jiyik')) # 👉️ True
print(is_ascii('')) # 👉️ True
print(is_ascii('ab фг')) # 👉️ False
我们使用生成器表达式来迭代字符串。
生成器表达式用于对每个元素执行一些操作或选择满足条件的元素子集。
在每次迭代中,我们使用 ord()
函数来检查当前字符的 Unicode 代码点是否小于 128。
ord
函数接受一个表示 1 个 Unicode 字符的字符串,并返回一个表示给定字符的 Unicode 代码点的整数。
print(ord('a')) # 👉️ 97
print(ord('b')) # 👉️ 98
标准 ASCII 字符在 0-127 范围内,因此我们检查每个字符的 Unicode 代码点是否小于 128。
all()
内置函数将可迭代对象作为参数,如果可迭代对象中的所有元素都为真(或可迭代对象为空),则返回 True。
def is_ascii(string):
return all(ord(char) < 128 for char in string)
print(is_ascii('jiyik')) # 👉️ True
print(is_ascii('www jiyik')) # 👉️ True
print(is_ascii('')) # 👉️ True
print(is_ascii('ab фг')) # 👉️ False
如果字符串中的所有字符都是 ASCII,则函数返回 True,否则返回 False。