Elixir 提供双引号字符串以及一个称为 charlists 的概念,它们使用 ~c“hello world”符号语法定义。在本章中,我们将了解有关符号的更多信息以及如何定义我们自己的符号。
Elixir 的目标之一是可扩展性:开发人员应该能够扩展语言以适应任何特定领域。符号为使用自定义文本表示扩展语言提供了基础。符号以波浪符号 (~) 开头,后跟单个小写字母或一个或多个大写字母,然后是分隔符。可选修饰符添加在最后一个分隔符之后。
正则表达式
Elixir 中最常见的符号是 ~r,它用于创建正则表达式:
Elixir 提供与 Perl 兼容的正则表达式 (regexes),由 PCRE 库实现。正则表达式还支持修饰符。例如,i 修饰符使正则表达式不区分大小写:
查看 Regex 模块以获取有关其他修饰符和正则表达式支持的操作的更多信息。
到目前为止,所有示例都使用 / 来分隔正则表达式。但是,符号支持 8 种不同的分隔符:
支持不同分隔符的原因是为了提供一种不使用转义分隔符来编写文字的方法。例如,带有正斜杠的正则表达式,如 ~r(^https?://),读起来可能比 ~r/^https?:\/\// 更好。同样,如果正则表达式有正斜杠和捕获组(使用 ()),那么您可以选择双引号而不是括号。
字符串、字符列表和单词列表符号
除了正则表达式之外,Elixir 还附带了其他三个符号。
字符串
~s 符号用于生成字符串,就像双引号一样。当字符串包含双引号时,~s 符号很有用:
字符列表
~c 符号是表示字符列表的常规方式。
单词列表
~w 符号用于生成单词列表(单词只是常规字符串)。在 ~w 符号内,单词由空格分隔。
~w 符号还接受 c、s 和 a 修饰符(分别用于字符列表、字符串和原子),它们指定结果列表元素的数据类型:
字符串符号中的插值和转义
Elixir 支持一些符号变体来处理转义字符和插值。特别是大写字母符号不执行插值或转义。例如,虽然 ~s 和 ~S 都会返回字符串,但前者允许转义代码和插值,而后者不允许:
以下转义代码可用于字符串和字符列表:
除此之外,双引号字符串内的双引号需要转义为 \",类似地,单引号字符列表内的单引号需要转义为 \'。尽管如此,更改分隔符(如上所示)比转义它们更好。
符号还支持 heredocs,即三个双引号或单引号作为分隔符:
heredoc 符号最常见的用例是编写文档。例如,在文档中编写转义字符很快就会变得容易出错,因为需要对某些字符进行双重转义:
通过使用 ~S,可以完全避免此问题:
日历符号
Elixir 提供了多种符号来处理各种时间和日期。
日期
%Date{} 结构包含年、月、日和日历字段。您可以使用 ~D 标记创建一个:
时间
%Time{} 结构包含小时、分钟、秒、微秒和日历字段。您可以使用 ~T 标记创建一个:
纯日期时间(无UTC)
%NaiveDateTime{} 结构包含日期和时间字段。您可以使用 ~N 标记创建一个:
为什么称之为 naive?因为它不包含时区信息。因此,给定的日期时间可能根本不存在,或者在某些时区可能存在两次 - 例如,当我们将时钟向前和向后移动以进行夏令时时。
UTC日期时间
%DateTime{} 结构包含与 NaiveDateTime 相同的字段,并添加了用于跟踪时区的字段。~U 标记允许开发人员在 UTC 时区创建日期时间:
自定义符号
正如本章开头所暗示的,Elixir 中的符号是可扩展的。事实上,使用符号 ~r/foo/i 相当于使用二进制和字符列表作为参数调用 sigil_r:
我们可以通过 sigil_r 访问 ~r 符号的文档:
我们还可以通过实现遵循 sigil_{character} 模式的函数来提供我们自己的符号。例如,让我们实现返回整数的 ~i 符号(使用可选的 n 修饰符使其为负数):
自定义符号可以是单个小写字符,也可以是大写字符后跟更多大写字符和数字。
符号还可以在宏的帮助下用于执行编译时工作。例如,Elixir 中的正则表达式在源代码编译期间被编译为高效表示,因此在运行时跳过此步骤。如果您对这个主题感兴趣,您可以了解有关宏的更多信息,并查看在内核模块(其中定义了 sigil_* 函数)中信号是如何实现的。