C语言中的转义序列

前些天有师弟问起关于C语言中转义序列的问题,尤其提到了\?这个转义字符,因为记得??似乎是三元字符集的开头,应该也算是特殊字符,但记得并不太清楚,于是搜寻了些资料,和转义序列的问题一并作整理和记录。 # 转义序列 (escape sequence)

首先,我们知道,在C语言中,字符常量使用单引号括起来表示,但并不是所有的字符都可以直接由键盘输入而表示出来,比如换行符,也就无法用这样的方式来书写。通常来说有这样两种无法用这种方式表示的字符,一是非打印字符,如换行符,一是特殊字符,键盘上并没有直接的键位可以录入。这时候就需要用到转义序列来表示,字符转义序列和数字转义序列。

字符转义序列 (charatcter escape)

字符转义序列即我们常见的如\n表示换行符这样,下面给出字符转义序列表:

转义序列 描述
\' 单引号
\" 双引号
\? 问号
\ 反斜杠
\a 响铃
\b 退格
\f 换页
\n 换行
\r 回车
\t 水平制表符
\v 垂直制表符

这里我们看到前四个都是符号,而除了问号以外,其他三个符号因为在C语言中有其他的作用,为了避免两者混淆,我们需要用转义序列来表示,那么为什么问号也需要呢,这就是我们后面要提到的三元字符序列,这里先按下不表。

数字转义序列 (numberic escape)

虽然字符转义序列已经可以表示出一些无法打印的字符,但并仍然没法包含所有无法打印的 ASCII 字符,而我们通过查阅 ASCII 字符集中字符编号,就可以使用数字转义序列来表示这些字符,就好比我们每个人都有一个身份证号,用身份证号就可以表示我们这个人的身份一样。

八进制转义序列

\(\verb|\|NUMBER_{(8)}\) * NUMBER 为一不超过三位数字的八进制数; * NUMBER 需表示为无符号字符,最大值通常是\(337_{(8)}\); * 转义序列中的八进制数不一定要用 0 开头.

十六进制转义序列

\(\verb|\x|NUMBER_{(16)}\) * NUMBER 为一十六进制数; * NUBMBER 需表示为无符号字符(若字符长度为 8 位,则不能超过 FF); * 字符 x 必须为小写; * NUMBER 不限大小写; 当作为字符常量使用时,转义序列必须用一对单引号括起来,而采用数字转义序列的方式来表示某个字符常量可能会使代码的可读性降低,可以使用#define宏定义的方式进行命名:

1
#define ESC '\33' /* ASCII escape character */

三字符序列 (trigraph sequence)

前面我们提到了问号这个特殊字符也需要一个转义序列是由于三字符序列的存在。在欧洲的某些老式键盘提供的使欧洲语言所使用的古老字符,键盘上缺少 C 语言需要的字符,因此引入了三字符来解决这一问题。

三字符序列是一种三字符码,所有的三字符都以??开始,下面是三字符序列表:

三字符序列 等价的 ASCII码
??= #
??( [
??/ \
??' ^
??< {
??! }
??> ~

例如,我们在学习编程时学习的第一个程序 Hello, world 就可以用三字符写成下面的形式:

1
2
3
4
5
6
7
??=include <stdio.h>

int main(void)
??<
printf("Hello, world??/n");
return 0;
??>

遵循 C89 或 C99 标准的编译器都必须能接受三字符,所以上面这段程序是能够通过编译并执行的,混杂三字符和正常字符表示也是可以的。这也就是说,我们在字符串中放置??,有一定几率会因为三字符而导致问题,因为编译器可能会将其视为三字符的开始标志。如果发生这种情况,我们可以在第二个?字符前面放置\把第二个字符?变成转义序列,即?\?,这样就不会被看作是三字符的开始了,这也是为什么在字符串中直接使用?是可以输出的,但转义序列中却包含\?。不过在我的几次尝试中,发现,编译器通常会在碰到疑似三字符出现的情况下出现 warning,提示你三字符被忽略,如果需要启用三字符,需要添加-trigraphs编译选项,添加了编译选项后就可以正常使用三字符了,虽然通常我们很少用及。

参考资料