C 语言中的标记
标记是指计算机语言(例如 C 语言)源代码中的最小单位。"标记"一词源于语言学理论。正如某种语言(例如英语)中的一段文本由单词(字母的集合)、数字和标点符号组成一样。编译器将 C 语言程序分解为标记,然后继续进行编译过程中的后续阶段。
编译过程的第一步是标记生成器。标记生成器将源代码分解为单个标记,识别标记的类型,并将标记逐个传递给编译器的下一阶段。
解析器是编译的下一阶段。它能够理解语言的语法,识别语法错误,并将无错误的程序翻译成机器语言。
C 语言源代码还包含不同类型的 token。C 语言中的 token 类型如下:
- 字符集
- 关键字 token
- 文字 token
- 标识符 token
- 操作符 token
- 特殊符号 token
让我们逐一讨论这些 token 类型。
C 语言字符集
C 语言识别一个字符集,该字符集包含大小写英文字母(A 到 Z,以及 a 到 z)、数字 0 到 9 以及其他一些具有特殊含义的符号。在 C 语言中,某些字符组合也具有特殊含义。例如, 被称为换行符。这样的组合称为转义序列。
C 语言的字符集如下:
- 大写字母:A 到 Z
- 小写字母:a 到 z
- 数字:0 到 9
- 特殊字符:! " # $ % & ' ( ) * + - . : , ; ` ~ = < > { } [ ] ^ _ \ /
用双引号"和"括起来的任意字符序列表示字符串字面量。数字表示数值字面量。方括号用于定义数组。花括号用于标记代码块。反斜杠是转义符。其他字符定义为运算符。
C 语言关键字
在 C 语言中,预定义的字母表序列称为关键字。与人类语言相比,编程语言的关键字更少。最初,C 语言有 32 个关键字,后来在 C 标准的后续修订中又添加了几个。所有关键字均小写。每个关键字都有其对应的使用规则(在编程中称为语法)。
C 编译器会检查关键字是否按照语法使用,并将源代码转换为目标代码。
C 文字
在计算机编程术语中,术语文字指的是要赋给变量的值的文本表示形式,该值直接硬编码在源代码中。
数字文字包含数字、小数点符号和/或幂字符 E 或 e。
字符串文字由放在一对双引号内的任意字符序列组成。字符字面量是放在单引号内的单个字符。
数组也可以用字面量形式表示,方法是将逗号分隔的字面量序列放在方括号内。
在 C 语言中,转义序列也是一种字面量。两个或多个字符(第一个字符是反斜杠 \)放在单引号内,就构成了转义序列。每个转义序列都具有预定义的含义。
C 标识符
与关键字不同,标识符是程序中用户定义的元素。您需要通过赋予各种程序元素适当的名称来定义它们。例如,变量、常量、标签、用户定义类型、函数等。
C 语言规定了标识符的构成规则。其中一个重要的限制是保留关键字不能用作标识符。例如,for 在 C 语言中是一个关键字,因此它不能用作标识符(即变量、函数等的名称)。
C 运算符
C 是一种计算语言。因此,C 程序由执行算术和比较运算的表达式组成。 C 语言字符集中的特殊符号大多被定义为运算符。例如,我们熟知的 +、−、* 和 / 就是C 语言中的算术运算符。同样,< 和 > 被用作比较运算符。
C 语言特殊符号
除了定义为运算符的符号外,其他符号还包括逗号、分号和冒号等标点符号。在 C 语言中,你会发现它们在不同的上下文中用法不同。
同样,括号 ( 和 ) 不仅用于函数定义,也用于算术表达式。花括号用于标记函数的作用域、条件语句和循环语句中的代码块等。