ECMA262 记法约定

写在最前面的话:

　　首先,这将是一个系列的帖子.其次,你进来了,我很不幸的告诉你,这是一个坑,因为我不知道什么时候能放出下一章.管挖不管埋啊.

　　读ECMA262.第五章-记法约定,有必要先读一下,才好在阅读其他章节的时候.更容易明白,类似Program 和 Program .同样一个词指的东西完全不同,从而更好的进行阅读.所以先搞出这章放着吧.

　　这部分是平时业余时间翻译出来的,水平有限.难免有错漏的地方.欢迎指正.另外winter 和 hax,两个站着说话，不腰疼的家伙.的意思是.Edition3 out了. 应该搞Edition5.但我坚持以现行标准为主.遇到Edition5有不同,或增加的段子.就标红注释.所以就成了现在这个样子. 还一个最重要的原因就是Edition5内容真的好多.

记法约定(Notational Conventions)

语法和词法文法(Syntactic and Lexical Grammars)

本章节描述了ECMAScript程序，所使用的上下文无关文法(context-free grammars,即2型文法)是如何定义相关词法和语法结构规范的.

上下文无关文法(Context-Free Grammars)

一个上下文无关文法由一些产生式构成(所以提到这些产生式,总是叫他们文法产生式,也就是一坨坨的语法、词法规则).每个产生式都有一个抽象符号,被称为非终结符,作为其左式(left-hand side).

由0个或多个非终结符以及终结符组成的序列,构成其右式(right-hand side).对于每个文法来说,终结符都是从一个其规定的字母表中筛选出来的.(注1)

从一个,由被称为目标符号（goal symbol symbo）的,作为应用文法起始特征的,非终结符构成的句子开始,一个

上下文无关文法,是通过那些可能导致,反复的根据其规则进行左式非终结符与右式的,

(可能是无限的)

终结符序列(也应该包含非终结符,否则这里很费解).发生替换的产生式.

来定义一种语言的.(这里其实就是想说,2型文法通过其约定的产生式,（即词法规则）来定义一种语言)

词法和正则表达式文法(The Lexical and RegExp Grammars)

ECMAScript所给定的词法文法参见第7章.该文法以Unicode字符集作为基础,从中定义了其终结符. 并定义了一些产生式,这些产生式定义了,从目标符除法符号或正则表达式符开始(指:/),

Unicode字符集序列是如何被解析成输入元素序列的.

ECMAScript的语法文法的终结符中,输入元素是区别于空白和注释的.这些输入元素被称为ECMAScript的标记（记号-tokens）.这些标记包括ECMAScript所定义并使用的,保留字、标识符、直接量、

以及

标点符号.另外,行终结符虽然不被认为是一种标记(token).但却被认为是输入元素的一部分.并专门辅助用来实现分号自动插入机制的(参见 7.9.5章节). 一般的空白(\u3000也算)和单行注释,

将会被忽略,即不会出现在语法文法的输入元素流(stream of input elements)中.而多行注释(/*...*/这种内部无行终结符的东东),也同样会被简单的忽略掉.但如果是一个内部存在一个或多个

行终结符的

多行注释,则会被替换为一个单独的行终结符

(注2)

.并成为语法文法输入元素流的一部分.

ECMAScript的正则表达式文法相关内容,参见15.10章节. 该文法所指定的终结符,同样筛选自Unicode字符集.该文法同样定义的那些产生式,定义了,如何从一个目标符模式开始,把这些字符序列

解析成正则表达式模式的.

词法产生式,和正则表达式文法产生式,都有用于分隔作用的两个冒号"::"作为其特征.词法和正则表达式文法还具有(使用,共享)一些相同的产生式.

数字和字符串文法(The Numeric String Grammar)

一个用于把字符串解释成对应的数字值的文法.此文法和词法文法中关于数字直接量的部分类似.并把这些数字字符串作为终结符的源字符. 参见9.3.1章节.

数字型字符串的文法产生式,用三个冒号":::",作为其产生式的特征.

语法文法(The Syntactic Grammar)

11、12、13、14章,具体描述了ECMAScript的语法文法.此文法包括词法文法所定义的,属于终结符的ECMAScript标记(tokens)(参见5.1.2章节).并定义了从程序的目标符开始的,一些产生式.

并解释了,这些tokens 序列是如何组成正确的ECMAScript 程序的.

一个Unicode字符流被解析为ECMAScript程序,首先,反复通过词法文法的应用,把字符流解析为一个输入元素流.然后,这个输入元素流再被一个语法文法的应用所解析.如果其中的标记(tokens)，无法和余下的其他标记(tokens)一起,被解析为单一的,非终结的,Program 目标符实例(注3),则这个程序有语法错误.

语法文法的产生式，是以一个冒号":"作为特征的.

11,12,13和14章.描述的相关语法文法,其实并不是全部,ECMAScript程序中所允许的token序列.还有一些额外的token是被接受的. 也就是说,在某些地方(比如在行终结符前)插入的分号,就需要被文法所解释.此外,假如一个终结符出现在某些"尴尬"的位置上的时候(我去,啥地方是尴尬的位置？大概是不允许出现终结字符的地方？比如字符串中的一个换行?),这样的token序列就是不被文法所接受的.

Edition5:(此处,为Edition5新增)

Javascript 对象字面量表示-文法(The JSON Grammar)

JSON文法是用于把一个描述了一些ECMAScript 对象的字符串,转化为真正对象的文法.具体参见15.12.1章节.

JSON文法包括JSON词法文法和语法文法两部分.其中,词法文法部分,是用于把字符序列转换成tokens的,并且类似于ECMAScript的部分词法文法. JSON语法文法,是用于描述,如何使用,通过词法文法得到的tokens,来组成符合语法的 JSON 对象的.

JSON词法文法产生式,是以两个冒号 "::"作为其特征,以及分隔性的符号.JSON词法文法直接使用了一些ECMAScript词法文法的产生式,作为其产生式. 而JSON语法文法,基本与ECMAScript语法文法的某一部分相类同. JSON语法文法的产生式,是以一个冒号":",作为其特征以及分隔符号的.

文法表示法(记法,Grammar Notation)

词法和字符串文法的终结符,以及语法文法的终结符，是用等宽字体(fixed width)(注4)显示的.贯穿整个ECMA标准.

两种文法产生式中,只要出

现这种(等宽字体)文字.它都直接表示一个终结符.这些终结符,其实会出现在语言使用者所写的程序中.所有定义的终结符类型的字符,所以要用等宽字体表示,就是为了更好的在ASCII范围内识别那些,被选出的(指被选做终结符的,但属于ASCII范围的字符),以及区别那些Unicode范围内,看起来很相似的那些字符.

非终结符用 (斜体) 表示. 非终结符的定义即是非终结符名一个或多个冒号":" 后面的那部分(冒号的数量,则代表其属于哪种文法. 比如前面提到的语法文法就是用一个冒号 ":"). 一个或多个右式子(产生式的右式)中,可供选择的非终结符,会在后续行中被解释.

例子

WithStatement :

with (Expression) Statement

通过上面这个语法产生式.我们可以看到, 非终结符-WithStatement 代表(冒号 : 后面的部分)这样一种语法,一个 token(终结符) with,后面跟这一个token-左括号 "(",然后是一个非终结符-表达式-Expression,然后是一个token-右括号")",然后是一个非终结符-Statement(语句).

另一个例子:

ArgumentList:

AssignmentExpression

ArgumentList , AssignmentExpression

上面这个语法产生式表示,一个ArgumentList可以代表一个单独的

AssignmentExpression,一个ArgumentList 然后是逗号 "," 然后是一个AssignmentExpression.这定义了一种递归形式的产生式.其实就是告诉我们,

ArgumentList 可以包含任意数量（正数）的，用逗号","来分隔的参数. 其中每一个参数表达式,都是一个

AssignmentExpression.这种递归形式的定义,是通用的形式.

关于可能出现在终结符或非终结符后面的,(产生式中的)-opt下标(注5),是一个代表可选择性意义的符号.它实际上,表示了两种右式形式.一种是包含具备可选符号元素.而另一种则没有这个东东.

也就是说:

VariableDeclaration :

Identifier Initialiser-opt

上面这个产生式.也可以写成下面这种形式:

VariableDeclaration :

Identifier

Identifier Initialiser

以及

IterationStatement :

for (ExpressionNoIn-opt ; Expression-opt ; Expression-opt) Statement

可写成:

IterationStatement :

for ( ; Expression-opt ; Expression-opt) Statement

for (

ExpressionNoIn

; Expression-opt ; Expression-opt) Statement

(后面还有例子.很蛋疼.这里就不抄了.......)

如果 "[empty]" 作为产生式的右式出现.则表示产生式的右式中,不浩瀚任何终结符和非终结符.

如果

"[lookahead

set

出现在产生式的右式中,它表示紧随的输入记号(input token),不能是给定集合set中的任何一个. set可以写成由一组大括号"{}"所包含的列表. 为了简便,也可以写成一个非终结符的形式.即表示所有这个非终结符所推导出的终结符.属于set集合.

来个例子:

DecimalDigit :: one of

0 1 2 3 4 5 6 7 8 9

DecimalDigits ::

DecimalDigit

DecimalDigits DecimalDigit

对应的

LookaheadExample (这里就是个例子,并不存在这个产生式)::

n [lookahead

{1,3,5,7,9}

] DecimalDigits

DecimalDigit [lookahead

DecimalDigit

]

符合这个词法产生式的情况是,字母 n后面跟随一个偶数.然后是 DecimalDigits. 或一个DecimalDigit(十进制数字) 紧随非十进制数字的情况.

如果 "[no LineTerminatorhere]" 出现在语法文法产生式的右式中,这表示该产生式,是一个

限制型

产生式 : 也就是 LineTerminator不能出现在输入流的这个位置.

来个例子:

ReturnStatement :

return [no LineTerminator here] Expression-opt;

就是说,在这个产生式中. token-return 和 Expression ,之间不能出现行终结符(如果出现了.那么就会导致分号自动插入机制产生作用.也就成为了另外的一种语法形式 return ;了).

除非存在一个不允许出现行终结符的限制型产生式,否则,在程序的语法允许范围内,输入元素流中,任意两个连续的记号(token),之间可以出现任意个行终结符.

当 "one of"(注意,这个不是终结符哈)紧随n个冒号后面,出现在文法定义中时,表示每个（可由当前非终结符推导出的)终结符会出现在后续行中.

来个例子,ECMAScript词法文法有这样一个产生式:

NonZeroDigit :: one of

1 2 3 4 5 6 7 8 9

实际上可以写成:

NonZeroDigit ::

当一个可选的,也许是多个字符所组成的token,出现在一个词法文法产生式,或一个数字类型的字符串文法产生式中时,

意味着,这个字符序列需要构成一个 token.

(可能我没有很好的理解这句话,个人认为这句话完全是废话.另外此废话和前面NonzeroDigit无关系)

产生式的右式中,会使用短语 "but not",来制定某些扩展是不被允许的、被排除的.

来个例子,产生式:

Identifer ::

IdentifierName but not ReservedWord

意思就是,非终结符

Identifer

可以替换为任何非

ReservedWord（原文指,不能替换为ReserverWord的,也就是不能被ReserverWord推导出的.那些终结或非终结符,其实就是非的关系）

,且可被IdentifierName所替换(推导)的那些东东.

最后, 一些非终结符,可能会在一些不方便列出，或无法列出其所有可选项时,用一些,使用sans-serif(非衬线字体)字体,的短语来描述.

来个例子:

SourceCharacter ::

any Unicode code unit (用的黑体哈.凑合吧)

运算(算法)约定(Algorithm Conventions)

算法中,经常使用一个带编号的列表来定义其步骤. 这些算法是从语义角度上,来准确描述,所需的ECMAScript语言结构的.而不是暗示语言实现者,必须按照指定算法来实现.因为也许有很多更有效率的算法.可以用于实现某些功能.

Edition5:

为了让语言实现者,更容易的实现此标准的各个部分,某些被命名且被书写成参数化的、函数形式的,被称为抽象操作(运算)的东东.可以通过其命名.引用到其他算法(语言实现者,真正的算法)中去.

(Edition5 的这段描述很纠结.不就是想对第一段做补充么？我们都理解了.您非要来一段子费解的长句子做什吗？)

当一个运算,产生一个值作为其结果,"return x"指令则是指, 运算的结果就是 x 的值,并且必须要结束当前运算. 表示法 Result(n) 则是步骤n的运算结果的简写.

Edition5:

为了表述清楚,运算步骤可能会被进一步细化为一些子步骤. 子步骤会表现为缩进格式.而且子步骤还可能被进一步的细化为更详细的子(孙)步骤. 我们滴关于编码约定的大纲是这样滴:

第一级子步骤 : 使用小写字母作为其顺序的标签.

第二级 : 则使用罗马数字.

第三级 : 递归到主步骤的标签 - 数字 ...(第四级依次使用第一级子步骤.这样子.递归下去...)

(原文,edition5这这段描述很蛋疼.所以此处，并没有按原文直译)

来个例子：

1. 顶级的主步骤

a. 第一级子步骤1

b. 第一级子步骤2

i. 第二级子步骤1

ii. 第二级子步骤2

1. 第三级子步骤1

2. 第三级子步骤2

a. 第四级子步骤1.

一个步骤或子步骤.也许会被写成 "if" 断言(predicate)-即进入子步骤的条件.在这种情况下.子步骤只有在谓语(条件)为真的情况下才会被应用.如果一个步骤或子步骤以 "else"开始,那么此处也是一个条件断言,它与其前面的 "if" 断言部分对应.否定、且为同级步骤的关系.(老道的英文描述真不是一般的蛋疼.鄙视一下吧.好在意思大家都明白.)

一个步骤可能会指定一个引用程序的迭代的子步骤.

数学运算,如,加、减、取反(指负号运算符,而不是位运算的取反运算"~",更不是逻辑非运算"!")、乘、除, 以及此条款后面定义的数学函数.等精确的数学计算以及结果,是建立在数学中,实数(有理数，无理数的相关运算,与虚数对应)范畴内的.其中不包括正负无穷以及负0(区别于正0,区别于32位,代表符号位的值). 此标准中,关于浮点运算的运算过程.具备明确的步骤.比如必须处理无穷,有符号0,以及四舍五入.如果一个数学运算或函数,应用于一个浮点数,就必须理解为,其应用于一个以该浮点数为代表的精确的数学值.这个浮点数,必须是有限的.如果它是正0或负0,那么它的数学意义上的值就是0.

数学函数,abs(x) 会产生一个 x的绝对值,就是说,如果x是负数(小于0),那么产生的值就是-x.其他情况则是x自身.

数学函数,sign(x)，在 x是正数时候返回1,在x是负数的时候返回-1.而当x值为0时,sign方法在此标准中没神马意义.

字面量 "x modulo y" (y必须是有限且非0的),计算出一个与 x 有相同符号(正负)的值 k(或k为0), 则 abs(k)<abs(y) 并且 x-k=q×y (q是某个整数,其实就是商).(注6)

数学函数,floor(x),产生一个小于等于x的最大整数.

note :

floor(x) = x-(x modulo 1).

如果一个运算被定义为"抛出一个异常",则运算的执行将被停止,并且不会有任何值作为运算结果返回.所调的运算也将被停止.一直到某个运算步骤与异常达成了某种约定,学术一些的说法是,一但某个异常被抛出,则那个早于这个异常的运算步骤,不再被视为执行过.

注释:

注释1 . 比如一个产生式 S => E | e ,S 是左式即代表一个非终结符,根据产生式,进一步推导出非终结符 E,和终结符e. E可以进一步推倒. 那就要根据另外的产生式了.

那么,终结符由文法具体指定.这里不做解释了.

注释2 . 参考下面的代码:

alert(function(){

return /*

*/ 1;

}()); // 即分号自动插入机制,根据规则在 1前面自动插入分号鸟.多行注释内存在一个行终结符,那么它就被替换为一个行终结符.而不是简单的被忽略掉.

但是,浏览器的实现并不一致. IE6-IE8, Firefox0.8-Firefox3.0, Safari5-, chrome11- 都打印1.即并没有遵守标准.

而 IE9 , Firefox3.5+ , Opera11-(测到9.2),则打印undefined,遵守了标准.

注释3 . 他的意思其实就是做语法解析的时候,如果到最后.剩下了某些token没法用了,就有语法错误了. 而所谓 - 单一的,非终结的,Program 目标实例. 实际上是指整个输入元素流最终要解析为一个可由 program : 语法完整描述的文法产生式. 而这个 Program ,是一个可以进一步推导的非终结符. 参考 14章节:

语法

Program :
     SourceElementsopt
SourceElements :
     SourceElement
     SourceElements SourceElement
SourceElement :
     Statement
     FunctionDeclaration

注释4 . 对于等宽字体.我就用粗体表示了.只要在记法约定的例子部分.能区分，非终结符（斜体），以及终结符（等宽字体,我用粗体表示）.就算达到目的. 而其他如表达式和词法约定章节的翻译部分.涉及到产生式部分.我并没有遵守这一原则.主要原因是.太麻烦鸟.

注释5 . 在evernote里,我是不知道如何输入下标形式的 opt 了. 所以一概用 -opt 代替下标opt.

注释6 . 对负数的取模运算，C语言的 C99规范规定：如果第一运算数为负，则得到的模为负；如果第一运算数为正，则得到的模为正实际上ECMAScript亦如此.虽然其描述,并非如此直接.

基于 ECMAScript % 求模运算符的运算法则. 会在 11章相关%运算符部分解释. 但应了解.ECMAScript.不仅仅支持整数范围的求模运算.还支持浮点数的求模运算.

x%y 对应 7%3 -> 7/3=2 余1.其中7对应x,3对应y,2对应商,1对应余. 那么:

根据其描述: abs(k) < abs(y) and x?k = q × y 得出.

abs(1) < abs(3)

7-1 = 2*3

基于此.我们可以断定ECMA262 原文中 computes a value k of the same sign as y 是错误的. 无论是Edition3还是Edition5. 此处y应该改为x

求模公式:

function mod(a,b){

return a-(a/b|0)*b;

}