汇编语言---指令格式和基本语法

汇编语言的指令格式,目前有两种不同的标准:Windows下的汇编语言基本上都遵循Intel风格的语法,比如:MASM、NASM;而Unix/Linux下的汇编语言基本上都遵循AT&T风格的语法;
一、汇编语言语句的通用格式
[名称[:]] 指令码 [第一操作数][,第二操作数] ;注释
汇编语言的指令码的操作数的个数可以是0、1、2个;当操作数的个数为2的时候,语句还有两种不同的格式:
Windows下Intel风格的汇编语言语句格式为:
[名称[:]] 指令码目的操作数DST,源操作数SRC ;注释
Unix/Linux下AT&T风格的汇编语言语句格式为:
[名称[:]] 指令码源操作数SRC,目的操作数DST ;注释
例如: CYCLE: ADD AX,02H ;(AX)<-(AX)+02H
解释:
汇编语言语句格式中的"名称"并不是所有语句都必需的,但是,如果语句中带有"名称",那么,大多数情况下,"名称"都表示的是内存中某一存储单元的地址,也就是"名称"后面各项在内存中存放的第一个存储单元的地址(包括该"名称"所在段的段地址和段内偏移地址);比如上面的指令中,CYCLE就是该语句的名称,CYCLE表示的就是其后面的机器指令码在内存中存放的第一个地址;"名称"与指令码之间的分隔符可以是冒号":",也可以是空格字符" ";当以冒号分割时,该名称代表的是一个标号;当以空格分割时,该名称代表的可能是标号,也可能是变量;当指令码有多个操作数的时候,相邻两个操作数之间要用逗号","分割;指令码与操作数之间必须以空格分割;汇编语言语句的注释必须以分号";"开头;
二、组成语句的元素
1、常数:
汇编语言中的常数有整数、字符串;二进制、八进制、十进制、十六进制;汇编语言采用不同的后缀区分:
B:二进制数; O:八进制数; D:十进制数; H:十六进制数;
当一个数值后面没有后缀的时候,默认为十进制数;
字符串常数是用一对单引号('')括起来的一串字符;
2、表达式:
由操作数和操作符组成;
算数运算操作符: +、-、*、/、MOD,等;取模运算MOD是取两数相除的余数;
逻辑运算操作符: AND(逻辑与)、OR(逻辑或)、NOT(逻辑非)、XOR(逻辑异或);
注意:逻辑运算符同时又可以是逻辑运算指令的指令码,只有当它们出现在指令的操作数部分时,才是操作符;例如:
ADD AL,0CH ADD 0FH  ;第一个ADD是指令码,第二个ADD是操作符;
关系运算操作符: EQ(相等)、NE(不等)、LT(小于)、GT(大于)、LE(小于等于)、GE(大于等于);
汇编语言中的表达式不能单独构成语句,只能是语句的组成部分;
注意:语句中表达式的求值不是在语句执行时完成的,而是在对源程序进行汇编链接时完成的.所以,语句中各表达式的值必须在汇编或链接时就是确定的,也就是说,表达式中各标识符的值在汇编或链接时就应该是确定的;
3、标号:
标号是由标识符表示的指令的名称,用于指示对应指令的位置(地址);
标号具有三个属性:段地址、偏移地址和类型;
标号的段地址和偏移地址属性是指该标号所对应的指令所在段的段地址和段内偏移地址;
标号的类型有两种:NEAR和FAR;标号定义成NEAR类型,表示该标号在段内使用,而定义成FAR类型则表示该标号可以在段间使用;
标号的定义:在指令码前面加上标识符和冒号":";
例如:START: PUSH DS
这条语句里面,START就是我们定义的标号,它代表指令PUSH的地址,所以,标号可以作为程序转移指令的操作数(即:要转向的地址);标号还可以采用伪指令来定义;例如:用LABEL伪指令和过程定义伪指令来定义;
4、变量:
与高级语言一样,并不是所有的操作数都是常数,汇编语言也有自己的变量,变量的值在程序运行期间是可以被改变的;
A.定义变量:汇编语言中,变量的定义是通过伪指令来完成的;定义变量的伪指令格式如下:
变量名 DB 表达式 ;定义字节变量,又称单字节变量(1个连续字节),DB-->BYTE
变量名 DW 表达式 ;定义字变量,又称双字节变量(2个连续字节),DW-->WORD
变量名 DD 表达式 ;定义双字变量,又称四字节变量(4个连续字节),DD-->DWORD
变量名 DF 表达式 ;定义六字节变量,又称六字节变量(6个连续字节),DF-->FWORD
变量名 DQ 表达式 ;定义长字变量,又称八字节变量(8个连续字节),DQ-->QWORD
变量名 DT 表达式 ;定义十字节变量(10个连续字节),DT-->TBYTE;
其中,变量名是一个合法的标识符,变量名后面不能加冒号":",只能用空格;变量名不是必要的,可有可无;变量的类型由关键字DB、DW、DD、DQ、DT来定义;
变量定义语句中的"表达式"是用于对变量进行初始化的,可有一下几种情况:
(1).一个或多个常数或表达式;当为多个常数或表达式时,期间要用逗号隔开;如DATA1--DATA4;
(2).带单引号的字符串;
对于字节型(DB)变量,每个变量的大小为1个字节,每个变量的值不能超过1个字符,每个字节内存入一个字符的ASCII码值,整个字符串可以在同一对单引号内给出,这相当于是定义了一个字符数组,如DATA5;
对于字类型(DW)变量,每个变量的大小为2个字节,每个变量的值不能超过2个字符,若为2个字符时,同样遵循高位存入高字节,低位存入低字节的规则;若为1个字符,则该字符的ASCII码值存入到低字节,高字节为00,如DATA6;
对于双字类型(DD)变量,每个变量的大小为4个字节,每个变量的值不能超过2个字符,若为2个字符,同样遵循高位存入高字节,低位存入低字节的规则;但是2个字符的值被存入到双字变量的最低2个字节中,1个字符的值被存入到双字变量的最低1个字节中;
对于长字类型(DQ)变量,每个变量的大小为8个字节,每个变量的值不能超过2个字符,若为2个字符,同样遵循高位存入高字节,低位存入低字节的规则;但是2个字符的值被存入到长字变量的最低2个字节中,1个字符的值被存入到长字变量的最低1个字节中;
(3).一个问号"?",表示该变量的值不确定,即:该变量所表示的内存单元中的内容是不确定的,或者说是,当表达式为问号时,变量所对应的内存区中并没有存入新的值,而只是预留出了相应的存储空间;如DATA7、DATA8
(4).重复方式;此时的格式为: 重复次数 DUP(表达式);重复方式指出表达式的值可以重复地存储到变量对应的内存区中,重复的次数由伪指令给出,相当于定义数组;如DATA9、DATA10
定义变量的例子:
DATA1  DB 20H            ;1字节变量
DATA2  DW 0204H,1000H    ;2字节变量
DATA3  DB (-1*3),(15/3)  ;1字节变量
DATA4  DD 123456H        ;4字节变量
DATA5  DB '0123'         ;字符串变量,相当于一个字符数组
DATA6  DW 'AB','C','D'   ;字符串变量,相当于一个字符串数组;
DATA7  DB ?              ;1字节变量,未初始化
DATA8  DD ?              ;4字节变量,未初始化
DATA9  DB 5 DUP(0)       ;1字节变量,用5个0初始化,相当于是一个具有5个DB型元素的数组
DATA10 DW 3 DUP(?)       ;2字节变量,未初始化,相当于是一个具有3个DW型元素的数组
变量定义语句中伪指令的功能是在变量名所对应的地址开始的内存区依次存入表达式中的各项值,表达式中的每项值所占用内存字节数与变量的类型对应;
总结:一个变量的变量名实际上就代表了该变量所对应的内存区在内存段中的有效地址(偏移地址);高地址是指地址值相对较大,低地址是指地址值相对较小,高地址与低地址是相对而言的;
5、变量的属性:
(1).属性介绍
一个变量具有一下属性:
A.段地址(SEG):变量所在段的段地址;
B.偏移地址(OFFSET):变量所在段内的偏移地址;
C.类型(TYPE):变量的类型定义了每个变量所占用的内存字节数,对于DB、DW、DD、DQ、DT类型定义的变量所占用的内存字节数分别是1、2、4、8、10;通常又将DB、DW、DD类型所定义的变量分别成为BYTE类型、WORD类型、DWORD类型变量;
常用标识符的类型值列表:
标识符种类  字节变量  字变量  双字变量  近标号NEAR  远标号FAR
TYPE的值     1          2        4          -1           -2
D.长度(LENGTH):变量定义时,一个变量名所定义的变量个数;在含有DUP操作符的变量定义中,变量名所定义的变量个数为定义格式中的重复次数;在其它各种变量定义中,每个变量名所定义的变量个数均为1个;
E.大小(SIZE):变量定义语句中,分配给同一个变量名的所有变量的总的字节数,其值为该变量的类型与长度的成绩;
其中,段地址、偏移地址和类型属性是变量的主属性,而长度和大小属性是变量的辅助属性;
(2).属性操作符:
操作符    表达式              含义
SEG        SEG 变量名或标号       取出变量名或标号所在段的段地址
OFFSET     OFFSET 变量名或标号    取出变量名或标号所在段内的偏移地址
TYPE       TYPE 变量名或标号      取出变量名或标号的类型(变量所占用的字节数)
LENGTH     LENGTH 变量名          取出变量的长度
SIZE       SIZE 变量名            取出变量的大小
这些操作符不能单独构成语句,只能作为表达式的组成部分,并且表达式的求值也是在汇编过程中完成的;
6.强制类型转换操作符PTR
格式:数据类型 PTR 地址表达式
格式中的"数据类型"可以是BYTE、WORD、DWORD、NEAR、FAR;前三种类型是变量的类型,后两种类型是标号的类型;格式中的表达式可以是变量、标号、其它地址表达式;
PTR操作符的功能是用来重新定义已定义的变量或标号的类型,其作用域只在当前语句中; 例如:
DATA1 DW 02H
MOV BYTE PTR DATA1,AL
这条指令中,是把DATA1的类型转换为BYTE类型,然后把AL中的内容存放到DATA1的最低一个字节中;作用域只在这条MOV语句中,过了这条语句,DATA1仍然是DW类型,即:DATA1原来的类型并没有被修改;
7、复合数据类型:
符合数据类型,除了用DUP定义的重复数据类型之外,与C/C++语言一样,汇编语言中也有结构体类型、联合类型、记录类型;
(1).结构体类型:
A.类型定义格式:
结构类型名 STRUC [对齐类型Alignment][,NONUNIQUE]
           Field1 Type1 Exp1
           Field2 Type2 Exp2
           ......
           FieldN TypeN ExpN
结构类型名 ENDS
说明:结构体中的字段名可有可无;若有字段名,则字段名必须唯一,每个字段可独立存取;若没有字段名,则通过偏移量来存取;
对齐方式Alignment:定义每个字段的字节对齐边界,对齐值有1、2、4、8、16字节对齐,值必须是2的幂次方;对齐类似于C/C++中结构体字段的对齐;
NONUNIQUE:要求结构体中的字段必须用全名才能访问;
结构体中的字段可以有字段名,也可以没有字段名;有字段名的字段可直接使用该字段名来访问,没有字段名的字段可用使用该字段在结构体中的偏移量来访问;
例如:
PERSON STRUC
       NO   DD ?          ;有名字段,偏移量为0
       NAME DB 10 DUP(?)  ;有名字段,偏移量为4
            DB 1          ;无名字段,偏移量为14
PERSON ENDS
B.结构类型变量的定义:
[变量名] 结构类型名 <[字段值列表]>
字段值列表中的各个字段之间用逗号","分割,字段值的排列顺序及类型应该与该结构定义时说明的各个字段相一致;如果结构变量中某个字段的值使用定义结构时说明的缺省值,那么可用逗号来表示;如果所有字段都使用定义结构体时说明的各个字段的缺省值,则可省去字段值列表,只需保留一对尖括号"<>"即可;
例如:
Per1 PERSON <>             ;所有字段都是用默认值
Per2 PERSON <1,'bdx',60>   ;所有字段都重新初始化
Per3 PERSON <2, , 90>      ;第二个字段使用默认值;
C.结构体类型字段的引用:
格式: 结构变量名.字段名
这种引用方式与高级语言中的引用方式完全一致;另外,还可以使用偏移量来访问某个字段;
方式1:使用字段名直接引用
MOV AX,Per3.NAME
方式2:使用字段的在结构体中的偏移量来引用
LEA SI,Per3   ;取变量Per3对应内存块的有效地址
MOV AX,[SI+4] ;寄存器相对寻址,4是字段NAME的偏移量
(2).联合体类型:
A.类型定义格式:
[联合体类型名] UNION [对齐方式Alignment][,NONUNIQUE]
           Field1 Type1 Exp1
           Field2 Type2 Exp2
           ......
           FieldN TypeN ExpN
[联合体类型名] ENDS
说明:联合体类型中的各个字段相互覆盖,即:同样的存储单元被多个不同类型的字段所对应,并且每个字段在联合体类型中的偏移量都是0;联合体类型所占用的字节数是其所有字段所占字节数的最大值,即:联合体所占用的字节数是这个联合体的所有字段中占用字节数最多的那个字段占用的字节数;
对齐方式Alignment:可用1、2、4、8、16个字节来指定联合体中各个字段字节的对齐边界,其缺省的对齐边界是1字节;还可用使用伪指令ALIGN或EVEN来重新定界,也可使用命令行选项/Zp来定界;
NONUNIQUE:要求联合体类型中的字段必须使用全名才能访问;
例如:
DATE UNION
     YEAR  DB 2010
     MONTH DB 07
     DAY   DB 04
DATE ENDS
B.联合体类型变量的定义:
联合体类型的变量只能使用第一个字段的数据类型来进行初始化;例如:
DATE1 DATE <2011>   ;定义一个联合体类型变量DATE1,并使用第一个字段的数据类型进行初始化
DATE2 DATE <'2011'> ;初始化错误,只能使用第一个字段的数据类型进行初始化;
C.联合体类型字段的引用:
格式: 联合体类型变量名.字段名
例如:
MOV DATE1.YEAR,2012  ;给联合体类型变量字段赋值
MOV AL,DATE1.MONTH   ;AL=07
MOV BX,DATE1.YEAR    ;BX=2012
MOV DATE1.MONTH,08   ;月份置为8月
(3).记录类型:
A.类型定义格式:
汇编语言中的记录类型与高级语言中的记录类型不同,在汇编语言中,记录类型是为按照二进制位存取数据提供方便的;记录类型的说明要用到另一个关键字RECORD,格式如下:
记录名 RECORD 字段[,字段,...]
其中,"字段"代表: 字段名:宽度[=初始值表达式]
说明:记录名代表该记录类型;记录类型可以由多个字段组成,相邻两个字段之间用逗号隔开;记录类型中字段的属性包括字段名、宽度和初始值;记录类型中,字段的"宽度"属性表示该字段所占用的二进制位数,它必须是一个常数,并且所有字段的宽度之和不能大于16(即:<=16);如果记录类型中所有字段的宽度之和大于8,则系统会自动为该记录类型分配2字节的空间,否则只分配1个字节的空间;记录类型的最后一个字段排在所分配空间的最低位,然后对记录中的字段依次"从右向左"分配二进制位,左边没有分完的二进制位自动补0;初值表达式给出的是该字段的缺省值,如果初值超过了该字段所表示的范围,那么,在汇编时将产生错误提示信息,如果某字段没有初值表达式,则其初值为0;
例1:
COLOR RECORD BLINK:1,BACK:3=0,INTENSE:1=1,FORE:3
该COLOR类型的二进制位分布如下图所示:

该类型的各个字段宽度为:1、3、1、3,所以,该记录占用8个二进制位,系统为它分配1个字节;
例2:
FLOAT RECORD DSIGN:1,DATA:8,ESIGN:1,EXP:4
该FLOAT类型的二进制位分布如下图所示:

该类型的总宽度是14个二进制位,所以,系统为它分配2个字节的空间;
B.记录类型变量的定义:
[变量名] 记录类型名 <[字段值列表]>
说明:变量名就是该记录类型的变量名,它可缺省,则不能使用符号名来访问该内存单元;字段值列表是用于给各个字段赋初值,相邻两个字段值之间用逗号","隔开,其字段值的排列顺序及大小应该按照记录类型定义时说明的各个字段的顺序和大小来排列;如果记录类型变量的某个字段使用默认值,那么,可用逗号来表示,如果所有字段都是用默认值,则可省去字段值列表,但必须保留一对尖括号"<>";
例如:
COLOR1 COLOR <>, <1,7,0,5>, <1,,0,7>
FLOAT1 FLOAT <1,23H,0,3>, <0,89H,1,5>
C.记录类型字段的引用:
格式: 记录类型变量名.字段名
例如: MOV AL,COLOR1.FORE
D.记录类型的专用操作符:
操作符WIDTH和MASK是专用于记录类型的操作符,利用它们可用得到记录类型的不同属性;
WIDTH:用于返回记录或其字段的二进制位数,即:记录类型或记录类型字段的宽度;书写格式如下:
WIDTH 记录名     或     WIDTH 记录字段名
例如:记录类型COLOR,那么,WIDTH COLOR的值为8,WIDTH BACK的值为3,WIDTH BLINK的值为1;
MASK:它返回一个8位或16位的二进制数,在该二进制数中,被指定记录或字段使用的对应位的值为1,否则,其值为0;书写格式如下:
MASK 记录名     或     记录字段名
例如:记录类型FLOAT,那么,MASK EXP的值为000FH,MASK DATA的值为1FE0H,MASK DSIGN的值为2000H;
记录字段:记录字段名是一个特殊的操作符,它本身也是一个操作数,其返回值是该字段移到该字段所在记录的最低位所需要的位数,即:该字段最低位在记录中的位置;
例如:记录类型FLOAT,则有:
MOV CL,EXP     相当于    MOV CL,0
MOV CL,DATA    相当于    MOV CL,5
(4).类型重定义:
已知某一数据类型,程序员可以定义这个数据类型的别名或指针类型.表达这种定义的伪指令是TYPEDEF,其定义形式如下:
新数据类型名 TYPEDEF [位距][PTR] 已知数据类型
其中,"位距"是NEAR、FAR、PROC等;
例如:
CHAR  TYPEDEF BYTE     ;给BYTE类型定义另外一个别名CHAR,C++中就是: typedef BYTE CHAR
PCHAR TYPEDEF PTR CHAR ;定义一个字符指针数据类型PCHAR,C++中就是:typedef PTR CHAR PCHAR,即:typedef char* PCHAR
那么,下面的变量定义就是合法的了:
CH1  CHAR 'ABCDEF'  ;定义一个字符串常量
PCH1 PCHAR CH1      ;定义一个指向字符串常量CH1的变量
这个功能类似于C++语言中的typedef语句;
8.表达式中的操作符:
HIGH(高8位)、LOW(低8位)
SEG(段地址)、OFFSET(偏移量)、TYPE(数据类型)、LENGTH(变量长度)、SIZE(变量容量)
WIDTH(记录/记录字段的宽度)、MASK(记录/记录字段的屏蔽位),等等;
其中,HIGH和LOW分别用于选取表达式计算结果的高8位和低8位,使用格式如下:
HIGH 表达式      LOW 表达式
9.运算符和操作符的优先级:
优先级: 高 LENGTH、SIZE、WIDTH、MASK、()、[]、.(用于结构字段)、<>(用于记录类型)
        ↓ PTR、SEG、OFFSET、TYPE、THIS、:(用于段超越前缀)
           *、/、MOD、SHL、SHR
        ↓ HIGH、LOW
           +、-
        ↓ EQ、NE、LT、LE、GT、GE
           NOT
        ↓ AND
           OR、XOR
优先级: 低 SHORT
10.地址表达式:
地址表达式是计算存储器单元地址的表达式,它可由标号、变量名和由方括号"[]"括起来的基址或变址寄存器组成;其计算结果表示一个存储器单元的地址,而不是该存储器单元中的值;
注意:汇编语言中,对地址数值的运算都是以字节为单位的,而不是以数据类型的大小为单位的;例如:
W1 DW 1234H,5678H
则,地址表达式W1+1处的内存单元中的数据是7812H,而不是5678H;W1+1表示W1为起始地址,其下一个字节单元的地址,W1+2表示从地址W1出开始,其后2个字节单元地址;
11.符号定义语句:
在程序中,经常会用到一些常数或数值表达式,并把它们直接写在指令值,当时当需要修改的时候,就要对它们逐一进行修改,这无疑就增加了维护程序的工作量,而且每个常量或表达式所代表的含义也容易忘记;于是,汇编语言提供了为常量或表达式定义一个符号名的方法;一旦定义了符号名,在指令中就可以直接使用它们了;这个功能就类似于C语言中使用宏定义指令#define定义常量的功能相似,也与C++中使用const关键字定义常量的功能相似;
(1).等价语句EQU
一般格式:
符号名 EQU 表达式
作用:左边的符号名代表右边的表达式;
注意:等价语句不会给符号名分配存储空间,符号名不能与其它符号名重名,即:符号名必须唯一;符号名也不能被重新定义;程序中凡是出现"表达式"的地方,都使用"符号名"来替换;
(2).使用符号名代表常量或表达式
把一个常量或表达式定义成一个具有一定含义的符号名之后,在程序中就可以用该符号名来代表该常量或表达式;例如:
NUMBER EQU 100        ;给缓冲区的长度取一个符号名
BUFF_LEN EQU NUMBER+2
CR EQU 13             ;给"回车"符的ASCII码定义一个符号名
LN EQU 10             ;给"换行"符的ASCII码定义一个符号名
(3).用符号名代表字符串
例如:
GREETING EQU 'How are you!'
(4).用符号名代表关键字或指令码
例如:
MOVE EQU MOV   ;给指令码MOV取另外一个符号名MOVE
COUNTER EQU CX ;给寄存器CX取一个叫做"计数器"的符号名
12.等号语句
汇编语言提供了使用等号"="来定义符号常数的方法,即:可用符号名代表一个常数;一般格式如下:
符号名 = 表达式
数值表达式在汇编时应该可以计算出值,它不能含有向前引用的符号名称;用等号语句定义的符号名可以被重新定义;可把等号语句看成是高级语言中的一个赋值语句,可以被多次赋值,这一点是与EQU不同的地方;例如:
ABC = 10 + 200*5    ;ABC的值为1010
ABC1 = 5*ABC + 21   ;ABC1的值为5071
COUNT = 1           ;COUNT的值为1
COUNT = 2*COUNT + 1 ;COUNT的值为3
注意:伪指令"="和伪指令"EQU"定义符号名时,凡是在程序中出现符号名的地方,都是用右边的常量或表达式来替代;
13.标号定义语句
该语句定义一个指定的符号名,该符号名的段地址和偏移地址与下面紧跟存储单元的相应属性相同,但是,该符号名的类型是新指定的;
LABEL语句的一般格式如下:
符号名 LABEL 数据类型
常用的数据类型有:BYTE、WORD、DWORD、结构类型、记录类型、NEAR、FAR;
其中,前五中类型是变量的类型,后面两种类型是标号的类型;如果格式中的"数据类型"是前面五种类型之一的话,"符号名"就是变量名;如果格式中的"数据类型"是后面的两种类型之一的话,"符号名"就是标号名;变量名和标号名都具有段地址和偏移地址的属性;
例如:
WBUFFER LABEL WORD
BUFFER DB 200 DUP(0)
这个LABEL定义语句中,WBUFFER与BUFFER具有完全相同的段地址和偏移地址,但是它们的数据类型不同,目的就是为了使用两种不同类型的操作来访问同一块内存区;
注意:伪指令本身不占用内存空间;