Составитель: В.Н.Пильщиков (МГУ, ВМК) (январь 1992 г.)
В пособии рассматривается язык макроассеблера для персональных ЭВМ типа IBM PC
(язык MASM, версия 4.0).
Пособие состоит из 4 глав. В главе 1 рассмотрены особенности персональных
компьютеров типа IBM PC и приведены начальные сведения о языке MASM. В главе 2
описывается система команд этих компьютеров. Глава 3 посвящена посвящена
собственно языку MASM. В главе 4 приведены примеры фрагментов программ и полных
программ на MASM для решения различных задач.
В пособии не рассматриваются вопросы, связанные с обработкой двоично-десятичных
чисел и работой арифметического сопроцессора 8087 или 80287.
Под термином "ПК" в пособии понимается персональный компьютер типа IBM PC c
микропроцессором 8088/8086, 80186 или 80286.
ГЛАВА 1. ОСОБЕННОСТИ ПК. ВВЕДЕНИЕ В MASM.
1.1. ОПЕРАТИВНАЯ ПАМЯТЬ. РЕГИСТРЫ.
1.1.1 Оперативная память
Объем оперативной памяти ПК - 2^20 байтов (1 Мб). Байты нумеруются начиная с 0,
номер байта называется его адресом. Для ссылок на байты памяти используются
20-разрядные адреса: от 00000 до FFFFF (в 16-ричной системе).
Байт содержит 8 разрядов (битов), каждый из которых может принимать значение 1
или 0. Разряды нумеруются справа налево от 0 до 7:
-----------------
-----------------
7 6 5 4 3 2 1 0
Байт - это наименьшая адресуемая ячейка памяти. В ПК используются и более
крупные ячейки - слова и двойные слова. Слово - это два соседних байта, размер
слова - 16 битов (они нумеруются справа налево от 0 до 15). Адресом слова
считается адрес его первого байта (с меньшим адресом); этот адрес может быть
четным и нечетным. Двойное слово - это любые четыре соседних байта (два соседних
слова), размер такой ячейки - 32 бита; адресом двойного слова считается адрес
его первого байта.
Байты используются для хранения небольших целых чисел и символов, слова - для
хранения целых чисел и адресов, двойные слова - для хранения "длинных" целых
чисел и т.н. адресных пар (сегмент:смещение).
1.1.2 Регистры
Помимо ячеек оперативной памяти для хранения данных (правда, кратковременного)
можно использовать и регистры - ячейки, входящие в состав процессора и доступные
из машинной программы. Доступ к регистрам осуществляется значительно быстрее,
чем к ячейкам памяти, поэтому использование регистров заметно уменьшает время
выполнения программ.
Все регистры имеют размер слова (16 битов), за каждым из них закреплено
определенное имя (AX, SP и т.п.). По назначению и способу использования регистры
можно разбить на следующие группы:
регистры общего назначения (AX, BX, CX, DX, BP, SI, DI, SP);
сегментные регистры (CS, DS, SS, ES);
счетчик команд (IP);
регистр флагов (Flags).
(Расшифровка этих названий: A - accumulator, аккумулятор; B - base, база; C -
counter, счетчик; D - data, данные; BP - base pointer, указатель базы; SI -
source index, индекс источника; DI - destination index, индекс приемника; SP -
stack pointer, указатель стека; CS -
code segment, сегмент команд; DS - data segment, сегмент данных; SS stack
segment, сегмент стека; ES - extra segment, дополнительный сегмент; IP -
instruction pointer, счетчик команд.)
Регистры общего назначения можно использовать во всех арифметических и
логических командах. В то же время каждый их них имеет определенную
специализацию (некоторые команды "работают" только с определенными регистрами).
Например, команды умножения и деления требуют, чтобы один из операндов находился
в регистре AX или в регистрах AX и DX (в зависимости от размера операнда), а
команды управления циклом используют регистр CX в качестве счетчика цикла.
Регистры BX и BP очень часто используются как базовые регистры, а SI и DI - как
индексные. Регистр SP обычно указывает на вершину стека, аппаратно
поддерживаемого в ПК.
Регистры AX, BX, CX и DX конструктивно устроены так, что возможен независимый
доступ к их старшей и младшей половинам; можно сказать, что каждый из этих
регистров состоит из двух байтовых регистров, обозначаемых AH, AL, BH и т.д. (H
- high, старший; L - low, младший):
----------- ----------- ----------- -----------
AX AH AL BX BH BL CX CH CL DX DH DL
----------- ----------- ----------- -----------
15 8 7 0
Таким образом, с каждым из этих регистров можно работать как с единым целым, а
можно работать и с его "половинками". Например, можно записать слово в AX, а
затем считать только часть слова из регистра AH или заменить только часть в
регистре AL и т.д. Такое устройство регистров позволяет использовать их для
работы и с числами, и с символами.
Все остальные регистры не делятся на "половинки", поэтому считать или записать
их содержимое (16 битов) можно только целиком.
Сегментные регистры CS, DS, SS и ES не могут быть операндами никаких команд,
кроме команд пересылки и стековых команд. Эти регистры используются только для
сегментирования адресов (см. 1.4).
Счетчик команд IP всегда содержит адрес (смещение от начала программы) той
команды, которая должна быть выполнена следующей (начало программы хранится в
регистре CS). Содержимое регистра IP можно изменить только командами перехода.
1.1.3 Флаги
И, наконец, в ПК имеется особый регистр флагов. Флаг - это бит, принимающий
значение 1 ("флаг установлен"), если выполнено некоторое условие, и значение 0
("флаг сброшен") в противном случае. В ПК ис-
пользуется 9 флагов, каждому из них присвоено определенное имя (ZF, CF и т.д.).
Все они собраны в регистре флагов (каждый флаг - это один из разрядов регистра,
часть его разрядов не используется):
-------------------------------------------------
Flags x x x xOFDFIFTFSFZF xAF xPF xCF
-------------------------------------------------
15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
Некоторые флаги принято называть флагами условий; они автоматически меняются при
выполнении команд и фиксируют те или иные свойства их результата (например,
равен ли он нулю). Другие флаги называются флагами состояний; они меняются из
программы и оказывают влияние на дальнейшее поведение процессора (например,
блокируют прерывания).
Флаги условий:
CF (carry flag) - флаг переноса. Принимает значение 1, если при сложении целых
чисел появилась единица переноса, не "влезающая" в разрядную сетку, или если при
вычитании чисел без знака первое из них было меньше второго. В командах сдвига в
CF заносится бит, вышедший за разрядную сетку. CF фиксирует также особенности
команды умножения.
OF (overflow flag) - флаг переполнения. Устанавливается в 1, если при сложении
или вычитании целых чисел со знаком получился результат, по модулю превосходящий
допустимую величину (произошло переполнение мантиссы и она "залезла" в знаковый
разряд).
ZF (zero flag) - флаг нуля. Устанавливается в 1, если результат команды оказался
равным 0.
SF (sign flag) - флаг знака. Устанавливается в 1, если в операции над знаковыми
числами получился отрицательный результат.
PF (parity flag) - флаг четности. Равен 1, если результат очередной команды
содержит четное количество двоичных единиц. Учитывается обычно только при
операциях ввода-вывода.
AF (auxiliary carry flag) - флаг дополнительного переноса. Фиксирует особенности
выполнения операций над двоично-десятичными числами.
Флаги состояний:
DF (direction flag) - флаг направления. Устанавливает направление просмотра
строк в строковых командах: при DF=0 строки просматриваются "вперед" (от начала
к концу), при DF=1 - в обратном направлении.
IF (interrupt flag) - флаг прерываний. При IF=0 процессор перестает реагировать
на поступающие к нему прерывания, при IF=1 блокировка прерываний снимается.
TF (trap flag) - флаг трассировки. При TF=1 после выполнения каждой команды
процессор делает прерывание (с номером 1), чем можно воспользоваться при отладке
программы для ее трассировки.
1.2. ПРЕДСТАВЛЕНИЕ ДАННЫХ. АРИФМЕТИЧЕСКИЕ ОПЕРАЦИИ
Здесь рассматривается машинное представление целых чисел, строк и адресов.
Представление двоично-десятичных чисел, используемых достаточно редко, не
рассматривается. Что касается вещественных чисел, то в ПК нет команд
вещественной арифметики (операции над этими числами реализуются программным
путем или выполняются сопроцессором) и потому нет стандартного представления
вещественных чисел. Кроме того, рассматриваются некоторые особенности выполнения
арифметических операций.
Шестнадцатиричные числа записываются с буквой h на конце, двоичные
числа - с буквой b (так принято в MASM).
1.2.1 Представление целых чисел.
В общем случае под целое число можно отвести любое число байтов, однако система
команд ПК поддерживает только числа размером в байт и слово и частично
поддерживает числа размером в двойное слово. Именно эти форматы и будут
рассмотрены.
В ПК делается различие между целыми числами без знака (неотрицательными) и со
знаком. Это объясняется тем, что в ячейках одного и того же размера можно
представить больший диапазон беззнаковых чисел, чем неотрицательных знаковых
чисел, и если известно заранее, что некоторая числовая величина является
неотрицательной, то выгоднее рассматривать ее как беззнаковую, чем как знаковую.
Целые числа без знака.
Эти числа могут быть представлены в виде байта, слова или двойного слова - в
зависимости от их размера. В виде байта представляются целые от 0 до 255
(=2^8-1), в виде слова - целые от 0 до 65535 (=2^16-1), в виде двойного слова -
целые от 0 до 4 294 967 295 (=2^32-1). Числа записываются в двоичной системе
счисления, занимая все разряды ячейки. Например, число 130 записывается в виде
байта 10000010b (82h).
Числа размером в слово хранятся в памяти в "перевернутом" виде: младщие (правые)
8 битов числа размещаются в первом байте слова, а старшие 8 битов - во втором
байте (в 16-ричной системе: две правые цифры - в первом байте, две левые цифры -
во втором байте). Например, число 130 (=0082h) в виде слова хранится в памяти
так:
-----------
82 00
-----------
(Отметим, однако, что в регистрах числа хранятся в нормальном виде:
-----------
AX 00 82
-----------
AH AL )
"Перевернутое" представление используется и при хранении в памяти целых чисел
размером в двойное слово: в первом его байте размещаются младшие 8 битов числа,
во втором байте - предыдущие 8 битов и т.д. Например, число 12345678h хранится в
памяти так:
---------------------
78 56 34 12
---------------------
Другими словами, в первом слове двойного слова размещаются младшие (правые) 16
битов числа, а во втором слове - старшие 16 битов, причем в каждом из этих двух
слов в свою очередь используется "перевернутое" представление.
Такое необычное представление чисел объясняется тем, что в первых моделях ПК за
раз можно было считать из памяти только один байт и что все арифметические
операции над многозначными числами начинаются с действий над младшими цифрами,
поэтому из памяти в первую очередь надо считывать младшие цифры, если сразу
нельзя считать все цифры. Учитывая это, в первых ПК и стали размещать младшие
цифры числа перед старшими цифрамми, а ради преемственности такое представление
чисел сохранили в последующих моделях ПК.
Конечно, "перевернутое" представление неудобно для людей, однако при
использовании языка ассемблера это неудобство не чувствуется: в MASM все числа
записываются в нормальном, неперевернутом виде (см. ниже).
Целые числа со знаком.
Эти числа также представляются в виде байта, слова и двойного слова. В виде
байта записываются числа от -128 до 127, в виде слова числа от -32768 до 32767,
а в виде двойного слова - числа от -2147483648 до 2147483647. При этом числа
записываются в дополнительном коде: неотрицательное число записывается так же,
как и беззнаковое число (т.е. в прямом коде), а отрицательное число -x (x>0)
представляется беззнаковым числом 2^8-x (для байтов), 2^16-x (для слов) или
2^32-x (для двойных слов). Например, дополнительным кодом числа -6 является байт
FAh (=256-6), слово FFFAh или двойное слово FFFFFFFAh. При этом байт 10000000b
(=80h) трактуется как -128, а не как +128 (слово 8000h понимается как -32678),
поэтому левый бит дополнительного кода всегда играет роль знакового: для
неотрицательных чисел он равен 0, для отрицательных - 1.
Знаковые числа размером в слово и двойное слово записываются в памяти в
"перевернутом" виде (при этом знаковый бит оказывается в последнем байте
ячейки). Но в MASM эти числа, как и беззнаковые, записываются в нормальной
форме.
Иногда число-байт необходимо расширить до слова, т.е. нужно получить такое же по
величине число, но размером в слово. Существует два способа такого расширения -
без знака и со знаком. В любом случае исходное число-байт попадает во второй (до
"переворачивания") байт слова, а вот первый байт заполняется по-разному: при
расширении без знака в него записываются нулевые биты (12h -> 0012h), а при
расширении со знаком в первый байт записываются нули, если число-байт было
неотрицательным, и записывается восемь двоичных единиц в противном случае (81h
-> FF81h). Другими словами, при расширении со знаком в первом байте слова
копируется знаковый разряд числа-байта.
Аналогично происходит расширение числа-слова до двойного слова.
1.2.2 Особенности выполнения арифметических опреаций
В ПК имеются команды сложения и вычитания целых чисел размером в слово и байт.
Специальных команд для сложения и вычитания двойных слов нет, эти операции
реализуются через команды сложения и вычитания слов.
Сложение и вычитание беззнаковаых чисел производится по модулю 2^8
для байтов и 2^16 для слов. Это означает, что если в результате сложения
появилась единица переноса, не вмещающаяся в разрядную сетку, то она
отбрасывается. Например, при сложении байтов 128 и 130 получается число 258 =
100000010b, поэтому левая двоичная единица отбрасывается и остается число 2 =
10b, которое и объявляется результатом сложения. Ошибка здесь не фиксируется, но
в флаг переноса CF записывается 1 (если переноса не было, в CF заносится 0).
"Поймать" такое искажение суммы можно только последующим анализом флага CF.
Искажение результата происходит и при вычитание из меньшего числа большего. И
здесь не фиксируется ошибка, однако первому числу дается "заем единицы" (в
случае байтов это число увеличивается на 256, для
слов - на 2^16), после чего и производится вычитание. Например, вычитание байтов
2 и 3 сводится к вычитанию чисел 256+2=258 и 3, в результате чего получается
неправильная разность 255 (а не -1). Для того чтобы можно было обнаружить такую
ситуацию, в флаг переноса CF заносится 1 (если заема не было, в CF записывается
0).
Сложение и вычитание знаковых целых чисел производится по тем же алгоритмам, что
и для беззнаковых чисел (в этом одно из достоинств дополнительного кода):
знаковые числа рассматриваются как соответствующие беззнаковые числа,
произодится операция над этими беззнаковыми числами и полученный результат
интерпретируется как знаковое число. Например, сложение байтовых чисел 1 и -2
происходит так: берутся их дополнительные коды 1 и (256-2)=254, вычисляется
сумма этих величин 1+254=255 и она трактуется как знаковое число -1 (255=256-1).
Если при таком сложении возникла единица переноса, то она, как обычно,
отбрасывается, а флаг CF получает значение 1. Однако в данном случае это
отсечение не представляет интерес - результат операции будет правильным,
например: 3+(-2) => 3+254(mod 256) = 257(mod 256) = 1. Зато здесь возможна иная
неприятность: модуль суммы (ее мантисса) может превзойти допустимую границу и
"залезть" в знаковый разряд, испортив его. Например, при сложении байтовых чисел
127 и 2 получается величина 129 = = 100001001b, представляющая дополнительный
код числа -127 (=256-129).
Хотя результат здесь получился и неправильным, процессор не фиксирует ошибку, но
зато заносит 1 в флаг переполнения OF (если "переполнения мантиссы" не было, в
OF записывается 0). Анализируя затем этот флаг, можно "поймать" такую ошибку.
Таким образом, сложение (вычитание) знаковых и беззнаковых чисел производится по
одному и тому же алгоритму. При этом ПК не "знает", какие числа (со знаком или
без) он складывает; в любом случае он складывает их как беззнаковые числа и в
любом случае формирует флаги CF и OF. А вот как интерпретировать слагаемые и
сумму, на какой из этих флагов обращать внимание - это личное дело автора
программы.
Что касается умножения и деления знаковых и беззнаковых чисел, то они
выполняются по разным алгоритмам, разными машинными командами. Однако и у этих
операций есть ряд особенностей. При умножении байтов (слов) первый сомножитель
обязан находиться в регистре AL (AX), результатом же умножения является слово
(двойное слово), которое заносится в регистр AX (регистры DX и AX). Тем самым
при умножении сохраняются все цифры произведения. При делении байтов (слов)
первый операнд (делимое) должен быть словом (двойным словом) и обязан находиться
в регистре AX (регистрах DX и AX). Результатом деления являются две величины
размером в байт (слово) - неполное частное (div) и остаток от деления (mod);
неполное частное записывается в регистр AL (AX), а остаток - в регистр AH (DX).
1.2.3 Представление символов и строк
На символ отводится один байт памяти, в который записывается код символа - целое
от 0 до 255. В ПК используется система кодировки ASCII (American Standard Code
for Information Interchange). Она, естественно, не содержит кодов русских букв,
поэтому в нашей стране применяется некоторый вариант этой системы с русскими
буквами (обычно это альтернативная кодировка ГОСТа).
Некоторые особенности этих систем кодировки:
- код пробела меньше кода любой буквы, цифры и вообще любого графически
представимого символа;
- коды цифр упорядочены по величине цифр и не содержат пропусков,т.е. из
неравенства код('0') MOV AX,0FF80h (A:=-128)
MOV AX,128 ; => MOV AX,0080h (A:=+128) MOV AX,80h ; => MOV AX,0080h (A:=+128)
1.4. СЕГМЕНТИРОВНИЕ
1.4.1 Сегменты памяти. Сегментные регистры.
Первые модели ПК имели оперативную память объемом 2^16 байтов (64Кб) и потому
использовали 16-битовые адреса. В последующих моделях память была увеличена до
2^20 байтов (1Мб=1000Кб), для чего уже необходимы 20-битовые адреса. Однако в
этих ПК ради сохранения преемственности были сохранены 16-битовые адреса: именно
такие адреса хранятся в регистрах и указываются в командах, именно такие адреса
получаются в результате модмфикации по базовым и индексным регистрам. Как же
удается 16-битовыми адресами ссылаться на 1Мб памяти?
Эта проблема решается с помощью сегментирования адресов (неявного базирования
адресов). В ПК вводится понятие "сегмент памяти". Так называется любой участок
памяти размером до 64Кб и с начальным адресом, кратным 16. Абсолютный
(20-битовый) адрес A любой ячейки памяти можно
представить как сумму 20-битового начального адреса (базы) B сегмента, которому
принадлежит ячейка, и 16-битового смещения D - адреса этой ячейки, отсчитанного
от начала сегмента: A=B+D. (Неоднозначность выбора сегмента не играет
существенной роли, главное - чтобы сумма B и D давала нужный адрес.) Адрес B
заносится в некоторый регистр S, а в команде, где должен быть указан адрес A,
вместо него записывается пара из регистра S и смещения D (в MASM такая пара,
называемая адресной парой или указателем, записывается как S:D). Процессор же
устроен так, что при выполнении команды он прежде всего по паре S:D вычисляет
абсолютный адрес A как сумму содержимого регистра S и смещения D и только затем
обращается к памяти по этому адресу A. Вот так, заменяя в командах абсолютные
адреса на адресные пары, и удается адресовать всю память 16-битовыми адресами
(смещениями).
В качестве регистра S разрешается использовать не любой регистр, а только один
из 4 регистров, называемых сегментными: CS, DS, SS и ES. В связи с этим
одновременно можно работать с 4 сегментами памяти: начало одного из них
загружается в регистр CS и все ссылки на ячейки этого сегмента указываются в
виде пар CS:D, начало другого заносится в DS и все ссылки на его ячейки задаются
в виде пар DS:D и т.д. Если одновременно надо работать с большим числом
сегментов, тогда нужно своевременно спасать содержимое сегментных регистров и
записывать в них начальные адреса пятого, шестого и т.д. сегментов.
Отметим, что используемые сегменты могут быть расположены в памяти произвольным
образом: они могут не пересекаться, а могут пересекаться и даже совпадать. Какие
сегменты памяти использовать, в каких сегментных регистрах хранить их начальные
адреса - все это личное дело автора машинной программы.
Как и все регистры ПК, сегментные регистры имеют размер слова. Поэтому возникает
вопрос: как удается разместить в них 20-битовые начальные адреса сегментов
памяти? Ответ такой. Поскольку все эти адреса кратны 16 (см. выше), то в них
младшие 4 бита (последняя 16-ричная цифра) всегда нулевые, а потому эти биты
можно не хранить явно, а лишь подразумевать. Именно так и делается: в сегментном
регистре всегда хранятся только первые 16 битов (первые четыре 16-ричные цифры)
начального адреса сегмента (эта величина называется номером сегмента или просто
сегментом). При вычислении же абсолютного адреса A по паре S:D процессор сначала
приписывает справа к содержимому регистра S четыре нулевых бита (другими
словами, умножает на 16) и лишь затем прибавляет смещение D, причем суммирование
ведется по модулю 2^20:
Aабс = 16*[S]+D (mod 2^20)
Если, например, в регистре CS хранится величина 1234h, тогда адресная пара
1234h:507h определяет абсолютный адрес, равный 16*1234h+507h = 12340h+507h =
12847h.
1.4.2 Сегментные регистры по умолчанию
Согласно описанной схеме сегментирования адресов, замену абсолютных адресов на
адресные пары надо производить во всех командах, имеющих операнд-адрес. Однако
разработчики ПК придумали способ, позволяющий избежать выписывания таких пар в
большинстве команд. Суть его в том, что заранее договариваются о том, какой
сегментный регистр на ка-
кой сегмент памяти будет указывать, и что в командах задается только смещение:
не указанный явно сегментный регистр автоматически восстанавливается согласно
этой договоренности. И только при необходимости нарушить эту договоренность надо
полностью указывать адресную пару.
Что это за договоренность?
Считается, что регистр CS всегда указывает на начало области памяти, в которой
размещены команды программы (эта область называется сегментом команд или
сегментом кодов), и потому при ссылках на ячейки этой области регистр CS можно
не указывать явно, он подразумевается по умолчанию. (Отметим попутно, что
абсолютный адрес очередной команды, подлежащей выполнению, всегда задается парой
CS:IP: в счетчике команд IP всегда находится смещение этой команды относительно
адреса из регистра CS.) Аналогично предполагается, что регистр DS указывает на
сегмент данных (область памяти с константами, переменными и другими величинами
программы), и потому во всех ссылках на этот сегмент регистр DS можно явно не
указывать, т.к. он подразумевается по умолчанию. Регистр SS, считается,
указывает на стек - область памяти, доступ к которой осуществляется по принципу
"последним записан - первым считан" (см. 1.7), и потому все ссылки на стек, в
которых явно не указан сегментный регистр, по умолчанию сегментируются по
регистру SS. Регистр ES считается свободным, он не привязан ни к какому сегменту
памяти и его можно использовать по своему усмотрению; чаще всего он применяется
для доступа к данным, которые не поместились или сознательно не были размещены в
сегменте данных.
С учетом такого распределения ролей сегментных регистров машинные программы
обычно строятся так: все команды программы размещаются в одном сегменте памяти,
начало которого заносится в регистр CS, а все данные размещаютсяв другом
сегменте, начало которого заносится в регистр DS; если нужен стек, то под него
отводится третий сегмент памяти, начало которого записывается в регистр SS.
После этого практически во всех командах можно указывать не полные адресные
пары, а лишь смещения, т.к. сегментные регистры в этих парах будут
восстанавливаться автоматически.
Здесь, правда, возникает такой вопрос: как по смещению определить, на какой
сегмент памяти оно указывает? Точный ответ приведен ниже (см. 1.4.3), а в общих
чертах он такой: ссылки на сегмент команд могут быть только в командах перехода,
а ссылки практически во всех других командах (кроме строковых и стековых) - это
ссылки на сегмент данных. Например, в команде пересылки
MOV AX,X
имя X воспринимается как ссылка на данное, а потому автоматически
восстанавливается до адресной пары DS:X. В команде же безусловного перехода по
адресу, находящемуся в регистре BX,
JMP BX
абсолютный адрес перехода определяется парой CS:[BX].
Итак, если в ссылке на какую-то ячейку памяти не указан явно сегментный регистр,
то этот регистр берется по умолчанию. Явно же сегментные регистры надо
указывать, только если по каким-то причинам регистр по умолчанию не подходит.
Если, например, в команде пересылки нам надо сослаться на стек (скажем, надо
записать в регистр AH байт стека, помеченный именем X), тогда нас уже не будет
устраивать договоренность о том, что по умолчанию операнд команды MOV
сегментируется по регистру DS, и потому мы обязаны явно указать иной регистр - в
нашем случае регистр SS, т.к. именно он указывает на стек:
MOV AH,SS:X
Однако такие случаи встречаются редко и потому в командах, как правило,
указываются только смещения.
Отметим, что в MASM сегментный регистр записывается в самой команде
непосредственно перед смещением (именем переменной, меткой и т.п.), однако на
уровне машинного языка ситуация несколько иная. Имеется 4 специальные
однобайтовые команды, называемые префиксами замены сегмента (обозначаемые как
CS:, DS:, SS: и ES:). Они ставятся перед командой, операнд-адрес которой должен
быть просегментирован по регистру, отличному от регистра, подразумеваемому по
умолчанию. Например, приведенная выше символическая команда пересылки - это на
самом деле две машинные команды:
SS:
MOV AH,X
1.4.3 Сегментирование, базирование и индексирование адресов Поскольку
сегментирование адресов - это разновидность модификации
адресов, то в ПК адрес, указываемый в команде, в общем случае модифицируется по
трех регистрам - сегментному, базовому и индексному. В целом, модификация адреса
производится в два этапа. Сначала учитываются только базовый и индексный
регистры (если они, конечно, указаны в команде), причем вычисление здесь
происходит в области 16-битовых адресов; полученный в результате 16-битовый
адрес называется исполнительным (эффективным) адресом. Если в команде не
предусмотрено обращение к памяти (например, она загружает адрес в регистр), то
на этом модификация адреса заканчивается и используется именно исполнительный
адрес (он загружается в регистр). Если же нужен доступ к памяти, тогда на втором
этапе исполнительный адрес рассматривается как смещение и к нему прибавляется
(умноженное на 16) содержимое сегментного регистра, указанного явно или взятого
по умолчанию, в результате чего получается абсолютный (физический) 20-битовый
адрес, по которому реально и происходит обращение к памяти.
Отметим, что сегментный регистр учитывается только в "последний" момент,
непосредственно перед обращением к памяти, а до этого работа ведется только с
16-битовыми адресами. Если учесть к тому же, что сегментные регистры, как
правило, не указываются в командах, то можно в общем-то считать, что ПК работает
с 16-битовыми адресами.
Как уже сказано, если в ссылке на ячейку памяти не указан сегментный регистр, то
он определяется по умолчанию. Это делается по следующим правилам.
1) В командах перехода адрес перехода сегментируется по регистру CS и только по
нему, т.к. абсолютный адрес команды, которая должна быть выполнена следующей,
всегда определяется парой CS:IP (попытка изменить в таких командах сегментный
регистр будет безуспешной).
Отметим, что сегментиорвание по регистру CS касается именно адреса
перехода, а не адреса той ячейки, где он может находиться. Например, в команде
безусловного перехода по адресу, находящемуся в ячейке X:
JMP X
имя X сегментируется по регистру DS, а вот адрес перехода, взятый из ячейки X,
уже сегментируется по регистру CS.
2) Адреса во всех других командах, кроме строковых (STOS, MOVS, SCAS и CMPS), по
умолчанию сегментируются:
- по регистру DS, если среди указанных регистров-модификаторов нет регистра BP;
- по регистру SS, если один из модификаторов - регистр BP.
Таким образом, адреса вида A, A[BX], A[SI], A[DI], A[BX][SI] и A[BX][DI]
сегментируются по регистру DS, а адреса A[BP], A[BP][SI] и A[BP][DI] - по
регистру SS, т.е. адреса трех последних видов используются для доступа к ячейкам
стека.
3) В строковых командах STOS, MOVS, SCAS и CMPS, имеющих два операнда-адреса, на
которые указывают индексные регистры SI и DI, один из операндов (на который
указывает SI) сегментируется по региструDS, а другой (на него указывает DI) - по
регистру ES.
1.4.4 Программные сегменты. Директива ASSUME
Рассмотрим, как сегментирование проявляется в программах на MASM.
Для того чтобы указать, что некоторая группа предложений программы на MASM
образуют единый сегмент памяти, они оформляются как программный сегмент: перед
ними ставится директива SEGMENT, после них - директива ENDS, причем в начале
обеих этих директив должно быть указано одно и то же имя, играющее роль имени
сегмента. Программа же в целом представляет собой последовательность таких
программных сегментов, в конце которой указывается директива конца программы
END, например:
DT1 SEGMENT ;программный сегмент с именем DT1 A DB 0
B DW ? DT1 ENDS
;
DT2 SEGMENT ;программный сегмент DT2
C DB 'hello'
DT2 ENDS
;
CODE SEGMENT ;программный сегмент CODE
ASSUME CS:CODE, DS:DT1, ES:DT2
BEG: MOV AX,DT2
MOV DS,AX
MOV BH,C
...
CODE ENDS
END BEG ;конец текста программы
Предложения программного сегмента ассемблер размещает в одном сегменте памяти (в
совокупности они не должны занимать более 64Кб) начиная с ближайшего свободного
адреса, кратного 16. Номер (первые 16 битов начального адреса) этого сегмента
становится значением имени сегмента. В MASM это имя относится к константным
выражениям, а не адресным, в связи с чем в команде
MOV AX,DT2
второй операнд является непосредственным, поэтому в регистр AX будет записано
начало (номер) сегмента DT2, а не содержимое начальной ячейки этого сегмента.
Имена же переменных (A, B, C) и метки (BEG) относятся к адресным выражениям, и
им ставится в соответствие адрес их ячейки относительно "своего" сегмента: имени
A соответствует адрес 0, имени B - адрес 1, имени C - адрес 0, а метке BEG -
адрес 0.
Все ссылки на предложения одного программного сегмента ассемблер сегментирует по
умолчанию по одному и тому же сегментному регистру. По какому именно -
устанавливается специальной директивой ASSUME. В нашем примере эта директива
определяет, что все ссылки на сегмент CODE должны, если явно не указан
сегментный регистр, сегментироваться по регистру CS, все ссылки на DT1 - по
регистру DS, а все ссылки на DT2 - по регистру ES.
Встретив в тексте программы ссылку на какое-либо имя (например, на имя C в
команде MOV AX,C), ассемблер определяет, в каком программном сегменте оно
описано (у нас - в DT2), затем по информации из директивы ASSUME узнает, какой
сегментный регистр поставлен в соответствие этому сегменту (у нас - это ES), и
далее образует адресную пару иэ данного регистра и смещения имени (у нас -
ES:0), которую и записывает в формируемую машинную команду. При этом ассемблер
учитывает используемое в ПК соглашение о сегментных регистрах по умолчанию: если
в адресной паре, построенной им самим или явно заданной в программе, сегментный
регистр совпадает с регистром по умолчанию, то в машинную команду заносится лишь
смещение. Если, скажем, в нашем примере встретится команда MOV CX,B, тогда по
имени В ассемблер построит пару DS:1, но раз операнд-адрес команды MOV по
умолчанию сегментируется по регистру DS, то записывать этот регистр в машинную
команду излишне и ассемблер записывает в нее только смещение 1.
Таким образом, директива ASSUME избавляет программистов от необходимости
выписывать полные адресные пары не только тогда, когда используются сегментные
регистры по умолчанию (как в случае с именем B), но тогда, когда в машинной
команде нужно было бы явно указать сегментный регистр (как в случае с именем C).
В MASM сегментный регистр в ссылке на имя требуется указывать лишь тогда, когда
имя должно по каким-либо причинам сегментироваться по регистру, отличному от
того, что поставлен в соответствие всему сегменту, в котором это имя описано.
Однако все это справедливо только при соблюдении следующих условий. Во-первых,
директива ASSUME должна быть указана перед первой командой программы. В
противном случае ассемблер, просматривающий текст программы сверху вниз, не
будет знать, как сегментировать имена из команд, расположенных до этой
директивы, и потому зафиксирует ошибку. Во-вторых, в директиве ASSUME следует
каждому сегменту ставить в соответствие сегментный регистр: если ассемблеру
встретится ссылка на имя из сегмента, которому не соответствует никакой
сегментный регистр, то он зафиксирует ошибку. Правда, в обоих случаях можно
избежать ошибки, но для этого в ссылках необходимо явно указывать сегментный
регистр.
1.4.5 Начальная загрузка сегментных регистров
Директива ASSUME сообщает ассмеблеру о том, по каким регистрам он должен
сегментировать имена из каких сегментов, и "обещает", что в этих регистрах будут
находиться начальные адреса этих сегментов. Однако загрузку этих адресов в
регистры сама директива не осуществляет. Сделать такую загрузку - обязанность
самой программы, с загрузки сегментных регистров и должно начинаться выполнение
программы. Делается это так.
Поскольку в ПК нет команды пересылки непосредственного операнда в сегментный
регистр (а имя, т.е. начало, сегмента - это непосредственный операнд), то такую
загрузку приходится делать через какой-то другой, несегментный, регистр
(например, AX):
MOV AX,DT1 ;AX:=начало сегмента DT1
MOV DS,AX ;DS:=AX
Аналогично загружается и регистр ES.
Загружать регистр CS в начале программы не надо: он, как и счетчик команд IP,
загружается операционной системой перед тем, как начинается выполнение программы
(иначе нельзя было бы начать ее выполнение). Что же касается регистра SS,
используемого для работы со стеком, то он может быть загружен так же, как и
регистры DS и ES, однако в MASM предусмотрена возможность загрузки этого
регистра еще до выполнения программы (см. 1.7).
1.4.6 Ссылки вперед
Встречая в символьной команде ссылку назад - имя, которое описано в тексте
программы до этой команды, ассемблер уже имеет необходимую информацию об имени и
потому может правильно оттранслировать эту команду. Но если в команде встретится
ссылка вперед, т.е. имя, которое не было описано до команды и которое, наверное,
будет описано позже, то ассемблер в большинстве случаев не сможет правильно
оттранслировать эту команду. Например, не зная, в каком программном сегменте
будет описано это имя, ассемблер не может определить, по какому сегментному
регистру надо сегментировать имя, и потому не может определить, надо или нет
размещать перед соответствующей машинной командой префикс замены сегмента и,
если надо, то какой именно.
В подобной ситуации ассемблер действует следующим образом: если в команде
встретилась ссылка вперед, то он делает некоторое предполож