|
В начало
Общая характеристика МП (Лекция) ПЛАН ЛЕКЦИИ –
Введение –
Мощность микропроцессора – Методы
оценки производительности – MIPS – MFLOPS Введение Микропроцессор (МП) базируется на логических схемах,
используемых для манипулирования данными и выполнением вычислений под
управлением программы. Иначе говоря, микропроцессор – это устройство обработки
данных. Обработка данных – одна из главных функций микропроцессора,
включающая как вычисления, так и манипулирование данными. Схемы, выполняющие
вычисления, образуют так называемое арифметико-логическое устройство (АЛУ), в
результате работы которого данные изменяют свои значения. К функциям,
выполняемым АЛУ, относятся сложение (Add), вычитание (Subtract), И (And), ИЛИ (Or), сравнение (Compare), положительное приращение (Increment) и отрицательное приращение (Decrement). Для выполнения этих операций АЛУ
необходимы данные. Так, для выполнения сложения двух чисел, эти числа должны
быть заблаговременно размещены в нужном месте. Но АЛУ не осуществляет
перемещение данных ни до, ни после выполнения операции. Оно лишь выполняет
операции над данными, обнаружив их в определенном месте. Но как АЛУ получает
данные, подлежащие обработке? В микропроцессоре, за пределами АЛУ, имеются другие схемы,
манипулирующие данными, и в частности, перемещающие их в места, доступные АЛУ.
После того, как АЛУ выполнило требуемые операции, эти схемы пересылают данные
другим адресатам. Возникает вопрос: кто информирует АЛУ о том, как обрабатывать
данные, какие из возможных операций должны быть выполнены? Управление системой – другая главная функция МП. Схемы
управления позволяют декодировать и выполнять программу, записывают команды в
память и извлекают их оттуда, контролируют процесс выполнения декодированной
команды. Поскольку команды хранятся в памяти, мы их можем менять по своему
усмотрению, изменяя при этом характер обработки данных. Команды, которые мы
записываем в память, определяют будущую работу МП. Подведем итог. МП выполняет две функции – обработку и
управление. Обработка включает перемещение данных и выполнение операций над
ними. Управление определяет, как обрабатывать данные. Работа МП состоит из
следующих шагов: сначала извлекается команда, затем логическая схема управления
ее декодирует, после этого осуществляется выполнение этой команды. Эти шаги
называют циклом «выборка-выполнение». Для каждой команды, хранимой в памяти,
выполняется один такой цикл. Помимо извлечения команд из памяти и их выполнения, схемы
управления выполняют ряд других важных функций, таких, как обмен информацией с
внешними устройствами, подсоединенными к процессору. Каким бы мощным не казался
процессор, он ничего не может сделать сам по себе. МП нужна помощь со стороны
других устройств. Необходимы схемы для хранения команд программы, а также для
ввода данных в МП и вывода из него (схемы ввода-вывода). Для хранения данных
требуется дополнительная память. МП нуждается в электропитании от внешнего
источника. Как следует из вышеизложенного, МП –
это интегральная схема, предназначенная для обработки данных и управления. Мощность
микропроцессора Под мощностью микропроцессора понимают его способность
обрабатывать данные. Ее принято оценивать тремя основными характеристиками:
длина слова данных, количество адресуемых слов памяти и скорость выполнения
команд. Наиболее часто микропроцессоры сравнивают по длине слов данных. Каждый
микропроцессор оперирует данными, представленными словами фиксированной длины,
ибо в этом случае существенно упрощается построение процессора. Типичными
являются слова длиной 4, 8, 12, 16, 32 бит (разрядов). 8-битовое слово
используется столь широко, что получило специальное название «байт». Благодаря
распространенности байта, например, 16-разрядные микропроцессоры имеют команды,
обрабатывающие 16-битовые слова данных как пары байтов. Байт предпочитают слову
данных потому, что размер последнего меняется в зависимости от типа процессора,
байт же всегда равен 8 бит. При одном и том же числе байтов 8-разрядный
процессор содержит в два раза меньше слов, чем 4-разрядный и в два раза больше,
чем 16-разрядный. Например, 4000 байт 8-разрядного микропроцессора равно его
4000 словам; это же количество байтов 4-разрядного микропроцессора равно его
8000 словам, а для 16-разрядного микропроцессора – 2000 словам. С каждым удвоением длины слова микропроцессора последний
становится более мощным. Увеличение длины слов вызвано совершенствованием
технологии БИС. Результатом этого явилось улучшение и других характеристик
микропроцессоров. Другой «мерой» мощности микропроцессора является количество
слов или байтов памяти, к которым он может адресоваться. И в этом случае длина
слова данных играет важную роль. Длина слова данных в памяти – это, по
существу, тот же параметр, что и длина слова данных, которыми оперирует
микропроцессор. Так, 16-разрядный микропроцессор оперирует 16-битовыми словами
данных, хранимыми в памяти. Каждому слову в памяти присваивается номер его местоположения
– так называемый адрес. Для извлечения слова из памяти ЭВМ обращается по
соответствующему адресу. Адреса памяти начинаются с нуля и представляются в двоичной
форме. ЭВМ разного типа имеют различные значения максимального адреса памяти.
Чем больше значение максимального адреса памяти, тем больше вычислительная
мощность микропроцессора. Третьей характеристикой микропроцессора, используемой для
измерения его мощности, является скорость, с которой он выполняет команды. Она
оценивается продолжительностью во времени цикла «выборка-выполнение» для одного
шага программы. Поскольку скорость микропроцессора связана с максимальной
частотой генератора тактовых импульсов, иногда микропроцессоры сравнивают по
значению этой частоты. Однако больший смысл имеет сравнение продолжительности
выполнения одной и той же операции на разных процессорах. Для упрощения
подобных сравнений создаются специальные короткие программы так называемого
контрольного прогона. Быстродействие различных микропроцессоров оценивается
путем сравнения времени выполнения подобной программы. Методы оценки производительности
Основу для сравнения различных типов компьютеров между собой дают
стандартные методики измерения производительности. В процессе развития
вычислительной техники появилось несколько таких стандартных методик. Они
позволяют разработчикам и пользователям осуществлять выбор между альтернативами
на основе количественных показателей, что дает возможность постоянного
прогресса в данной области. Единицей измерения производительности компьютера является время:
компьютер, выполняющий тот же объем работы за меньшее время является более
быстрым. Время выполнения любой программы измеряется в секундах. Часто
производительность измеряется как скорость появления некоторого числа событий в
секунду, так что меньшее время подразумевает большую производительность. Однако в зависимости от того, что мы считаем, время может быть определено
различными способами. Наиболее простой способ определения времени называется
астрономическим временем, временем ответа (response time), временем выполнения (execution
time) или прошедшим временем (elapsed time). Это задержка выполнения задания,
включающая буквально все: работу процессора, обращения к диску, обращения к
памяти, ввод/вывод и накладные расходы операционной системы. Однако при работе
в мультипрограммном режиме во время ожидания ввода/вывода для одной программы,
процессор может выполнять другую программу, и система не обязательно будет
минимизировать время выполнения данной конкретной программы. Для измерения времени работы процессора на данной программе используется
специальный параметр – время ЦП (CPU time), которое не включает время ожидания
ввода/вывода или время выполнения другой программы. Очевидно, что время ответа,
видимое пользователем, является полным временем выполнения программы, а не
временем ЦП. Время ЦП может далее делиться на время, потраченное ЦП
непосредственно на выполнение программы пользователя и называемое
пользовательским временем ЦП, и время ЦП, затраченное операционной системой на
выполнение заданий, затребованных программой, и называемое системным временем
ЦП. В ряде случаев системное время ЦП игнорируется из-за возможной неточности
измерений, выполняемых самой операционной системой, а также из-за проблем,
связанных со сравнением производительности машин с разными операционными
системами. С другой стороны, системный код на некоторых машинах является
пользовательским кодом на других и, кроме того, практически никакая программа
не может работать без некоторой операционной системы. Поэтому при измерениях
производительности процессора часто используется сумма пользовательского и
системного времени ЦП. В большинстве современных процессоров скорость протекания процессов
взаимодействия внутренних функциональных устройств определяется не
естественными задержками в этих устройствах, а задается единой системой
синхросигналов, вырабатываемых некоторым генератором тактовых импульсов, как
правило, работающим с постоянной скоростью. Дискретные временные события
называются тактами синхронизации (clock ticks), просто тактами (ticks),
периодами синхронизации (clock periods), циклами (cycles) или циклами
синхронизации (clock cycles). Разработчики компьютеров обычно говорят о периоде
синхронизации, который определяется либо своей длительностью (например, 10
наносекунд), либо частотой (например, 100 МГц). Длительность периода
синхронизации есть величина, обратная к частоте синхронизации. Таким образом, время ЦП для некоторой программы может быть выражено двумя
способами: количеством тактов синхронизации для данной программы, умноженным на
длительность такта синхронизации, либо количеством тактов синхронизации для
данной программы, деленным на частоту синхронизации. Важной характеристикой, часто публикуемой в отчетах по процессорам,
является среднее количество тактов синхронизации на одну команду - CPI (clock
cycles per instruction). При известном количестве выполняемых команд в
программе этот параметр позволяет быстро оценить время ЦП для данной программы.
Таким образом, производительность ЦП зависит от трех параметров: такта
(или частоты) синхронизации, среднего количества тактов на команду и количества
выполняемых команд. Невозможно изменить ни один из указанных параметров
изолированно от другого, поскольку базовые технологии, используемые для
изменения каждого из этих параметров, взаимосвязаны: частота синхронизации
определяется технологией аппаратных средств и функциональной организацией
процессора; среднее количество тактов на команду зависит от функциональной
организации и архитектуры системы команд; а количество выполняемых в программе
команд определяется архитектурой системы команд и технологией компиляторов.
Когда сравниваются две машины, необходимо рассматривать все три компоненты,
чтобы понять относительную производительность. В процессе поиска стандартной единицы измерения производительности компьютеров было принято несколько популярных единиц измерения, вследствие чего несколько безвредных терминов были искусственно вырваны из их хорошо определенного контекста и использованы там, для чего они никогда не предназначались. В действительности единственной подходящей и надежной единицей измерения производительности является время выполнения реальных программ, и все предлагаемые замены этого времени в качестве единицы измерения или замены реальных программ в качестве объектов измерения на синтетические программы только вводят в заблуждение. MIPS
Одной из альтернативных
единиц измерения производительности процессора (по отношению к времени
выполнения) является MIPS - (миллион команд в секунду). Имеется несколько различных
вариантов интерпретации определения MIPS. В общем случае MIPS есть
скорость операций в единицу времени, т.е. для любой данной программы MIPS есть
просто отношение количества команд в программе к времени ее выполнения. Таким
образом, производительность может быть определена как обратная к времени
выполнения величина, причем более быстрые машины при этом будут иметь более
высокий рейтинг MIPS. Положительными сторонами MIPS
является то, что эту характеристику легко понять, особенно покупателю, и что
более быстрая машина характеризуется большим числом MIPS, что соответствует
нашим интуитивным представлениям. Однако использование MIPS в качестве метрики
для сравнения наталкивается на три проблемы. Во-первых, MIPS зависит от набора
команд процессора, что затрудняет сравнение по MIPS компьютеров, имеющих разные
системы команд. Во-вторых, MIPS даже на одном и том же компьютере меняется от
программы к программе. В-третьих, MIPS может меняться по отношению к
производительности в противоположенную сторону. Классическим примером для
последнего случая является рейтинг MIPS для машины, в состав которой входит
сопроцессор плавающей точки. Поскольку в общем случае на каждую команду с
плавающей точкой требуется большее количество тактов синхронизации, чем на целочисленную
команду, то программы, используя сопроцессор плавающей точки вместо
соответствующих подпрограмм из состава программного обеспечения, выполняются за
меньшее время, но имеют меньший рейтинг MIPS. При отсутствии сопроцессора
операции над числами с плавающей точкой реализуются с помощью подпрограмм,
использующих более простые команды целочисленной арифметики и, как следствие,
такие машины имеют более высокий рейтинг MIPS, но выполняют настолько большее
количество команд, что общее время выполнения значительно увеличивается.
Подобные аномалии наблюдаются и при использовании оптимизирующих компиляторов,
когда в результате оптимизации сокращается количество выполняемых в программе
команд, рейтинг MIPS уменьшается, а производительность увеличивается. MFLOPS Измерение
производительности компьютеров при решении научно-технических задач, в которых
существенно используется арифметика с плавающей точкой, всегда вызывало особый
интерес. Именно для таких вычислений впервые встал вопрос об измерении
производительности, а по достигнутым показателям часто делались выводы об общем
уровне разработок компьютеров. Обычно для научно-технических задач
производительность процессора оценивается в MFLOPS (миллионах чисел-результатов
вычислений с плавающей точкой в секунду, или миллионах элементарных
арифметических операций над числами с плавающей точкой, выполненных в секунду).
Как единица
измерения, MFLOPS, предназначена для оценки производительности только операций
с плавающей точкой, и поэтому не применима вне этой ограниченной области.
Например, программы компиляторов имеют рейтинг MFLOPS близкий к нулю вне
зависимости от того, насколько быстра машина, поскольку компиляторы редко
используют арифметику с плавающей точкой. Ясно, что
рейтинг MFLOPS зависит от машины и от программы. Этот термин менее безобидный,
чем MIPS. Он базируется на количестве выполняемых операций, а не на количестве
выполняемых команд. По мнению многих программистов, одна и та же программа,
работающая на различных компьютерах, будет выполнять различное количество
команд, но одно и то же количество операций с плавающей точкой. Именно поэтому
рейтинг MFLOPS предназначался для справедливого сравнения различных машин между
собой. Однако и с
MFLOPS не все обстоит так безоблачно. Прежде всего, это связано с тем, что
наборы операций с плавающей точкой не совместимы на различных компьютерах.
Например, в суперкомпьютерах фирмы Cray Research отсутствует команда деления
(имеется, правда, операция вычисления обратной величины числа с плавающей
точкой, а операция деления может быть реализована с помощью умножения делимого
на обратную величину делителя). В то же время многие современные
микропроцессоры имеют команды деления, вычисления квадратного корня, синуса и
косинуса. Другая,
осознаваемая всеми, проблема заключается в том, что рейтинг MFLOPS меняется не
только на смеси целочисленных операций и операций с плавающей точкой, но и на
смеси быстрых и медленных операций с плавающей точкой. Например, программа со
100% операций сложения будет иметь более высокий рейтинг, чем программа со 100%
операций деления. Решение обеих
проблем заключается в том, чтобы взять "каноническое" или
"нормализованное" число операций с плавающей точкой из исходного
текста программы и затем поделить его на время выполнения. На рисунке 1 показано,
каким образом авторы тестового пакета "Ливерморские циклы", о котором
речь пойдет ниже, вычисляют для программы количество нормализованных операций с
плавающей точкой в соответствии с операциями, действительно находящимися в ее
исходном тексте. Таким образом, рейтинг реальных MFLOPS отличается от рейтинга
нормализованных MFLOPS, который часто приводится в литературе по
суперкомпьютерам. Таблица
1. Соотношение между реальными и нормализованными операциями с плавающей
точкой, которым пользуются авторы "ливерморских циклов" для
вычисления рейтинга MFLOPS
Наиболее
часто MFLOPS, как единица измерения производительности, используется при
проведении контрольных испытаний на тестовых пакетах "Ливерморские
циклы" и LINPACK. Ливерморские
циклы - это набор фрагментов фортран-программ, каждый из которых взят из
реальных программных систем, эксплуатируемых в Ливерморской национальной
лаборатории им.Лоуренса (США). Обычно при проведении испытаний используется
либо малый набор из 14 циклов, либо большой набор из 24 циклов. Пакет
Ливерморских циклов используется для оценки производительности вычислительных машин
с середины 60-х годов. Ливерморские циклы считаются типичными фрагментами
программ численных задач. Появление новых типов машин, в том числе векторных и
параллельных, не уменьшило важности Ливерморских циклов, однако изменились
значения производительности и величины разброса между разными циклами. На
параллельной машине производительность существенно зависит от соответствия
между структурой аппаратных связей вычислительных элементов и структурой
вычислений в алгоритме. Важно, чтобы тестовый пакет представлял алгоритмы
различных структур. В Ливерморских циклах встречаются последовательные,
сеточные, конвейерные, волновые вычислительные алгоритмы, что подтверждает их
пригодность и для параллельных машин. Однако обобщение результатов измерения
производительности, полученных для одной параллельной машины, на другие
параллельные машины или хотя бы некоторый подкласс параллельных машин, может
дать неверный результат, ибо структуры аппаратных связей в таких машинах
гораздо более разнообразны, чем, скажем, в векторных машинах. LINPACK – это
пакет фортран-программ для решения систем линейных алгебраических уравнений.
Целью создания LINPACK отнюдь не было измерение производительности. Алгоритмы
линейной алгебры весьма широко используются в самых разных задачах, и поэтому
измерение производительности на LINPACK представляют интерес для многих
пользователей. Сведения о производительности различных машин на пакете LINPACK
публикуются сотрудником Аргоннской национальной лаборатории (США) Дж. Донгаррой
и периодически обновляются. В основе
алгоритмов действующего варианта LINPACK лежит метод декомпозиции. Исходная
матрица размером 100х100 элементов (в последнем варианте размером 1000х1000)
сначала представляется в виде произведения двух матриц стандартной структуры,
над которыми затем выполняется собственно алгоритм нахождения решения.
Подпрограммы, входящие в LINPACK, структурированы. В стандартном варианте
LINPACK выделен внутренний уровень базовых подпрограмм, каждая из которых
выполняет элементарную операцию над векторами. Набор базовых подпрограмм
называется BLAS (Basic Linear Algebra Subprograms). Например, в BLAS входят две
простые подпрограммы SAXPY (умножение вектора на скаляр и сложение векторов) и
SDOT (скалярное произведение векторов). Все операции выполняются над числами с
плавающей точкой, представленными с двойной точностью. Результат измеряется в
MFLOPS. Использование
результатов работы тестового пакета LINPACK с двойной точностью как основы для
демонстрации рейтинга MFLOPS стало общепринятой практикой в компьютерной
промышленности. При этом следует помнить, что при использовании исходной
матрицы размером 100х100, она полностью может размещаться в кэш-памяти
емкостью, например, 1 Мбайт. Если при проведении испытаний используется матрица
размером 1000х1000, то емкости такого кэша уже недостаточно и некоторые
обращения к памяти будут ускоряться благодаря наличию такого кэша, другие же
будут приводить к промахам и потребуют большего времени на обработку обращений
к памяти. Для многопроцессорных систем также имеются параллельные версии
LINPACK и такие системы часто показывают линейное увеличение производительности
с ростом числа процессоров. Однако, как и
любая другая единица измерения, рейтинг MFLOPS для отдельной программы не может
быть обобщен на все случаи жизни, чтобы представлять единственную единицу
измерения производительности компьютера, хотя очень соблазнительно
характеризовать машину единственным рейтингом MIPS или MFLOPS без указания
программы. |
|||||||||