Copyright © CAD/CAM/CAE Observer # 3 (16)/2004

Светлое будущее новых технологий Intel

David Cohn (CAD CAM Net) Copyright 2004, Cyon Research Corporation

Последний понедельник июня 2004 года существенно изменил будущее компьютерных систем на базе архитектуры Intel. В этот день компания Hewlett-Packard объявила о выпуске новой линейки персональных рабочих станций, возвещающей о двух новых стандартах в аппаратном обеспечении: новой шине PCI Express и новой технологии Intel Extended Memory 64 (Intel EM64T).

В этот же день NVIDIA объявила о выходе новой линейки профессиональных графических акселераторов Quadro, использующих шину PCI Express. Компания ATI стартовала до свистка и объявила о своей новой серии видеокарт Visualization для PCI Express еще первого июня. Следом за ней в середине июня о своей новой карте Wildcat Realizm 800 объявила компания 3Dlabs.

Эти и другие новинки знаменуют собой начало конца для множества технологий, с которыми мы жили в течение достаточно долгого времени. Для графики появление PCI Express означает конец AGP, который на профессиональных рабочих станциях будет быстро вытеснен новым стандартом. Результаты появления новых процессоров и переход на 64-битные вычисления будут сказываться несколько более постепенно.

64 больше, чем 32

Как известно, сегодняшние 32-битные компьютеры могут управлять только 4 Gb адресуемой памяти. Для сравнения, процессор типа Intel Itanium, поддерживающий 64-битную виртуальную память, может обращаться к 16 Eb или 18.45×1018 байтам адресуемой памяти (в предыдущих статьях о процессорах экзабайты были ошибочно названы терабайтами, за что мы приносим извинения читателям. Это действительно пока еще достаточно экзотические единицы измерения, хотя еще в 1975 году Генеральная конференция мер и весов ввела префикс "экза" для обозначения квинтиллиона, т.е. 1018 или, в нашем бинарном случае, 260. Кстати сказать, большие буквы в сокращенном обозначении этих префиксов при употреблении с байтами как раз и должны напоминать, что речь идет о кратности "двоичной тысяче", т.е. 1024, хотя путаницы тут много. Каждый программист, как известно, уверен, что в километр входит ровно 1024 метра, даже если он и не обозначается как Km.Прим. ред.).

Новые процессоры с технологией EM64T поддерживают 48-битную виртуальную и 40-битную физическую память, поэтому они могут получать доступ к 256 Tb (терабайтам) виртуальной и 1 Tb физической памяти. Такое увеличение объема доступной памяти особенно положительно скажется на приложениях, которые:

Таким образом, для читателей CAD CAM Net 64-битная технология вычислений EM64T будет иметь крайне важное значение.

В прошлом году конкурент Intel – компания AMD – представила собственные 64-битные процессоры Athlon 64 и Opteron, в которых использовалось 64-битное расширение набора инструкций x86. В отличие от Intel Itanium, который является чисто 64-битным и требует чисто 64-битной операционной системы, процессоры AMD64 и новые кристаллы с EM64T от Intel просто расширяют набор инструкций x86. Они предоставляют возможность 64-битных вычислений при сохранении совместимости с 32-битными приложениями и операционными системами.

Вначале компания Intel отрицала необходимость следовать такому примеру, но затем разработала собственное 64-битное расширение. Технология EM64T доступна сейчас в новейших процессорах Xeon (кодовое название Nocona). Также Intel выпустила новый набор логики E7525 (кодовое название – Tumwater), поддерживающий как этот процессор, так и шину PCI Express. Кроме того (для поддержки PCI Express в новых системах на базе Pentium), выпускается чипсет 925X (кодовое название – Alderwood). В этом же году компания обещает сделать и новый процессор Pentium, поддерживающий технологию EM64T (кодовое название – Prescott).

Вот эти процессоры и технологии поддерживаются в новых рабочих станциях HP.


Новые графические рабочие станции HP xw4200 (на иллюстрации), а также xw6200 и xw8200 используют новые процессоры, поддерживающие EM64T, и графику на основе шины PCI Express

Новые рабочие станции Hewlett-Packard

Стремясь захватить лидерство в использовании новых технологий EM64T и PCI Express, компания HP выпустила три новые графические рабочие станции. Системы xw8200 и xw6200 опираются на новый чипсет Intel E7525 и один или два процессора Xeon с технологией EM64T. Рабочая станция xw6200 поддерживает до 8 Gb оперативной памяти, а xw8200 сможет вместить до 16 Gb памяти, как только станут доступны DIMM объемом 2 Gb. Модель HP xw4200 использует набор логики Intel 925X и один процессор Pentium 4. Эта система позволяет установить до 4 Gb оперативной памяти и сможет поддерживать технологию EM64T как только Intel выпустит процессор Prescott.

Все три рабочие станции имеют системную шину с частотой 800 MHz и интегрированный контроллер жесткого диска Serial ATA с поддержкой RAID. Каждая из станций включает в комплект один графический слот PCI Express и один (или более) слот расширения PCI Express, а также традиционные слоты PCI. В дальнейшем HP планирует предлагать ряд графических карт под PCI Express от NVIDIA и ATI, ну а в качестве ультраопции – новую карту 3Dlabs Wildcat Realizm 800.

Первоначально в комплектации будут процессоры с максимальной частотой 3.4 GHz. По мере снижения цен на процессоры HP перейдет на 3.8 GHz. Процессоры с частотой 4.0 GHz ожидаются к концу года.

Все три модели работают с операционными системами Windows XP Professional и Red Hat Enterprise Linux WS 3.0. Ориентировочная розничная цена этих рабочих станций в США примерно такая: xw6200 – 1 400 долл.; xw8200 – 1 800 долл.; xw4200 – 850 долларов.

В чем преимущества 64-битных систем

Хотя для приложений, требующих более 4Gb оперативной памяти, выигрыш от использования новых технологий может быть получен немедленно, реальный эффект будет ощутим только после выполнения ряда условий. Во-первых, разработчики программного обеспечения должны перекомпилировать свои приложения таким образом, чтобы они могли использовать преимущества новых процессоров. Во-вторых, пользователи должны использовать эти приложения с новой 64-битной операционной системой.

Intel выделяет три режима работы своих процессоров с поддержкой EM64T:

  1. Legacy Mode – наследство прошлого. Процессор, как и прежде, работает с 32-битной операционной системой и такими же 32-битными приложениями. Никакой выгоды от EM64T пользователи при этом не получат.
  2. Compatibility Mode – режим совмещения. Процессор работает с 64-битной ОС и 32-битными приложениями. Для аппаратного обеспечения потребуются 64-битные драйверы. При этом операционка будет видеть 64-битное расширение, а 32-битные приложения – нет. Перекомпилировать существующие приложения не нужно, ну а вот смогут ли они извлечь пользу из многобитности – это будет зависеть от конкретного случая. Приложения, вероятно, должны будут заново пройти сертификацию для работы с новой 64-битной ОС.
  3. 64-bit Mode – процессор работает с 64-битной ОС и столь же 64-битными приложениями. Для "железа" потребуются 64-битные драйверы. Приложения должны быть модифицированы для использования 64-битных операций, перекомпилированы и заново сертифицированы.

Что касается ОС, то Red Hat уже выпустила версию Red Hat Enterprise Linux с поддержкой технологий EM64T и AMD64. Релиз SuSE LINUX 9.1 Professional также включает полностью переработанную 64-битную версию для компьютеров с AMD64 и Intel EM64T. Пользователям Windows, составляющим большинство, придется подождать несколько дольше, прежде чем им станут доступны реальные преимущества 64-битности. Известно, что 64-битная версия Windows XP в настоящее время находится в стадии бета-тестирования. Microsoft обещает выпустить рабочую версию Windows XP 64-Bit Edition к концу года. Только тогда мы увидим, как разработчики CAD/CAM/CAE смогли использовать новый потенциал.

PCI Express супротив AGP

И по сей день практически всё в компьютере подключается через систему ввода/вывода, которая была создана еще в начале 90-х годов. Шина PCI (Peripheral Components Interconnect), с которой мы жили в течение более 10 лет, – это параллельная 32-битная шина, работающая с частотой 33 MHz и обеспечивающая пропускную способность 133 Mb/s. Новая последовательная шина PCI Express (в девичестве известная как 3 GIO, т.е. ввод/вывод третьего поколения) разработана для того, чтобы в конечном счете заменить старую и взять на себя задачу по связи компонентов внутри компьютера на ближайшее десятилетие.

Вследствие того, что PCI изначально была неприемлема для любого серьезного графического приложения, был разработан стандарт Accelerated Grаphics Port (AGP) – фактически это высокоскоростная PCI, оптимизированная для графических ускорителей. Первая версия AGP представляла собой 32-битную шину, работающую с частотой 66 MHz, которая имела пиковую пропускную способность 266 Mb/s. Затем последовали модернизации: AGP 2X с удвоенной тактовой частотой, обеспечивающая 533 Mb/s; APG 4X с тактовой частотой, увеличенной в четыре раза для достижения пропускной способности до 1 Gb/s; ну и, наконец, AGP 8X, у которой теоретическая пропускная способность выросла до 2.1 Gb/s (в направлении от памяти к видеоадаптеру).

Однако, как бы то ни было, эпоха многожильных шлейфов заканчивается. В отличие от развития архитектуры процессоров, переход от параллельных шин к последовательным является сейчас общеиндустриальной тенденцией. Фактически вся потребительская периферия уже перебралась на последовательное соединение, а USB стал общепринятым стандартом. Хотя с параллельными шинами передачи данных процессору работать проще и они обеспечивают лучшую производительность при меньшей частоте, масштабировать их на высокие частоты трудно – слишком сильно повышаются требования к физической разводке шины, заметно возрастает латентность (задержки, вызванные необходимостью согласовать по времени "одновременные" сигналы во всех проводах шины), да и места они физически занимают много. Сегодня дешевле сделать более сложный кристалл контроллера шины, заложив в него максимум функциональности ("горячее" подключение, протоколы маршрутизации и защиты от ошибок, последовательное кодирование и прочее, необходимое для выжимания из пары проводов требуемой топологической гибкости и приличной полосы пропускания), чем плодить многочисленные проводники на печатной плате, требующие разводки, пайки, экранирования и расхода цветмета. Поэтому последовательные шины становятся предпочтительными не только в свете удобства для конечного потребителя, но и с точки зрения выгоды производителя.

Можно считать, что общая идея архитектуры PCI Express позаимствована у компьютерных сетей, где давно применяется многоуровневая организация, протоколы, пакеты данных и пр. Так как эта шина относится к классу "point-to-point", то есть может соединять только два устройства (в то время как при использовании PCI на общую шину "вешаются" все PCI-слоты компьютера), то для организации подключения нескольких устройств приходится, как и в сети Ethernet, вставлять "хабы", распределяющие поступающий сигнал. В этом заключается одно из важных отличий от параллельных шин.

Уровни представления данных и уровень их передачи разделяются строго. В параллельной шине всё устроено относительно просто, и передаваемые данные (вместе с дополнительной информацией – CRC, адрес получателя и пр.) непосредственно появляются на шине. В случае с последовательной шиной заранее сказать что-либо о "физическом носителе" невозможно. В принципе, в этом качестве может выступать всё что угодно – например, Gigabit Ethernet. Собственно говоря, "последовательность" тут означает, что данные и служебная информация передаются последовательно, по одним и тем же каналам. Передаваемая информация упаковывается в пакеты (туда же заносятся сведения о получателе и коды обнаружения и исправления ошибок), и вот этот сплошной поток, где идут вперемешку данные, приложения и вспомогательная информация, уже передается физически – причем неважно каким способом. На приемной стороне данные распаковываются, ошибки исправляются (если это невозможно, запрашивается повтор), после чего определяется получатель – и пакет перенаправляется дальше.

Канальный уровень (Data Link Layer) гарантирует надежность передачи и целостность данных для каждого пакета информации. Помимо нумерации пакетов и контрольной суммы (CRC) тут применяется протокол управления потоком с разрешениями на передачу, поэтому данные передаются только тогда, когда готов буфер приема на принимающей стороне. Это позволяет снизить количество повторов и более эффективно использовать пропускную способность шины. Пакеты с ошибками, естественно, будут передаваться повторно.

Шина PCI Express фактически является совокупностью независимых последовательных линий (каналов) передачи данных. Физически каждая линия состоит из двух сигнальных пар (одна пара работает на прием данных, вторая – на передачу), то есть необходимо только 4 контакта для того, чтобы обеспечить двухстороннее последовательное соединение двух устройств.

В качестве рабочих напряжений сигнала для логического нуля выбран уровень 0.2...0.4 вольта, для единицы – от 0.4 до 0.8 V. Низкие напряжения снижают электромагнитные наводки и потребляемую мощность, а также упрощают проектирование устройств для шины на современных чипах.

Данные передаются с использованием избыточного кодирования 8/10 bit (каждый байт кодируется 10 битами), что позволяет исправлять многие простые ошибки, неизбежные на высоких частотах, без привлечения протоколов более высоких уровней и без лишних повторных передач пакетов. Начальная пропускная способность одного канала – 2.5 Gbit/s в обоих направлениях одновременно (полный дуплекс), однако по мере развития кремниевых технологий скорость передачи будет расти. Вполне достижима и даже обещается пропускная способность 10 Gbit/s в обоих направлениях (что приближается к теоретическому пределу передачи сигнала по медным соединениям, оцениваемому в 15...20 GHz). Стоит напомнить, что шина AGP допускает одновременную передачу данных только в одном направлении. Таким образом, для перехода на последовательную шину с сопоставимой производительностью понадобилось довести тактовую частоту до 2.5 GHz (увеличение в 75 раз), что еще недавно было всего лишь мечтой. Понятно, почему эпоха PCI Express началась только сейчас.

С учетом выбранной схемы кодирования (8/10 bit) теоретическая пропускная способность линии PCI Express получается 250 Mb/s. К сожалению, многоуровневая сетевая иерархия заметно сказывается на скорости работы, так что реальная цифра оказывается значительно ниже – чуть более 200 Mb/s в каждую сторону (до 230 Mb/s в пике, согласно данным Intel). Даже это на 50% больше, чем теоретическая пропускная способность шины PCI.


Схема функционирования шины PCI Express

Однако одним из наиболее впечатляющих свойств PCI Express является то, что масштабируемость производительности достигается не только повышением частоты, но и добавлением каналов, то есть объединением в одну шину нескольких независимых линий передачи данных. Стандартом предусмотрено использование 1, 2, 4, 8, 16 и 32 линий. Передаваемые данные распределяются между ними поровну: 1-й байт на первую линию, 2-й – на вторую, …, 32-й – на 32-ю, а 33-й – снова на первую и т.д. Это не является параллельной передачей данных или увеличением разрядности шины – все данные передаются по линиям абсолютно независимо и асинхронно. Причем это реализуется сугубо на нижнем, физическом уровне и никак не влияет на работу остальных уровней. Таким способом и достигается отличная масштабируемость, позволяющая организовать шину с максимальной пропускной способностью до 200×32=6.4 Gb/s в одну сторону, и вдвое большей – в обе.

Новый графический порт PCI Express фактически имеет 16 каналов и обозначается как 16X PCI Express. Он обеспечивает пропускание 4 Gb/s в обоих направлениях одновременно, то есть полностью – 8 Gb/s. Системы, включающие PCI Express, не могут поддерживать AGP, поэтому производители графических карт сейчас освобождают мощности для перехода на выпуск видеокарт для PCI Express.

В дополнение к большой пропускной способности порт 16X PCI Express способен обеспечить питание видеокарт мощностью до 75 W. Для сравнения: AGP 8X дает максимум 42 W. Самые современные графические карты потребляют намного больше, поэтому для них требуется подключать дополнительное питание. Впрочем, хотя 16X PCI Express и предлагает более высокую мощность, часть видеокарт для графических станций всё равно требует большего, чем может обеспечить новый порт. Так что потребность в дополнительном питании для этих плат, скорее всего, не отпадет.

В качестве расширения предусмотрены коннекторы 1X, 4X и 8X PCI Express, которые будут использоваться для подключения дополнительных устройств, требующих одного или нескольких каналов. Новые станции HP включают один или более таких слотов расширения PCI Express в дополнение к старым слотам PCI.

Новые графические карты


High-End-карта ATI Visualization FireGL V7100 имеет 256 Mb памяти и шесть геометрических процессоров

§ ATI, как уже было сказано, 1 июня представила четыре графические карты PCI Express, относящиеся к разработанной этой компанией новой линейке Visualization:

Карты V3100 и V3200 базируются на оптимизированных версиях существующей архитектуры ATI, и они уже доступны. Карты V5100 и V7100 основаны на новой архитектуре, специально ориентированной на PCI Express. Поставки V5100 начинаются в августе; за ней в четвертом квартале последует V7100. По словам одного из представителей ATI, в дальнейшем компания будет развивать только направление PCI Express в чистом виде, одновременно поддерживая выпуск AGP-карт до тех пор, пока на них будет существовать спрос. Поэтому AGP-карты для графических станций (FireGL T2-128, FireGL Z1-128, FireGL X1-128 и FireGL X2-256t) будут в продаже и впредь.


§ 3Dlabs еще 15 июня объявила о выходе новой линии графических акселераторов Realizm. Все карты базируются на графическом "визуальном процессоре" нового поколения Wildcat Realizm Visual Processing Unit (VPU).

Компания колебалась в своем выборе между AGP и PCI Express. В результате новые видеокарты Realizm 100 (1 249 долл.) и Realizm 200 (1 599 долл.) предназначены для шины AGP 8X. Каждая из них несет на борту новый VPU и 256 или 512 Мb памяти GDDR3 соответственно.


Новая карта 3Dlabs Realizm 800 стандарта PCI Express относится к классу Ultra High-End. Два VPU нового поколения неплохо сочетаются с новым вертексным модулем обработки Vertex/Scalability Unit (VSU) и 640 Mb графической памяти

Топ-модель компании, карта 3Dlabs Realizm 800, относится к классу ultra high-end и предназначена для шины PCI Express. Два процессора VPU сочетаются в ней с новым модулем обработки вертексов Vertex/Scalability Unit (VSU), который имеет два блока обработки вершинных шейдеров и обладает функцией распределения геометрических данных между двумя процессорами. По данным разработчика, это обеспечивает производительность вычислений с плавающей запятой на уровне более 700 GFLOPS. Что касается памяти, карта комплектуется максимум 512 Mb GDDR3 плюс 128 Mb памяти DirectBurst для ускорения работы с приложениями, интенсивно использующими расчеты геометрии объектов. Таким образом, общий объем графической памяти составляет 640 Mb с суммарной пропускной способностью 64 Gb/s. Это модель, пожалуй, самое мощное из предлагаемых решений в области профессиональной графики. На момент написания статьи было известно, что в продаже видеокарты Realizm 800 появятся в третьем квартале 2004 г., а рекомендованная производителем цена составляет примерно 2800 долл.

Для компьютерных систем начального и среднего уровня 3Dlabs продолжит выпуск видеокарт Wildcat VP560 и VP880 Pro.


§ NVIDIA объявила 28 июня о выпуске четырех новых графических акселераторов для шины PCI Express, которые добавились к её семейству Quadro FX:

Судя по всему, существующая архитектура устройств не перерабатывалась, а был лишь добавлен интерфейс с PCI Express. Обеспечена полная совместимость новых карт с унифицированной архитектурой драйверов NVIDIA UDA для оптимизации производительности приложений, повышения стабильности и надежности. В дальнейшем компания не планирует разрабатывать видеокарты для AGP, но продолжит продавать и поддерживать существующие карты Quadro еще как минимум полтора года. Относительно линейки Quadro NVS 280 известно, что она будет выпускаться в вариантах под шины PCI Express, PCI и AGP.


NVIDIA добавила к семейству Quadro FX четыре новых графических акселератора для шины PCI Express

Новые видеокарты NVIDIA Quadro поддерживают Scalable Link Interface (SLI), благодаря чему пользователь может суммировать производительность двух видеокарт Quadro, которые установлены на материнской плате с двумя слотами 16X PCI Express

Помимо большой пропускной способности, обеспечиваемой PCI Express, новые видеокарты Quadro предлагают также новый интерфейс для масштабирования видеомощи – NVIDIA Scalable Link Interface (SLI). По сути, это небольшой соединитель плюс программное обеспечение, благодаря которым пользователь имеет возможность объединить производительность двух видеокарт Quadro, которые устанавливаются на материнской плате с двумя слотами 16X PCI Express. Ожидается, что системы, использующие технологию NVIDIA SLI multi-GPU, появятся в ближайшие месяцы. Выпуск этих систем уже анонсировали такие компании, как Alienware, Boxx, Falcon и VoodooPC.

Имеет ли всё это отношение к вам?

Сводные результаты тестов SPEC

Смогут ли новые видеокарты на самом деле повысить производительность? К настоящему времени мы смогли протестировать только одну видеокарту, NVIDIA FX 1300, которая была установлена в рабочей станции HP xw4200, имеющей процессор Pentium 4 с частотой 3.4 GHz и 2 Gb RAM.

Были проведены три теста: SPECviewperf, SPECapc for SolidWorks и SPECapc for Pro/ENGINEER. Кроме того, мы смогли получить результаты некоторых тестов от ATI и 3Dlabs. Все данные объединены и показаны на диаграмме. Желающие сравнить эти показатели с полученными ранее при тестирования других систем могут посетить сайт SPEC (www.spec.org). При сопоставлении показателей следует принимать во внимание, что результаты тестирования предоставлены различными производителями графических карт, и тестируемые платформы наверняка не были идентичными.

Имеющие неплохую производительность AGP-карты, безусловно, еще какое-то время будут повсеместно распространены, однако принципиально их судьба в секторе профессиональных рабочих станций практически уже решена. Все будущие графические акселераторы профессионального уровня будут ориентированы на шину PCI Express.

Аналогично почти все новые персональные компьютеры, предназначенные для рынка инженерных и аналитических задач, а также для создания цифрового контента, будут базироваться на процессорах Intel с технологией EM64T. Однако следует отдавать себе отчет в том, что пройдут еще многие месяцы, прежде чем Windows и приложения на его базе смогут извлечь сколько-нибудь существенную выгоду от потенциально обретенной мощи. Но, как бы то ни было, технологии изменились, – и будущее за ними.

Copyright © CAD/CAM/CAE Observer # 3 (16)/2004