Процессор, крупнейший в мире

источник: https://habr.com/ru/news/t/464271/

КРУПНЕЙШИЙ В МИРЕ ПРОЦЕССОР РАЗМЕРОМ 22x22 САНТИМЕТРА С 400 000 ЯДРАМИ И 18 ГБ ЛОКАЛЬНОЙ RAM
19 августа 2019 года

Компания Cerebras Systems выпустила самую большую микросхему в истории компьютерной техники. С площадью 46 225 кмм и 1,2 трлн транзисторов она примерно в 56,7 раз больше, чем самый большой GPU (21,1 млрд транзисторов, 815 кмм).

Самые большие компьютерные чипы обычно помещаются в ладони. Некоторые могут уместиться на кончике пальца. Известно, что увеличение физических размеров вызывает массу проблем. Однако стартап из Кремниевой долины бросает вызов этой идее. Сегодня на конференции Hot Chips в Пало-Альто компания Cerebras Systems и ее производственный партнер TSMC представили " крупнейшую микросхему в истории компьютерной техники" размером примерно с обеденную тарелку, пишет NY Times.

Процессор предназначен для дата-центров по обработке вычислений в области машинного обучения и искусственного интеллекта (AI).

Инженеры Cerebras Systems считают, что микросхему под названием WSE можно использовать для облачных вычислений в разных приложениях машинного обучения: от беспилотных автомобилей до цифровых ассистентов с распознаванием речи, таких как Alexa от Amazon.

Разработкой чипов для AI занимаются многие компании, в том числе традиционные представители индустрии, такие как Intel, Qualcomm, а также различные стартапы в США, Великобритании и Китае. Некоторые эксперты считают, что эти чипы будут играть ключевую роль в гонке за создание искусственного интеллекта, потенциально влияя на баланс сил между технологическими компаниями и даже странами. Теоретически, они могут дать преимущество в работе коммерческих продуктов и государственных технологий, включая системы наблюдения и автономное оружие.

Google уже разработала собственный AI-ускоритель, используя его в широком спектре проектов AI, включая Google Assistant, который распознает голосовые команды на телефонах Android, и Google Translate для перевода текстов: " В этой области наблюдается чудовищный рост, -- говорит основатель и исполнительный директор Cerebras Эндрю Фельдман (Andrew Feldman), ветеран полупроводниковой индустрии, который продал свой предыдущий стартап AMD.

Новые системы AI полагаются на нейронные сети и требует специфических вычислителей. Сегодня большинство компаний обрабатывает данные на GPU. Хотя графические процессоры изначально предназначены для других задач, но хорошо подходят для обсчета математики нейросетей.

Около шести лет назад, когда технологические гиганты Google, Facebook и Microsoft сосредоточились на технологиях AI, они начали покупать огромное количество GPU у Nvidia. За год компания продала графических процессоров на $143 млн, удвоив продажи по сравнению с предыдущим годом.

Но компаниям требовалось еще больше вычислительной мощности, поэтому Google разработала чип специально для нейронных сетей -- тензорный процессор, или TPU. Несколько других производителей последовали ее примеру.

Системы AI работают в многопоточном режиме, а узким местом становится перемещение данных между чипами: " Соединение этих чипов на самом деле замедляет их -- и требует много энергии, -- объясняет Субраманьян Айер (Subramanian Iyer), профессор Калифорнийского университета в Лос-Анджелесе, который специализируется на разработке чипов для искусственного интеллекта.

Производители оборудования изучают множество различных вариантов. Некоторые пытаются расширить межпроцессорные соединения. Трехлетний стартап Cerebras, который получил более $200 млн венчурного финансирования, предлагает новый подход. Идея в том, чтобы сохранить все данные на гигантском чипе -- и тем самым ускорить вычисления.

Работать с одним большим чипом очень сложно. Обычно микросхемы создаются на круглых кремниевых пластинах диаметром около 12 дюймов (30,5 см). Каждая из них обычно содержит около 100 чипов.

(Пример кремниевой пластины. Фото: ARM)

Многие из этих микросхем после снятия с пластины выбрасываются и никогда не используются. Травление цепей в кремнии -- такой сложный процесс, что производители не могут полностью устранить дефекты. Некоторые цепи просто не работают. Это одна из причин, почему производители предпочитают сохранять маленький размер микросхем -- так остается меньше места для ошибок. А вот Cerebras Systems уверяет, что создала одну микросхему размером с целую пластину. Технологический партнер TSMC производит эти чипы по техпроцессу 16 нм.

Некоторые стартапы раньше пробовали такой подход, но безуспешно. Пожалуй, самым известным является стартап под названием Trilogy, который основал в 1980 году известный инженер из компании IBM Джин Амдал (Gene Amdahl). Несмотря на более $230 млн финансирования, Trilogy в конечном итоге сочла задачу слишком трудной и спустя пять лет свернула деятельность.

Почти через 35 лет Cerebras собирается исправить ошибки предшественника. Стартап планирует начать поставки микросхем WSE небольшому числу клиентов уже в сентябре 2019 года. Основатель компании говорит, что WSE способен обучать системы AI в 1001000 раз быстрее, чем существующее оборудование.

(Фото: Cerebras Systems)

18 гигабайт быстрой локальной SRAM -- единственный уровень иерархии оперативной памяти. Скорость обмена данных с памятью -- 9 петабайт в секунду, пишет VentureBeat.

Гигантская микросхема разделена на более мелкие секции (ядра), с учетом того, что некоторые из них не будут работать. Общее количество ядер -- 400 000. Чип разработан с возможностью маршрутизации вокруг дефектных областей. Программируемые ядра SLAC (Sparse Linear Algebra Cores) оптимизированы для линейной алгебры, то есть для вычислений в векторном пространстве. Компания также разработала технологию " утилизации разреженности" (sparsity harvesting) для повышения производительности вычислений при разреженных рабочих нагрузках (содержащих нули), таких как глубокое обучение. Векторы и матрицы в векторном пространстве обычно содержат множество нулевых элементов (от 50% до 98%), поэтому на традиционных GPU большая часть вычислений уходит впустую. В отличие от них, ядра SLAC предварительно отфильтровывают нулевые данные.

Коммуникации между ядрами обеспечивает система Swarm с пропускной способностью 100 петабит в секунду. Маршрутизация аппаратная, задержки измеряются в наносекундах.

NY Times отмечает, что заявления Cerebras Systems не подтверждены независимыми экспертами. Достоверно не известно, какова производительность микросхемы и сколько ядер работоспособны в реальных образцах.

Цена микросхемы будет зависеть и от процента брака. Разработка и производство таких изделий является " намного более трудоемким процессом" , признает Брэд Полсен (Brad Paulsen), старший вице-президент TSMC. Чип такого размера также потребляет большое количество энергии: значит, и охлаждать его будет сложно и дорого. Другими словами, создание чипа -- только часть задачи.

Cerebras планирует продавать чип в составе гораздо более крупной машины, которая включает сложное оборудование для жидкостного охлаждения. Это не совсем то, с чем привыкли работать крупные технологические компании и государственные учреждения: "Дело не в том, что люди не могли создать такой чип, -- говорит Ракеш Кумар (Rakesh Kumar), профессор университета Иллинойса, который также изучает большие чипы для AI. -- Проблема в том, что никто не мог сделать это коммерчески осуществимым" .

Таким образом, основной вопрос -- сколько будет стоить эта система с жидкостным охлаждением и микросхемой Cerebras внутри.

Комментарии

berez, вчера в 19:46

Это ж сколько контактов надо в сокет будет завести, чтобы такую махину подключить и запитать? Тысяч двести? И прижимать к сокету паровым прессом&

kryvichh, вчера в 20:02

Я так понял, железка заточена на обсчет нейронок. Т.е. закачали данные, обсчитали веса, выгрузили результат.

LSDtrip, сегодня в 12:03

Она заточена на обсчет разреженных матриц. Они везде. Математическое моделирование, дифференциальные уравнения, газо- и гидродинамика, физика твердых тел, нейронки (статистический анализ), и т.д. Везде, где нужно не только котиков по инстаграму погонять короче. Оптика на 100 гигабит скорее всего будет припаяна прямо к чипу, а там уже данные хоть со всего мира гнать.

Disasm, вчера в 23:10

Для питания два контакта, но больших, под винт М10. Ими же и прижимать.

NetBUG, сегодня в 10:20

Хрусь! -- сказала пластина. Она при нагреве расширяется, и при толщине обычных подложек в миллиметр-два хрупкий кремний прикрутить болтом -- верный шанс поломать ее крайне быстро.

ANIDEANI, сегодня в 02:05

Если бы интелы и амд, тратились на разработку а не на яхты и поседушки для топ менеджмента коих доходы в миллиарды$ то давно были бы рулонные процессоры где подключаешь к рулону питание и USB и считаешь -- выгружаешь данные. Длинна может быть неограниченна.

image mk2, сегодня в 10:50

Вашим благим намерениям мешает процент брака. Чем больше микросхема -- тем больше шанс, что на ней есть дефект. И к тому же как вы такой рулон охлаждать собираетесь?

paleblueillud, вчера в 20:15

А как этот процессор в плане игор?)

perfect_genius, вчера в 21:10

Крайзис должен потянуть.

monah_tuk, сегодня в 04:11

Через пару минут после запуска будет выводить сообщение игроку: "Фу, лузер! Смотри как надо!" После чего продолжает играть в игру сам, блокируя сообщения от мыши и клавиатуры.

ehots, сегодня в 10:22

На средний скорее всего и только 1080p. А вообще, зачем он нужен, если есть FX.

x67, сегодня в 00:45

~800 000 "сложных" полей в сапер в секунду

scg, вчера в 20:32

Некоторые стартапы раньше пробовали такой подход, но безуспешно. Пожалуй, самым известным является стартап под названием Trilogy, который основал в 1980 году известный инженер из компании IBM Джин Амдал (Gene Amdahl). Ну не знаю. Для меня самым известным является проект " Массштабируемых Пластин" Клайва Синклера: Неизвестный Синклер.

vladkorotnev, сегодня в 03:22

Спасибо за ссылку, залип на пару часов

20ivs, сегодня в 07:46

Тоже благодарю за ссылку! Интересное чтиво.

v-oz, сегодня в 10:11

какое счастье, что этот проект не взлетел. чипы все плотнее и элементов все больше. дублирование имеет смысл только в критических местах. а дополнительную логику встраивают лишь для исправления ошибок проектирования. и то с большими оговорками о длинных путях до этих элементов. спасибо, открыли для меня откуда есть пошел спектрум. его я как-то пропустил в своей деревне.

lebedinskiy, вчера в 20:35

Я уж подумал что Эльбрус психанул :-)

wormball, вчера в 21:03

%шутка про советские микросхемы%

hhba, вчера в 21:16

Не увидел в тексте статьи, за счет чего конкретно они сделали этот waferscale коммерчески оправданным. Сама по себе идея не нова, занимались этим тоже ради быстрого интерконнекта, и были рабочие образцы, но как-то не взлетело.

sim2q, сегодня в 04:49

за счет чего конкретно они сделали этот waferscale коммерчески оправданным Отдельные cpu получаются относительно мелкие. Возможно за счет умного роутинга битых как пишут. Но вообще -- слишком фантастично. Интересно, что сказал бы amartology

amartology, сегодня в 08:55

Я бы сказал, что более-менее понятно, как сделать коммерчески оправданным производство waferscale кристалла. Это очень сложно, но принцип ясен. Хотя " очень сложно" у всех остальных, включая Intel, AMD и Apple в итоге вылилось в 3D-интеграцию и чиплеты, которые дают почти то же результат, но радикально дешевле и при необходимости с меньшей площадью корпуса. Но в целом можно выразить респект TSMC за отличный демонстратор высокого выхода годных.

Сложный вопрос -- это корпус, и на него у этих людей нет ответа. Как и во что упаковать такую пластину, не наловив при этом отказов при сборке, не сломав ее, не получив проблем с тем, что она, например, погнется. Как обеспечить теплоотвод (оно же наверняка жрет не один килоВатт) и т.д. и т.п. Отдельно представьте себе: вы разработчик печатной платы. В центре надо поставить эту штуку 30*30. И подвести к ней 5000 А тока. Ваши действия? )

И еще представьте себе: вы венчурный инвестор из Долины, с финансовым образованием. Вы давно работаете с хайтеком, неплохо для финансиста в нем разбираетесь. Но не более того. И тут приходит Джонни и говорит " есть очень крутая идея" . Вы спрашиваете каких-то своих аналитиков, они говорят " идея выглядит чрезмерно смелой и, кажется, не взлетит" . Но на пятом слайде презентации Джонни была надпись " я продал свой предыдущий стартап в AMD за X" . И этот X будет реально жечь вам мозг, потому что AMD-то понимают получше вас, и Джонни вот молодец же, а не обычный балабол, которые к вам ходят. А вдруг Джонни прав, а ваши аналитики -- нет? Тогда вы заработаете на Джонни 100*Х. Рискнете ли вы в такой ситуации десятком-другим миллионов? Особенно с учетом того, что в ваш бизнес-план и так заложен процент фейла 80-90%? Я бы рискнул.

Вот так эти люди собрали деньги, а дальше начали разбираться, а что там с корпусами. И вот именно эта часть про отсутствие готовых ответов на вопросы, что дальше делать с чипом, заставляет меня думать, что эта история -- типичное порождение венчурной модели Кремниевой долины. Если протянут достаточно долго -- успеют разработать что-то полезное, что потом используют в менее монструозных проектах другие.

Lerk, сегодня в 10:20

Ты так говоришь, как будто не существует вариантов сделать большой корпус. Тут сходу можно кучу решений предложить, как это можно сделать. А охлаждение плоских чипов никогда не было проблемой, собственно 3D для сильно горячих чипов ничем не лучше. Не говоря уже о том, что раз решение специализированное, можно реализовать кастомный отвод тепла с обратной стороны печатной платы, равно как и питание подводить оттуда же толстыми медными проводами, а стабилизировать его уже на пластине.

Весь вопрос в том, насколько это экономически эффективно. Хотя, опять же, если эта штука эффективна настолько, насколько рассказывают авторы, крупные фирмы типа гугла или теслы могут забить на высокую цену ради получения преимущества в обучении нейросетей, чтобы захватить какую-то часть рынка.

Вообще, на картинке прекрасно видно матрицу 7*12, где один элемент примерно в 1.5раза меньше " топового гпу" . Так что считаем условно 150Вт на один элемент, что дает 13кВт энергии на 46к кв. мм. Это всего то 0.3Вт на кв. мм. площади, что рассеять вообще говоря не так уж и сложно.

Дополнительно получается примерно 5к ядер на один большой матричный элемент, который внутри наверняка имеет свою память независимо от остальных матричных элементов. Дальше все это чудо стыкуется по кастомной NoC и готово. В общем выглядит прикольно, но насколько это эффективнее кластера отдельно стоящих ускорителей -- вопрос открытый.

amartology, сегодня в 11:16

Ты так говоришь, как будто не существует вариантов сделать большой корпус. Я не говорю, что их не существует в принципе. Я сомневаюсь, что есть экономически эффективные варианты. И эти сомнения усиливает то, что эти ребята много говорят про кристалл и много молчат про все остальное. Например, у меня есть подозрения, что и такого монстра будут серьезные проблемы с тем, что пластину будет коробить от неравномерного нагрева, причем каждую пластину по-своему. И на таких размерах оно может иметь весьма заметный эффект. То есть усложнятся контакты от чипа к корпусу, чтобы их не отрывало. И так дале и тому подобное.

13кВт энергии на 46к кв. мм. 13 кВт, питание ядра 1 В, ток 13 кА, сечение провода питания 2100 кв. мм. Это полностью реалистично, но плата выглядеть должна очень красиво.

В общем выглядит прикольно, но насколько это эффективнее кластера отдельно стоящих ускорителей -- вопрос открытый. Именно так. Я бы даже сказал, что итоговая реализация наверняка будет более производительна, чем кластер (особенно если посчитать на единицу объема сервера), но вопрос состоит в том, насколько оно будет дороже и не получится ли выгоднее поставить два кластера, чем одного такого монстра. Впрочем, суперкомпьютеры давно уже больше зависят от интерконнекта, а не от вычислительных мощностей, и вот там-то такие решения могут быть оправданными.

hhba, сегодня в 11:33

Хотя " очень сложно" у всех остальных, включая Intel, AMD и Apple в итоге вылилось в 3D-интеграцию и чиплеты, которые дают почти то же результат, но радикально дешевле и при необходимости с меньшей площадью корпуса. Вот именно, борьба за уменьшение расстояний и упрощение сборки перешла немного в другую плоскость. Но в целом можно выразить респект TSMC за отличный демонстратор высокого выхода годных Да, и не более. Еще интересно было бы понять, за сколько итераций они его добились.

Параметры у процесса уж больно хорошие. Например на XS018 нам обещают делать относительно низкоскоростные waferscale-фотосенсоры на пластинах 8 дюймов с КВГ 0,9 (со встроенной " цифрой" , поэтому КВГ вообще имеет место). А тут 16 нм (не Бог весть что, но все же), и размер побольше, и сплошная цифра&

заставляет меня думать, что эта история -- типичное порождение венчурной модели Кремниевой долины Предыдущие проекты хотя и были 30 лет назад, но кажется, что результат будет тот же.

p1024x, вчера в 23:10

Как вариант) прогонять под высоким давлением. Будем посмотреть& В любом случае круто, пусть и реальные продукты будут другими, но такие вещи впечатляют всеравно.

KbRadar, сегодня в 02:25

https://youtu.be/UTrOKCHyiTc

NetBUG, сегодня в 10:22

Проблема не в отведении 30 кВт от радиатора, а в передаче этой мощности с кремниевой пластины на радиатор без повреждения системы ни в холодном, ни в горячем состоянии, ни во время переходных процессов.

AntonSor, вчера в 22:42

Я скорее ожидал увидеть огромную гибридную схему -- куча отдельных кристаллов обычных размеров на ситалловой подложке

dipsy, сегодня в 05:11

Но зачем? Тут пропускаем сразу несколько ненужных этапов, нарезку кристалла, изготовление отдельной подложки, напайку на подложку,& За счет наличия штатной возможности отключения бракованных кристаллов, конечно.

amartology, сегодня в 10:01

Так уже делают Intel и AMD -- чиплеты, интерпозеры, вот это все. Тут ничего интересного-прорывного нет, и возможное увеличение производительности за счет отказа от соединений " корпус-корпус" уже достигнуто.

Londoner, сегодня в 00:04

А как у них с процентом выхода годных?

DrPass, сегодня в 03:32

Скорее всего, около 100%. В хренотени с 400000 одинаковыми ядрами достаточно просто выключить несколько дефектных ядер так, чтобы никто этого не заметил.

Porfus, сегодня в 08:37

Вопрос сколько это несколько? Если процентов 75, то кто-то может и заметить&

DrPass, сегодня в 12:12

Ну какой сейчас процент выхода годных для обычных чипов 16nm процесса? 95%? Вот, примерно 5% ядер могут быть неработоспособными. Полагаю, там даже резервирование всунули в достаточном объеме.

amartology, сегодня в 12:27

Ну какой сейчас процент выхода годных для обычных чипов 16nm процесса? 95%? 95% -- это уже с учетом отключения неработоспособных ядер и выпуска их на рынок как младших моделей. Тут скорее всего существенно ниже итоговый выход годных, даже с учетом всех разумных мер по противодействию. Разработка и производство таких изделий является " намного более трудоемким процессом" , признает Брэд Полсен (Brad Paulsen), старший вице-президент TSMC.

DrunkBear, сегодня в 12:17

Судя по тому, что цена будет зависеть от количества годных ядер -- сделают дешевую версию и выкинут на рынок по ~себестоимости + 15%. И все будут довольны.

saag, сегодня в 07:30

Энергопотребление то какое, даже если взять 1 Вт на ядро, то как на целый дом и эта беда как бойлер будет тепло выделять? Для запуска такого процессора нужна система soft-start, как для токарного станка, иначе пусковые токи будут огромными. Что вспомнилась ЕС-1022 с ее промышленным кондиционером для охлаждения машзала и шкафом питания только непосредственно самой ЭВМ

firedragon, сегодня в 08:22

По идее это у них уже сделано в дизайне, плюс возможность отключать отдельные ядра при перегреве или снижать их частоту. В настольных процессорах и GPU это уже есть. Так что даже без охлаждения он будет работать, но медленно.

halted, сегодня в 08:25

А ведь могли использовать путь 3д-микросхем. При такой площади даже разделив пополам схему и положив одну часть над другой можно сильно увеличить производительность банально за счет сокращения длины маршрутов электронов.

amartology, сегодня в 10:00 можно сильно увеличить производительность банально за счет сокращения длины маршрутов электронов. На самом деле вообще не факт. Во-первых, глобального роутинга совсем немного, и большая часть путей электронов (скажем, 99.99999%) находится внутри отдельных ядер. Во-вторых, переходы с уровня на уровень имеют большие габариты (например пятьдесят микрон диаметр линии) и, вследствие этого, большие паразитные сопротивления, емкости и индуктивности. И площади на кристалле большое количество вертикальных связей заняло бы довольно много. А если вертикальных связей не так много, чтобы отгрызть существенный процент площади, то мы возвращаемся к первому пункту.

amarao, сегодня в 11:49

В принципе, при таких размерах можно ожидать, что оно хотя бы киловатт рассеивает. Если там есть киловатт, ее можно использовать как электроплитку. Надеюсь, они защищают поверхность от царапин и убегающего супа?