Huawei выпустила новый ИИ-чип. Как он выглядит рядом с аналогами от Nvidia?
23.03.26 15:52
Компания Huawei выпустила новый чип семейства Ascend – модель 950PR для вычислений в области искусственного интеллекта и плату-ускоритель Atlas 350 на его основе.

Согласно данным South China Morning Post, производительность GPU составляет 1,56 Пфлопс при работе с 4-битными числами с плавающей запятой (FP4). По этому показателю продукт Huawei превосходит GPU H20 американской корпорации Nvidia примерно в 2,8 раза, утверждает Чжан Дисюань (Zhang Dixuan), глава направления по разработке GPU Ascend в Huawei.
Издание Mydrivers констатирует значительное превосходство Ascend 950PR над образцами предыдущих поколений при обработке чисел в форматах, обеспечивающих невысокую точность, в векторных вычислениях, пропускной способности интерконнекта, а также наличии HBM-памяти собственной разработки Huawei.
Ascend 950PR располагает блоком оперативной памяти с высокой пропускной способностью (HBM) объемом вплоть до 112 ГБ, что в 1,16 раза больше, чем у Nvidia H20 (96 ГБ). процессор позволяет увеличить скорость мультимодального инференса (использование модели для обработки нескольких типов данных одновременно, например, статичного изображения, текста, видео; – прим. CNews) до 60% в сравнении с аналогом американского происхождения.
Плата-ускоритель Atlas 350, построенная на базе Ascend 950PR, по сообщению Mydrivers, может похвастаться пропускной способностью памяти на уровне 1,4 ТБ/с и энергопотреблением около 600 Вт. Таким образом, новинка Huawei нуждается в 1,5 раза большем количестве электроэнергии, а память, которой она оснащена уступает H20 в по показателю пропускной способности, которая в случае с H20 составляет 4 ТБ/с.
Китайское новостное издание 163.com пишет, что вывод на рынок Ascend 950PR – важная веха для рынка ИИ-чипов КНР по ряду причин. Во-первых, Atlas 350 почти втрое быстрее Nvidia H20 в инференсе, если верить заявлениям Huawei, что воспринимается как прорыв в национальной полупроводниковой отрасли Китая.
Как отмечает 163.com, применение FP4-вычислений обеспечивает значительный прирост эффективности в обмен на потере в их точности. В тех ситуациях, когда высокая точность не имеет решающего значения, использование FP4 позволяет значительно экономить память при инференсе больших моделей. Так, модель с 70 млрд параметров может требовать до 140 ГБ видеопамяти при работе в режимах более высокой точности, а в случае с FP4 ее «аппетит» будет ограничен скромными по нынешним меркам 35 ГБ.
Благодаря этому в режиме FP4 все тот же ускоритель можно загрузить инференсом модели с большим числом параметров или же обслуживать одновременно большее количество запросов на инференс модели прежнего размера.
Одним из наиболее значимых достижений Huawei в контексте работы над Altas 350, вероятно, следует считать переход на HBM-память, разработанную и произведенную на территории Китая.
Ее внедрение позволило добиться повышения пропускной способности интерконнекта в 2,5 раза к соответствующей характеристике устройств Huawei этого класса, относящихся к предыдущему поколению.
Как отмечает TrendForce, наличие собственной технологии изготовления HBM дает Huawei стратегическое превосходство над конкурентами. Ведь Nvidia и AMD собственным производством HBM не располагают, а полагаются на партнеров в лице гигантов SK Hynix и Samsung из Южной Кореи, а также Micron из США.




