Tesla обучила суперкомпьютер Dojo поиску дефектных ядер без сбоев в работе

Fine-news 5 часов назад 35
Preview
Tesla обучила суперкомпьютер Dojo поиску дефектных ядер без сбоев в работе

Обнаружение таких ошибок крайне важно, поскольку один незамеченный сбой может сорвать «многонедельную» сессию обучения искусственного интеллекта. Проблема тихого повреждения данных (SDC) широко распространена в процессорах с высокой плотностью ядер и длительными периодами работы.

Обучающие плитки Dojo с 8850 64-битными ядрами архитектуры RISC-V могут столкнуться с повреждением данных без явных признаков неисправности. Разработчики Stress добились того, что система назначает каждому ядру уникальную программу и позволяет обнаруживать неисправности во время работы без остановки процесса, связываясь с другими ядрами, что повышает эффективность обнаружения неисправностей в 10 раз.

Stress может выявлять неисправности на миллионах активных ядер, обычно ошибки обнаруживаются после обработки 1-100 ГБ тестовых инструкций, хотя в сложных случаях может потребоваться более 1 ТБ. Кроме того, Stress помогает выявлять ошибки в архитектуре и уязвимости программного обеспечения во время развёртывания.

Источник
Читать продолжение в источнике: Fine-news
Failed to connect to MySQL: Unknown database 'unlimitsecen'