Эндрю Барто и Ричард Саттон, пионеры в области искусственного интеллекта, получили премию Тьюринга — аналог Нобелевской награды в компьютерных науках. Их новаторские работы в сфере обучения с подкреплением (Reinforcement Learning, RL) удостоены высшего признания Ассоциации вычислительной техники. Учёные разделят денежный приз в размере $1 млн.
Основы их метода были заложены в конце 1970-х, когда Барто, сотрудник Массачусетского университета, начал изучать нейросети через призму биологического гедонизма — стремления к вознаграждению и избеганию негативных последствий. К проекту присоединился Саттон, и вместе они разработали теорию, объясняющую как естественный, так и искусственный интеллект через простой принцип: максимизация «выгоды» через взаимодействие со средой.
Суть RL заключается в том, что алгоритмы учатся методом проб и ошибок, получая «баллы» за успешные действия и «штрафы» за ошибочные. Этот подход, аналогичный дрессировке животных, стал основой для прорывных технологий. Например, AlphaGo, победившая чемпиона по го, и современные языковые модели, такие как ChatGPT, используют принципы, заложенные Барто и Саттоном.
Их учебник «Обучение с подкреплением: введение» остается базовым пособием для исследователей. Награждение премией Тьюринга подчеркивает: их идеи не только изменили науку, но и стали двигателем технологической революции XXI века.