
Алгоритмы 1980-х годов, лежащие в основе современного ИИ, получили премию А. М. Тьюринга
Эндрю Барто и Ричард Саттон получили премию имени А. М. Тьюринга за создание фундаментальных технологий, которые лежат в основе современного ИИ. В том числе, они были отмечены за недавние достижения в области создания больших моделей логического мышления.
Ассоциация вычислительной техники (ACM) отметила заслуги Барто и Саттона за их инновационные исследования в сфере обучения с подкреплением. Эта технология впоследствии позволила достичь значительных результатов, таких как AlphaGo и современные большие модели рассуждений (LRM).
Премия, которую часто называют «Нобелевской премией по информатике», представляет собой денежное вознаграждение в размере одного миллиона долларов и присуждается за алгоритмы и концепции 1980-х годов, которые позволяют машинам учиться самостоятельно, используя сигналы обратной связи.
Специалисты в области ИИ разработали концепцию, основанную на психологических принципах обучения через обратную связь о своих действиях. Они преобразовали эту идею в математическую модель, которая теперь применяется во многих сферах ИИ. Их учебник «Обучение с подкреплением: введение», опубликованный в 1998 году, стал основополагающим трудом в этой области и был процитирован более 75 тысяч раз.
В сочетании с глубоким обучением их методы привели к значительным достижениям: AlphaGo победил чемпиона мира Ли Седоля, ChatGPT обучался с помощью обратной связи от людей, а также появились новые LRM, такие как OpenAI o3 и Deepseek R1. Эта технология используется везде: от продвинутой робототехники до улучшений в сетевых технологиях, проектировании микросхем и онлайн-рекламе.
Старший вице-президент Google Джефф Дин считает, что их работа соответствует первоначальным целям Алана Тьюринга: «В лекции 1947 года Алан Тьюринг заявил:
Читать на habr.com

