В том, что Розенблатт оставил работу над персептроном, нередко упрекают Марвина Минского с его книгой «Персептроны». В пользу того, что подобные утверждения ошибочны, говорит хотя бы то, что книга была издана за год до гибели Розенблатта, то есть прошло более пяти лет с того момента, когда тот оставил эту тему. Минский и Папперт математически убедительно показали ограничения, присущие усовершенствованному ими одноуровнему персептрону. Они связывали эти ограничения с существовавшими на тот момент слабостями параллельных вычислений, необходимых для реализации идеи персептрона. Это дало основания говорить о «заказном» характере книги, а также о том, будто она повлияла на пути развития AI, сместив научный и общественный интерес и, что не менее важно, поток субсидий правительственных организаций США на проповедуемый ими символьный подход к AI. На самом деле все проще, успеху символического подхода способствовала потенциальная возможность реализации на существовавших компьютерах, а для персептрона не было аппаратной основы.
Много позже заслуги Розенблатта были должным образом оценены, IEEE (Institute of Electrical and Electronics Engineers) в 2004 году учредил награду его имени за достижения в области коннекционизма и нейронных сетей. Среди удостоенных ею Владимир Вапник и Джеффри Хинтон.
Нейрон MCP на мемисторах
Менее известен работа профессора Стэнфордского университета Бернарда Уидроу (Bernard Widrow, 1929) и его аспиранта Тэда Хоффа (Edward Hoff, 1937), попытавшихся перенести функционал персептрона на устройства, названные мемисторами и создать из них ANN. Они не были ни нейропсихологами, ни математиками, а всего лишь инженерами, специалистами в области электротехники, поэтому исследования в области ANN не заняли главного места в их жизни. Уидроу был и остается специалистом в области адаптивных фильтров, а Хофф позже вошел в историю как один из создателей первого микропроцессора Intel 4004. В 1968 году он перешел в Intel, став двенадцатым в списке сотрудников начинающей компании, а много позже первым почетным сотрудником (Intel Fellow).
Но ранее в своей диссертации Хофф предложил LMS-алгоритм адаптивной фильтрации, основанный на методе наименьшего квадрата. Этот алгоритм широко используется в различных устройствах до настоящего времени и он стал основой для метода обучения по Уидроу и Хоффу (Widrow-Hoff Learning) и реализован на устройствах, изобретенных Уидроу и названных им мемистром (memistor). Мемистор представляет собой резистор с памятью, его не следует путать с близком по названию устройством мемристор (memristor, memory resistor), изобретенным на 10 лет позднее. Мемистор похож на триод, он тоже имеет три контакта, на два подается питающее напряжение, а на третий управляющий сигнал, а у мемристора всего два контакта, он способен запоминать свое состояние после прохождения по нему тока. Широкого распространения мемисторы не получили, но Уидроу и Хофф в 1960 году смогли реализовать на них одноуровневый нейрон по модели MCP, названный ими ADALINE (Adaptive Linear Neuron), а через два года и многоуровневый MADALINE (Many ADALINE).
Метод обратного распространения ошибок
Backpropagation (backward propagation of errors) переводится буквально как обратное распространение ошибок. Сегодня так называют наиболее популярный метод обучения многослойных персептронов, то есть нейронных сетей с прямой связью (feedforward neural network). Такие сети отличаются возможностью реализовать в них обратную связь, этот необходимый компонент практически любого самообучения.
В данном случае использование обратной связи в процессе обучения предполагает два прохода по всем слоям сети: прямого и обратного. При прямом проходе входной поток данных подается на входной слой нейронной сети, после чего он распространяется по сети от слоя к слою. В результате генерируется набор выходных сигналов, который и является фактической реакцией сети на данный входной образ. Во время прямого прохода все синаптические веса сети фиксированы. Во время обратного прохода все синаптические веса настраиваются в соответствии с правилом коррекции ошибок, а именно: фактический выход сети вычитается из желаемого, в результате чего формируется сигнал ошибки. Этот сигнал впоследствии распространяется по сети в направлении, обратном направлению синаптических связей. Отсюда и название – алгоритм обратного распространения ошибки. Синаптические веса настраиваются с целью максимального приближения выходного сигнала сети к желаемому.
У этого термина на удивление сложная история, backpropagation был впервые предложен Розенблаттом в 1961 году, а в 1974 году метод backpropagation описал в своей диссертации Пол Вербос (1947), но тогда на его алгоритмы научное сообщество не обратило внимание. В 1990 году Вербос опубликовал обзорную статью «Backpropagation сквозь время: на что оно способно и как оно это делает» (Backpropagation Through Time: What It Does and How to Do It), где отдает должное ряду ученых, в том числе Хинтону и Лекуну, и подчеркивает, что метод backpropagation может быть использован не только в приложении к ANN, но и к другим динамическим системам.
В последнее время странным образом возник интерес к проблеме приоритета. Такое бывает, когда наступает время какой-то идеи и она приходит на ум многим одновременно, дискутировать о приоритете в таких случаях лишено какого-либо смысла. Тем не менее полемику за право считать определенного ученого первооткрывателем backpropagation активно навязывает швейцарец Юрген Шмидхубер. Он работает в альтернативном направлении, которое называется долгой краткосрочной памятью LSTM (Long short-term memory), связываемого рекуррентными нейронными сетями. Шмидхубер отдает приоритет финну Сеппо Линнаймма, но при этом находит предпосылки к этому методу даже у Леонарда Эйлера, Огюстена Коши и еще у полутора десятка математиков, работавших в XX веке. Сильнейший гнев у Шмидхубера вызвало присуждение Honda Prize 2019 Джеффри Хинтону с формулировкой «… за достижения в области AI, включая алгоритм Backpropagation…» И в самом деле, непонятно чем руководствовалось жюри, вручающее награды за достижения в области экологических технологий, но оно допустило очевидный ляп! Что же касается скандала, устроенного Шмидхубером, то, скорее всего, поводом для него стал тот факт, что его обошли при награждении Тьюринговской премией 2018 за достижения в области глубокого обучения. Премия тогда досталась троим – Джефри Хинтону, Джошуа Бенджо и Яну Лекуну, но не ему, что на самом деле не вполне справедливо, учитывая и его достижения. Сложившаяся ситуация вынудила Хинтона прилюдно оправдываться за явную оплошность со стороны жюри Honda Prize, впрочем, что мешало ему заранее ознакомиться с формулой награждения? На фоне этой полемики особенно удивительно выглядит статья «Метод обратного распространения ошибки» в русскоязычной википедии, она явно выдержана в духе одиозных доказательств российского приоритета на любые изобретения, характерных для сталинских времен. Разногласия относительно приоритета естественны, они возникают по той причине, что сама по себе идея обратной связи в обучении очевидна, к ней пришли многие исследователи независимо друг от друга.
Сверточные сети
Очередным шагом в развитии прикладного коннекционизма стало создание иерархической многослойной ANN сверточного типа (Convolutional Neural Network, CNN) в 1980 году. Японский исследователь Кунихика Фукусима (Kunihiko Fukushima) назвал ее неокогнитрон. Он занимался распознаванием рукописных текстов и взял в качестве прототипа идею когнитрона, ранее выдвинутую шведом Торстеном Визелем (Torsten Wiesel, 1924) и канадцем Дэвидом Хьюбелом (David Hubel, 1926–2013). В 1981 году Визель и Хьюбел стали лауреатами Нобелевской премии по физиологии и медицине «за открытия, касающиеся принципов переработки информации в нейронных структурах». Фундаментальные работы Визеля и Хьюбела по нейрофизиологии зрения заложили основы организации и развития нейронных цепей, ответственных за зрительное распознавание объектов. Иногда, например в той же русскоязычной википедии, открытие CNN ошибочно приписывают Яну Лекуну.