Литмир - Электронная Библиотека
Содержание  
A
A

Несмотря на успешное решение вопроса о том, как можно обучать многослойные нейронные сети, Вербос в своей диссертации в 1974 г. ограничился лишь короткими замечаниями по этому поводу. Подробное описание применения метода обратного распространения ошибки к обучению нейронных сетей было опубликовано[1399] Вербосом только в 1982 г. Сказывался невысокий интерес научного окружения Вербоса к этому вопросу[1400]. Возможно, отсутствие интереса Минского к ранней работе Вербоса по гамбургскому счёту оказалось куда большим вкладом первого в наступление коннекционистской зимы, чем пресловутые «Перцептроны». Впрочем, не стоит переоценивать роль личности Минского в этой истории, ведь его пессимизм лишь суммировал опыт множества исследователей, безрезультатно пытавшихся найти эффективные способы обучения многослойных перцептронов. Конечно, теплились некоторые искорки надежды, такие как идеи об обратном распространении ошибки у Розенблатта или высказанное вскользь предложение Сюнъити Амари о том, что для обучения нейронных сетей можно попробовать использовать метод наименьших квадратов[1401], [1402], являющийся основой простой линейной регрессии (без рассуждений о том, как вычислять производные, и с оговоркой, что он не ожидает многого от этого подхода)[1403], [1404]. И всё же пессимизм во второй половине 1970‑х — начале 1980-х гг. достиг своего апогея, поэтому работы Вербоса так и остались практически не замеченными научным сообществом. Повсеместное признание метода обратного распространения ошибки произошло только вслед за публикацией в 1986 г. в журнале Nature статьи Румельхарта, Хинтона и Уильямса «Выучивание представлений путём обратного распространения ошибок» (Learning representations by back-propagating errors). Её авторы упоминают в тексте Дэвида Паркера и Яна Лекуна в качестве исследователей, которые независимо открыли процедуры обучения, аналогичные описанным в статье[1405].

Не оставались в стороне и советские учёные. Диссертация Вербоса увидела свет в январе 1974 г., а в августе того же года в СССР тиражом 8000 экземпляров из печати вышла книга Александра Галушкина под названием «Синтез многослойных систем распознавания образов». Хотя Галушкин несколько раз использует в своей книге термин «нейронная сеть», в большинстве случаев он применяет более нейтральный термин — «система распознавания» (СР). Искусственные нейроны у Галушкина становятся «линейно-пороговыми элементами» (ЛПЭ), обученная сеть (т. е. сеть, предназначенная только для выполнения [inference]) — «сетью с разомкнутым контуром» и так далее[1406]. С точки зрения современной терминологии название книги Галушкина можно понимать как «Обучение многослойных нейронных сетей». Книга Галушкина стала первым систематическим изложением идей учёного, развитых им и его коллегами в предшествующие годы. Первые публикации[1407], [1408], [1409], [1410] Галушкина на тему создания и обучения многослойных нейронных сетей относятся к 1971–1973 гг.

Диссертация Вербоса, вне всякого сомнения, не была известна Галушкину. По большому счёту она в те годы не была известна, по всей видимости, никому из коннекционистов. Действительно, вряд ли кто-то всерьёз ждал фундаментального прорыва от работы под названием «После регрессии: новые инструменты для предсказания и анализа в поведенческих науках» (Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences). Термин «нейронные сети» не использовался в те времена в названиях работ ни Вербоса, ни Галушкина (как недостаточно строгий и являвшийся на тот момент обозначением модели, представлявшей, по мнению многих, лишь исторический интерес). Даже Румельхарт, Хинтон и Уильямс в 1986 г. в своей знаменитой статье[1411] следовали этому принципу.

В то же время Галушкин прекрасно знал о работах западных коннекционистов. Полюбуйтесь списком западных систем распознавания образов, который приводит Галушкин в своей книге: Mark-I, Mark-II, Papa, Kybertron, Altron, Konflex, Albert-1, Adalin, Madalin (написано именно так, без «e» на конце. — С. М.), Minos-2, Illiak-2, Illiak-3, Tobermory, GHILD, Astropower, Adapt-1, Adapt-2, DSK, Ziklop-1, Simisor, Auditran, Shubocs, Gaku и др. (sic!). В тексте книги также упоминается алгоритм обучения Штейнбуха Lernmatrix.

Галушкин рассматривает использование в нейронных сетях функций активации, отличных от функции Хевисайда и сигнума (обозначается sgn, функция знака, имеющая три возможных значения: 0, 1 и −1). Необходимость применения функций с континуумом решений у Галушкина обосновывается следующим образом: «Экспериментальное исследование данного алгоритма показало, что скорость сходимости при нахождении некоторой локальной моды мала и причиной этого является применение в многослойной СР ЛПЭ с двумя решениями, которые в значительной степени „загрубляют“ информацию о градиенте функционала вторичной оптимизации при квантовании входного сигнала. В связи с этим основным предметом исследования являлась двухслойная СР, по структуре подобная описанной выше, но состоящая из ЛПЭ с континуумом решений». В итоге выбор автора останавливается на арктангенсе, умноженном на 2/π для приведения значений функции к диапазону (−1; 1). График арктангенса, как и график популярных в наши дни логистической функции и гиперболического тангенса, является сигмоидой.

Галушкин рассматривает задачу обучения нейронной сети в качестве задачи градиентного спуска. Он применяет цепное правило для вычисления градиента, подробно рассматривает случай обучения сетей с двумя обучаемыми слоями, а также коротко показывает, как следует решать задачу в случае многослойных сетей и сетей с рекуррентными связями, но не даёт используемому им методу какого-либо собственного названия. При этом вопрос конкретной топологии сетей в книге практически не затрагивается, зато уделено внимание сетям с переменным числом слоёв — Галушкин описывает подход, напоминающий МГУА с послойным обучением и постепенно наращиваемыми слоями. Автор также приводит результаты множества экспериментов по обучению сетей с различными параметрами процесса обучения, стремясь оценить их влияние на сходимость модели[1412]. Кроме математических моделей, Галушкин совместно с В. Х. Наримановым ещё в начале 1970-х сконструировал собственную версию аппаратного перцептрона[1413].

Александр Иванович Галушкин продолжал работу над нейросетевыми технологиями до конца своей жизни и был одним из наиболее ярких лидеров этого направления в Советском Союзе, а затем и в России на протяжении более чем сорока лет. В 2007 г. издательство Springer Science & Business Media выпустило книгу[1414] Галушкина «Теория нейронных сетей» (Neural Networks Theory) на английском языке с отзывами Лотфи Заде, Сюнъити Амари и одного из знаменитых пионеров нейросетевого подхода Роберта Хехта-Нильсена. В новом тысячелетии работы Галушкина неоднократно выходили в международных научных изданиях и оказали влияние на состояние современной нейросетевой науки.

вернуться

1399

Werbos P. (1982). Applications of Advances in Nonlinear Sensitivity Analysis / Drenick R., Kozin F. (1982). System Modeling and Optimization. Proceedings of the 10th IFIP Conference New York City, USA, August 31–September 4, 1981. Springer-Verlag // https://books.google.ru/books?id=oczhwgEACAAJ

вернуться

1400

Kurenkov A. (2015). A 'Brief' History of Neural Nets and Deep Learning // https://www.andreykurenkov.com/writing/ai/a-brief-history-of-neural-nets-and-deep-learning/

вернуться

1401

* Значение метода наименьших квадратов, разработанного в начале XVIII в. Гауссом и Лежандром, для машинного обучения столь значительно, что один из отцов современных нейронных сетей Юрген Шмидхубер даже называет модели Гаусса и Лежандра «линейными нейронными сетями» или «линейными перцептронами».

вернуться

1402

Machine Learning Street Talk (2023). ORIGINAL FATHER OF AI ON DANGERS! (Prof. Jürgen Schmidhuber) / YouTube, Aug 13, 2023 // https://www.youtube.com/watch?v=q27XMPm5wg8

вернуться

1403

Werbos P. J. (2006) Backwards Differentiation in AD and Neural Nets: Past Links and New Opportunities / Bücker M., Corliss G., Naumann U., Hovland P., Norris B. (2006). Automatic Differentiation: Applications, Theory, and Implementations. Lecture Notes in Computational Science and Engineering, Vol 50. Springer, Berlin, Heidelberg // https://doi.org/10.1007/3-540-28438-9_2

вернуться

1404

Werbos P. J. (1994). The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting. Wiley & Sons Ltd // https://books.google.ru/books?id=WdR3OOM2gBwC

вернуться

1405

Rumelhart D. E., Hinton G. E., Williams R. J. (1986). Learning representations by back-propagating errors / Nature, 323(6088), pp. 533–536 // https://doi.org/10.1038/323533a0

вернуться

1406

Галушкин А. И. (1974). Синтез многослойных систем распознавания образов. — М.: Энергия.

вернуться

1407

Галушкин А. И. (1971). Реализация критериев первичной оптимизации в системах распознавания образов, настраивающихся по замкнутому циклу в режиме обучения // Труды МИЭМ. Вып. 23.

вернуться

1408

Галушкин А. И., Василькова Т. А., Слободенюк В. А., Тюхов Б. П. (1971). Анализ динамики систем распознавания нестационарных образов // Труды МИЭМ. Вып. 23.

вернуться

1409

Галушкин А. И., Василькова Т. А., Слободенюк В. А., Тюхов Б. П. (1971). Анализ динамики систем распознавания нестационарных образов // Труды МИЭМ. Вып. 23; Галушкин А. И. (1973). Об алгоритмах адаптации в многослойных системах распознавания образов / Докл. АН Укр. ССР, А, 91. № 1. С. 15—20

вернуться

1410

Ванюшин В. А., Галушкин А. И., Тюхов Б. П. (1972). Построение и исследование многослойных систем распознавания образов / Берг А. И. (1972). Некоторые проблемы биологической кибернетики. — Л.: Наука.

вернуться

1411

Rumelhart D. E., Hinton G. E., Williams R. J. (1986). Learning representations by back-propagating errors / Nature, 323(6088), pp. 533–536 // https://doi.org/10.1038/323533a0

вернуться

1412

Галушкин А. И. (1974). Синтез многослойных систем распознавания образов. — М.: Энергия.

вернуться

1413

Пупков К. А., Нариманов В. Х., Галушкин А. И. Специализированное распознающее устройство // Труды МИЭМ, вып. 23, 1971. С. 156–165.

вернуться

1414

Galushkin A. I. (2007). Neural Networks Theory. Springer Science & Business Media // https://books.google.ru/books?id=ULds8NuzLtkC

151
{"b":"936964","o":1}