В ноябре 2021 г. свет увидела ещё одна усовершенствованная версия модели T5, получившая название ExT5. В данном случае фокус был сделан на экстремальной многозадачности модели. Датасет для её обучения, получивший название ExMix (Extreme Mixture, Экстремальная смесь), включает в себя тексты заданий и решений для 107 различных задач, относящихся к разным доменам и семействам. ExT5 смогла заметно превзойти свою прародительницу на задачах из набора SuperGLUE и других сборниках тестов[2604].
Модели, подобные GPT-3 или T5, нередко генерируют тексты хотя и грамматически корректные, но не слишком достоверные с фактической точки зрения. Скормив в ruGPT-3 список «интересных фактов», взятых с одного из развлекательных интернет-сайтов, для затравки, я однажды получил среди прочих такие «факты»: • В Австралии бытует мнение, что если на тебя пристально смотрит лев, то это значит, что у тебя в руках морковка. • В Арктике нет почтовых голубей. Все письма для белых медведей доставляет летчик-истребитель по радио. • Выросший в утробе матери скорпион быстрее развивает скорость, чем обычный. • Джентльмены делятся своими сигарами, если хотят произвести впечатление на женщин. • Первый государственный банк открылся в России в 1769 г., в США — в 1792-м и так далее. К такого рода фантазиям склонны в большей мере модели с небольшим числом параметров, но даже от модели с 13 млрд параметров не стоит ждать 100% проверенных фактов. В какой-то мере этим свойством модели можно управлять (например, изменяя параметры генератора последовательностей), но стоит задаться вопросом: а насколько с фактической точки зрения хороши ответы людей? Мир, полный псевдонаучных фриков, сторонников различных теорий заговора, антипрививочников, плоскоземельцев и так далее, генерирует соответствующий цифровой след. Неудивительно, что модели, обученные на случайных текстах из интернета, да ещё и использующие значительную случайную компоненту при выборе токенов во время генерации, периодически начинают производить на свет полную ересь. Обычно, если мне задают вопрос, требующий тех или иных фактических знаний, я обращаюсь к более-менее надёжным источникам во Всемирной сети, таким, например, как энциклопедии, научные статьи и обзоры и так далее. И главным помощником тут становятся поисковые сервисы, такие как Google (кстати говоря, алгоритмы их работы также основаны на современных моделях машинного обучения). Может быть, можно сделать ещё один шаг вперёд и научить нейронную сеть автоматически формировать поисковые запросы для извлечения фактических знаний из большой базы данных? Возможность этого продемонстрировали исследователи из DeepMind, создавшие модель, получившую название RETRO (Retrieval-Enhanced Transformer, Трансформер, усовершенствованный за счёт поиска). RETRO извлекает из большого набора документов релевантные фрагменты текста, чтобы затем использовать их при формировании ответа. Сравнивая сгенерированные тексты с отрывками, на которые модель опиралась при генерации, можно понять, на чём именно основаны полученные ответы[2605]. В 2022 г. создатели модели Re-Imagen (Retrieval-augmented Text-to-Image Generator, Дополненный поиском генератор изображений по тексту)[2606] применили аналогичный подход при генерации изображений, позволяя модели при генерации картинки «подглядывать» в извлекаемые из базы данных изображения объектов, редко встречающихся в обучающей выборке. В январе 2021 г. исследователи из Google сообщили[2607] о создании новой архитектуры для разреженных трансформерных моделей, названной Switch Transformer (дословно «переключатель-трансформер» или «коммутатор-трансформер»), — наследника архитектуры GShard[2608]. Самая большая модель на основе этой архитектуры получила название Switch-C. Число обучаемых параметров этой модели — 1,571 трлн, что почти в девять раз больше, чем у GPT-3. Таким образом, Switch-C стала первой трансформерной моделью, преодолевшей порог в триллион параметров. Помимо увеличения размера модели, авторам удалось также добиться существенного ускорения её работы по сравнению с предшественниками. Впрочем, сравнивать Switch-трансформеры с моделями типа GPT-3 или T5 не совсем правильно, поскольку в данном случае речь идёт не о монолитной нейросетевой архитектуре, а о сети с разреженным типом активации, состоящей из множества отдельных подсетей-экспертов, переключение между которыми выполняет отдельная нейросетевая модель-диспетчер (Gating Network). При этом каждая сеть-эксперт может располагаться на отдельном узле вычислительного кластера. В итоге на каждом шаге обучения сети обновляется лишь сравнительно небольшое подмножество весов сети, что делает задачу обучения и выполнения сети более экономной с вычислительной точки зрения (впрочем, ценой некоторого падения точности модели). Такую архитектуру сети называют «смесь экспертов» (Mixture-of-Experts, MoE). Процесс обучения MoE-модели чем-то похож на послойное обучение глубоких сетей, популярное на границе тысячелетий. Неслучайно, что первое описание MoE-подхода мы находим в работах[2609], [2610] Джеффри Хинтона и его коллег с начала 1990-х гг. В наши дни исследования в области MoE-моделей ведутся довольно активно. Например, в сентябре 2021 г. исследователи из Microsoft рассказали о модели под названием Z-code M3 (M3 означает Multitask, Multilingual и MoE — Многозадачная, многоязычная и MoE)[2611], в декабре появилась новая MoE-модель от Google под названием GLaM (Generalist Language Model, Универсальная языковая модель)[2612], а под конец года о создании собственных языковых моделей на основе парадигмы MoE заявили исследователи из Meta (бывшей Facebook)[2613]. По слухам, MoE-подход был использован и при создании GPT-4 от OpenAI[2614]. В апреле 2021 г. исследователи из китайской компании Huawei опубликовали генеративную языковую модель для китайского языка, получившую название PANGU-α[2615]. В древнекитайской мифологии Пань-гу (кит. трад. 盤古, упр. 盘古, пиньинь Pángǔ) — первый человек на земле, появившийся из вселенского яйца и взмахом огромного топора отделивший мутную часть — землю (Инь) от светлой части — неба (Ян). В самой большой версии PANGU-α 207 млрд параметров, что на 32 млрд параметров больше, чем в самой большой версии GPT-3. Модель обучена на специально созданном текстовом корпусе объёмом около 1,1 терабайта. Не остались без внимания китайских исследователей и MoE-модели. Исследователи из Пекинской академии искусственного интеллекта (北京智源人工智能研究院, Beijing Academy of Artificial Intelligence, BAAI) создали собственную платформу для обучения таких моделей, получившую название FastMoE. Эта платформа позволяет использовать для обучения MoE-моделей как суперкомпьютеры, так и обычные GPU. Благодаря FastMoE китайские исследователи весной 2021 г. смогли обучить модель под названием Wudao (悟道, так зовут повара-монаха, героя Джеки Чана в фильме «Новый храм Шаолинь»), вторая версия которой, представленная общественности 31 мая, имела 1,75 трлн параметров (что на 150 млрд больше, чем у модели Switch-C)[2616].
вернуться Aribandi V., Tay Y., Schuster T., Rao J., Zheng H. S., Mehta S. V., Zhuang H., Tran V. Q., Bahri D., Ni J., Gupta J., Hui K., Ruder S., Metzler D. (2021). ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning // https://arxiv.org/abs/2111.10952 вернуться Rae J., Irving G., Weidinger L. (2021). Language modelling at scale: Gopher, ethical considerations, and retrieval / DeepMind blog, 08 Dec 2021 // https://deepmind.com/blog/article/language-modelling-at-scale вернуться Chen W., Hu H., Saharia C., Cohen W. W. (2022). Re-Imagen: Retrieval-Augmented Text-to-Image Generator // https://arxiv.org/abs/2209.14491 вернуться Fedus W., Zoph B., Shazeer N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity // https://arxiv.org/abs/2101.03961 вернуться Lepikhin D., Lee H., Xu Y., Chen D., Firat O., Huang Y., Krikun M., Shazeer N., Chen Z. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding // https://arxiv.org/abs/2006.16668 вернуться Jacobs R. A., Jordan M. I., Nowlan S. J., Hinton G. E. (1991). Adaptive Mixtures of Local Experts // http://www.cs.toronto.edu/~fritz/absps/jjnh91.pdf вернуться Shazeer N., Mirhoseini A., Maziarz K., Davis A., Le Q., Hinton G., Dean J. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer // https://arxiv.org/abs/1701.06538 вернуться Kim Y. J., Awan A. A., Muzio A., Salinas A. F. C., Lu L., Hendy A., Rajbhandari S., He Y., Awadalla H. H. (2021). Scalable and Efficient MoE Training for Multitask Multilingual Models // https://arxiv.org/abs/2109.10465 вернуться Du N., Huang Y., Dai A. M., Tong S., Lepikhin D., Xu Y., Krikun M., Zhou Y., Yu A. W., Firat O., Zoph B., Fedus L., Bosma M., Zhou Z., Wang T., Wang Y. E., Webster K., Pellat M., Robinson K., Meier-Hellstern K., Duke T., Dixon L., Zhang K., Le Q. V., Wu Y., Chen Z., Cui C. (2021). GLaM: Efficient Scaling of Language Models with Mixture-of-Experts // https://arxiv.org/abs/2112.06905 вернуться Artetxe M., Bhosale S., Goyal N., Mihaylov T., Ott M., Shleifer S., Lin X. V., Du J., Iyer S., Pasunuru R., Anantharaman G., Li X., Chen S., Akin H., Baines M., Martin L., Zhou X., Koura P. S., O'Horo B., Wang J., Zettlemoyer L., Diab M., Kozareva Z., Stoyanov V. (2021). Efficient Large Scale Language Modeling with Mixtures of Experts // https://arxiv.org/abs/2112.10684 вернуться Schreiner M. (2023). GPT-4 architecture, datasets, costs and more leaked. / The Decoder, Jul. 11, 2023. // https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ вернуться Zeng W., Ren X., Su T., Wang H., Liao Y., Wang Z., Jiang X., Yang Z., Wang K., Zhang X., Li C., Gong Z., Yao Y., Huang X., Wang J., Yu J., Guo Q., Yu Y., Zhang Y., Wang J., Tao H., Yan D., Yi Z., Peng F., Jiang F., Zhang H., Deng L., Zhang Y., Lin Z., Zhang C., Zhang S., Guo M., Gu S., Fan G., Wang Y., Jin X., Liu Q., Tian Y. (2021). PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation // https://arxiv.org/abs/2104.12369 вернуться Du C. (2021). Chinese AI lab challenges Google, OpenAI with a model of 1.75 trillion parameters / PingWest, June 1, 2021 // https://en.pingwest.com/a/8693 |