Литмир - Электронная Библиотека
Содержание  
A
A

4. Генеративные языковые модели нередко ошибаются в фактах (особенно не в самых общеизвестных) и могут откровенно фантазировать (этот эффект в наши дни часто называют «галлюцинациями» моделей; в результате галлюцинаций нередко возникают такие феномены, как фактоиды (от англ. factoid, от англ. fact — факт и -oid — от др.-греч. εἶδος — форма, вид, — «принимающий вид факта») — недостоверные или ложные утверждения, которые по форме напоминают достоверные). Генеративные модели в каком-то смысле напоминают студента, припёртого преподавателем на экзамене к стенке вопросом, ответ на который студент не знал либо успешно забыл. Многие студенты знают, что молчать в таких случаях не следует. Примерно то же «знает» и генеративная модель, в инструктивном датасете которой просто очень мало примеров того, как на вопрос пользователя следует ответ «Я не знаю». В итоге на свет и появляется правдоподобная чепуха.

5. Знания моделей без дообучения устаревают. Здесь могут помочь современные методы постоянного обучения [continuous learning].

6. Некоторые интеллектуальные задачи пока что лучше решают специализированные модели и даже системы, основанные на правилах. Например, задачи классификации и регрессии со сравнительно небольшим числом параметров лучше решают такие методы, как градиентный бустинг или леса случайных деревьев.

7. Большие модели склонны заучивать клише (многократно повторённые в обучающих выборках последовательности).

Также в качестве ответа на проблемы, обозначенные в пунктах 2–6, получили развитие так называемые мультиэкспертные, или интерактивные, подходы. К области мультиэкспертности в данном случае относят методы, предполагающие усиление возможностей фундаментальных нейросетевых моделей за счёт создания механизмов их взаимодействия с другими моделями, системами, сервисами (в том числе акторами, т. е. исполняющими системами) и различными аппаратными устройствами. Человеческий мозг так же, как и большие трансформерные модели, не слишком подходит для того, чтобы, например, перемножать шестизначные числа. В таких случаях мы обычно хватаемся за калькулятор. Для поиска или проверки фактов мы обращаемся в поисковую систему. Для ведения заметок используем записную книжку. Почему бы не предоставить генеративной нейросети аналогичную возможность? Эта идея возникала у исследователей неоднократно. Например, сходные соображения мы находим в статье, посвящённой модели LaMDA (название модели отсылает нас к лямбда-исчислению Чёрча, намекая на возможность рекуррентного вызова функций)[2718], в работах «Toolformer: языковые модели могут научиться использовать инструменты» [Toolformer: Language Models Can Teach Themselves to Use Tools][2719], «ToolkenGPT: расширение возможностей замороженных языковых моделей за счёт использования большого числа инструментов с помощью векторных вложений инструментов» [ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings][2720], «GPT4Tools: обучение больших языковых моделей использованию инструментов путём самоинструктирования» [GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction], «HuggingGPT: решение задач ИИ с помощью ChatGPT и его друзей на платформе Hugging Face» [HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face][2721], «Gorilla: большая языковая модель, соединённая со множеством API» [Gorilla: Large Language Model Connected with Massive APIs][2722] в материалах по плагинам для ChatGPT[2723] и так далее.

Вопрос об объединении генеративной и поисковой (экстрактивной) моделей[2724], [2725] начал изучаться ещё в начале 2010-х гг. Ему посвящена, например, работа 2011 г. «KenLM: более быстрые и компактные вызовы языковых моделей» [KenLM: Faster and Smaller Language Model Queries][2726]. Впрочем, тогда исследователей больше интересовали не вопросы борьбы с галлюцинациями или увеличения длины контекста языковых моделей, а то, как можно повысить скорость их работы. В трансформерную эпоху к вопросу объединения генерации и поиска обращались исследователи из DeepMind («Улучшение языковых моделей путём поиска по триллионам токенов» [Improving language models by retrieving from trillions of tokens][2727]), Meta («Улучшенная за счёт поиска генерация для задач обработки естественного языка, требующих интенсивного использования знаний» [Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks][2728]), Стэнфордского университета («Показать-Найти-Предсказать: объединение поисковых и языковых моделей для обработки естественного языка, требующей интенсивного использования знаний» [Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP][2729]) и так далее.

Идея гетерогенной нейросимвольной архитектуры, в которой входящие в ансамбль нейросети, символьные модели и другие подсистемы будут сообща действовать для решения поставленной пользователем задачи, вызывает ассоциации с теорией, разработанной в 1970—1980-е гг. Минским и Пейпертом и изложенной в книге Минского «Сообщество разума» [Society of Mind][2730]. В ней Минский шаг за шагом конструирует модель человеческого интеллекта, построенную на взаимодействии простых частей, называемых агентами. И хотя каждый из агентов в отдельности не является разумным, их взаимодействие порождает то, что мы и называем разумом. «Какой хитрый трюк делает нас разумными? Фишка в том, что никакой хитрости нет, — пишет Минский. — Сила интеллекта проистекает из нашего огромного разнообразия, а не из какого-то одного принципа, отточенного до совершенства».

Конечно, схема взаимодействия агентов (экспертов) и сама их природа в мультиэкспертных системах может быть очень разной. При некоторых допущениях «сообществами разума» можно считать и генеративные языковые модели, оснащённые механизмом плагинов, и MoE-сети, и системы, состоящие из нескольких языковых моделей, осуществляющих мозговой штурм на естественном языке[2731], и генеративных агентов, «живущих» в упрощённой симуляции мира[2732], и системы, в которых модель-агент обучается решать различные задачи, «интервьюируя» другую сеть, являющуюся моделью среды[2733], а то и вовсе произвольные ансамбли моделей. В целом подход этот является весьма продуктивным и способен послужить основой для множества различных систем.

Один из основателей DeepMind Мустафа Сулейман считает, что именно интерактивная парадигма станет фундаментом нового поколения систем ИИ:

Первая волна ИИ касалась классификации. Глубокое обучение показало, что мы можем научить компьютер классифицировать различные типы входных данных: изображения, видео, аудио, язык. Сейчас мы находимся в генеративной волне, когда вы берете входные данные и создаете новые данные.

Третья волна будет интерактивной фазой. Вот почему я уже давно уверен, что диалог — это интерфейс будущего. Знаете, вместо того, чтобы просто нажимать на кнопки и печатать, вы будете разговаривать со своей системой ИИ.

И эти системы будут способны совершать действия. Вы просто дадите системе общую цель высокого уровня, и она будет использовать все имеющиеся у неё инструменты для достижения этой цели. Системы будут разговаривать с другими людьми, разговаривать с другими системами. Это то, что мы собираемся сделать с Pi (перспективной системой от DeepMind. — С. М.).

вернуться

2718

Thoppilan R., Freitas D. D., Hall J., Shazeer N., Kulshreshtha A., Cheng H., Jin A., Bos T., Baker L., Du Y., Li Y., Lee H., Zheng H. S., Ghafouri A., Menegali M., Huang Y., Krikun M., Lepikhin D., Qin J., Chen D., Xu Y., Chen Z., Roberts A., Bosma M., Zhao V., Zhou Y., Chang C., Krivokon I., Rusch W., Pickett M., Srinivasan P., Man L., Meier-Hellstern K., Morris M. R., Doshi T., Santos R. D., Duke T., Soraker J., Zevenbergen B., Prabhakaran V., Diaz M., Hutchinson B., Olson K., Molina A., Hoffman-John E., Lee J., Aroyo L., Rajakumar R., Butryna A., Lamm M., Kuzmina V., Fenton J., Cohen A., Bernstein R., Kurzweil R., Aguera-Arcas B., Cui C., Croak M., Chi E., Le Q. (2022). LaMDA: Language Models for Dialog Applications // https://arxiv.org/abs/2201.08239

вернуться

2719

Schick T., Dwivedi-Yu J., Dessì R., Raileanu R., Lomeli M., Zettlemoyer L., Cancedda N., Scialom T. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools // https://arxiv.org/abs/2302.04761

вернуться

2720

Hao S., Liu T., Wang Z., Hu Z. (2023). ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings // https://arxiv.org/abs/2305.11554

вернуться

2721

Shen Y., Song K., Tan X., Li D., Lu W., Zhuang Y. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face // https://arxiv.org/abs/2303.17580

вернуться

2722

Patil S. G., Zhang T., Wang X., Gonzalez J. E. (2023). Gorilla: Large Language Model Connected with Massive APIs // https://arxiv.org/abs/2305.15334

вернуться

2723

OpenAI (2023). ChatGPT plugins // https://openai.com/blog/chatgpt-plugins

вернуться

2724

* Сегодня для такого синтеза часто используют термин «генерация, дополненная поиском» (Retrieval-augmented Generation, RAG).

вернуться

2725

Schlag I., Sukhbaatar S., Celikyilmaz A., Yih W.-t., Weston J., Schmidhuber J., Li X. (2023). Large Language Model Programs // https://arxiv.org/abs/2305.05364

вернуться

2726

Heafield K. (2011). KenLM: Faster and Smaller Language Model Queries // https://kheafield.com/papers/avenue/kenlm.pdf

вернуться

2727

Borgeaud S., Mensch A., Hoffmann J., Cai T., Rutherford E., Millican K., van den Driessche G., Lespiau J.-B., Damoc B., Clark A., de Las Casas D., Guy A., Menick J., Ring R., Hennigan T., Huang S., Maggiore L., Jones C., Cassirer A., Brock A., Paganini M., Irving G., Vinyals O., Osindero S., Simonyan K., Rae J. W., Elsen E., Sifre L. (2021). Improving language models by retrieving from trillions of tokens // https://arxiv.org/abs/2112.04426

вернуться

2728

Lewis P., Perez E., Piktus A., Petroni F., Karpukhin V., Goyal N., Küttler H., Lewis M., Yih W.-T., Rocktäschel T., Riedel S., Kiela D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // https://arxiv.org/abs/2005.11401

вернуться

2729

Khattab O., Santhanam K., Li X. L., Hall D., Liang P., Potts C., Zaharia M. (2022). Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP // https://arxiv.org/abs/2212.14024

вернуться

2730

Minsky M. (1988). Society of Mind. Simon & Schuster Paperbacks // https://www.google.ru/books/edition/Society_Of_Mind/bLDLllfRpdkC

вернуться

2731

Zhuge M., Liu H., Faccio F., Ashley D. R., Csordás R., Gopalakrishnan A., Hamdi A., Hammoud H. A. A. K., Herrmann V., Irie K., Kirsch L., Li B., Li G., Liu S., Mai J., Piękos P., Ramesh A., Schlag I., Shi W., Stanić A., Wang W., Wang Y., Xu M., Fan D.-P., Ghanem B., Schmidhuber J. (2023). Mindstorms in Natural Language-Based Societies of Mind // https://arxiv.org/abs/2305.17066

вернуться

2732

Park J. S., O'Brien J. C., Cai C. J., Morris M. R., Liang P., Bernstein M. S. (2023). Generative Agents: Interactive Simulacra of Human Behavior // https://arxiv.org/abs/2304.03442

вернуться

2733

Schmidhuber J. (2015). On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models // https://arxiv.org/abs/1511.09249

280
{"b":"936964","o":1}