Литмир - Электронная Библиотека
Содержание  
A
A

Поскольку публикация разработчиков BlenderBot вышла в свет позже статьи создателей Meena, исследователи Facebook решили сравнить свои результаты с результатами коллег из Google. Задача осложнялась тем, что, в отличие от создателей BlenderBot, авторы Meena не спешили выкладывать свою модель в свободный доступ, поэтому специалистам Facebook пришлось довольствоваться сотней опубликованных записей диалогов с участием Meena. Оценщикам-людям показывали пары диалогов, в одном из которых собеседником человека выступал BlenderBot, а в другом — Meena. При этом оценщикам задавали два вопроса: «С кем бы вы предпочли общаться в ходе длительной беседы?» (оценка привлекательности) и «Какой из собеседников общается более по-человечески?» (оценка человекоподобия)[2274], [2275]. По обеим метрикам победителем оказался BlenderBot (75 : 25 в оценке привлекательности и 67 : 33 в оценке человекоподобия).

Более того, BlenderBot неплохо смотрелся даже в сравнении с людьми: в одном из экспериментов оценщики отдали предпочтение диалогам с его участием при сравнении с диалогами «человек — человек» в 49% случаев. Впрочем, авторы бота пишут в своей статье, что далеки от мысли, что им удалось полностью решить задачу ведения диалога с открытой предметной областью[2276], [2277]. Не менее впечатляющих результатов удалось достичь исследователям компании Baidu, из-под «пера» которых в 2020–2021 гг. последовательно вышли диалоговые модели PLATO[2278], PLATO-2[2279] и PLATO-XL[2280]. Для оценки качества диалоговых моделей китайские исследователи используют свои метрики, представляющие собой развитие SSA, но в отличие от последней в PLATO вместо двух шкал оценки используются четыре: естественность [fluency], связность [coherence], информативность [informativeness] и общее качество [overall], а в PLATO-XL — пять: связность [coherence], противоречивость [inconsistency], информативность [informativeness], галлюцинации [hallucination] и вовлечённость [engagingness].

Впрочем, в наши дни для оценки качества диалоговых моделей активно продолжают использовать и простые попарные (side-by-side) сравнения по принципу: «какие реплики нравятся вам больше?» Например, на платформе Chat Arena [Чат-арена] любой желающий может дать сравнительную оценку ответов разных моделей, на основе чего формируется рейтинг LMSys (Large Model Systems Organization, Организация систем больших моделей)[2281].

Словом, как и во многих других творческих задачах, проблема оценки качества полученных результатов в диалоговых системах стоит довольно остро. Тем не менее значительный прогресс, произошедший в этой области за последние годы, заметен невооружённым глазом. Идеи BlenderBot и Meena получили дальнейшее развитие в следующем поколении диалоговых моделей, таких как LaMDA[2282], Anthropic assistant[2283], WebGPT[2284], BlenderBot 2[2285], BlenderBot 3[2286], Sparrow[2287] и, наконец, ChatGPT[2288], [2289] и его многочисленные аналоги, о которых мы поговорим чуть позже.

6.4 Машина учится говорить

Врач: ...Юра, смотри на свои руки, смотри на свои пальцы, которые напрягаются всё больше и больше. Сейчас я скажу «три», и руки станут неподвижными. Внимание: один, два, три, и руки неподвижны. Ты не можешь двигать руками. Ты пытаешься шевелить руками, но руки твои неподвижны. Тебе трудно делать тонкие дифференцированные движения. Твои руки абсолютно неподвижны. А теперь я сниму это состояние, и ты будешь говорить. Только громко и чётко, свободно и легко, не боясь своего голоса и своей речи. Если ты будешь говорить сейчас, ты будешь на всю жизнь говорить. Громко и чётко! Внимание. На меня смотри. При слове «три» я снимаю напряжение с твоих рук и с твоей речи. Раз, два, три — громко и чётко — я могу говорить! Давай!

Юра: Я-мо-гу-го-во-рить!

Андрей Тарковский. Зеркало (киносценарий)

6.4.1 Первые попытки синтеза речи

Мечты о говорящих машинах стары как мир. В древнекитайском трактате «Ле-цзы» (列子, буквально — «[Трактат] учителя Ле»), составленном предположительно в IV в., можно найти упоминание человекообразного автоматона, созданного древним мастером по имени Ян Ши в годы правления императора Му-вана (IX в. до н. э.). Среди прочих талантов этого устройства была способность петь (не фальшивя). Другой говорящий человекоподобный механизм, в соответствии со средневековой легендой, был создан Альбертом Великим, знаменитым философом, теологом и учёным, наставником Фомы Аквинского. Для изготовления устройства, получившего название «андроид» (т. е. «подобный человеку»), Альберт Великий обратился за помощью к «ангелам преисподней»[2290]. Поминая историю с говорящей головой Сильвестра II, это был уже не первый случай, когда подрядчики из ада помогали святым отцам с устройствами для синтеза речи. Если же не принимать в расчёт эти и другие легендарные приспособления древних, то первенство в создании говорящих устройств принадлежит механикам конца XVIII в., одним из которых был уже знакомый нам изобретатель «шахматного автомата» Вольфганг фон Кемпелен. Причём, в отличие от самого знаменитого изобретения фон Кемпелена, его говорящие приспособления не были плодами высокотехнологичного мошенничества. Изобретатель оставил после себя обстоятельный трактат под названием «Механизм человеческой речи вместе с описанием говорящей машины» (Mechanismus der menschlichen Sprache: nebst der Beschreibung seiner sprechenden Maschine)[2291], благодаря которому созданное им устройство неоднократно воспроизводилось. Например, в 2007 г. усилиями немецких учёных Фабиана Бракхане и Доминика Бауэра была создана реплика «говорящей» машины фон Кемпелена[2292].

Охота на электроовец. Большая книга искусственного интеллекта - image248.jpg

В результате своих исследований фон Кемпелен пришёл к выводу, что человеческая речь возникает в результате взаимодействия речевого тракта и ротовой полости, кроме того, при произнесении взрывных согласных могут быть задействованы язык и губы. Идея Кемпелена заключалась в механическом моделировании речевого аппарата человека. Созданная фон Кемпеленом машина была способна «произносить» отдельные звуки, слова и даже целые фразы.

Внешне машина фон Кемпелена представляла собой деревянный ящик с двумя отверстиями для рук оператора. К нему была присоединена напорная камера — кожаные мехи, выполнявшие роль лёгких. Аналогом голосовых связок был вибрирующий язычок, а роль речевого тракта выполняла кожаная трубка. Изменяя руками её форму, можно было производить гласные звуки. Согласные же получались при прохождении воздуха через четыре сужающихся прохода, которые нужно было зажимать пальцами.

Фон Кемпелен утверждал, что для того, чтобы научиться управляться с машиной, обычно достаточно двух-трёх недель тренировок. Машина была способна вполне отчётливо «произносить» несколько сотен слов, причём не только коротких, таких как mama [мама] или papa [папа], но и довольно длинных, таких, например, как Mississippi [Миссисипи] или Constantinopel [Константинополь]. При этом голос машины звучал монотонно — длину вибрирующего язычка можно было изменять, но не во время работы[2293].

вернуться

2274

* Этот метод оценки получил название Acute-eval [«Острая» или «умная» оценка].

вернуться

2275

Li M., Weston J., Roller S. (2019). ACUTE-EVAL: Improved Dialogue Evaluation with Optimized Questions and Multi-turn Comparisons // https://arxiv.org/abs/1909.03087

вернуться

2276

Roller S., Weston J., Dinan E. (2020). A state-of-the-art open source chatbot / Facebook Artificial Intelligence, April 29, 2020 // https://ai.facebook.com/blog/state-of-the-art-open-source-chatbot/

вернуться

2277

Roller S., Dinan E., Goyal N., Ju D., Williamson M., Liu Y., Xu J., Ott M., Shuster K., Smith E. M., Boureau Y.-L., Weston J. (2020). Recipes for building an open-domain chatbot // https://arxiv.org/abs/2004.13637

вернуться

2278

Bao S., He H., Wang F., Wu H., Wang H. (2019). PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable // https://arxiv.org/abs/1910.07931

вернуться

2279

Bao S., Chen B., He H., Tian X., Zhou H., Wang F., Wu H., Wang H., Wu W., Lin Y. (2021). A Unified Pre-training Framework for Conversational AI // https://arxiv.org/abs/2105.02482

вернуться

2280

Bao S., He H., Wang F., Wu H., Wang H., Wu W., Wu Z., Guo Z., Lu H., Huang X., Tian X., Xu X., Lin Y., Niu Z. (2021). PLATO-XL: Exploring the Large-scale Pre-training of Dialogue Generation // https://arxiv.org/abs/2109.09519

вернуться

2281

LMSYS (2023). Chatbot Arena Leaderboard Updates (Week 2) // https://lmsys.org/blog/2023-05-10-leaderboard/

вернуться

2282

Thoppilan R., Freitas D. D., Hall J., Shazeer N., Kulshreshtha A., Cheng H., Jin A., Bos T., Baker L., Du Y., Li Y., Lee H., Zheng H. S., Ghafouri A., Menegali M., Huang Y., Krikun M., Lepikhin D., Qin J., Chen D., Xu Y., Chen Z., Roberts A., Bosma M., Zhao V., Zhou Y., Chang C., Krivokon I., Rusch W., Pickett M., Srinivasan P., Man L., Meier-Hellstern K., Morris M. R., Doshi T., Santos R. D., Duke T., Soraker J., Zevenbergen B., Prabhakaran V., Diaz M., Hutchinson B., Olson K., Molina A., Hoffman-John E., Lee J., Aroyo L., Rajakumar R., Butryna A., Lamm M., Kuzmina V., Fenton J., Cohen A., Bernstein R., Kurzweil R., Aguera-Arcas B., Cui C., Croak M., Chi E., Le Q. (2022). LaMDA: Language Models for Dialog Applications // https://arxiv.org/abs/2201.08239

вернуться

2283

Askell A., Bai Y., Chen A., Drain D., Ganguli D., Henighan T., Jones A., Joseph N., Mann B., DasSarma N., Elhage N., Hatfield-Dodds Z., Hernandez D., Kernion J., Ndousse K., Olsson C., Amodei D., Brown T., Clark J., McCandlish S., Olah C., Kaplan J. (2021). A General Language Assistant as a Laboratory for Alignment // https://arxiv.org/abs/2112.00861

вернуться

2284

Nakano R., Hilton J., Balaji S., Wu J., Ouyang L., Kim C., Hesse C., Jain S., Kosaraju V., Saunders W., Jiang X., Cobbe K., Eloundou T., Krueger G., Button K., Knight M., Chess B., Schulman J. (2021). WebGPT: Browser-assisted question-answering with human feedback // https://arxiv.org/abs/2112.09332

вернуться

2285

Shaster K., Weston J. (2021). Blender Bot 2.0: An open source chatbot that builds long-term memory and searches the internet / Meta AI blog, July 16, 2021. // https://ai.meta.com/blog/blender-bot-2-an-open-source-chatbot-that-builds-long-term-memory-and-searches-the-internet/

вернуться

2286

Shuster K., Xu J., Komeili M., Ju D., Smith E. M., Roller S., Ung M., Chen M., Arora K., Lane J., Behrooz M., Ngan W., Poff S., Goyal N., Szlam A., Boureau Y., Kambadur M., Weston J. (2022). BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage // https://arxiv.org/abs/2208.03188

вернуться

2287

Glaese A., McAleese N., Trębacz M., Aslanides J., Firoiu V., Ewalds T., Rauh M., Weidinger L., Chadwick M., Thacker P., Campbell-Gillingham L., Uesato J., Huang P., Comanescu R., Yang F., See A., Dathathri S., Greig R., Chen C., Fritz D., Elias J. S., Green R., Mokrá S., Fernando N., Wu B., Foley R., Young S., Gabriel I., Isaac W., Mellor J., Hassabis D., Kavukcuoglu K., Hendricks L. A., Irving G. (2022). Improving alignment of dialogue agents via targeted human judgements // https://arxiv.org/abs/2209.14375

вернуться

2288

OpenAI (2022). Introducing ChatGPT / OpenAI blog, November 30, 2022. // https://openai.com/blog/chatgpt

вернуться

2289

Liu Y., Han T., Ma S., Zhang J., Yang Y., Tian J., He H., Li A., He M., Liu Z., Wu Z., Zhu D., Li X., Qiang N., Shen D., Liu T., Ge B. (2023). Summary of ChatGPT/GPT-4 Research and Perspective Towards the Future of Large Language Models // https://arxiv.org/abs/2304.01852

вернуться

2290

Brewster D. (1870). Letters on Natural Magic Addressed to Sir Walter Scott, Bart. Harper & brothers // https://books.google.ru/books?id=fftYAAAAYAAJ

вернуться

2291

Kempelen v. W. (1791). Wolfgangs von Kempelen k. k. wirklichen Hofraths Mechanismus der menschlichen Sprache: nebst der Beschreibung seiner sprechenden Maschine. J. V. Degen // https://books.google.ru/books/about/Wolfgangs_von_Kempelen_k_k_wirklichen_Ho.html?id=W75CAQAAMAAJ

вернуться

2292

Van Hal T. (2019). Early Modern Views on Language and Languages (ca. 1450—1800) / Oxford Research Encyclopaedia of Linguistics (2019). Oxford University Press, pp. 1—22 // https://doi.org/10.1093/acrefore/9780199384655.013.381

вернуться

2293

Broecke M. v. d., Heuven V. J. v., Zonneveld W. (2011). Sound Structures: Studies for Antonie Cohen. Walter de Gruyter // https://books.google.ru/books?id=rh5BKurBD0kC

236
{"b":"936964","o":1}