В середине 2022 г. благодаря невиданной доселе коллаборации учёных (442 автора из 132 научных коллективов) свет увидел самый большой набор тестов для исследования возможностей генеративных языковых моделей. Он описан в статье «За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей» [Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models][2217] и включает в себя 204 различных типа задач. Набор получил название BIG-bench не только из-за своего размера. Слово BIG в данном случае является аббревиатурой от Beyond the Imitation Game [За пределами игры в имитацию], что отсылает нас к тесту Тьюринга и намекает на то, что данный набор тестов является результатом развития методологии, предложенной Тьюрингом.
Результаты тестирования современных моделей машинного обучения на этом наборе тестов показывают, что, хотя прогресс в последние годы очень значителен, сохраняется множество задач, в которых люди пока что уверенно превосходят даже самые совершенные нейросети. При этом если существующие темпы роста возможностей моделей будут сохраняться до конца 2020-х гг., то этот разрыв, скорее всего, будет ликвидирован. Авторы ещё одной коллекции тестов для больших языковых моделей — HELM (Holistic Evaluation of Language Models, Комплексная оценка языковых моделей) — делают ставку на развитую систему классификации тестовых заданий (по годам создания, языкам, типам решаемых задач и методологиям оценки). Кроме того, они используют для оценки ответов моделей целых семь показателей: точность [accuracy], калибровку [calibration], устойчивость [robustness], справедливость [fairness], предвзятость [bias], токсичность [toxicity] и эффективность [efficiency]. Всё это позволяет авторам агрегатора тестов производить оценку языковых моделей в зависимости от сценариев их предполагаемого использования[2218]. Другое направление развития таких тестов — добавление дополнительных модальностей, например зрительной. Одним из хорошо зарекомендовавших себя видов такого рода заданий является ответ на вопросы, заданные к некоторой картинке. Например, к фотографии пиццы можно задать вопросы: «На сколько кусков нарезана эта пицца?» или «Является ли эта пицца вегетарианской?» В научной литературе такой тип заданий обычно именуется «ответом на визуальные вопросы» (Visual Question Answering, VQA)[2219]. Если посмотреть на таблицу лидеров для задачи VQA, основанную на популярном датасете COCO (Common Objects in COntext, Обычные объекты в контексте), то в ней всё ещё лидируют люди: трансформерная модель VLMo (Vision-Language pretrained Model, Предобученная модель «зрение — язык»)[2220] демонстрирует точность ответов, равную 81,3%, при 83% у людей[2221]. Справедливости ради стоит отметить, что за 2021 г. моделям удалось прибавить почти четыре процентных пункта, поэтому и здесь торжество ИИ не за горами. Впрочем, создатели сложных автоматизированных тестов не отчаиваются: в начале 2022 г. они порадовали научное сообщество новым многоязычным набором сложных заданий, получившим название IGLUE (Image-Grounded Language Understanding Evaluation, Базирующаяся на изображениях оценка понимания языка)[2222]. Постепенное усложнение автоматизированных тестов должно помочь исследователям в деле создания новых, ещё более эффективных моделей для решения задач обработки естественного языка. 6.3.4 Современные чат-боты и прогнозы Тьюринга 6.3.4.1 Успехи чат-ботов — отличаем правду от вымысла В наши дни трудно найти человека, который никогда не сталкивался бы в своей жизни с диалоговыми (разговорными) моделями ИИ, ведь именно такие модели являются «сердцами» современных чат-ботов. Справочный бот на сайте интернет-магазина, робот-оператор колл-центра банка, режим «болталки» в виртуальном ассистенте, рекламный бот в социальной сети — всё это олицетворения диалоговых моделей. Некоторые из этих моделей не сложнее Элизы или Перри, а некоторые основаны на трансформерах и других современных нейросетевых моделях. Прогресс в области создания диалоговых моделей за последнее десятилетие действительно велик. Нередко пресса всерьёз заявляет о том, что тому или иному чат-боту удалось пройти тест Тьюринга[2223], [2224], чем вызывает[2225], [2226] нехилый баттхёрт у специалистов по ИИ и машинному обучению. Под влиянием подобных заявлений прессы периодически выдвигаются предложения о замене «устаревшего» теста Тьюринга на какую-либо более стильную и молодёжную процедуру. Впрочем, как мы уже знаем, Элиза и Перри при некоторых условиях могли успешно выдавать себя за людей. Может быть, тест Тьюринга был пройден ещё в 1960-е или 1970-е гг.? Сам Тьюринг предполагал, что примерно к 2000 г. появятся компьютерные программы, использующие 109 битов памяти и достаточно продвинутые, чтобы среднестатистический опрашивающий после пяти минут опроса «имел не более 70% шансов» угадать, разговаривает ли он с человеком или с машиной[2227]. Насколько верным оказался этот прогноз? Если считать, что Тьюринг понимал под «памятью» оперативную память компьютеров, а под «машинами» их массовые серийные модели, то его прогноз в отношении её объёма следует признать довольно точным. Действительно, в начале 2000-х гг. компьютер с процессором Pentium IV и объёмом оперативной памяти 128 Мб (что близко к 109 битов) был довольно типичной персоналкой. Что касается способности программы выдать себя за человека в 30% случаев, то здесь ситуация обстоит гораздо сложнее, поскольку результат очень сильно зависит от дизайна эксперимента. Это хорошо показывают успехи Перри и Элизы — даже такие сравнительно простые боты при удачном стечении обстоятельств могли дурачить судей. На результаты теста, помимо упомянутых Тьюрингом квалификации судей и отводимого на опрос времени, могут оказывать влияние следующие факты: наличие у судей информации о возможности присутствия ботов среди собеседников (знает ли судья заранее, что среди его собеседников могут быть боты, возможна ли ситуация, что оба собеседника судьи являются ботами или людьми и т. д.), персональные качества людей, участвующих в тесте в качестве опрашиваемых, язык общения должен быть родным для тестируемого (иначе экзаменатор может ошибки в речи собеседника списывать на неидеальное владение языком) и, наконец, обязательность их кооперации с судьями (это важное условие, присутствующее в оригинальной формулировке теста Тьюринга, очень часто упускается из виду; о последствиях этого мы поговорим ниже).
Если временно отвлечься от этих непростых вопросов и ориентироваться только на сообщения прессы, то ситуация будет выглядеть следующим образом. В 2014 г. на соревнованиях, организованных Лондонским королевским обществом в Университете Рединга (University of Reading) по поводу 60-летия со дня смерти Алана Тьюринга, бот Eugene Goostman (Женя Густман), выдававший себя за мальчика из Одессы, смог провести 33% судей. Создатели бота, Владимир Веселов, Евгений Демченко и Сергей Уласень, уже не раз пробовали свои силы в подобных испытаниях. Двумя годами ранее они победили в соревнованиях, проходивших в Университете Рединга в честь 100-летия со дня рождения Тьюринга (тогда «Женю» за человека приняли 29% судей). Кроме того, в 2001, 2005 и 2008 гг. Eugene Goostman участвовал в конкурсе AI Loebner на соискание премии Лёбнера (Loebner Prize)[2228]. вернуться Srivastava A., Rastogi A., Rao A., Shoeb A. A. M., Abid A., Fisch A., Brown A. R., Santoro A., Gupta A., Garriga-Alonso A., Kluska A., Lewkowycz A., Agarwal A., Power A., Ray A., Warstadt A., Kocurek A. W., Safaya A., Tazarv A., Xiang A., Parrish A., Nie A., Hussain A., Askell A., Dsouza A., Slone A., Rahane A., Iyer A. S., Andreassen A., Madotto A., Santilli A., Stuhlmüller A., Dai A., La A., Lampinen A., Zou A., Jiang A., Chen A., Vuong A., Gupta A., Gottardi A., Norelli A., Venkatesh A., Gholamidavoodi A., Tabassum A., Menezes A., Kirubarajan A., Mullokandov A., Sabharwal A., Herrick A., Efrat A., Erdem A., Karakaş A., Roberts B. R., Loe B. S., Zoph B., Bojanowski B., Özyurt B., Hedayatnia B., Neyshabur B., Inden B., Stein B., Ekmekci B., Lin B. Y., Howald B., Orinion B., Diao C., Dour C., Stinson C., Argueta C., Ramírez C. F., Singh C., Rathkopf C., Meng C., Baral C., Wu C., Callison-Burch C., Waites C., Voigt C., Manning C. D., Potts C., Ramirez C., Rivera C. E., Siro C., Raffel C., Ashcraft C., Garbacea C., Sileo D., Garrette D., Hendrycks D., Kilman D., Roth D., Freeman D., Khashabi D., Levy D., González D. M., Perszyk D., Hernandez D., Chen D., Ippolito D., Gilboa D., Dohan D., Drakard D., Jurgens D., Datta D., Ganguli D., Emelin D., Kleyko D., Yuret D., Chen D., Tam D., Hupkes D., Misra D., Buzan D., Mollo D. C., Yang D., Lee D.-H., Schrader D., Shutova E., Cubuk E. D., Segal E., Hagerman E., Barnes E., Donoway E., Pavlick E., Rodola E., Lam E., Chu E., Tang E., Erdem E., Chang E., Chi E. A., Dyer E., Jerzak E., Kim E., Manyasi E. E., Zheltonozhskii E., Xia F., Siar F., Martínez-Plumed F., Happé F., Chollet F., Rong F., Mishra G., Winata G. I., de Melo G., Kruszewski G., Parascandolo G., Mariani G., Wang G., Jaimovitch-López G., Betz G., Gur-Ari G., Galijasevic H., Kim H., Rashkin H., Hajishirzi H., Mehta H., Bogar H., Shevlin H., Schütze H., Yakura H., Zhang H., Wong H. M., Ng I., Noble I., Jumelet J., Geissinger J., Kernion J., Hilton J., Lee J., Fisac J. F., Simon J. B., Koppel J., Zheng J., Zou J., Kocoń J., Thompson J., Wingfield J., Kaplan J., Radom J., Sohl-Dickstein J., Phang J., Wei J., Yosinski J., Novikova J., Bosscher J., Marsh J., Kim J., Taal J., Engel J., Alabi J., Xu J., Song J., Tang J., Waweru J., Burden J., Miller J., Balis J. U., Batchelder J., Berant J., Frohberg J., Rozen J., Hernandez-Orallo J., Boudeman J., Guerr J., Jones J., Tenenbaum J. B., Rule J. S., Chua J., Kanclerz K., Livescu K., Krauth K., Gopalakrishnan K., Ignatyeva K., Markert K., Dhole K. D., Gimpel K., Omondi K., Mathewson K., Chiafullo K., Shkaruta K., Shridhar K., McDonell K., Richardson K., Reynolds L., Gao L., Zhang L., Dugan L., Qin L., Contreras-Ochando L., Morency L.-P., Moschella L., Lam L., Noble L., Schmidt L., He L., Colón L. O., Metz L., Şenel L. K., Bosma M., Sap M., ter Hoeve M., Farooqi M., Faruqui M., Mazeika M., Baturan M., Marelli M., Maru M., Quintana M. J. R., Tolkiehn M., Giulianelli M., Lewis M., Potthast M., Leavitt M. L., Hagen M., Schubert M., Baitemirova M. O., Arnaud M., McElrath M., Yee M. A., Cohen M., Gu M., Ivanitskiy M., Starritt M., Strube M., Swędrowski M., Bevilacqua M., Yasunaga M., Kale M., Cain M., Xu M., Suzgun M., Walker M., Tiwari M., Bansal M., Aminnaseri M., Geva M., Gheini M., Varma T M., Peng N., Chi N. A., Lee N., Krakover N. G.-A., Cameron N., Roberts N., Doiron N., Martinez N., Nangia N., Deckers N., Muennighoff N., Keskar N. S., Iyer N. S., Constant N., Fiedel N., Wen N., Zhang O., Agha O., Elbaghdadi O., Levy O., Evans O., Casares P. A. M., Doshi P., Fung P., Liang P. P., Vicol P., Alipoormolabashi P., Liao P., Liang P., Chang P., Eckersley P., Htut P. M., Hwang P., Miłkowski P., Patil P., Pezeshkpour P., Oli P., Mei Q., Lyu Q., Chen Q., Banjade R., Rudolph R. E., Gabriel R., Habacker R., Risco R., Millière R., Garg R., Barnes R., Saurous R. A., Arakawa R., Raymaekers R., Frank R., Sikand R., Novak R., Sitelew R., LeBras R., Liu R., Jacobs R., Zhang R., Salakhutdinov R., Chi R., Lee R., Stovall R., Teehan R., Yang R., Singh S., Mohammad S. M., Anand S., Dillavou S., Shleifer S., Wiseman S., Gruetter S., Bowman S. R., Schoenholz S. S., Han S., Kwatra S., Rous S. A., Ghazarian S., Ghosh S., Casey S., Bischoff S., Gehrmann S., Schuster S., Sadeghi S., Hamdan S., Zhou S., Srivastava S., Shi S., Singh S., Asaadi S., Gu S. S., Pachchigar S., Toshniwal S., Upadhyay S., Debnath S., Shakeri S., Thormeyer S., Melzi S., Reddy S., Makini S. P., Lee S.-H., Torene S., Hatwar S., Dehaene S., Divic S., Ermon S., Biderman S., Lin S., Prasad S., Piantadosi S. T., Shieber S. M., Misherghi S., Kiritchenko S., Mishra S., Linzen T., Schuster T., Li T., Yu T., Ali T., Hashimoto T., Wu T.-L., Desbordes T., Rothschild T., Phan T., Wang T., Nkinyili T., Schick T., Kornev T., Tunduny T., Gerstenberg T., Chang T., Neeraj T., Khot T., Shultz T., Shaham U., Misra V., Demberg V., Nyamai V., Raunak V., Ramasesh V., Prabhu V. U., Padmakumar V., Srikumar V., Fedus W., Saunders W., Zhang W., Vossen W., Ren X., Tong X., Zhao X., Wu X., Shen X., Yaghoobzadeh Y., Lakretz Y., Song Y., Bahri Y., Choi Y., Yang Y., Hao Y., Chen Y., Belinkov Y., Hou Y., Hou Y., Bai Y., Seid Z., Zhao Z., Wang Z., Wang Z. J., Wang Z., Wu Z. (2022). Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models // https://arxiv.org/abs/2206.04615 вернуться Liang P., Bommasani R., Lee T., Tsipras D., Soylu D., Yasunaga M., Zhang Y., Narayanan D., Wu Y., Kumar A., Newman B., Yuan B., Yan B., Zhang C., Cosgrove C., Manning C. D., Ré C., Acosta-Navas D., Hudson D. A., Zelikman E., Durmus E., Ladhak F., Rong F., Ren H., Yao H., Wang J., Santhanam K., Orr L., Zheng L., Yuksekgonul M., Suzgun M., Kim N., Guha N., Chatterji N., Khattab O., Henderson P., Huang Q., Chi R., Xie S. M., Santurkar S., Ganguli S., Hashimoto T., Icard T., Zhang T., Chaudhary V., Wang W., Li X., Mai Y., Zhang Y., Koreeda Y. (2022). Holistic Evaluation of Language Models // https://arxiv.org/abs/2211.09110 вернуться Goyal Y., Khot T., Summers-Stay D., Batra D., Parikh D. (2016). Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering // https://arxiv.org/abs/1612.00837 вернуться Wang W., Bao H., Dong L., Wei F. (2021). VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts // https://arxiv.org/abs/2111.02358 вернуться Shrivastava A., Goyal Y., Batra D., Parikh D., Agrawal A. (2021). Welcome to the VQA Challenge 2021! / Visual Question Answering // https://visualqa.org/challenge.html вернуться Bugliarello E., Liu F., Pfeiffer J., Reddy S., Elliott D., Ponti E. M., Vulić I. (2021). IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages / https://arxiv.org/abs/2201.11732 вернуться Schofield J. (2014). Computer chatbot 'Eugene Goostman' passes the Turing test / ZDNet, 8 June 2014 // https://www.zdnet.com/article/computer-chatbot-eugene-goostman-passes-the-turing-test/ вернуться Котляр П. (2014). Мальчик Женя из Одессы одолел Тьюринга. Компьютерная программа впервые в истории прошла знаменитый тест Тьюринга на человечность / газета.ru, 09.06.2014 // https://www.gazeta.ru/science/2014/06/09_a_6064069.shtml вернуться Masnick M. (2014). No, A 'Supercomputer' Did NOT Pass The Turing Test For The First Time And Everyone Should Know Better / techdirt, Jun 9th 2014 // https://www.techdirt.com/articles/20140609/07284327524/no-computer-did-not-pass-turing-test-first-time-everyone-should-know-better.shtml вернуться Mann A. (2014). That Computer Actually Got an F on the Turing Test / Wired, 06.09.14 // https://www.wired.com/2014/06/turing-test-not-so-fast/ вернуться Turing A. M. (1950). Computing Machinery and Intelligence / Mind, Vol. LIX, Iss. 236, October 1950, pp. 433—460 // https://doi.org/10.1093/mind/LIX.236.433 вернуться Schofield J. (2014). Computer chatbot 'Eugene Goostman' passes the Turing test / ZDNet, 8 June 2014 // https://www.zdnet.com/article/computer-chatbot-eugene-goostman-passes-the-turing-test/ |