Также SuperGLUE содержит два диагностических набора задач. Первый из них аналогичен RTE и предназначен для анализа знаний моделей о языке и окружающем мире. Второй предназначен для анализа гендерных предубеждений, присущих моделям, и основан на датасете WinoGender (от Winograd schemas [схемы Винограда] и gender [гендер]). О каких проблемах идёт речь? Возможно, вы знаете классическую загадку: «Мужчина и его сын попадают в страшную автокатастрофу. Отец погибает, а мальчик тяжело ранен. В больнице хирург смотрит на пациента и восклицает: „Я не могу оперировать этого мальчика, он мой сын!“ Как это может быть?»
Большинство людей испытывает трудности с поиском правильного ответа на этот вопрос и начинает строить гипотезы, связанные с подменой детей в роддоме и тому подобное, хотя в действительности ответ прост: хирург — это мать мальчика. Такого рода затруднения свойственны не только людям, но и моделям, обученным на гендерно несбалансированных датасетах. В результате эти модели оказываются неспособны правильно разрешать кореферентности в некоторых ситуациях. Например, разработанная в Стэнфорде библиотека CoreNLP, использующая для разрешения кореферентности модель, основанную на правилах, оказалась не в состоянии найти кореферентность между словами her [её] и surgeon [хирург] во фразе: The surgeon couldn’t operate on her patient: it was her son [Хирургу нельзя было оперировать пациента: это был её сын][2196]. 5 января 2021 г. произошло знаковое событие: впервые в истории SuperGLUE моделям машинного обучения удалось потеснить человека[2197], [2198]. Этого добился ансамбль моделей T5 и Meena, разработанный специалистами Google Brain, который смог набрать в тестах 90,2 балла, что на 0,4 балла выше уровня, демонстрируемого на том же наборе тестов людьми. Но этому рекорду суждено было просуществовать всего один день, потому что уже 6 января на первое место в топ-листе взошла модель DeBERTa (Decoding-enhanced BERT with disentangled attention, BERT с улучшенным декодированием и распутанным вниманием)[2199], разработанная специалистами из Microsoft. В результате рекордный показатель вырос ещё на 0,1 балла. В июле 2021 г. команде исследователей из компании Baidu с моделью ERNIE 3.0 удалось улучшить этот результат до 90,6 балла[2200]. 2 декабря 2021 г. этот результат был улучшен до 90,9 балла командой исследователей из Microsoft с их моделью Turing NLR v5, однако этот рекорд просуществовал всего пять дней — уже 7 декабря исследователь Уильям Федус из Google смог улучшить его на 0,1 балла за счёт использования нейросетевой модели с архитектурой SS-MoE[2201]. В 2020 г. командой AGI NLP под руководством Татьяны Шавриной из «Сбера» был подготовлен и опубликован русскоязычный вариант SuperGLUE, получивший название Russian SuperGLUE[2202], [2203]. Этот датасет также состоит из восьми наборов задач, не считая диагностического набора LiDiRus (Linguistic Diagnostic for Russian, Лингвистическая диагностика для русского языка), который был получен путём адаптации диагностического набора английской версии SuperGLUE. 1. DaNetQA — набор вопросов на здравый смысл и знания об окружающем мире, подразумевающих ответ «да» или «нет» (набор не является прямым аналогом BoolQ и создан авторами Russian SuperGLUE с нуля). 2. RCB (Russian Commitment Bank, Русскоязычный банк убеждений) — классификация наличия причинно-следственных связей между текстом и некоторой гипотезой (также не является переводом англоязычной версии CommitmentBank и создан авторами Russian SuperGLUE на основе подборки новостей и художественной литературы). 3. PARus (Plausible Alternatives for Russian, Правдоподобные альтернативы для русского языка) — задачи на целеполагание, предполагающие выбор из альтернативных вариантов на основе здравого смысла (создан авторами Russian SuperGLUE на основе подборки новостей и художественной литературы из корпуса TAIGA[2204]). Напоминает MultiRC с той лишь разницей, что правильный ответ в списке только один. 4. MuSeRC (Multi-Sentence Reading Comprehension, Понимание прочитанного по нескольким предложениям) — задания содержат текст и вопрос к нему, ответ на который можно дать на основе этого текста. 5. RuCoS (Russian reading comprehension with Commonsense, Понимание прочитанного на основе здравого смысла для русского языка) — аналог ReCoRD, составленный на основе подборки статей с новостных сайтов. 6. TERRa (Textual Entailment Recognition for Russian, Распознавание текстуальной импликации для русского языка) — аналог RTE, созданный авторами Russian SuperGLUE на основе подборки новостей и художественной литературы. 7. RUSSE (Russian Semantic Evaluation, Оценка семантики для русского языка) — задачи распознавания смысла слова в контексте. Первая версия этого набора тестов (RUSSE’15)[2205] была разработана ещё в 2015 г., в состав же Russian SuperGLUE вошла его более современная версия[2206] — RUSSE’18. Его разработкой занималась большая группа исследователей из университетов и частных компаний. 8. RWSD (Russian Winograd Schema Dataset, Русскоязычный датасет схем Винограда) — переводной вариант датасета WSC. Первое место в таблице лидеров Russian SuperGLUE на сентябрь 2023 г. принадлежит людям (их результат оценивается в 0,811 балла), второе место (0,762 балла) занимает трансформерная модель FRED-T5 (о ней мы расскажем несколько позже), а третье — ансамбль трансформерных моделей под названием Golden Transformer v2.0 (0,755 балла)[2207]. Помимо русскоязычного варианта SuperGLUE, в настоящее время созданы французский (FLUE)[2208], китайский (CLUE)[2209] и польский (KLEJ)[2210] аналоги этого теста. Также исследователи разработали датасеты XGLUE (Cross-lingual GLUE, Межъязыковой GLUE)[2211] и XTREME (Cross-lingual TRansfer Evaluation of Multilingual Encoders, Межъязыковая оценка переноса для многоязычных кодировщиков)[2212], ориентированные на многоязычные модели. Сверхчеловеческий уровень понимания естественного языка, демонстрируемый моделями машинного обучения в тестах, подобных SuperGLUE, пока что вызывает некоторые вопросы. Например, Татьяна Шаврина и Валентин Малых обращают внимание на то, что метрики, положенные в основу SuperGLUE, несовершенны — арифметическое усреднение результатов, полученных моделями в разных типах тестов, приводит к заметной переоценке возможностей моделей, и в действительности люди всё же пока что понимают естественный язык лучше машин[2213]. Поэтому не исключено, что в ближайшее время наборы тестов будут подвергнуты очередному пересмотру — за счёт добавления новых, более сложных заданий, а также за счёт улучшения самих способов оценки результатов.
Впрочем, некоторые виды задач на понимание естественного языка пока что являются довольно сложными даже для лучших нейросетевых моделей. Например, созданный ещё в 2020 г. набор тестов MMLU (Massive Multitask Language Understanding, Массовое мультизадачное понимание языка), охватывающий 57 типов заданий (задачи из области арифметики, информатики, юриспруденции, истории США и т. д.), всё ещё остаётся крепким орешком. Лучший результат здесь демонстрирует GPT-4 с 86,4% правильных ответов — что пока не дотягивает до уровня людей-экспертов с результатом в 89,8%[2214], [2215]. Впрочем, последние исследования показывают, что при помощи некоторых алгоритмических трюков можно получить практически «бесплатную» прибавку в несколько процентных пунктов к результатам лучших моделей, а также что в самом наборе тестов есть некоторое количество дефектов и ошибок[2216]. вернуться Rudinger R., Naradowsky J., Leonard B., Durme B. V. (2018). Gender Bias in Coreference Resolution // https://arxiv.org/abs/1804.09301 вернуться * Здесь мы сознательно не углубляемся в вопрос, какие именно люди включаются в контрольную группу для оценки способности человека решать те или иные задачи, связанные с пониманием естественного языка (да и вообще любые другие интеллектуальные задачи в ситуациях, когда мы хотим сравнить способности машин и людей). Очевидно, что в идеале состав контрольной группы должен быть достаточно репрезентативным: включать в себя людей с разным уровнем образования, с разными профессиями, принадлежащих к разным социальным группам и культурным общностям. На практике, конечно, формируемые исследователями контрольные группы весьма далеки от идеала. Анализу этой проблемы посвящена весьма поучительная работа исследователей из Гарвардского университета под красноречивым названием «Какие люди?» [Which humans?]. вернуться Atari M., Xue M. J., Park P. S., Blasi D., Henrich J. (2023). Which humans? // https://doi.org/10.31234/osf.io/5b26t вернуться He P., Liu X., Gao J., Chen W. (2021). DeBERTa: Decoding-enhanced BERT with Disentangled Attention // https://paperswithcode.com/paper/deberta-decoding-enhanced-bert-with вернуться Sun Y., Wang S., Feng S., Ding S., Pang C., Shang J., Liu J., Chen X., Zhao Y., Lu Y., Liu W., Wu Z., Gong W., Liang J., Shang Z., Sun P., Liu W., Ouyang X., Yu D., Tian H., Wu H., Wang H. (2021). ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation // https://arxiv.org/abs/2107.02137 вернуться SuperGLUE leaderboard, Retreived 2022-01-31 // https://super.gluebenchmark.com/leaderboard/ вернуться Shavrina T., Fenogenova A., Emelyanov A., Shevelev D., Artemova E., Malykh V., Mikhailov V., Tikhonova M., Chertok A., Evlampiev A. (2020). RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark // https://arxiv.org/abs/2010.15925 вернуться Шаврина Т. (2020). Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей / Хабр, 10 июня // https://habr.com/ru/company/sberbank/blog/506058/ вернуться Shavrina T., Shapovalova O. (2017). To the methodology of corpus construction for machine learning: «TAIGA» syntax tree corpus and parser / Proceedings of CORPORA2017 international conference, Saint-Petersbourg, 2017 // https://publications.hse.ru/en/chapters/228708483 вернуться Panchenko A., Loukachevitch N. V., Ustalov D., Paperno D., Meyer C. M., Konstantinova N. (2018). RUSSE: The First Workshop on Russian Semantic Similarity / Proceeding of the International Conference on Computational Linguistics DIALOGUE 2015, pp. 89—105 // https://arxiv.org/abs/1803.05820 вернуться Panchenko A., Lopukhina A., Ustalov D., Lopukhin K., Arefyev N., Leontyev A., Loukachevitch N. (2018). RUSSE’2018: a Shared Task on Word Sense Induction for the Russian Language / https://arxiv.org/abs/1803.05795 вернуться RussianSuperGLUE leaderboard, Retreived 2022-01-31 // https://russiansuperglue.com/leaderboard/2 вернуться Le H., Vial L., Frej J., Segonne V., Coavoux M., Lecouteux B., Allauzen A., Crabbé B., Besacier L., Schwab D. (2019). FlauBERT: Unsupervised Language Model Pre-training for French // https://arxiv.org/abs/1912.05372 вернуться Xu L., Hu H., Zhang X., Li L., Cao C., Li Y., Xu Y., Sun K., Yu D., Yu C., Tian Y., Dong Q., Liu W., Shi B., Cui Y., Li J., Zeng J., Wang R., Xie W., Li Y., Patterson Y., Tian Z., Zhang Y., Zhou H., Liu S., Zhao Z., Zhao Q., Yue C., Zhang X., Yang Z., Richardson K., Lan Z. (2020). CLUE: A Chinese Language Understanding Evaluation Benchmark // https://arxiv.org/abs/2004.05986 вернуться Rybak P., Mroczkowski R., Tracz J., Gawlik I. (2020). KLEJ: Comprehensive Benchmark for Polish Language Understanding // https://arxiv.org/abs/2005.00630 вернуться Liang Y., Duan N., Gong Y., Wu N., Guo F., Qi W., Gong M., Shou L., Jiang D., Cao G., Fan X., Zhang R., Agrawal R., Cui E., Wei S., Bharti T., Qiao Y., Chen J.-H., Wu W., Liu S., Yang F., Campos D., Majumder R., Zhou M. (2020). XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation // https://arxiv.org/abs/2004.01401 вернуться Hu J., Ruder S., Siddhant A., Neubig G., Firat O., Johnson M. (2020). XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization // https://arxiv.org/abs/2003.11080 вернуться Shavrina T., Malykh V. (2021). How not to Lie with a Benchmark: Rearranging NLP Leaderboards // https://arxiv.org/abs/2112.01342 вернуться Hendrycks D., Burns C., Basart S., Zou A., Mazeika M., Song D., Steinhardt J. (2020). Measuring Massive Multitask Language Understanding // https://arxiv.org/abs/2009.03300 вернуться OpenAI (2023). GPT-4 Technical Report // https://arxiv.org/abs/2303.08774 вернуться AI Explained (2023). SmartGPT: Major Benchmark Broken - 89.0% on MMLU + Exam's Many Errors / YouTube, 28.08.2023 // https://www.youtube.com/watch?v=hVade_8H8mE |