Литмир - Электронная Библиотека
Содержание  
A
A

Также SuperGLUE содержит два диагностических набора задач. Первый из них аналогичен RTE и предназначен для анализа знаний моделей о языке и окружающем мире. Второй предназначен для анализа гендерных предубеждений, присущих моделям, и основан на датасете WinoGender (от Winograd schemas [схемы Винограда] и gender [гендер]). О каких проблемах идёт речь? Возможно, вы знаете классическую загадку: «Мужчина и его сын попадают в страшную автокатастрофу. Отец погибает, а мальчик тяжело ранен. В больнице хирург смотрит на пациента и восклицает: „Я не могу оперировать этого мальчика, он мой сын!Как это может быть?»

Большинство людей испытывает трудности с поиском правильного ответа на этот вопрос и начинает строить гипотезы, связанные с подменой детей в роддоме и тому подобное, хотя в действительности ответ прост: хирург — это мать мальчика. Такого рода затруднения свойственны не только людям, но и моделям, обученным на гендерно несбалансированных датасетах. В результате эти модели оказываются неспособны правильно разрешать кореферентности в некоторых ситуациях. Например, разработанная в Стэнфорде библиотека CoreNLP, использующая для разрешения кореферентности модель, основанную на правилах, оказалась не в состоянии найти кореферентность между словами her [её] и surgeon [хирург] во фразе: The surgeon couldn’t operate on her patient: it was her son [Хирургу нельзя было оперировать пациента: это был её сын][2196].

5 января 2021 г. произошло знаковое событие: впервые в истории SuperGLUE моделям машинного обучения удалось потеснить человека[2197], [2198]. Этого добился ансамбль моделей T5 и Meena, разработанный специалистами Google Brain, который смог набрать в тестах 90,2 балла, что на 0,4 балла выше уровня, демонстрируемого на том же наборе тестов людьми. Но этому рекорду суждено было просуществовать всего один день, потому что уже 6 января на первое место в топ-листе взошла модель DeBERTa (Decoding-enhanced BERT with disentangled attention, BERT с улучшенным декодированием и распутанным вниманием)[2199], разработанная специалистами из Microsoft. В результате рекордный показатель вырос ещё на 0,1 балла. В июле 2021 г. команде исследователей из компании Baidu с моделью ERNIE 3.0 удалось улучшить этот результат до 90,6 балла[2200]. 2 декабря 2021 г. этот результат был улучшен до 90,9 балла командой исследователей из Microsoft с их моделью Turing NLR v5, однако этот рекорд просуществовал всего пять дней — уже 7 декабря исследователь Уильям Федус из Google смог улучшить его на 0,1 балла за счёт использования нейросетевой модели с архитектурой SS-MoE[2201].

В 2020 г. командой AGI NLP под руководством Татьяны Шавриной из «Сбера» был подготовлен и опубликован русскоязычный вариант SuperGLUE, получивший название Russian SuperGLUE[2202], [2203].

Этот датасет также состоит из восьми наборов задач, не считая диагностического набора LiDiRus (Linguistic Diagnostic for Russian, Лингвистическая диагностика для русского языка), который был получен путём адаптации диагностического набора английской версии SuperGLUE.

1. DaNetQA — набор вопросов на здравый смысл и знания об окружающем мире, подразумевающих ответ «да» или «нет» (набор не является прямым аналогом BoolQ и создан авторами Russian SuperGLUE с нуля).

2. RCB (Russian Commitment Bank, Русскоязычный банк убеждений) — классификация наличия причинно-следственных связей между текстом и некоторой гипотезой (также не является переводом англоязычной версии CommitmentBank и создан авторами Russian SuperGLUE на основе подборки новостей и художественной литературы).

3. PARus (Plausible Alternatives for Russian, Правдоподобные альтернативы для русского языка) — задачи на целеполагание, предполагающие выбор из альтернативных вариантов на основе здравого смысла (создан авторами Russian SuperGLUE на основе подборки новостей и художественной литературы из корпуса TAIGA[2204]). Напоминает MultiRC с той лишь разницей, что правильный ответ в списке только один.

4. MuSeRC (Multi-Sentence Reading Comprehension, Понимание прочитанного по нескольким предложениям) — задания содержат текст и вопрос к нему, ответ на который можно дать на основе этого текста.

5. RuCoS (Russian reading comprehension with Commonsense, Понимание прочитанного на основе здравого смысла для русского языка) — аналог ReCoRD, составленный на основе подборки статей с новостных сайтов.

6. TERRa (Textual Entailment Recognition for Russian, Распознавание текстуальной импликации для русского языка) — аналог RTE, созданный авторами Russian SuperGLUE на основе подборки новостей и художественной литературы.

7. RUSSE (Russian Semantic Evaluation, Оценка семантики для русского языка) — задачи распознавания смысла слова в контексте. Первая версия этого набора тестов (RUSSE’15)[2205] была разработана ещё в 2015 г., в состав же Russian SuperGLUE вошла его более современная версия[2206] — RUSSE’18. Его разработкой занималась большая группа исследователей из университетов и частных компаний.

8. RWSD (Russian Winograd Schema Dataset, Русскоязычный датасет схем Винограда) — переводной вариант датасета WSC.

Первое место в таблице лидеров Russian SuperGLUE на сентябрь 2023 г. принадлежит людям (их результат оценивается в 0,811 балла), второе место (0,762 балла) занимает трансформерная модель FRED-T5 (о ней мы расскажем несколько позже), а третье — ансамбль трансформерных моделей под названием Golden Transformer v2.0 (0,755 балла)[2207].

Помимо русскоязычного варианта SuperGLUE, в настоящее время созданы французский (FLUE)[2208], китайский (CLUE)[2209] и польский (KLEJ)[2210] аналоги этого теста. Также исследователи разработали датасеты XGLUE (Cross-lingual GLUE, Межъязыковой GLUE)[2211] и XTREME (Cross-lingual TRansfer Evaluation of Multilingual Encoders, Межъязыковая оценка переноса для многоязычных кодировщиков)[2212], ориентированные на многоязычные модели.

Сверхчеловеческий уровень понимания естественного языка, демонстрируемый моделями машинного обучения в тестах, подобных SuperGLUE, пока что вызывает некоторые вопросы. Например, Татьяна Шаврина и Валентин Малых обращают внимание на то, что метрики, положенные в основу SuperGLUE, несовершенны — арифметическое усреднение результатов, полученных моделями в разных типах тестов, приводит к заметной переоценке возможностей моделей, и в действительности люди всё же пока что понимают естественный язык лучше машин[2213]. Поэтому не исключено, что в ближайшее время наборы тестов будут подвергнуты очередному пересмотру — за счёт добавления новых, более сложных заданий, а также за счёт улучшения самих способов оценки результатов.

Впрочем, некоторые виды задач на понимание естественного языка пока что являются довольно сложными даже для лучших нейросетевых моделей. Например, созданный ещё в 2020 г. набор тестов MMLU (Massive Multitask Language Understanding, Массовое мультизадачное понимание языка), охватывающий 57 типов заданий (задачи из области арифметики, информатики, юриспруденции, истории США и т. д.), всё ещё остаётся крепким орешком. Лучший результат здесь демонстрирует GPT-4 с 86,4% правильных ответов — что пока не дотягивает до уровня людей-экспертов с результатом в 89,8%[2214], [2215]. Впрочем, последние исследования показывают, что при помощи некоторых алгоритмических трюков можно получить практически «бесплатную» прибавку в несколько процентных пунктов к результатам лучших моделей, а также что в самом наборе тестов есть некоторое количество дефектов и ошибок[2216].

вернуться

2196

Rudinger R., Naradowsky J., Leonard B., Durme B. V. (2018). Gender Bias in Coreference Resolution // https://arxiv.org/abs/1804.09301

вернуться

2197

* Здесь мы сознательно не углубляемся в вопрос, какие именно люди включаются в контрольную группу для оценки способности человека решать те или иные задачи, связанные с пониманием естественного языка (да и вообще любые другие интеллектуальные задачи в ситуациях, когда мы хотим сравнить способности машин и людей). Очевидно, что в идеале состав контрольной группы должен быть достаточно репрезентативным: включать в себя людей с разным уровнем образования, с разными профессиями, принадлежащих к разным социальным группам и культурным общностям. На практике, конечно, формируемые исследователями контрольные группы весьма далеки от идеала. Анализу этой проблемы посвящена весьма поучительная работа исследователей из Гарвардского университета под красноречивым названием «Какие люди?» [Which humans?].

вернуться

2198

Atari M., Xue M. J., Park P. S., Blasi D., Henrich J. (2023). Which humans? // https://doi.org/10.31234/osf.io/5b26t

вернуться

2199

He P., Liu X., Gao J., Chen W. (2021). DeBERTa: Decoding-enhanced BERT with Disentangled Attention // https://paperswithcode.com/paper/deberta-decoding-enhanced-bert-with

вернуться

2200

Sun Y., Wang S., Feng S., Ding S., Pang C., Shang J., Liu J., Chen X., Zhao Y., Lu Y., Liu W., Wu Z., Gong W., Liang J., Shang Z., Sun P., Liu W., Ouyang X., Yu D., Tian H., Wu H., Wang H. (2021). ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation // https://arxiv.org/abs/2107.02137

вернуться

2201

SuperGLUE leaderboard, Retreived 2022-01-31 // https://super.gluebenchmark.com/leaderboard/

вернуться

2202

Shavrina T., Fenogenova A., Emelyanov A., Shevelev D., Artemova E., Malykh V., Mikhailov V., Tikhonova M., Chertok A., Evlampiev A. (2020). RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark // https://arxiv.org/abs/2010.15925

вернуться

2203

Шаврина Т. (2020). Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей / Хабр, 10 июня // https://habr.com/ru/company/sberbank/blog/506058/

вернуться

2204

Shavrina T., Shapovalova O. (2017). To the methodology of corpus construction for machine learning: «TAIGA» syntax tree corpus and parser / Proceedings of CORPORA2017 international conference, Saint-Petersbourg, 2017 // https://publications.hse.ru/en/chapters/228708483

вернуться

2205

Panchenko A., Loukachevitch N. V., Ustalov D., Paperno D., Meyer C. M., Konstantinova N. (2018). RUSSE: The First Workshop on Russian Semantic Similarity / Proceeding of the International Conference on Computational Linguistics DIALOGUE 2015, pp. 89—105 // https://arxiv.org/abs/1803.05820

вернуться

2206

Panchenko A., Lopukhina A., Ustalov D., Lopukhin K., Arefyev N., Leontyev A., Loukachevitch N. (2018). RUSSE’2018: a Shared Task on Word Sense Induction for the Russian Language / https://arxiv.org/abs/1803.05795

вернуться

2207

RussianSuperGLUE leaderboard, Retreived 2022-01-31 // https://russiansuperglue.com/leaderboard/2

вернуться

2208

Le H., Vial L., Frej J., Segonne V., Coavoux M., Lecouteux B., Allauzen A., Crabbé B., Besacier L., Schwab D. (2019). FlauBERT: Unsupervised Language Model Pre-training for French // https://arxiv.org/abs/1912.05372

вернуться

2209

Xu L., Hu H., Zhang X., Li L., Cao C., Li Y., Xu Y., Sun K., Yu D., Yu C., Tian Y., Dong Q., Liu W., Shi B., Cui Y., Li J., Zeng J., Wang R., Xie W., Li Y., Patterson Y., Tian Z., Zhang Y., Zhou H., Liu S., Zhao Z., Zhao Q., Yue C., Zhang X., Yang Z., Richardson K., Lan Z. (2020). CLUE: A Chinese Language Understanding Evaluation Benchmark // https://arxiv.org/abs/2004.05986

вернуться

2210

Rybak P., Mroczkowski R., Tracz J., Gawlik I. (2020). KLEJ: Comprehensive Benchmark for Polish Language Understanding // https://arxiv.org/abs/2005.00630

вернуться

2211

Liang Y., Duan N., Gong Y., Wu N., Guo F., Qi W., Gong M., Shou L., Jiang D., Cao G., Fan X., Zhang R., Agrawal R., Cui E., Wei S., Bharti T., Qiao Y., Chen J.-H., Wu W., Liu S., Yang F., Campos D., Majumder R., Zhou M. (2020). XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation // https://arxiv.org/abs/2004.01401

вернуться

2212

Hu J., Ruder S., Siddhant A., Neubig G., Firat O., Johnson M. (2020). XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization // https://arxiv.org/abs/2003.11080

вернуться

2213

Shavrina T., Malykh V. (2021). How not to Lie with a Benchmark: Rearranging NLP Leaderboards // https://arxiv.org/abs/2112.01342

вернуться

2214

Hendrycks D., Burns C., Basart S., Zou A., Mazeika M., Song D., Steinhardt J. (2020). Measuring Massive Multitask Language Understanding // https://arxiv.org/abs/2009.03300

вернуться

2215

OpenAI (2023). GPT-4 Technical Report // https://arxiv.org/abs/2303.08774

вернуться

2216

AI Explained (2023). SmartGPT: Major Benchmark Broken - 89.0% on MMLU + Exam's Many Errors / YouTube, 28.08.2023 // https://www.youtube.com/watch?v=hVade_8H8mE

229
{"b":"936964","o":1}