Вычислительная сложность — это один вопрос. Другой — сложность человеческая. Если компьютеры страдают синдромом саванта, то алгоритмы машинного обучения иногда производят впечатление вундеркиндов, подверженных приступам дурного настроения: отчасти поэтому люди, способные заставить их слушаться, так много зарабатывают. Если вы умеете настроить все точно как надо, может произойти волшебство: алгоритм станет умен не по годам и одарит вас потоком идей, хотя процесс в чем-то похож на Дельфийского оракула: интерпретация пророчеств сама по себе может требовать большого мастерства. Но поверните ручку неправильно, и обучающийся алгоритм извергнет лавину бессмыслицы или вообще замкнется в себе. К сожалению, в этом отношении Alchemy не лучше большинства. Записать свои знания на языке логики, заложить данные и нажать кнопку — это здорово. Когда Alchemy выдает великолепно точные и эффективные логические сети Маркова — можно пойти в паб и отпраздновать успех. Но когда этого не происходит — а так бывает большую часть времени, — начинается битва. В чем проблема? В знаниях? В обучении? В выводе? С одной стороны, благодаря обучению и вероятностному выводу простая логическая сеть Маркова может выполнить работу сложной программы. С другой стороны, когда она не работает, ее намного сложнее отладить. Решение — сделать ее более интерактивной, способной к самоанализу и объяснению хода своих рассуждений. Это станет для нас еще одним шагом к Верховному алгоритму.
Сейчас вас примет доктор
Лекарство от рака — программа, которая на входе получает геном раковой опухоли, а на выходе дает лекарство, с помощью которого можно эту опухоль уничтожить. Теперь мы можем в общих чертах описать, как она будет выглядеть. Давайте назовем ее CanceRx. Несмотря на внешнюю простоту, эта программа станет одним из крупнейших и самых сложных проектов в истории: она так велика и сложна, что построить ее можно только с помощью машинного обучения. В ее основе — подробная модель работы живых клеток с подклассами для всех типов клеток человеческого организма и обобщающей моделью их взаимодействия. Эта модель в виде марковской логической сети или чего-то схожего соединит в себе знания из области молекулярной биологии с большим объемом данных из секвенсоров ДНК, микрочипов и многих других источников. Часть знания будет заложена вручную, но большая часть автоматически извлечена из литературы по биологии и медицине. Модель будет постоянно развиваться, включать в себя все новые результаты экспериментов, источники данных и истории болезни. В конце концов она узнает каждый метаболический путь, каждый регуляторный механизм, все химические реакции во всех типах человеческих клеток. Будет получена сумма знаний о молекулярной биологии человека.
Большую часть своего времени CanceRx будет тратить на проверку лекарств-кандидатов. Когда модели покажут новое лекарство, она спрогнозирует его действие и на раковые, и на нормальные клетки. Если Элис поставили онкологический диагноз, CanceRx применит свою модель и к нормальным, и к раковым клеткам девушки и перепробует все доступные лекарства, пока не найдет то, которое убьет раковые клетки, не повреждая здоровые. Если найти работающее лекарство или сочетание лекарств не получится, программа приступит к разработке нового препарата, возможно, путем эволюции на основе уже существующих или с использованием алгоритма восхождения на выпуклые поверхности или кроссинговера. На каждом этапе поиска лекарство-кандидат будет проходить испытание на модели. Если лекарство останавливает рак, но все же имеет вредные побочные эффекты, CanceRx попытается подкорректировать его, чтобы от них избавиться. Если рак мутирует, весь процесс повторится заново. Но модель будет прогнозировать вероятные мутации еще до их появления, и CanceRx назначит лекарства, которые заблокируют их развитие. В шахматной игре между человечеством и раком CanceRx поставит опухоли мат.
Обратите внимание, что машинное обучение само по себе не подарит нам CanceRx. Нельзя просто собрать обширную базу данных по молекулярной биологии, загрузить ее в Верховный алгоритм и получить готовую идеальную модель живой клетки. CanceRx будет конечным результатом многих итераций, сотрудничества сотен тысяч биологов, онкологов и специалистов по обработке данных по всему миру. Самое важное, однако, что CanceRx будет охватывать полученные с помощью врачей и лечебных учреждений данные миллионов пациентов с раком. Без этих данных мы не сможем победить рак, а с ними — сможем. Вносить свой вклад в растущую базу данных будет не просто в интересах каждого пациента с раком: это станет этическим долгом. В мире CanceRx тайные клинические исследования останутся в прошлом: новые методы лечения, предложенные CanceRx, будут непрерывно внедряться в практику, и в случае успеха их начнут назначать все большему числу пациентов. И успехи, и неудачи станут давать CanceRx ценные данные для обучения, поэтому чем больше данных, тем лучше результаты. С одной стороны, машинное обучение — лишь малая часть проекта CanceRx, значительно уступающая по важности сбору данных и человеческому вкладу. Но если посмотреть под другим углом, машинное обучение — ключевой элемент всего предприятия. Без него знания о биологии рака были бы фрагментарными, разбросанными по тысячам баз данных и миллионам научных статей, а каждый врач располагал бы крупицей нужной информации. Сбор всего этого знания в связное целое не под силу человеку, как бы умен он ни был. На это способно только машинное обучение. Поскольку все раковые опухоли разные, машинное обучение должно найти общие паттерны, а так как одна ткань может принести миллиарды точек данных, без машинного обучения не разобраться, что сделать с каждым новым пациентом.
Уже предприняты шаги, чтобы создать то, что в конце концов превратится в CanceRx. Специалисты в новой области знания — системной биологии — моделируют не отдельные гены и белки, а целые метаболические сети. Одна из исследовательских групп, работающая в Стэнфорде, построила модель всей клетки. Global Alliance for Genomics and Health поощряет обмен данными между учеными и онкологами, цель которого — проведение в будущем широкомасштабного анализа. CancerCommons.org собирает модели рака и позволяет пациентам делиться своими историями болезни и учиться на схожих случаях. Foundation Medicine точно выявляет мутации в опухолевых клетках пациента и предлагает самое подходящее лекарство. Десятилетие назад было неизвестно, можно ли в принципе вылечить рак, а если можно, то как это сделать. Теперь мы видим, как достичь цели. Идти придется долго, но дорога найдена.
ГЛАВА 10
МИР МАШИННОГО ОБУЧЕНИЯ
Теперь, когда наше путешествие по чудесной Стране машинного обучения закончено, давайте сменим тему и посмотрим, что все это значит лично для вас. Верховный алгоритм — как красная таблетка в «Матрице»[108]. Это портал в другую реальность: ту, в которой мы уже живем, но пока еще о ней не подозреваем. От свиданий до работы, от самопознания до будущего нашего общества, от совместного использования данных до боевых действий и от опасностей искусственного интеллекта до следующей остановки на пути эволюции новый мир уже принимает очертания, и машинное обучение — ключ к нему. Эта глава поможет вам взять от жизни максимум и быть готовым к тому, что ждет нас впереди. Машинное обучение как таковое будет определять будущее не больше, чем любая другая технология. Важно то, что мы решим сделать, и теперь у вас есть инструменты, необходимые для решения.
Главный из этих инструментов — Верховный алгоритм. Когда он появится и будет ли похож на Alchemy — не столь существенно, имея в виду важнейшие способности обучающихся алгоритмов, которые он воплощает, и то, куда они нас приведут. Верховный алгоритм можно с тем же успехом считать сложным изображением текущих и будущих алгоритмов машинного обучения, которым удобно пользоваться в наших мысленных экспериментах вместо конкретных алгоритмов продукта X или сайта Y, которыми соответствующие компании вряд ли с нами поделятся. Если смотреть с этой точки зрения, обучающиеся алгоритмы, с которыми мы каждый день соприкасаемся, — это «эмбрионы» Верховного алгоритма, и наша задача — понять их и направить их развитие так, чтобы они лучше отвечали нашим потребностям.