Следующий шаг – распознавание покупателей в лицо. И в этом деле магазины Amazon Go стали настоящими пионерами. За каждым покупателем наблюдает несколько сотен камер, фиксирующих покупки, чтобы при выходе из магазина списать нужную сумму с его счета. К сожалению, мне не известно, сколь сложным и многогранным является наблюдающий за покупателями алгоритм Amazon Go. Но представьте, сколько полезной для производителя информации может дать анализ эмоциональной реакции человека на тот или иной товар. Что ощутил покупатель, когда увидел товар? Между чем и чем он делал выбор? Что он стал или не стал делать с упаковкой? Прочел ли состав? Или попросту не глядя бросил покупку себе в корзину?
Большие данные
3 сентября 2008 года редактор журнала Nature Клиффорд Линч подготовил спецвыпуск с темой: «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?»10. В нем публиковались материалы об увеличении объема и разновидностей обрабатываемых данных. Сегодня статью плотно связывают с термином «Большие данные» («Big Data»), который многим по-прежнему неизвестен.
Сперва методология и технологические приемы «Больших данных» относились к академической среде, а широкое распространение они получили благодаря бизнесу, увидевшему немыслимое пространство возможностей.
Количество активных пользователей Facebook по состоянию на 2017 год оценивается в более чем 1,8 млрд. Суммарно более 2 млрд пользователей в мессенджерах WhatsApp и Facebook Messenger. Более 500 млн – в Instagram. Количество интернет-пользователей в 2018 году достигло 4,021 млрд человек, сделав прирост на 7% в сравнении с аналогичным периодом год назад11. Все эти пользователи ежеминутно генерируют колоссальное количество данных, повествующих о каждом из них больше, чем им самим представляется. Продуктовые магазины, кофейни, кинотеатры, тренинговые центры и т.п. хотят максимально монетизировать поток пользователей, что возможно благодаря тонкой и профессиональной настройке рекламной кампании за счет исторических и текущих данных. Всеобщая социализация не только стала пространством для новых бизнесов, но и открыла доступ к новым формам государственного контроля, о которых мы поговорим в третьей главе. Но для начала предлагаю определиться с терминологией вместе с Иваном Бегтиным, Директором АНО «Информационная культура».
– Что такое «большие данные» и как они влияют на изменения в бизнесе, политике, социальной сфере?
– Давайте начнем с определений, потому что как таковой технологии «больших данных» не существует. «Большие данные» – это некоторый маркетинговый термин, который объединяет много разных понятий. Кто-то к «большим данным» относит развитие искусственного интеллекта и автоматическое принятие им решений. Кто-то воспринимает «большие данные» информацией, которую невозможно посчитать на локальном компьютере. Для кого-то «большие данные» – это данные от нескольких петабайт. И если вы спросите рядового журналиста или, например, сотрудников компании «Яндекс» об этом, вы получите совершенно разные ответы и разное ощущение масштаба.
У меня тоже нет ощущения, что «большие данные» – это объемы, так как сейчас и терабайт не является «большими данными». Петабайтом сейчас мало кого можно удивить, поэтому нет такого явления, как «большие данные». Сегодня это – некоторая совокупность технологий, которая включает обработку, сбор, обмен, интеграцию, публикацию и все остальное, что касается работы с большими объемами информации.
К чему это приводит? Создается инфраструктура, которая существует для обмена большим количеством информации. Она применяется для самых разных задач, например: для интернета вещей, для мониторинга сельхоздеятельности (уход за животными, землями), для мониторинга самолетов в реальном времени, для понимания поведения потребителей, для слежки за гражданами страны со стороны спецслужб, для научных исследований. Большой адронный коллайдер генерирует в день, по-моему, около петабайта данных. Там невероятное количество сенсоров. У них в работе действительно огромные объемы данных, и когда мы говорим про примеры – вот, пожалуйста.
Мы редко задумываемся, почему в некоторых точках продажи при оплате банковской картой не требуется ввод PIN-кода, а в других – при схожей сумме – нам приходится вводить заветные четыре цифры. Это – бытовой пример анализа активности потребителя на основе сотен данных: геолокации, точки продажи, периодичности, времени совершения операции и т.п.
В качестве еще одного примера рассмотрим подход, который применяется в Калифорнийском университете в Сан-Франциско при работе с пациентами клиник. Здесь врачи во время работы с пациентом узнают не только о симптомах болезни и просматривают историю прошлых обращений. Их интересует контекст, в котором живет пациент: экономический, социальный, экологический и т.п. Как заявляют исследователи, такой подход позволяет лучше выявлять причины заболеваний и находить эффективные способы их лечения. Помимо этого, соотнесение болезней с «жизненным контекстом» пациента позволяет предсказывать их распространение и быстрее реагировать в критических ситуациях.
На презентации новых продуктов компании Apple в 2018 году было представлено четвертое поколение умных часов. Помимо функции определения падения человека и соответствующего шаблона реагирования, обновленные сенсоры устройства позволяют каждому пользователю пройти процедуру ЭКГ (электрокардиограмму) за считанные секунды и без посещения клиники. Для отслеживания малейших изменений в работе сердца необходимо проводить эту процедуру как можно чаще, а не раз в год, как это часто бывает. В последнем случае реакция на проблему может оказаться запоздалой.
Не сложно представить, как в развитых странах совсем скоро умные часы станут таким же атрибутом получения данных, как и некоторые медицинские приборы. Разница в том, что гаджеты всегда с нами, и поверьте, благодаря совершенствованию математических моделей они уже знают о нас больше, чем мы можем себе представить. Питание алгоритмов данными через устройство выгодно ровно до тех пор, пока человек будет получать необходимую персонализированную и важную информацию. И это абсолютно рационально, если позволит человеку жить дольше.
Делим яблоки
Три четверти новых покупок на сайте онлайн-кинопрокатчика Netflix делается благодаря предложениям системы рекомендации12. Увеличение потока данных от конкретного пользователя дает возможность создать более персонализированный продукт и адекватное потребительское предложение. И это уже стали понимать сами пользователи. В 2009 году компания Google анализировала данные в онлайн-режиме и благодаря математической модели смогла определить корреляцию между поисковыми запросами и распространением вируса H1N1. Система была права в 97% случаев13. В новом мире не качество, а количество данных определяет ценность получаемой информации. В 2011 году журнал Science провел анализ 509 млн твитов, полученных за два года от 2,4 млн человек, и пришел к выводу, что перемены настроения людей имеют ежедневные и еженедельные закономерности во всем мире вне зависимости от культуры. Такое исследование было бы просто невозможным до 2006 года – до появления компании Twitter и инструментов сбора и анализа большого объема данных.
Исследователь Альберт-Лазло Барабаши со своей командой проанализировал все журналы анонимного мобильного трафика, полученные от оператора беспроводной связи. Он работал согласно новому принципу, используя все данные, и получил интересные результаты. Если удалить из мобильной сети людей, имеющих множество связей в определенном сообществе (семья, коллеги, близкий круг общения), сеть окажется менее активной, но будет существовать. Однако при удалении людей, имеющих широкие связи за пределами ближайшего окружения, сеть тотчас распадается. Фактически люди со множеством друзей для работы такой структуры менее важны, чем те, у кого есть распределенная сеть контактов за пределами непосредственного окружения. Этот факт заставляет иначе оценивать важность контактов и групп людей в коммуникационных сетях. И снова – этот эксперимент не был бы возможен до появления соответствующих технологических решений.