Именно новая информация придает силу большим данным
Что же делает большие данные настолько мощными и захватывающими? Почему я прогнозирую, что они будут оказывать огромное воздействие на наше будущее? Причина – в той новой информации, которую они могут предоставить{15}. Большие данные часто снабжают организации информацией, которая является оригинальной в одном или сразу в двух аспектах. Во-первых, с небывалым уровнем детализации. Во-вторых, зачастую недоступной ранее.
Давайте рассмотрим, как производители автомобилей в настоящее время используют большие данные для целей предупредительного техобслуживания. На протяжении многих лет в прошлом, когда происходила поломка автомобиля, производитель прилагал усилия, стараясь выяснить, почему она случилась, а затем проследить путь вплоть до коренного изъяна, вызвавшего проблему. Сегодня встроенные датчики обеспечивают интенсивные потоки данных в процессе разработки и испытания двигателей, а также двигателей уже проданных автомобилей. Благодаря этому автопроизводители часто могут выявлять опасные шаблоны до того, как те приведут к поломке. Это и называется предупредительным техобслуживанием.
С получением информации от датчиков двигателей теперь стало возможным идентифицировать первые признаки надвигающихся проблем. Ведет ли перегрев детали к ее отказу? Предшествует ли небольшое падение напряжения в аккумуляторе распространенной проблеме с электричеством? Ломаются ли некие детали обычно в паре, в наборе или по отдельности? Ответы на эти вопросы невозможно было получить ранее, до появления доступных ныне данных.
Сильной стороной сенсорных данных в этом случае является не увеличение информации, а предоставление совершенно новой информации, не доступной ранее. Возможность прогнозировать и устранять проблемы до того, как произойдет поломка, позволяет значительно повысить удовлетворенность потребителей и снизить расходы на гарантийное обслуживание, поскольку автомобили меньше времени находятся в автомастерской и, как правило, гораздо дешевле принять профилактические меры и устранить проблему, чем ремонтировать уже сломавшийся автомобиль.
Традиционно профессиональные аналитики тратили много времени на совершенствование аналитических моделей, использующих существующие наборы источников данных. Они старались внедрять новейшие методики моделирования и добавлять новые метрики, извлеченные из данных. Эти усилия оправдывали себя, поскольку позволяли понемногу повышать эффективность моделей.
Новая информация почти всегда побеждает новые алгоритмы
Причина, обязывающая организацию активно использовать большие данные, заключается в той совершенно новой информации, которую они часто предоставляют. Да, необходимо корректировать существующие аналитические процессы, использующие имеющиеся данные. Но добавление новой информации может привести к настоящим прорывам. Всегда отдавайте приоритет тестированию новой информации перед тестированием новых методологий или новых метрик, основанных на имеющейся информации.
Между тем существует простой способ значительно повысить мощность аналитического процесса. Организации следует отказаться от традиционного подхода в виде подстройки имеющихся моделей, как только обнаруживается новая информация, относящаяся к проблеме. Эта новая информация может оказаться настолько значимой, что профессиональным аналитикам придется заняться не улучшением существующих моделей, а немедленно приступить к включению в них и тестированию новых данных.
Даже упрощенное использование новой информации может оказать воздействие на качество аналитического процесса, причем намного сильнее, чем при подстройке процесса, использующего имеющуюся информацию. Включайте новую информацию в процесс как можно быстрее, пусть даже поначалу в черновом варианте. Как только это будет сделано, возвращайтесь к пошаговым отладке и улучшению аналитики. И почти всякий раз новая информация будет побеждать новые алгоритмы и новые метрики, основанные на старой информации.
Ищите и задавайте новые вопросы
По мере того как организация расширяет ассортимент используемых данных и инструментов, она также должна сосредоточиться на поиске новых вопросов, которые следует задать, и новых способов задавать старые вопросы. Часто, найдя новый источник данных, люди сразу же задумываются о том, как бы его использовать в уже готовых решениях старых проблем. Однако в каждом случае наряду с этим подходом нужно рассматривать и два других, как показано на рис. 2.2.
Во-первых, необходимо посмотреть, какие совершенно новые и различные проблемы могут быть решены при помощи новой информации. Это кажется очевидным, однако люди с легкостью попадают в привычную колею и просто используют данные для решения обычных проблем. Организация должна сделать акцент на поиске новых возможностей для применения данных. Во-вторых, нужно попробовать найти новые, лучшие способы решения старых проблем. Для этого необходимо изучить проблемы, уже считающиеся преодоленными, и подумать, можно ли подойти к ним совсем с другой стороны за счет внедрения новых данных. Это позволит глубже вникнуть в проблему{16}.
Одной из полезных концепций для осуществления подобной деятельности в контексте клиентских данных является стратегия динамического управления отношениями с клиентами, описанная Джеффом Тэннером в книге «Стратегия динамического управления отношениями с клиентами: Большая прибыль от больших данных» (Dynamic Customer Strategy: Big Profits from Big Data){17}. Она может послужить хорошим подспорьем для читателей, интересующихся заявленной темой.
С тем, как искать новые проблемы, должно быть все понятно, поэтому давайте рассмотрим пример того, как можно использовать большие данные для поиска новых способов решения старых проблем. В сфере здравоохранения клинические испытания служат золотым стандартом, а в их составе заключительный тест и управляющая конструкция выполняются посредством так называемого двойного слепого метода, когда ни пациенты, ни врачи не знают, кто какое лечение получает. Это исследование проводится в строго контролируемых условиях и позволяет с высокой точностью определить положительные и отрицательные эффекты тестируемых процедуры или препарата. Однако, после того как на их разработку были потрачены сотни миллионов долларов и многие годы исследований, клинические испытания в лучшем случае охватывают от 2000 до 3000 человек. Такой размер выборки недостаточен. И это означает, что хотя клинические испытания позволяют очень точно измерить показатели согласно пожеланиям исследователей, но попросту не хватит данных для того, чтобы выявить весь спектр непредвиденных последствий.
К чему ведет такая ограниченность выборки? К ситуациям наподобие тех, что случились несколько лет назад, когда применение многих препаратов-анальгетиков из класса ингибиторов ЦОГ-2, в том числе Vioxx и Celebrex, обернулось неприятностями. Исследователи обнаружили, что эти препараты в два – четыре раза повышают вероятность развития сердечных заболеваний по сравнению с нормой{18}. А ведь проблема не была выявлена в ходе первоначальных клинических испытаний, и прошло несколько лет после выведения препаратов на рынок, прежде чем ее определили.
Взгляните по-новому на проблемы, которые считаете уже решенными
Когда вы находите новые данные, содержащие новую информацию, обязательно вернитесь к былым проблемам. Довольно часто оказывается, что проблему, уже считающуюся решенной, можно решить гораздо эффективнее, если использовать новую информацию и подойти к проблеме с другой стороны.