Определение аналитических дисциплин
Современная деловая среда требует все более широкого спектра аналитики. Когда я только начинал заниматься аналитикой, большинство аналитических процессов, используемых крупными компаниями, относилось к одной из двух ключевых дисциплин. Первая – это статистика, включающая в себя что угодно – от дисперсионного и регрессионного анализа до проверки статистической значимости. Вторая – это прогнозирование, включающее в себя классические временные ряды и проекционные способы. Однако в современном мире эти две аналитические дисциплины больше не в состоянии удовлетворить всех потребностей бизнеса, нуждающегося в выходе за пределы статистических и прогностических методов. Давайте рассмотрим несколько новых аналитических дисциплин.
В последнее время все более широкое применение находит моделирование. В частности, особенно популярно моделирование по методу Монте-Карло. В основе его лежит очень простая концепция и, если вы прибегали к пенсионному планированию, то, скорее всего, применяли этот метод. Для того чтобы спрогнозировать пенсионные накопления, необходимо учесть множество допущений, например:
• Какова будет средняя годовая доходность инвестиций?
• Насколько волатильной будет доходность на протяжении рассматриваемого периода времени?
• Каким будет темп инфляции?
При моделировании по методу Монте-Карло исследуется широкий спектр комбинаций допущений по всему диапазону возможных значений. Какие сценарии приведут к хорошим результатам, позволив достичь намеченных финансовых показателей, а какие к плохим? Смоделировав тысячи или даже миллионы сценариев, процесс Монте-Карло обозначает распределение успехов и неудач. В идеале широкий диапазон разумных допущений должен привести к положительному исходу. Если этого не произойдет, то намеченная цель может быть попросту нереалистичной.
Также широкое распространение получает такая дисциплина, как оптимизация. На протяжении многих лет она активно использовалась в аналитике ценообразования, а сегодня сфера ее применения начинает раздвигаться. Оптимизация нацелена на поиск вариантов, которые позволяют наилучшим образом достичь поставленной цели с учетом широкого разнообразия факторов и ограничений. Если моделирование по методу Монте-Карло позволяет исследовать и количественно оценить множество различных вариантов, то цель оптимизации – найти оптимальный вариант. Как правило, оптимизация используется в тех случаях, когда можно управлять факторами, оказывающими значительное влияние на результат. Например, организация может управлять ценами на свою продукцию для достижения оптимальных результатов, а вот в случае пенсионного планирования у человека нет возможности управлять, скажем, уровнем инфляции.
Оптимизация часто опирается на традиционную предсказательную аналитику. Например, какое предложение лучше всего показать клиенту, когда он посещает веб-сайт? Даже при создании списка предложений для электронной рассылки в пакетном режиме оптимизация помогает качественно повысить общий уровень откликов с учетом различных ограничений, скажем, количества предложений и бюджета, выделенного на скидки. Два типичных подхода к оптимизации – это линейное и нелинейное программирование. Информация об этих методах широко доступна, и заинтересованные читатели могут глубже их изучить.
Расширение аналитических компетенций
Классические методы статистики и прогнозирования больше не могут удовлетворять аналитические потребности организаций. Обработка новых типов данных и новые аналитические требования понуждают к овладению многочисленными новыми аналитическими дисциплинами. Будьте готовы к тому, что для этого вам придется расширить наборы используемых инструментов и навыков.
Еще одна тенденция последнего времени – увеличение количества потоковых данных, особенно в связи с развитием датчиков и Интернета вещей. Потоковые данные часто бывают структурированными и, как следует из названия, представляют собой непрерывный, быстрый и крупномасштабный поток. Для их обработки используется, в частности, такая набирающая популярность дисциплина, как обработка сложных событий (CEP). При этом подходе CEP анализирует данные по мере их поступления и часто еще до того, как они загружаются в хранилище. Идея состоит в том, чтобы анализировать данные во время их перемещения из источника к месту хранения и таким образом максимально сократить время на принятие решений. Аналитика в CEP может включать в себя большинство других аналитических дисциплин. Отличие CEP в том, что аналитика здесь применяется максимально быстро и за пределами традиционных окружений. По своей природе CEP предназначена для применения в операционных целях.
Другие аналитические дисциплины, получающие широкое распространение, включают в себя:
• Распознавание лиц и другие виды анализа изображений, находящие применение во многих областях, от социальных сетей до сферы безопасности.
• Машинное обучение, чьи алгоритмы становятся все более усложненными. Такие компании, как Google, скрытно приобретают и используют технологии машинного обучения{65}.
• Анализ графов. Хотя теории, лежащие в основе анализа графов, были разработаны много лет назад, но только после развития социальных сетей и появления всеобщего стремления проверять отношения между людьми или организациями этот вид анализа стал обыденным.
• Геопространственный анализ, который до недавнего времени использовался только крупными логистическими или картографическими компаниями. Сегодня для пользователей смартфонов геопространственный анализ стал повседневной реальностью.
• Текстовая аналитика, испытавшая взрывной рост, когда стало возможным собирать все тексты организации, а также превращать речи в текст. Большинство крупных организаций уже применяют текстовую аналитику.
Чтобы двигаться вперед, придется добавлять в существующий набор все новые аналитические дисциплины. Приготовьтесь развивать навыки обращения с этими дисциплинами у себя в организации и применять для их поддержки специализированные инструменты.
Преимущества мультидисциплинарной аналитики
Как организация может сочетать различные аналитические дисциплины и какое преимущество это создаст? Прежде всего, давайте назовем подход с использованием разных аналитических дисциплин в рамках одного процесса «мультидисциплинарной аналитикой». Далее, чтобы проиллюстрировать путь к успеху, давайте рассмотрим историческую параллель с хранением данных. Хранилища возникли в результате того, что организации собирали все больше данных, но сам сбор не был скоординирован. Как правило, в разных частях организации имелись свои платформы управления данными, а также повсюду возникали киоски данных, сосредоточенные на нуждах отделов. Если кто-то хотел осуществить анализ с использованием данных от разных частей организации, то ему приходилось выполнять невероятно трудный и зачастую в ручном режиме процесс извлечения и объединения данных из всех этих разрозненных систем.
Концепция корпоративного хранилища данных (EDW) достаточно проста. EDW стремится, по мере возможности, собрать все необходимые для анализа данные на одной платформе. Любой пользователь может увидеть данные в том же виде, в каком они хранились в традиционном киоске данных, но при этом также получить доступ к данным из других киосков. Например, финансовые данные можно легко скомбинировать с данными по продажам. На протяжении многих лет концепция EDW генерировала огромную рыночную ценность, и сегодня такие хранилища есть фактически у любой крупной организации.
Каким образом оправдание хранения данных связано с мультидисциплинарной аналитикой? Актуальная проблема аналитики состоит в том, что даже при наличии централизованного EDW каждая аналитическая дисциплина часто имеет собственное внешнее окружение. Организация размещает статистическое ПО на одном сервере, ПО текстового анализа на другом, ПО анализа графов на третьем, комплект программ для оптимизации на четвертом и т. д. При таком изобилии аналитических инструментов, когда организация хочет сочетать разные аналитические дисциплины, она сталкивается с трудностями, аналогичными тем, что существовали еще до хранения данных. Поэтому не имеет смысла иметь все эти разные наборы инструментов, предназначенные для поддержки разных аналитических дисциплин в разных местах с ограниченной интеграцией, для чего потребуется каждый раз перемещать огромные объемы данных.