Среди областей применения обработки с помощью GPU – моделирование методом Монте-Карло, когда исследуются миллионы и даже миллиарды возможных сценариев. Люди часто прибегают к моделированию методом Монте-Карло (хотя и не в масштабе, требующем применения GPU) при планировании выхода на пенсию. При оценке пенсионных накоплений различные показатели, такие как ставки доходности и темпы инфляции, пропускаются через широкий спектр возможных ставок, чтобы определить, сколько денег будет накоплено к указанной дате выхода на пенсию. По завершении моделирования подводится итог: сколько сценариев приведут к успеху и сколько к провалу.
Поскольку каждый из различных факторов варьируется в широком спектре возможных ставок, то для этого требуется большое количество вычислений. GPU хорошо справляются с такого рода сценариями в производственном масштабе. Вместо простого применения метода Монте-Карло к пенсионным накоплениям финансовые учреждения используют его для очень сложного моделирования рисков в текущем режиме. Так что в ближайшие годы можно ожидать более частого применения GPU в аналитике.
Дополнительная поддержка доступна
Вспомогательные технологии, предназначенные для решения конкретных задач, помогают организации при превращении традиционной аналитики в операционную. Со временем функционал этих технологий может быть включен в основные опоры аналитического окружения. Но пока этого не произошло, пробел может быть заполнен специализированными устройствами или продуктами на основе программного обеспечения.
Технологии для обработки сложных событий
Обработка сложных событий (Complex Event Processing, CEP) используется для анализа потоковых данных в режиме реального времени. CEP следует подходу, отличающемуся от используемых в традиционных аналитических процессах. При обработке потока данных по технологии CEP цель состоит не в соотнесении их с другими данными организации, а в определении того, что происходит прямо сейчас в потоке данных, с целью выявить сигналы, которые требуют немедленного реагирования. Требуемые для CEP обработка данных и управление ими отличаются от типичных аналитических процессов и нуждаются в несколько иных технологиях.
Одно из ключевых отличий между CEP и другими видами аналитики состоит в том, что CEP буквально рассматривает данные еще даже до того, как они помещаются в хранилище. Другими словами, процессы CEP применяется к данным во время их перемещения из источника к месту хранения. Это позволяет максимально быстро реагировать на сигналы, как только они появляются в данных. Среди поставщиков в этой области можно назвать компании TIBCO и Informatica.
CEP может быть использована, например, для выявления мошеннических действий на веб-сайте во время их развертывания, не дожидаясь выполнения других процессов, идентифицирующих мошенничество. Также она может быть использована для мониторинга данных, поступающих с датчиков двигателя, чтобы максимально быстро выявлять ранние признаки проблем. CEP не заменяет, а дополняет типичные аналитические процессы. С учетом природы CEP ее обычно применяют в высокодинамичном окружении.
Встроенные аналитические библиотеки
Набирает популярность тренд встраивать в реляционные или нереляционные платформы аналитические алгоритмы с тем, чтобы их можно было легко добавлять в аналитические процессы. В отличие от ситуации всего несколько лет назад, сегодня появилась возможность встраивать непосредственно в процессы и приложения даже алгоритмы статистического моделирования, прогнозирования и машинного обучения.
Встроенные аналитические библиотеки помогают реализовать потенциал операционной аналитики благодаря тому, что обеспечивают доступ к аналитическим функциям независимо от пользовательского интерфейса или конкретного приложения. Другими словами, не нужно использовать аналитический инструмент в качестве части процесса, поскольку платформа может непосредственно выполнять аналитику. Недостатком таких встроенных функций является то, что они не снабжаются пользовательским интерфейсом. Это просто функции, что означает: выходные данные будут представляться в виде таблиц или файлов, а не красиво отформатированных отчетов. Выходные данные, создаваемые таким образом, хорошо подходят для использования в других приложениях и процессах, но работать с ними нелегко. Программный продукт, доступный для использования на разных платформах, предлагает компания Fuzzy Logix.
Аналитический инструмент или платформа?
По мере того как аналитические функции все глубже интегрируются в аналитические платформы, границы между инструментами и платформами размываются. Когда алгоритмы выполняются полностью в рамках платформы посредством встроенной функции, это позволяет обеспечить максимальное масштабирование.
Я думаю, что в будущем специалисты-аналитики будут использовать традиционные аналитические инструменты с графическими пользовательскими интерфейсами для обнаружения данных, разработки и тестирования аналитических процессов. Определив, какие процессы должны быть переведены в разряд операционных, они затем переключатся на использование встроенных алгоритмических функций для операционализации этих процессов. Со встроенными функциями не так легко работать, как с пользовательскими интерфейсами, но когда пользователи точно знают, что должно быть включено в окончательный аналитический процесс, функции не потребуют много дополнительной работы. Такой подход позволяет использовать гибкий и дружественный к пользователям набор инструментов для обнаружения данных и развития процессов, а также использовать преимущества встроенных родных функций для применения в производственном масштабе.
Использование
Теперь, когда мы определили основные компоненты единого аналитического окружения предприятия, давайте рассмотрим несколько важных тем, связанных с максимизацией выгод, которые обеспечивает окружение.
Любой анализ любых данных в любое время
Вашей целью должно быть создание единого аналитического окружения, которое позволит осуществлять анализ данных любого типа и объема посредством любого аналитического метода в любое время. Именно так. Крайне важна способность анализировать текстовые данные, генерировать социальные графы, прогнозировать реакцию, а затем объединять эти результаты с историей клиента и другой информацией. Однако добавление многочисленных опор имеет смысл только в том случае, если организация планирует использовать эти опоры. Некоторые организации с минимальными потребностями в аналитике какое-то время могут обойтись одной опорой. В то же время большинство крупных организаций найдут необходимым использовать многочисленные опоры вкупе со вспомогательными технологиями.
Решение о добавлении компонентов в аналитическое окружение должно быть основано на анализе затрат и доходов, который принимает во внимание, сколько данных потребуется дублировать на новую платформу, сколько будет стоить синхронизация данных и обучение пользователей новым навыкам, обладает ли новая платформа необходимыми характеристиками для операционного масштабирования и многое другое. Бежать покупать новейшую сверкающую игрушку только потому, что она появилась в продаже, – пустая затея.
После того как опоры будут установлены на место, уже не составит труда оптимизировать их использование и распространить данные и аналитические процессы в масштабах всего аналитического окружения организации. Самая большая проблема состоит в том, чтобы обосновать необходимость добавления новый опоры или вспомогательной технологии в аналитическое окружение (подробнее об этом в четвертой главе). Причина очевидна: гораздо дешевле использовать нечто, уже занявшее свое место, чем ставить на это место нечто новое.