Литмир - Электронная Библиотека
Содержание  
A
A

Давайте на минутку обратимся к контрольным процессам на производственных линиях. Производители используют процедуры статистического контроля, выдающие постоянные сводки о работе производственного процесса. Статистический контроль процессов предоставляет информацию о том, находятся ли различные показатели в ожидаемом диапазоне и в каком направлении они изменяются. Когда какой-либо показатель выходит за пределы допустимого диапазона, применяется корректирующие действие. Например, если температура изделий по выходу из печи становится слишком высокой или слишком низкой, производственная линия может быть остановлена с целью регулировки печи.

Процедуры статистического контроля процессов могут применяться и к операционно-аналитическим процессам. Организация способна отслеживать решения, принимаемые аналитическим процессом, а также данные, на основе которых решения принимаются. Принимаются ли решения в тех же пропорциях, что и раньше? Показывают ли вводимые данные то же ожидаемое распределение, что и раньше? Когда один из показателей начинает отклоняться от установленных параметров, кто-то должен вмешаться, остановить процесс и устранить неполадку точно так же, как это происходит на производственных линиях. Для контроля за операционно-аналитическими процессами могут использоваться методы традиционной аналитики.

Успех операционной аналитики зависит не только от мощности и эффективности собственно аналитики, но и от того, как люди и организационные процессы фактически используют рекомендации и следуют решениям. Поведение сотрудников должно измениться под воздействием аналитики, иначе она не принесет искомой отдачи. Вот почему изменение организационной культуры является ключом к успеху операционной аналитики, о чем мы подробнее поговорим в девятой главе.

Уроки прошлого

На протяжении всей книги я делаю акцент на том, что многие уроки прошлого применимы и в мире больших данных и операционной аналитики. Существуют классические аналитические концепции, от которых не следует отказываться, несмотря на шумные призывы к отказу. Давайте рассмотрим несколько областей, где шумиха могла затмить реальность.

Статистические методы по-прежнему актуальны

Сегодня можно наткнуться на мнение, кто классические методы статистики – это устаревшие концепции, предназначенные только для малых данных. Это абсолютно ошибочная точка зрения. Разумеется, аналитика развивается и добавляет все новые аналитические дисциплины, поэтому организации должны расширять свои аналитические компетенции за пределы классических методов статистики. Некоторые аналитические методы и алгоритмы, такие как алгоритмы поиска и обработки естественного языка, не основаны непосредственно на методах классической статистики. Это нормально. Однако подобно тому как добавление нереляционного окружения к реляционному не означает, что потребности в реляционной обработке канули в лету, так и добавление дополнительных аналитических дисциплин к классической статистике не говорит о том, что последняя потеряла свое значение{69}.

Независимо от того, насколько большим является источник данных, ему все равно присущи вариативность и неопределенность. Данные никогда не бывают идеальными, и в изучаемых нами совокупностях данных всегда будет присутствовать естественная вариативность. Сколько бы данных у нас ни имелось, невозможно с идеальной точностью предсказать поведение каждого конкретного человека или поломку каждого конкретного двигателя, поскольку нам всегда будет недоставать некоторой информации и всегда будут присутствовать неучтенные факторы{70}. Статистика позволяет количественно оценить и учесть риски, сопряженные с этими пробелами. Давайте рассмотрим следующий пример.

В последнее время большую популярность приобретает такой нестатистический метод, как пат-анализ (он же анализ троп). Как правило, он используется для идентификации серии действий каждого клиента и соотнесения путей, которыми он следует, с проявлениями его интереса. Эти действия могут включать снятие средств через банкомат, звонки в колл-центр, внесение средств на счет, клики на веб-страницах, твиты и любые другие, прямо или косвенно затрагивающие организацию. В путь могут быть включены десятки возможных действий. На протяжении многих лет пат-анализ применялся к веб-трафику, позволяя определять, как пользователи передвигаются по сайту и какие пути с наибольшей вероятностью ведут к продажам. Сегодня этот аналитический метод начинает выходить за рамки веб-трафика.

Статистика умерла… Да здравствует статистика!

Идея о том, что статистика потеряла свою актуальность, – заблуждение. Тогда как сегодня действительно существует необходимость выходить за рамки только классических статистических методов, сами по себе эти методы остаются крайне важным компонентом операционной аналитики.

Установление ключевых фактов о типичных путях позволяет повысить мощность прогностических моделей благодаря включению в них уникальной информации. Рассмотрим сценарий с четырьмя конкретными взаимодействиями: снятием средств через банкомат (А), звонком в колл-центр (B), визитом в филиал банка (C) и подачей жалобы (D). Свой путь я обозначу как ABCD: сначала снял деньги в банкомате, потом позвонил в колл-центр, далее нанес визит в филиал банка и, наконец, подал жалобу. После идентификации пути каждого клиента можно легко определить, какие из путей являются наиболее типичными и к каким, положительным или отрицательным, исходам относительно интересующих организацию метрик они ведут, например к открытию нового счета или закрытию существующего. Использование статистики может повысить точность пат-анализа и расширить его применение. Создав набор вспомогательных метрик, отражающих ключевые особенности каждого пути, можно более глубоко исследовать, какие аспекты путей влияют на интересующие организацию метрики. Резюме может включать следующие метрики:

• Повышает ли звонок в колл-центр риск ухода клиента в любой ситуации?

• Подача жалобы имеет значение только в том случае, если она является первой или последней в серии действий?

• Такие действия, как визит в филиал и подача жалобы, имеют значение только в сочетании, но не по отдельности?

• Подача жалобы после звонка клиента в колл-центр приобретает большее значение, чем когда предшествует звонку?

• Подача жалобы сразу по трем каналам коммуникации в любом сочетании существенно увеличивает риск ухода клиента?

На эти вопросы можно ответить, если маркировать путь каждого клиента при помощи серии числовых переменных, определяющих наличие или отсутствие ключевых характеристик пути. Например, одна переменная будет иметь значение 1, если путь включает комбинацию визита в филиал и звонка в колл-центр, и 0, если не включает. После создания широкого спектра переменных можно использовать классический корреляционный или регрессионный анализ для определения того, какие характеристики пути в наибольшей степени связаны с интересующей организацию метрикой. В рассматриваемом нами сценарии нестатистическая функция пути используется для поиска новой информации, которая затем может быть проанализирована строгими статистическими методами. Таким образом, статистика усиливает эффективность пат-анализа. Это еще один пример воздействия мультидисциплинарной аналитики, о чем мы уже говорили ранее в данной главе. Статистика живет и процветает.

Не пренебрегайте выборками

Концепция использования выборок в аналитических процессах родилась практически вместе с самой аналитикой{71}. В прошлом необходимость работы с выборками, а не со всей совокупностью данных диктовалась ограниченными возможностями обработки. В последние годы во многих случаях стало возможным собирать и анализировать всю совокупность интересующих нас данных, поэтому начались разговоры о том, что эпоха выборочных исследований подошла к концу.

вернуться

69

См.: Kirk Borne, “Statistical Truisms in the Age of Big Data,” 19 июня 2013 г., на www.statisticsviews.com/details/feature/4911381/Statistical‐Truisms‐in‐the‐Ageof‐Big‐Data.html и Marie Davidian, “Aren’t We Data Science?” AMSTATNEWS, 1 июля 2013 г., на http://magazine.amstat.org/blog/2013/07/01/datascience/

вернуться

70

Более подробное обсуждение этой концепции см. в статье в моем блоге для Международного института аналитики, озаглавленной «Идеальная информация не соответствует идеальным предсказаниям» (“Perfect Information Doesn’t Equal Perfect Predictions”), 12 декабря 2013 г., на http://iianalytics.com/2013/12/perfect‐information‐doesnt‐equalperfect‐predictions/

вернуться

71

На основе статьи в моем блоге для Международного института аналитики: «Производить выборку или не производить… Разве это имеет значение?» (“To Sample or Not to Sample… Does It Even Matter?”), 5 апреля 2013 г. См.: http://iianalytics.com/2012/04/to‐sample‐or‐not‐to‐sample‐does‐it‐even‐matter/

61
{"b":"277844","o":1}