Давайте сразу же разоблачим роковое заблуждение. Дело в том, что нереляционная аналитика – далеко не новая концепция. Когда я начинал свою карьеру аналитика, реляционных баз данных в мире бизнеса еще не существовало. Как и не существовало SQL. Поэтому всю аналитику мы выполняли с помощью нереляционных методов. Например, я обычно использовал инструменты из SAS (системы статистического анализа). Для специалистов вроде меня язык SQL действительно был новинкой. Со временем мы поняли, что SQL лучше подходит для определенных видов задач и обработки. Но всегда встречались и такие виды обработки, которые профессиональные аналитики по-прежнему осуществляли вне окружения SQL.
Сегодня же, с появлением больших данных, организации вновь открыли для себя ценность обработки вне контекста SQL в тех случаях, когда это имеет смысл. Оказалось, что источники больших данных гораздо чаще, чем источники традиционных данных, оправдывают использование нереляционных технологий. Однако многие компании зашли слишком далеко и постарались втиснуть всю обработку в парадигму SQL. Это было ошибкой; организациям действительно необходимо включать в свой набор различные подходы. Просто вы должны знать, что нереляционные технологии были доступны всегда. И дело не в том, что в течение 2010-х гг. не существовало никакой необходимости в нереляционной обработке. Скорее компании слишком сильно сконцентрировались на SQL. Можно ожидать, что в будущем SQL останется доминирующим подходом для анализа данных, а нереляционная аналитика станет применяться в специфических целях.
Огромный сдвиг во взглядах на большие данные
После того как на протяжении нескольких лет предсказывалась скорая смерть SQL, сегодня нереляционные платформы стремятся дополниться интерфейсами SQL. В этом нашли отражение не только огромный сдвиг во взглядах, но и реальные потребности бизнеса.
Организациям следует внедрять набор нереляционных инструментов когда это уместно, но ни в коем случае нельзя предполагать, что при этом отпадет необходимость в использовании наряду с ними и SQL. Ведь так легко впасть в противоположную крайность, и многие организации сегодня подвергаются риску поступить именно так. Но, хотя в течение нескольких лет многие эксперты провозглашали смерть SQL, вследствие массовой перемены мнений сейчас возникло сильное движение за внедрение функциональности в стиле SQL в широкий спектр нереляционных платформ, таких как Hadoop. В очередной раз мы возвращается назад в будущее. Подробнее об этом тренде и о том, как правильно выбрать тип обработки, мы поговорим в пятой и шестой главах.
Большие данные следуют кривой зрелости
Многие люди жалуются мне на то, что большие данные их подавляют. Существует так много новых источников данных и так много новых возможностей применения этих данных, что организации попросту не знают, как с ними справиться и с чего начать. Прежде чем отчаиваться, подумайте о том, что большие данные следуют той же кривой зрелости, что и любой новый источник данных{21}. Такова жизнь, что, когда появляется новый источник данных, он всегда представляет собой вызов. Люди не знают в точности, как наилучшим образом использовать эти новые данные, какие метрики создать на их основе, какие проблемы с качеством данных могут возникнуть, и т. д. Однако с течением времени работа с этим источником нормализуется.
Много лет назад, когда я со своей командой впервые занялся анализом данных с точек продаж (point‐of‐sale, POS), мы тоже не знали, как лучше их использовать в целях анализа покупательского поведения и улучшения результатов в бизнесе. О том, чтобы применить к POS-данным операционную аналитику, мы тогда и помыслить не могли. У нас было множество теорий и идей, но ни одна из них на тот момент не была проверена на практике. Разумеется, мы не располагали никакими стандартизированными подходами к вводу, подготовке и анализу этих данных. Со временем в процессе регулярного анализа POS-данных все эти аспекты были стандартизированы. Сегодня использование POS-данных считается простым делом и применяется для решения широкого круга задач.
Не отчаивайтесь
Новые источники данных всегда пугают, когда мы впервые начинаем их анализировать. Но со временем наше понимание их крепнет, и нам становится удобно с ними работать. Такой же процесс вызревания произойдет и с большими данными. Ситуация с ними кажется более пугающей, чем обычно, только лишь потому, что нам приходится одновременно иметь дело со множеством новых источников.
Организациям предстоит пройти одним и тем же путем познания каждого нового источника данных (см. рис. 2.7). Принципиальное отличие сегодняшней ситуации состоит в том, что в прошлом организация получала доступ к действительно новому и уникальному источнику данных раз в несколько лет, тогда как в эпоху больших данных она может получить доступ сразу ко множеству таких источников.
Сегодня перед профессиональными аналитиками может стоять задача одновременно наладить анализ в таких областях, как взаимодействие в социальных сетях, взаимодействие по обслуживанию клиентов, веб-поведение клиентов, сенсорные данные и т. д. Иногда требуется использовать все эти данные в одном аналитическом процессе. В таком случае множественные новые источники, следующие кривой зрелости, применяются все вместе. Сделать это гораздо сложнее, чем в случае с одним лишь новым источником. Ситуация усугубляется тем, что необходимо представлять себе не только как обращаться с каждым источником данных, но и как соединить их вместе (мы обсуждали это выше),
Помните, что работа с новыми данными всегда сложна и всегда поначалу пугает. На этом пути вам всегда придется преодолевать ухабы, но неизбежно со временем процесс ввода и анализа данных будет в основном стандартизирован – и станет для вас простым делом. Затем вы сможете перейти к следующему новому источнику данных. Именно так произойдет и уже происходит с большими данными сегодня.
Большие данные как глобальный феномен
Наконец в этой главе мы рассмотрим, насколько велика зрелость больших данных и устойчивы взгляды на них в различных точках земного шара{22}. Ведь одни организации находятся впереди, а другие отстают в циклах внедрения и развития больших данных. Тем не менее, объехав несколько континентов и пообщавшись со множеством банков, страховых компаний, ретейлеров, государственных учреждений и т. д., я обнаружил, что все они сталкиваются фактически с одними и теми же проблемами. Несмотря на особенности местных рынков, определяемые законами и обычаями, фундаментальные проблемы бизнеса отличаются постоянством. Кроме того, люди в большинстве своем считают, что в других отраслях и в других частях света ситуация куда лучше, чем в их организации, хотя зачастую это совсем не так.
Математика, статистика, аналитика и данные не пользуются особым языком и не принадлежат особой культуре. Они универсальны по своей природе. График тренда в Китае выглядит точно так же, как график тренда в Испании, и основан на одинаковой информации. Средние значения вычисляются в Индии точно так же, как и в Германии. Запись транзакции в Японии содержит точно такую же информацию, как и запись транзакции в Бразилии. Утверждение о том, что большие данные представляют собой уникальную проблему для какой-либо отрасли или страны, является ошибочным за очень редкими исключениями.
Ваша организация может отставать не на столько, на сколько вы считаете
Организации по всему миру сталкиваются с очень похожими проблемами в области больших данных. Однако организации часто считают, что в своей отрасли они попали в число отстающих, и точно так же считают организации в той же отрасли, но в другом регионе мира. Несмотря на то что каждый считает себя отстающим, во многих случаях реальное отставание гораздо меньше, чем предполагается.