Литмир - Электронная Библиотека
Содержание  
A
A
Big data изменяют Китай - _0.jpg

Рисунок 1.1. Источники численных данных

Помимо измерения и говорящей самой за себя регистрации данных новые численные данные также появляются из уже имеющихся посредством вычислений. И измерения, и вычисления осуществляются людьми, иными словами, в реальном мире чисел не существует, все данные – это то, что произведено человеком. Значение слова «первичный» в выражении «первичные данные» совсем не то же, что в выражении «первичный лес». «Первичный (первобытный) лес» – это лес, существующий в созданном природой виде, тогда как «первичные данные» – это всего лишь данные, полученные из первоисточника и не изменявшиеся человеком.

Big data изменяют Китай - _1.jpg

Рисунок 1.2. Данные, информация, знания

Как показано на схеме 1.2, в традиционном понимании, «данные», «информация» и «знания» – это совершенно разные понятия. Данные являются проводником информации, информация представляет собой данные с контекстом, а знания – это конечная информация, обладающая закономерностями, полученными в результате произведённых человеком обобщения и упорядочивания.

В 60-е годы 20 века, когда наблюдался огромный прогресс в теории программного обеспечения, были изобретены базы данных. После этого численные данные, тексты и изображения стали без дифференциации храниться в базах данных компьютеров, единицей, в которой осуществлялось хранение, был «бит», а значение слова «данные» начало расширяться. Понятие «данные» указывает не только на являющиеся результатом измерений числовые значения, то есть «числовые значения измеряемой величины», постепенно оно стало общепринятым обозначением «чисел, текстов, изображений, аудио и видео», то есть синонимом «информации». Поскольку такая информация существует как своего рода свидетельство и базис, её можно назвать «опорными данными».

Исходя из этого автор считает, что определение понятия «большие данные» достаточно ясно и точно выражает следующая формула:

Большие данные = традиционные числовые + современные значения измерений опорные данные

(Источником количественных данных являются измерения, как в случае с температурой 28° C; источником опорных данных является регистрация, как в случае с фотоснимком, например.)

Хотя количественные данные ближе к «числам», чем опорные данные, с исторической точки зрения последние возникли раньше, чем первые. Регистрация событий собственной жизни, которую человек вёл уже в древние времена, так называемые «летописи», и есть ранние опорные данные, можно даже сказать, что опорные данные – это тень истории. Количественные данные в практике регистрации событий и явлений реальности появляются медленно, их ключевой смысл заключается в точности. Обилие или, напротив, нехватка количественных данных напрямую определяли возможность науки развиваться. Если отталкиваться от этой точки зрения, источники данных – это уже не только измерения реальности, но и её регистрация. Таким образом, в информационную эру добавился ещё один источник данных – регистрация.

С её наступлением данные стали синонимом информации, и оба слова могут использоваться как взаимозаменяемые. Несмотря на то, что, например, письмо содержит много информации, с технической точки зрения она может представлять собой «единицу данных». Сфера «Данные» в современном толковании шире, чем сфера «Информация» (показано на рисунке 1.3).

Big data изменяют Китай - _2.jpg

Рисунок 1.3. Категории современных данных

Наряду с расширением внутреннего содержания понятия и созданием баз данных возникло ещё одно важное явление – непрерывное увеличение объёма данных, происходящее при этом с постоянно нарастающей скоростью.

Для описания названного феномена в 80-е годы ХХ века один американский специалист предложил использовать понятие «большие данные». И хотя в то время эпоха «большого взрыва данных» ещё не началась, некоторые специалисты были способны предсказать, что вслед за прогрессом информационных технологий важность программного обеспечения будет снижаться, а важность данных, напротив, возрастать. В те годы определение «большой», как и в случае с выражениями «большой человек», «большой шаг», главным образом имело ценностное значение. В 21 веке, особенно после возникновения социальных медиа в 2004 году, объём данных начал увеличиваться как при большом взрыве: как показывают данные компании International Data Corporation (IDC), в период с 2011 по 2018 годы объём общемировых данных увеличился в 18 раз, и вопрос формулировки понятия «большие данные» снова попал в поле зрения широких масс и привлёк к себе пристальное внимание. В этот период значение определения «большой» стало ещё более широким и указывало и на большой объём, и на большую ценность.

И всё же насколько большие данные могут называться «большими»? За десять с небольшим прошедших лет по этому вопросу велось огромное множество споров. Ответ на него в первую очередь связан с размерами единиц измерения данных. В 2000 году, как правило, считалось, что большие данные – это данные, измеряющиеся в терабайтах. В тот период предприятий, где использовались бы данные терабайтного порядка, было представлена текстами, изображениями и музыкой, стал настолько велик, что традиционным предприятиям было бы немыслимо достичь того же уровня.

УГЛУБЛЁННЫЙ ВЗГЛЯД

Разберёмся в нескольких важных единицах хранения информации

Одна песня со стандартным качеством звука – это 4 мегабайта (Мб).

Один фильм со стандартным качеством графики – это 1 гигабайт (Гб, 1 гигабайт = 1024 мегабайтам, то есть размер фильма равен размеру 250 песен со стандартным качеством звука).

Книжный фонд обычной библиотеки – это 1 терабайт (Тб, 1 терабайт = 1024 гигабайтам, это размер 1024 фильмов со стандартным качеством графики).

В действительности лавинообразное увеличение объёма самых разнообразных данных наблюдается не только в интернет-индустрии, но и во множестве других отраслей и индустрий, с единственным отличием – в масштабе. Если критерии больших данных ограничить исключительно интернет-индустрией и считать, что они используются только в ней, это серьёзно сузит смысл понятия «большие данные». В конце концов объём – это только одно проявление, а сущностью больших данных является как раз их ценность, и при этом большой объём совсем не обязательно представляет большую ценность. Подлинное значение больших данных заключается всё же в большой ценности, которая, в свою очередь, приобретается прежде всего за счёт консолидации, анализа и открытия данных. С этой точки зрения подлинное значение больших данных состоит в том, что человек, получив беспрецедентные возможности для использования огромного массива данных, выявил в них новые знания, создал новые ценности и тем самым принёс обществу «большое знание», «большую науку и технику», «большую эффективность», «большой интеллект» и другие возможности для развития.

Выше мы обсудили понятийное различие между «данными» и «большими данными», однако самый лучший способ постичь какое-либо понятие – это понять его происхождение в динамике. Формирование больших данных объясняется не только прогрессом в информационных технологиях, но и результатом того влияния, которое оказывали друг на друга многочисленные достижения, сделанные в разное время в области информационных технологий.

1.2. Революция запоминающих устройств: эволюция, приведённая в движение действием закона Мура

В 1965 году один из создателей компании Intel Гордон Мур, проведя исследование закономерностей развития аппаратных средств вычислительных устройств, сформулировал знаменитый закон Мура. Согласно которому количество транзисторов, которое может быть размещено на микросхеме одной площади, увеличивается вдвое за период от одного года до двух лет2.

вернуться

2

В 1965 году, когда Мур впервые обнаружил данную закономерность, он считал, что продолжительность периода составляет один год; в 1975 году он скорректировал её до двух лет. По мнению некоторых специалистов, этот период составляет 18 месяцев.

3
{"b":"900378","o":1}