Литмир - Электронная Библиотека
A
A

Экспоненциальный рост объема данных происходит сейчас не только в социальных сетях и поисковых системах. Все больше и больше нашей коммерческой деятельности осуществляется в интернете или обрабатывается с помощью корпоративных систем, что создает огромный поток информации. Так, в секторе розничной торговли для создания новых данных нам совершенно необязательно совершать покупки именно онлайн. Даже когда наша покупка регистрируется в обычном магазине (причем здесь нет даже необходимости фиксировать наше имя), розничные компании смогут использовать эти данные для прогнозирования тенденций спроса и выбора товаров, что уже помогает им оптимизировать цепочку поставок. А когда эти покупки удается связать с отдельным клиентом (например, с помощью карты постоянного покупателя или учетной записи в интернете), данные становятся гораздо информативнее и, следовательно, намного ценнее. Теперь фирма может предсказывать, какие еще товары или услуги вы также можете купить на ее торговых площадках, и будет активно их вам предлагать. Если вы совершаете покупки в интернете, то записываются не только данные о самих покупках: каждая посещенная вами страница, время, которое вы проводите на них, просмотренные вами продукты – все это отслеживается, увеличивая объем и ценность данных, «скармливаемых» искусственному интеллекту.

Как только покупка совершена, торговая компания тут же начнет создавать и собирать новые данные и извлекать из них ценность. Каждый раз, когда вы взаимодействуете с продавцами через веб-сайты, контакт-центры или оставляете отзыв у них на сайте или через сторонние агрегаторы (либо социальные сети), вы сами создаете все больше полезных для них данных. Даже бытовое использование продуктов или услуг, подключенных к интернету или зарегистрированных онлайн, создаст дополнительные сведения, выгодные для коммерции. Например, телекоммуникационные компании будут использовать данные о любой вашей сетевой активности и взаимодействиях, чтобы с помощью искусственного интеллекта попытаться предсказать, не захотите ли вы (и если захотите, то как скоро) перейти от них к конкуренту. Данные для обучения искусственного интеллекта поступают даже от клиентов, которые фактически расторгли контракты (то есть в одностороннем порядке перестали пользоваться услугами): искусственный интеллект использует эти сведения для определения всевозможных факторов, формирующих отток клиентов, и затем применяет их для анализа активности и особенностей поведения существующих клиентов. Аналогичным образом банки могут выявлять мошеннические транзакции на вашем счету благодаря тому, что у них имеется множество обработанных данных о подлинных, сомнительных и откровенно нелегальных транзакциях по различным счетам: ведь ежедневно в мире совершается около 300 млн транзакций по кредитным и дебетовым картам.

Другим источником больших данных являются всевозможные текстовые документы: газеты, книги, технические документы, сообщения в блогах, электронные письма и т. д. Еще одну группу составляют генетические и биомедицинские данные (рентген, пьезоэлектрическая и магнитно-резонансная томография, ультразвуковая диагностика и т. д.), климатические и метеорологические показатели (температура, влажность, давление, ветер, содержание кислорода и т. д.).

Там же, где данных не существует, они создаются целенаправленно. Обучающие наборы данных специально собираются или разрабатываются для самых распространенных или насущных задач, где можно применить искусственный интеллект. Например, чтобы распознавать числа в рукописном виде, американский Национальный институт стандартов (National Institute of Standards) создал базу данных (MNIST), содержащую 60 000 образцов рукописных цифр и 10 000 тестовых образцов. Существуют аналогичные базы данных для распознавания лиц, аэрофотоснимков, новостных статей, речи, для отслеживания движения, для диагностики биологических и антропометрических параметров и многого другого. Они незаменимы для разработки самых актуальных и необходимых приложений для машинного обучения.

Еще один интересный аспект, касающийся лавинообразного накопления и использования данных, заключается в том, что они прямо на наших глазах ставят привычные бизнес-модели с ног на голову. Google и Facebook не создавались в качестве компаний, занимающихся сбором данных и использованием искусственного интеллекта, но они быстро превратились именно в таких бизнес-гигантов. А сейчас для сбора данных специально создаются новые компании, которые используют для получения информации другие (обычно бесплатные) сервисы. Хорошим примером целенаправленного сбора и использования данных для доброго дела является деятельность компании Sea Hero Quest. На первый взгляд, их сервис очень похож на игру для мобильного телефона, но на самом деле он использует данные о том, как люди играют на телефоне или планшете, чтобы лучше понять природу старческой деменции и, в частности, разобраться в том, какие особенности существуют в нарушениях пространственной навигации в разрезе возраста, пола и географии. На момент написания книги в игровом сервисе приняло участие 2,7 млн человек, и это крупнейший проект по исследованию деменции в истории. Коммерческие предприятия используют аналогичный подход: они создают «фасадные» продукты или услуги, которые на самом деле существуют только для сбора ценных данных, реально использующихся совсем в других целях.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

7
{"b":"697377","o":1}