Несмотря на то что гипертекст с его ссылками может быть полноценно реализован только в электронной форме, предпосылки к его возникновению обнаруживаются задолго до появления компьютеров. Первым к идее гипертекста подошел Ванневар Буш, в своей эпохальной статье As We May Think, опубликованной в Atlantic Monthly. Он описал гипотетическую машину memex для работы с текстовыми источниками информации. Он писал: «Появятся новые типы энциклопедий, где фрагменты будут объединены ассоциативными связями, которые могут обрабатываться средствами memex». Задуманная Бушем машина должна была хранить книги и другие документы, обеспечивать доступ к ним и таким образом расширять творческие возможности человека.
Надо заметить, что и у Буша был предшественник, это немецкий инженер еврейского происхождения Эмануэль Гольдберг (Emanuel Goldberg, 1881–1970), создатель действующей (!) «Статистической машины». Она стала первым устройством для работы с размеченными данными, перенесенными на микрофильмы. Машина Гольдберга стала первым инструментом, позволяющим автоматизировать поиск в больших массивах данных с использованием разметки. Гольдберг родился в 1881 году в Москве в семье полковника медицинской службы российской армии (к слову, должность весьма необычная для человека со столь очевидными этническими корнями), а умер в 1970-м в Израиле.
Статья Буша послужила стимулом для Дага Энгельбарта на исследования в области систем, расширяющих интеллектуальные возможности человека. Эти работы в конечном итоге привели к созданию лаборатории Augmentation Research Center, где была построена уникальная для своего времени система NLS (oNLine System). Как ни странно, но попутно созданная компьютерная мышь оказалась самым знаменитым отпрыском этого проекта.
Data Labeling
Для CV и NLP нужны размеченные данные, в связи с этим появилась новая технологи data labeling (нанесение этикеток на данные, аннотация). На данный момент никаких средств для автоматизации этого процесса нет и в обозримом будущем не будет, поэтому эту нудную работу (handmaid data labeling) будут вручную выполнять низкоквалифицированные работники. Их можно назвать «синими воротничками» индустрии AI. Рабочие должны выполнять вручную огромный объем работы, например, аннотация одного человеческого образа требует указания от 15 до 40 точек и делается это все обычными средствами человеко-машинного интерфейса. Для разметки изображений сейчас есть и свободно распространяемые технологии (Sloth, Visual Object Tagging) и коммерческие (Diffgram Supervisely), и другие. Список средств для разметки документов, используемых при обработке текстов на естественных языках NLP, существенно длиннее.
Очевидный шанс стать супермонополистом в области data labeling есть у Китая, эта страна располагает необходимым количеством высококвалифицированных специалистов, здесь выработаны государственные программы по развитию AI, но в то же время наличествует неограниченное количество желающих на роль исполнителей низкого уровня. Они работают надомно или в стесненных условиях на так называемых «фабриках разметки» (tagging factories), получая чрезвычайно низкую заработную плату.
Типичным примером фабрики разметки служит компания Mada Code, насчитывающая более 10 000 (!) надомников, выполняющих разметку данных для задач оптического распознавания и обработки текста на естественном языке. Среди ее клиентов крупные компании и университеты. Руководитель Mada Code сказал: «Мы строительные рабочие цифрового мира, мы кладем кирпич на кирпич, но играем заметную роль в ИИ. Без нас невозможно построить небоскребы».
Необходимость ручной разметки позволяет оценить уровень зрелости нынешних работ в области AI тем, что напоминает закон, принятый в Англии на заре автомобилизма, который требовал, чтобы перед автомобилем шел человек, предупреждавший о его появлении.
Глава 9 Два основных направления в AI – компьютерное зрение и средства для работы с текстом на естественном языке
В начале третьего десятилетия XXI века, на седьмом десятке лет истории AI стало очевидно, что ни Общий AI (General AI), ни Сильный (Strong AI), а лишь только Слабый AI (Narrow AI) имеет шансы для развития, причем внутри Слабого AI наибольший перспективы у тех его направлений, которые усиливают возможности человека (Augmented AI, AuI). Из AuI-решений особое внимание привлекают к себе два: Компьютерное зрение (Computer Vision, CV) и Работа с текстами на естественном языке (Natural Language Processing, NLP). Оба они служат для создания технологий, способствующих повышению способностей человека к восприятию информации, заключенной в больших объемах фото/видео и текстовых данных. Эти технологии поддерживают автоматизацию преобразования данных в информацию на уровне интерфейса между уровнями данных и информации на пирамиде DIKW (Данные, Информация, Знания, Здравый смысл).
История компьютерного зрения
Компьютерное зрение – это междисциплинарная область исследований и разработок, служащих для содержательной интерпретации (по-английски understanding) цифровых фото и видео данных. Используемое в английском слово understanding в обычных условиях переводят как понимание, но в данном контексте точнее походит интерпретация, понимание слишком человечно. Компьютерное зрение включает в себя физические и программные методы работы с данными в сочетании с методами анализа и интерпретации изображений, основанными на нейронных сетях и машинном обучении, что позволяет отнести их к AI.
Средства, составляющие CV, выполняют примерно такую последовательность действий: получение изображения (image acquisition), предварительная низкоуровневая обработка изображения (pre-processing), выделение линий, ребер (feature extraction), выделение интересующих областей (detection, segmentation), оценку изображения на соответствие (estimation of application-specific parameters) и, наконец, главное – распознавание изображения (image recognition). Полученный результат передается либо для дальнейшей обработки, например, в систему проверки доступа по лицу или же человеку-эксперту.
В CV наряду с распознаванием изображений (Image recognition) используют термин распознавание образов (Pattern recognition). Эти термины близки, но не синонимичны, не случайно в названиях конференций они содержатся в разных сочетаниях. Из американских одна сейчас называется Conference on Computer Vision and Pattern Recognition, а несколько лет назад она же называлась Pattern Recognition and Image Processing, а другая International Conference on Pattern Recognition and Information Processing. Есть еще две конференции – американская и европейская вообще с одинаковыми названиями International Conference on Image Processing, Computer Vision, and Pattern Recognition.
Распознавание изображений предполагает оцифровку изображений и преобразование их теми или иными алгоритмами в изображения более удобные для получения полезной информации. Распознавание образов, скорее всего, распространяется на более широкий круг данных, чем изображений, в него входит и распознавание голоса, и данных метеопрогноза, и обнаружение скрытых закономерностей геолого-геофизических данных, а также данных иной природы.
Особо следует сказать о машинном зрении, как о прикладной области компьютерного зрения, это инженерная область, связанная с созданием систем контроля производственным оборудованием и роботами-манипуляторами.
Ошибка Папперта
И здесь тоже начало было положено многолетними нейрофизиологическими исследованиями, они достигли высшей точки в конце 40-х годов, но далее возникла пауза, для дальнейшего продвижения не было необходимых технических средств. Однако пауза длилась недолго, после 1956 года, когда восторжествовал символьный AI (Symbolic AI), возникли смелые идеи альтернативного пути к CV на основе символьного подхода с использованием универсальных компьютеров. Тогда главной казалась проблема ввода изображения в компьютер, на нее были брошены большие силы, в результате Минский с коллегами сумели успешно решить ее, после чего казалось, что от оцифрованного изображения до CV остался всего один шаг.