Свою историю речевые боты ведут от программы ELIZA, написанной в 1966 году профессором МТИ Джозефом Вейцбаумом. Качественно новый шаг через 30 лет совершил Ричард Уоллес (1960), создатель виртуального собеседника «Искусственное лингвистическое интернет-компьютерное существо» A. L. I. C. E. (Artificial Linguistic Internet Computer Entity). Уоллес создал AIML язык разметки для AI по образу и подобию XML.
Между ELIZA и современными речевыми технологиями возник разрыв на несколько десятилетий, в первую очередь он был обусловлен отсутствием необходимых средств для распознавания речи (Automatic speech recognition, ASR) и воспроизведения голоса (Speech synthesis). Первая из этих задач оказалась чрезвычайно наукоемкой и потребовала более полувека работы большого числа специалистов. Нетрудно догадаться, что в ее решении были заинтересованы многочисленные спецслужбы разных государств, начало деятельности в этом направлении описано в «Круге первом» А. И. Солженицына. На речевой ввод возлагались огромные надежды – еще в 1977 году Билл Гейтс заявил, что через десять лет клавиатуры станут не нужны, компьютеры смогут понимать человеческую речь. В 1987 году он оказался скромнее, выразив убеждение в том, что через пять лет большая часть интернет-запросов будет совершаться с помощью речи, а не клавиатуры. И это предсказание тоже не сбылось, и в 2021 году клавиатура не исчезла и она успешно используется для запросов.
Для создания чатботов нужны еще средства распознавания речи, работы в этом направлении начались еще в 50-е годы, первые шаги в этом направлении были сделаны в процессе совместной работы лабораторий из нескольких университетов по программе автоматической транскрипции речи (Robust Automatic Transcription of Speech, RATS), спонсированной DARPA. Она завершилась созданием Harpy System, способной распознавать речь примерно на уровне трехлетнего ребенка. В последующем продолжались многочисленные эксперименты и исследования, но конца 90-х годов трудно было говорить о практической реализации технологий распознавания речи.
Решающий прорыв в этом направлении был сделан Google в 2001 году с изобретением Google Voice Search, использовавшем вычислительные мощности больших ЦОДов, хранящих сотни миллиардов речевых образцов.
Попытки распознавания, основанные на физике и статистике, главным образом на скрытых Марковских цепях были полезны, но не привели к конечному результату. Для коммерческих приложений требуется распознавание речи, а не идентификация говорящего, то есть система должна с равным успехом понимать речь разных людей с разными особенностями голосов. Решение такой задачи требует сочетания двух подходов – акустического и лингвистического, оно не может быть получено без методов машинного обучения. Только в середине прошлого десятилетия появились комплексные продукты от Google и Apple. Существующие системы ASR относятся к классу гибридных, в них сочетаются три модели – акустическая (acoustic), языковая (language) и модель произнесения (pronunciation), каждая из них обучается независимо от других и весь процесс в целом оказывается сложным и долгим. На смену этой парадигме идет следующая, где одна модель включают всё – End-to-end (E2E) ASR.
Отрадно отметить, что в области ASR, не уступая зарубежным компаниям работает Центр Речевых Технологий ЦРТ (ныне он куплен «Сбером»), его продукт CHiME Speech Separation and Recognition Challenge (CHiME-6) признан лучшим в своем классе на международном конкурсе в 2020 году.
Speech synthesis, в большей мере инженерная и прикладная задача, начиная с пятидесятых воспроизведением голоса занимались математики и инженеры в интересах военных спецслужб. Результатом стал класс приборов – вокодеров, превращающих живой звук в сигнал, который можно сжать или закодировать, чтобы уменьшить полосу пропускания и затруднить декодирование, а затем воспроизвести с тем или иным качеством. Успехи в этом деле привели к тому, что сегодня вся музыкальная индустрия основывается на новом поколении вокодеров, способных превратить убогое хрипение в хит.
Умные машины и киберфизические системы
Ни один фантаст не мог предположить создание киберфизических систем (Cyber-Physical System, CPS) – продукта конвергенции встроенных систем с AI. Этот термин возник в 2006 году при подготовке семинара, посвященного будущему встроенных систем в Национальном научном фонде США, его устроители пытались пересмотреть роль встроенных систем с учетом перспектив в области AI. И это им удалось – они уловили общую тенденцию и уже через пару лет прогресс в этом классе систем был признан одним из наиболее важных направлений технического развития в США, а чуть позже и в Европе. Администрация президента Барака Обамы включила киберфизические системы в приоритетный список инноваций. Реальные подвижки в CPS начались во втором десятилетии XXI века с подъемом третьей волны AI. В 2013 году Брюсселе состоялась специальная конференция Cyber-Physical Systems: Uplifting Europe's innovation capacity, посвященная киберфизическим системам и их роли в инновационном процессе, где было подтверждено, что развитие CPS служит важнейшим фактором для подъема европейской экономики.
Предшественниками CPS можно считать встроенные системы реального времени, распределенные вычислительные системы, автоматизированные системы управления техническими процессами и объектами, беспроводные сенсорные сети. CPS – это системы, состоящие из различных природных объектов, искусственных подсистем и управляющих контроллеров, позволяющих представить такое образование как единое целое. В CPS обеспечивается тесная связь и координация между вычислительными и физическими ресурсами. Область действия CPS распространяется на робототехнику, транспорт, энергетику, управление промышленными процессами и крупными инфраструктурами. Создание полноценных систем CPS в перспективе приведет примерно к таким же изменениям во взаимодействии с физическим миром, как те, к которым привела в свое время Сеть.
Можно выделить несколько основных предпосылок, сделавших CPS возможными. Первая – рост числа устройств со встроенными процессорами и средствами хранения данных: сенсорные сети, работающие во всех протяженных технических инфраструктурах; медицинское оборудование; умные дома и т. д. Вторая – интеграция, позволяющая достигнуть наибольшего эффекта путем объединения отдельных компонентов в большие системы, такие как Интернет вещей, и умная среда обитания (Smart Building Environment). Третья – ограничение когнитивных способностей человека, они не позволяют ему справиться с объемом информации, требуемой для принятия решений, поэтому какую-то часть действий нужно передать CFS, частично выведя человека из контура управления (human out of loop) и предать ее AI. В то же время в ряде случаев CPS могут усилить аналитические способности человека, поэтому есть потребность в создании интерактивных систем нового уровня, сохраняющих человека в контуре управления (human in the loop). Появление технологий AI позволяет решить обе эти проблемы.
Область приложения CPS естественным образом разбивается на следующие основные сегменты: умное производство, умные сети и услуги, умные здания и инфраструктуры, умный транспорт.
Умное производство
Главная составляющая умного производства (Smart Manufacturing, SM) – это управляющий им производственный интеллект (Manufacturing Intelligence, MI). Еще совсем недавно под MI понимали только программное обеспечение, превращающее данные в знания, необходимые для менеджмента, а сейчас MI видится шире – как совокупность всех возможных средств автоматизации управления на основе AI в сочетании с робототехникой, аддитивными и другими современными технологиями.
Умное производство состоит из умных машин (Smart Machines), отличающихся от современных мультифункциональностью, малыми габаритами, возможностью адаптации к потребностям пользователей, реализуемой путем сбора нужной функциональности в одной машине. Такие машины самоуправляемы – они могут оценивать состояние окружающей среды, обнаруживать и исправлять ошибки – например, реагировать на износ оборудования. SM позволяет оптимизировать все производство прежде всего за счет создания единой системы, в которой машины могут обмениваться данными между собой в режиме реального времени: обмен между оборудованием, расположенным непосредственно на производственных площадях и в логистической цепочке, включая бизнес-системы, поставщиков и потребителей; передача сведений о своем состоянии обслуживающему персоналу. При этом производственное оборудование, получая сведения об изменившихся требованиях, может само вносить корректировки в технологический процесс.