"И акустические, и языковые модели, а также алгоритмы для декодера - у нас собственной разработки", - говорит Хитров. По его словам, решение для диктовки текста будет готово в течение года. Сейчас ЦРТ доделывает программу Voice Digger для Auto Data Mining (поиск ключевых слов в звуковых файлах), а также готов представить распознавание команд для IVR [Interactive voice response.] -систем (управление голосом).
Из всей этой группы готовящихся или почти готовых продуктов самой массовой кажется система для диктовки.
Она призвана сделать реальностью голубую мечту многих людей, желающих диктовать компьютеру текст, а не набирать вручную. Однако в ЦРТ повторяют, что такие системы эффективны лишь при работе с тематически ограниченным словарем. Впрочем, электронного писаря Центр пока в люди не выводит, зато мне удалось немного поработать с другими программами, благо базируются они на одной и той же технологии.
На испытательном полигоне
Система IVR используется в самом ЦРТ для автоматического перенаправления входящих звонков. Тест прошел на ура, но как-то не впечатлил: автосекретарь вместо привычного "нажмите 1 или 2" говорил "скажите 1 или 2".
Наверное, можно реализовать и более сложные системы такого типа, но рука тянулась к клавиатуре телефона - привычка.
Система голосовой верификации "Голосовой замок" (Voice key) призвана контролировать доступ к чему угодно: к компьютеру, к папке на диске, к сайту. В ЦРТ, например, сотрудники произносят пароль, если нужно выйти в Интернет.[Удивляет не столько технология, сколько применение. - Прим. ред.] Банальным повтором ключевой фразы обойти систему не удалось. Не удалось этого сделать и с помощью записи ключевой фразы на диктофон с последующим воспроизведением через встроенный динамик, хотя, конечно, это был примитивный способ, но студийного микрофона и качественных динамиков поблизости не оказалось. Voice key требует произносить ключевую фразу в одной манере, микрофон следует держать примерно на одном и том же расстоянии ото рта. Система может быть чувствительной к замене микрофона или изменению тембра голоса при, скажем, простуде и, что интересно, не примет абсолютного полного совпадения с образцом, полагая это подвохом.
Для теста Voice digger мы запустили 23-секундный фрагмент новостной передачи, состоящий из двух частей: репортажа корреспондента с улицы и комментария диктора из студии. Ключевое слово, выбранное для поиска по записи, состояло из восьми слогов. При указании ключевого слова в программе нужно отметить ударную гласную. Поскольку ключевое слово нарочно было выбрано так, чтобы оно пришлось на часть записи, сделанную на улице, поиск результатов не дал: акустические модели действующей системы соответствуют или близки к студийной записи.
"При распознавании ключевой фразы или слова длиной пять-шесть слогов эффективность работы системы - 86%, - рассказывает Марина Татарникова. - Снижение количества слогов увеличивает количество ложных срабатываний, но при этом, как правило, нужный фрагмент тоже находится". Поиск пока чувствителен к различным словоформам. Однако, уверяют в ЦРТ, нет ничего сложного в том, чтобы заставить систему автоматически формировать все варианты слова [Но тут, думается, все зависит от реализации. Если система вместо одного слова будет искать десять его форм как независимые слова, то время поиска увеличится на порядок. С другой стороны, можно просто искать основу слова] .
Второй тест для Voice digger состоял в работе с файлом, записанным непосредственно перед испытанием через микрофон. Текст был произвольным, и специалисты ЦРТ не накладывали на него никаких ограничений. В импровизированной речи длительностью 28 секунд одновременно искались единожды упомянутые в ней словосочетания "Московский вокзал" и "разведение мостов", произнесенные, как и все остальное, не слишком внятно. Поиск длился примерно то же время, что и сам звуковой файл. Оба словосочетания были найдены. После несложной подстройки системы в том же файле следом производился поиск слова "вокзал", короткого и заведомо неудобного для системы. Слово было найдено, но было и около десятка сложных срабатываний. Поиск длился секунд двадцать. После еще одной подстройки слово "вокзал" было найдено, но уже без ложных срабатываний.
Обращает на себя внимание, что время поиска сравнимо с длительностью записи. Если поиск будет проходить в большом банке звуковых файлов, то, возможно, процесс займет много времени. Впрочем, проверить эту гипотезу было просто не на чем, к тому же, вероятно, этот неприятный момент можно как-то оптимизировать.
Есть ли у этой технологии будущее? Как сказал Алексей Хитров, нужно разделять технологию и продукты на ее основе. Конечно, было бы здорово облегчить труд российским медикам или другим специалистам. И работы впереди - непочатый край. Распознавание слитной речи для всех и каждого в виде банального набора текста пока так и остается мечтой, огороженной множеством "если". Распознавание, очевидно, связано со сложными вычислениями и большими базами данных, и очень хочется посмотреть на то, как такую систему можно реализовать в карманном устройстве. Ну а переводчики для Олимпиады - это, без сомнения, утопия. Даже если оставить в стороне звук - вы еще верите в качественный машинный перевод?