Для распознания речи, кроме цифрового диктофона и компьютера, необходима специальная программа

Преобразование речевого сигнала в текст или голосовую команду интересует многих компьютерных пользователей, так как позволит увеличить скорость создания текстовых файлов в несколько раз, а также улучшить управление компьютером, с вытекающей отсюда оптимизацией рабочего процесса.

Объяснение этому простое: количество произнесенных среднестатистическим человеком слов в минуту достигает 120, а количество печатных всего 40. Когда эта задача будет решена, тогда управлять компьютером можно будет без мышки и клавиатуры.

Несмотря на то, что многие разработчики создавали такие программы (начиная с 1952 года, когда машину научили распознавать цифры, произнесенные человеком), но они не нашли широкого применения из-за своего несовершенства. Одной из первых операционных систем, которая способна распознавать речь была Windows Vista. Для того, чтобы включить контроль и управление компьютером, не требовалась установка других программ, так как эта функция запускалась в панели управления. Но как и все другие аналогичные программы, она не получила особого признания, а существенные недостатки самой операционной системы привели к так называемому рыночному провалу Windows Vista.

Компания Nuance Communications (штаб-квартира в Берлингтон, штат Массачусетс, США), являющаяся известным поставщиком программных продуктов для распознания речи, выпустила несколько версий Dragon NaturallySpeaking. Последняя версия Dragon позволяет управлять электронной почтой, создавать документы, управлять с помощью голосовых команд различными приложениями, совершать веб-серфинг. Но, несмотря на то, что точность последней версии (11,5) уже выше предыдущих продуктов, возможности технологии по-прежнему ограничены, особенно для русского языка.

Например, сложно применять программу для распознания речи в видео, даже с последующим исправлением записанного текста вручную, так как она не решает проблему дикторонезависимости и обладает небольшим словарем. После установки программы требуется ее «обучение», то есть систему диктовки текстов необходимо настраивать на диктора. Сегодня трудно прогнозировать, когда технологии распознания речи достигнут требуемого уровня, так как пока решаются сложные задачи, связанные не только с акустико-фонетическим уровнем ее отображения, но и с морфологическим, лексическим и синтаксическим, семантическим и прагматическим.

Есть еще одна проблема — это создание надежного механизма помехоустойчивости. Для передачи голоса, записанного на обычный цифровой диктофон, к компьютеру требуется физическое соединение рекордера и компьютера. Кроме того, для облегчения транскрипции записанного цифровым диктофоном звука, необходимо обеспечить его качество. Современное программное обеспечение, которое автоматически преобразует в текст речь, имеет некоторые ограничения. Наилучшие результаты достигаются в условиях ограниченной лексики, идеальной тишины, качественного стационарного микрофона, наихудшие результаты — при шуме и присутствии акцентов.

Белов Андрей (Sonikelf)

Заметки Сис.Админа [Sonikelf's Project's] Космодамианская наб., 32-34 Россия, Москва (916) 174-8226