Дата: 08/02/2008 8:01:38
Раздел: 




Компания “Центр речевых технологий” (ЦРТ) завершила работу над технологией “Руссограф”, предназначенной для распознавания слитной русской речи. Работы над проектом продолжались более трех лет, а инвестиции в разработку составили порядка 5 млн. долл. Новинка позволит компании выйти на рынок с целым рядом принципиально новых продуктов.
Как сообщает ЦРТ, “Руссограф” охватывает 30 тыс. словоформ и учитывает фонетические и грамматические особенности русского языка. В компании уверены, что западные системы распознавания не пригодны для качественного распознавания русской речи, так как созданы для работы с английским, испанским и другими языками. А русский принципиально отличается от остальных языков не только фонетически (например, звуком “ы”), но и свободным порядком слов в предложении, что значительно усложняет математическое моделирование речи.

Разработкой “Руссографа” занималась научно-исследовательская группа, состоящая из специалистов по лингвистике, фонетике, математике, обработке сигналов и программированию. Для работы над проектом использовался набор речевых баз данных, в который входят записи более чем 3000 дикторов общей длительностью около 300 часов, собранных с учетом пяти диалектных групп русского языка. Эти базы послужили для создания акустических моделей звуков русской речи.

Что касается языковых моделей, то в ЦРТ была собрана текстовая база русского языка объемом 35 млн. слов. Поскольку создание качественной системы распознавания невозможно без обширных экспериментальных исследований, был развернут мощный вычислительный кластер с производительностью около 1012 операций в секунду. Важной частью проекта стало создание базового речевого декодера, который преобразовывает речевой сигнал в текст c помощью акустических и языковых моделей русского языка.

Сейчас ЦРТ работает над аппаратной реализацией технологии и собирается уже в нынешнем году предложить несколько продуктов на основе распознавания речи, в частности, системы интерактивного голосового управления для контакт-центров и промышленных предприятий. В перспективе планируется создание карманного переводчика устной русской речи. В компании надеются разработать его к Олимпиаде в Сочи.

Источник: www.pcweek.ru


Эта статья взята СЃ сайта kr26.ru Железногорский интернет-портал
Адрес этой статьи:


При полном или частичном использовании материалов сайта ссылка на KR26.info обязательна.
Адрес электронной почты: info@KR26.info
Дизайн, разработка и поддержка сайта: Michael_A_Gayduk