Разговор с машиной по-русски

31.10.2007

Ученые из Санкт-Петербурга разработали технологию, позволяющую компьютеру автоматически распознавать слова и вести диалог с пользователем практически на любые заданные темы.

Ученые из Санкт-Петербурга разработали технологию, позволяющую компьютеру автоматически распознавать слова и вести диалог с пользователем практически на любые заданные темы. С ее помощью можно существенно повысить эффективность работы информационно-справочных служб, однако этим возможности уникальной разработки не исчерпываются.

Математики и программисты из Санкт-Петербургского института информатики и автоматизации РАН, который в этом году празднует свой 30-летний юбилей, вместе с коллегами из Дрезденского технологического института и российской компании NewVoice разработали российскую технологию распознавания голоса, не только не уступающую зарубежным аналогам, но и по некоторым позициям ее превосходящую. В первую очередь потому, что создают ее люди не менее талантливые, но живущие и работающие в той же, русскоязычной языковой среде.

Система SIRIUS (Spiiras Interface for Recognition and Integral Understanding of Speech), которую авторы представили на недавней, V Международной специализированной выставке «Робототехника» (17-20 октября 2007, Москва) – это, как и следует из названия, система автоматического распознавания и интегрального понимания русской речи. Пока в словаре системы тысяча слов, которые компьютер уверенно выделяет и распознает в слитной, что очень важно, речи пользователя. Однако это не предел.

В принципе система позволяет оперативно пополнять словарь новыми словами и оборотами, что интересно – с учетом фонологических и морфологических особенностей русской разговорной речи. То есть всякие, например, московские «аканья» или вологодские «оканья» ее не смутят. Кто бы и как бы ни произнес уже известное системе слово, она уверенно выделит его из словесного потока и среагирует заданным образом – переадресует звонок тому, кто обладает нужной информацией, если это SIRIUS-секретарь, или перейдет к следующему, уточняющему вопросу, если это SIRIUS-справочная.

Однако всякого рода справочно-информационные службы – вовсе не единственное направление деятельности SIRIUSa. Есть и другие. Так, например, по замыслу авторов, он может быть частью системы, позволяющей управлять ПК в бесконтактном режиме – только движением глаз, лица и голосом. Соответствующую систему специалисты из СПИИ РАН разрабатывают не первый год, и значительно продвинулись в этом направлении. Они уже создали одну из первых российский многомодальных систем, названную ICanDo, которая позволяет управлять курсором без мышки – только движениями лица или вообще взглядом. Для этого видеокамера отлеживает перемещения пяти точек на лице человека (зрачки, кончик носа, центр верхней губы и середина переносицы) и использует полученную информацию так же, как и сигнал, полученный при перемещении мышки. Если же информация компьютеру будет поступать синхронно двумя потоками – звуковым, благодаря использованию системы распознавания речи, и оптическим, это существенно повысит и эффективность, и точность работы всей системы в целом. А уж область применения подобных универсальных систем практически безгранична – от помощи инвалидам, лишенным возможности двигаться, до бесконтактного управления бытовой техникой и «умными домами».

©РАН 2019