«Речевые технологии» из облака IaaS-провайдера

«Речевые технологии» из облака IaaS-провайдера

В этой статье компания ЦРТ (Центр речевых технологий), абсолютный лидер российского и значимый игрок международного рынка речевых технологий и мультимодальной биометрии, расскажет о том, как с помощью интеллектуального потенциала, передовых технических разработок и облачных решений можно извлекать выгоду и оптимизировать бизнес-процессы.

Как все начиналось

У истоков Центра речевых технологий (ЦРТ) стояли ученые-акустики, что и объясняет сферу деятельности самой организации. В начале 90-х годов основатель компании Михаил Хитров с восемью единомышленниками всего за пару месяцев сформировал команду настоящих профессионалов в области электроники и программирования. Большинство из них в свое время работали в отделе спецакустики ленинградского НПО «Дальняя связь». Был утвержден неформальный устав, согласно которому предполагалась работа только в области высоких технологий. Коллеги решили, что ни при каких обстоятельствах не будут отклоняться в сторону выгодных, но неинтересных проектов.

Конечно, первое время всем приходилось нелегко. Ведь, как известно, чтобы выжить в бизнесе, нужно быть экономически эффективными и понимать особенности работы в новых условиях. Безусловно, все это приходило постепенно, с опытом. Основная сложность, с которой столкнулись разработчики, заключалась в том, что многие продукты и технологии ЦРТ были, так скажем, новаторскими для своего времени, кардинально отличающимися от вариантов, предлагаемых на тот момент на рынке.

Изначально разработчикам нужно было понять, какие решения станут востребованными и актуальными, каким образом можно решить различные задачи клиентов. Была проделана колоссальная работа. Чтобы продавать свои продукты, ЦРТ самостоятельно создавал для них рынки, поскольку помощи от государства в те времена ждать не приходилось: было совсем не до науки. ЦРТ активно набирал в свою команду высококвалифицированных научных сотрудников, благодаря которым удалось обогнать конкурентов по многим направлениям.

В конце столетия были заключены первые международные контракты. Учитывая отношение мирового сообщества к российскому бизнесу, особенно в области высоких технологий, нужно было быть на три головы выше иностранных конкурентов, и мы были. Известен случай, когда на крупной международной выставке CeBIT представители компании-конкурента тайно покупали наш программный комплекс шумоочистки SoundCleaner под чужим именем. Но, к счастью, так и не смогли превзойти разработку ЦРТ и даже приблизиться к ней. Об истории развития компании можно рассказывать долго, но мы хотим особо подчеркнуть, что мы всегда были организацией, которая извлекает прибыль из своего интеллектуального потенциала, производя продукты, реально оптимизирующие бизнес-процессы клиентов. Можно сказать, что девиз ЦРТ — «технологии для жизни».

Команда ЦРТ

Похожая задача? Предлагаем обсудить

Выбор в пользу облака

Выбор в пользу облака

Сегодня множество компаний делает выбор в сторону «облака» ввиду его гибких возможностей и доступности. Поскольку ЦРТ регулярно проводит высоконагрузочное тестирование продуктов, а также реализует внешние проекты, выбор в пользу облака является совершенно оправданным.

Когда ЦРТ впервые обратился в «ИТ-ГРАД», для нас за пару дней развернули крупную инфраструктуру. Мы остались довольны оперативностью и качеством выполненных работ. С тех пор ЦРТ арендует у «ИТ-ГРАДа» виртуальные вычислительные мощности как для проведения тестирования, так и для реализации внешних проектов, которым требуется высокая доступность. Для нас облако «ИТ-ГРАД» — это, в первую очередь, оперативно предоставляемый пул вычислительных ресурсов с высокой доступностью. Ниже мы расскажем о наших решениях, которые работают из облака провайдера и обслуживают достаточно требовательную клиентскую аудиторию.

Команда ЦРТ

# VoiceFabric

VoiceFabric

VoiceFabric давно зарекомендовал себя как облачный сервис синтеза речи. Решение позволяет записывать аудиоподкасты, озвучивать книги, видеоролики, статьи на сайтах, динамическую информацию IVR-меню, сообщения информационных систем и любые другие тексты. Для этого достаточно зайти на сайт продукта, зарегистрироваться, выбрать тариф и оплатить услугу.

Это интересно!  Компания JOTUN разместила свою инфраструктуру в IaaS-облаке «ИТ-ГРАД»

Таблица 1. Возможности синтеза речи VoiceFabric

VoiceFabric предоставляет возможность синтезировать речь двумя способами:
С помощью встроенного веб-сервиса прямо на сайте. Для этого необходимо скопировать текст в специальное поле, выбрать голос и скачать готовый звуковой файл. С помощью встроенного API, который интегрируется по протоколу http. Так разработчики сторонних приложений могут озвучивать тексты автоматически.

В дальнейшем с помощью VoiceFabric можно будет встраивать в свой проект не только синтез, но и распознавание речи (с возможностью подключения различных языковых моделей) и даже голосовую биометрию.

Принцип работы VoiceFabric

Обмен информацией между API-сервисом VoiceFabric и приложением/устройством пользователя осуществляется по протоколу HTTPS.

Принцип работы VoiceFabric Рисунок 1. Принцип работы VoiceFabric
  • Текст, который не превышает 4096 символов, может передаваться на синтез запросом GET.
  • Текст объемом до 10 Мб может передаваться на синтез запросом POST.
  • Формат выходного звукового файла — беззаголовочный (raw), codec = pcm, bit = 16, rate = 8000 или 22050 (зависит от голоса).
  • Формат можно получить в ответе из заголовка Сontent-type.
  • Все запросы должны быть сформированы согласно HTTP-протоколу.
  • Параметры строки запроса: UrlEncode, разделитель & и т. д.

# Сервер обновлений для мобильного приложения «Читатель»

Еще один внешний проект представлен решением «Читатель». Он озвучивает (читает вслух) синтезированным голосом загруженные книги и документы, превращая любой текстовый файл в аудиокнигу. Технология синтеза речи от ЦРТ позволяет переводить текст в речь на самом мобильном устройстве. Всего в «Читателе» установлено шесть русскоязычных голосов, в скором времени появится поддержка английского (голос Carol) и казахского языка (голос «Асель»). «Читатель» доступен как для устройств Android, так и для iPhone, iPad. Приложение успело завоевать доверие более 100 тыс. пользователей — именно столько загрузок было зафиксировано в AppStore и PlayMarket.

Сервер обновлений для мобильного приложения «Читатель»

# Демостенд для виртуального консультанта компании МегаФон — «Елены»

Следующий проект, использующий облако «ИТ-ГРАД», связан с демостендом для виртуального консультанта «Елены».

  • «Елена» — «сотрудник» службы клиентского сервиса «МегаФона», который способен обрабатывать более миллиона клиентских запросов в год, доступен 24 часа в сутки 7 дней в неделю.
  • «Елена» помогает клиентам получать необходимую информацию и управлять услугами. Благодаря «Елене» все клиенты «МегаФона» при звонке в call-центр могут получить консультацию без ожидания на линии.

Ранее многие типовые операции могли быть совершены с помощью маршрутизации на клавиатуре телефона (IVR) или с привлечением консультанта. Но с появлением такого продукта клиенты могут решать большинство своих вопросов без блуждания в кнопочном лабиринте, без использования помощи оператора call-центра. Виртуальный консультант разгружает сотрудников обслуживания, позволяя им сосредоточиться на решении нестандартных ситуаций и сложных задач. «Елена» способна обучаться и помогать в решении большинства типичных вопросов. Новый «сотрудник» определяет тему обращения, отвечает на вопросы, запрашивает дополнительную информацию, а в дальнейшем будет предлагать сразу несколько вариантов решения вопроса. Виртуальный консультант «МегаФона» сможет не только обрабатывать и выдавать информацию, но и общаться с абонентами. В основе «Елены» лежит разработанный ЦРТ сервис.

Хочется отметить, что мы единственная компания в России и одна из немногих компаний в мире, успешно работающая в области создания информационных технологий, связанных с компьютерной обработкой речи.

Команда ЦРТ

По словам Игоря Майстренко, директора по продажам и обслуживанию «МегаФона», «виртуальный консультант не только позволяет быстро получать нужную информацию, но и создавать эффект «живого» общения. Если сравнить развитие подобных сервисов за рубежом, станет очевидно, что решение ЦРТ во многом превосходит имеющиеся мировые аналоги.

Это интересно!  Облако для тех, кто знает об облаках не понаслышке: использование IaaS компанией S7 Airlines

Существенная часть обращений в контакт-центр носит типовой характер и может быть автоматизирована с помощью современных речевых технологий. Работая в тесном сотрудничестве с «МегаФоном», ЦРТ создал не просто справочник с голосовым управлением, а настоящую «персону», общение с которой максимально приближено к естественному. ЦРТ, как отечественная компания, отлично понимает требования российского рынка, учитывает особенности русского языка и имеющиеся реалии.

# Демонстрационные сервисы голосового самообслуживания Voice Navigator

Демонстрационные сервисы голосового самообслуживания Voice Navigator

VoiceNavigator — это решение для контакт-центров, предназначенное для построения систем голосового самообслуживания (СГС). VoiceNavigator позволяет автоматически обрабатывать вызовы с помощью технологий синтеза и распознавания речи. Применяется в корпоративных системах голосового самообслуживания клиентов со сложными многоуровневыми меню, справочных системах массового информационного обслуживания (автоинформаторах расписания движения пассажирского транспорта, сервисах автоматического бронирования билетов и услуг), системах голосовой аутентификации пользователей при запросе персонализированной или конфиденциальной информации по телефону или через Интернет.

В заключение

С момента образования Центра речевых технологий прошло 25 лет. За это время из небольшого коллектива ученых-единомышленников ЦРТ превратился в компанию с мировым именем и огромным научным потенциалом. В настоящее время многие разработки и технологии ЦРТ не имеют аналогов в России и за ее пределами. Масштабные проекты в России, Европе, Северной и Латинской Америке позволяют петербургской компании заявлять о статусе лидера в сфере речевых технологий и мультимодальной биометрии. Стратегические цели ЦРТ включают закрепление позиций на международном рынке синтеза и распознавания речи на различных языках, массовое внедрение голосовых сервисов в различных сферах бизнеса, дальнейшее продвижение решений для сферы безопасности.

Мы твердо верим, что за речевыми технологиями будущее, ведь это путь к естественному общению человека с ИТ-системами. ЦРТ, как и прежде, остается на острие технологического прогресса, создавая продукты и решения, позволяющие эффективно решать актуальные бизнес-задачи наших клиентов, обеспечивать безопасность людей и информации. Идти в ногу со временем помогают и облачные технологии, что даёт еще бо́льшую гибкость и расширяет горизонты предоставляемых услуг.

Команда ЦРТ


1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (1 оценок, среднее: 5,00 из 5)
Загрузка...