«Литера5»: как облачная система проверки правописания находит применение в жизни

«Литера5»: как облачная система проверки правописания находит применение в жизни

Как часто вы допускаете ошибки, когда пишете текст? Вопрос грамотной подачи информации важен не только для журналиста, писателя или редактора, но и для отдельно взятой организации. Ошибка, опечатка или неграмотно составленное предложение в тексте сайта, блога, новостного интернет-портала может негативно сказаться на имидже компании в целом. На помощь в борьбе с безграмотностью приходит облачное решение «Литера5», о котором мы расскажем в этой статье.

О компании

Прародителем облачного сервиса «Литера5» выступает компания «Орфограмматика», созданная в 2013 году для концентрации усилий в области компьютерной лингвистики и искусственного интеллекта. Команда «Орфограмматики» занимается разработкой программного обеспечения более десяти лет и является резидентом бизнес-инкубатора Технопарка новосибирского Академгородка. Творческий коллектив состоит из трех профессиональных программистов, двух лингвистов и одного математика. Все сотрудники компании — выпускники и студенты НГУ, живут и работают в новосибирском Академгородке.

«Орфограмматика» является разработчиком двух сервисов по проверке правописания для русского языка: социальный сервис для частных лиц «Орфограммка» и «Литера5» — корпоративный продукт для юридических лиц.

В 2014–2015 годах компания сотрудничала с фондом «Тотальный диктант» и обеспечивала проверку диктантов, написанных онлайн (в Интернете). Для этих целей разработали специальный модуль проверки, включая инструменты для лингвистического анализа и работы с апелляциями. А в 2016 году «Орфограмматика» участвовала в конкурсе алгоритмов для автоматического исправления опечаток SpellRuEval и заняла второе место, опередив таких монстров, как ABBYY и Яндекс, уступив лишь организаторам конкурса — команде ГИКРЯ.

Как дошли до идеи использования облака

Для работы алгоритмического ядра по проверке правописания и обработки текста требуются значительные вычислительные мощности. Изначально в компании ориентировались на большую аудиторию, поэтому и выбрали облачную модель решения. Отметим, что текст обрабатывают выделенные серверы на удаленной площадке, а для пользователя реализован веб-интерфейс, обеспечивающий редактирование текста и работу над ошибками.

«Мы изначально проектировали «Литеру» как облачное решение. Но в процессе роста нам пришлось столкнуться с задачами распределения высоких нагрузок и обеспечения стабильности, надежности работы системы. Сегодня и frontend, и backend «Литеры» используют схемы многократного резервирования и автоматического перезапуска «проблемных» компонент сервиса».

Кирилл Губарь, коммерческий директор ООО «Орфограмматика»

Особенность работы сервиса

Ядро системы «Литера5» для проверки правописания использует порядка 5 тысяч правил, а словарь содержит ~ 4,5 миллиона словоформ.

Пользовательский интерфейс «Литера5»

Рисунок 1. Пользовательский интерфейс «Литера5»

Кроме того, «Литера5» использует вероятностную модель синтаксического и семантического анализа текста. Процессом управляет искусственный интеллект системы, который способен обучаться и настраивать критерии анализа с учетом накопленных статистических данных. Для работы с сервисом клиенту необходим любой современный веб-браузер, поддерживающий библиотеку jQuery 2.x. Установка дополнительного клиентского ПО не требуется.

В задачи «Литеры» входит комплексная проверка орфографии, грамматики и пунктуации, стилистических, логических и речевых ошибок, смысловых ошибок и опечаток, орфоэпии и употребления буквы «е», в том числе в именах собственных, оценка удобочитаемости и понятности текста.

«Облачный» веб-сервис «Литера5» имеет внешний интерфейс (API), за счет которого инструменты решения легко встраиваются практически в любую корпоративную программную среду.

Пример корпоративной интеграции с «облачным» сервисом Литера5

Рисунок 2. Пример корпоративной интеграции с «облачным» сервисом Литера5

Помимо облачной реализации, «Литера5» может быть развернута в локальной корпоративной сети и intranet. Компоненты системы устанавливаются на физическом сервере или виртуальном вычислительном кластере организации, работа сервиса осуществляется без доступа извне.

Планы компании

Cm4.jpg

Как отмечают в «Орфограмматике», планов у компании — громадьё. Предполагается совершенствование алгоритмического ядра и повышение качества проверки текста.

«Сейчас мы работаем над версией «Литеры» с улучшенными алгоритмами выявления случаев тавтологии (явная смысловая избыточность) и плеоназмов (неявная избыточность, например «свободная вакансия» или «кивнуть головой»). Основные трудности, которые пришлось преодолеть, это корректное разрешение паронимии и омонимии».

Кирилл Губарь, коммерческий директор ООО «Орфограмматика»

В компании уделяют внимание и разработке свежей версии дерева синтаксического разбора текста. Штатные лингвисты уже приступили к работе над задачами. Выпуск версии ожидается осенью. Кроме того, решается интересная задача по сохранению чистоты русского языка, защите русской культуры. Речь идет о бездумном заимствовании иностранных слов. В компании планируют выпустить стилистический алгоритм, который будет советовать людям использовать корректные русскоязычные аналоги.

Заключение

Сегодня облачные технологии находят применение в разных сферах деятельности. Стирая грань между проблемой и ее решением, облачные сервисы в модели IaaS, SaaS успешно справляются с задачами распределения высоких нагрузок, помогают снизить расходы, а в случае с облачным сервисом «Литера5» — повысить уровень грамотности. И хоть решение не сможет полностью заменить редактора или корректора, оно сможет помочь всем, кто ежедневно работает с большими объемами текста на русском языке.

Опубликовано 15.06.2016 10:13:31 автором E.Yudina в разделе Тенденции

/* */

Посетите наш сайт!

IaaS облако IT-GRAD

Подпишитесь на блог!

IaaS для бизнеса по кирпичикам