«Литера5»: как облачная система проверки правописания находит применение в жизни

«Литера5»: как облачная система проверки правописания находит применение в жизни

Как часто вы допускаете ошибки, когда пишете текст? Вопрос грамотной подачи информации важен не только для журналиста, писателя или редактора, но и для отдельно взятой организации. Ошибка, опечатка или неграмотно составленное предложение в тексте сайта, блога, новостного интернет-портала может негативно сказаться на имидже компании в целом. На помощь в борьбе с безграмотностью приходит облачное решение «Литера5», о котором мы расскажем в этой статье.

О компании

Прародителем облачного сервиса «Литера5» выступает компания «Орфограмматика», созданная в 2013 году для концентрации усилий в области компьютерной лингвистики и искусственного интеллекта. Команда «Орфограмматики» занимается разработкой программного обеспечения более десяти лет и является резидентом бизнес-инкубатора Технопарка новосибирского Академгородка. Творческий коллектив состоит из трех профессиональных программистов, двух лингвистов и одного математика. Все сотрудники компании — выпускники и студенты НГУ, живут и работают в новосибирском Академгородке.

«Орфограмматика» является разработчиком двух сервисов по проверке правописания для русского языка: социальный сервис для частных лиц «Орфограммка» и «Литера5» — корпоративный продукт для юридических лиц.

В 2014–2015 годах компания сотрудничала с фондом «Тотальный диктант» и обеспечивала проверку диктантов, написанных онлайн (в Интернете). Для этих целей разработали специальный модуль проверки, включая инструменты для лингвистического анализа и работы с апелляциями. А в 2016 году «Орфограмматика» участвовала в конкурсе алгоритмов для автоматического исправления опечаток SpellRuEval и заняла второе место, опередив таких монстров, как ABBYY и Яндекс, уступив лишь организаторам конкурса — команде ГИКРЯ.

Как дошли до идеи использования облака

Для работы алгоритмического ядра по проверке правописания и обработки текста требуются значительные вычислительные мощности. Изначально в компании ориентировались на большую аудиторию, поэтому и выбрали облачную модель решения. Отметим, что текст обрабатывают выделенные серверы на удаленной площадке, а для пользователя реализован веб-интерфейс, обеспечивающий редактирование текста и работу над ошибками.

«Мы изначально проектировали «Литеру» как облачное решение. Но в процессе роста нам пришлось столкнуться с задачами распределения высоких нагрузок и обеспечения стабильности, надежности работы системы. Сегодня и frontend, и backend «Литеры» используют схемы многократного резервирования и автоматического перезапуска «проблемных» компонент сервиса».

Кирилл Губарь, коммерческий директор ООО «Орфограмматика»

Особенность работы сервиса

Ядро системы «Литера5» для проверки правописания использует порядка 5 тысяч правил, а словарь содержит ~ 4,5 миллиона словоформ.

Это интересно!  15 самых горячих технологических новинок с VMworld 2015

Пользовательский интерфейс «Литера5»

Рисунок 1. Пользовательский интерфейс «Литера5»

Кроме того, «Литера5» использует вероятностную модель синтаксического и семантического анализа текста. Процессом управляет искусственный интеллект системы, который способен обучаться и настраивать критерии анализа с учетом накопленных статистических данных. Для работы с сервисом клиенту необходим любой современный веб-браузер, поддерживающий библиотеку jQuery 2.x. Установка дополнительного клиентского ПО не требуется.

В задачи «Литеры» входит комплексная проверка орфографии, грамматики и пунктуации, стилистических, логических и речевых ошибок, смысловых ошибок и опечаток, орфоэпии и употребления буквы «е», в том числе в именах собственных, оценка удобочитаемости и понятности текста.

«Облачный» веб-сервис «Литера5» имеет внешний интерфейс (API), за счет которого инструменты решения легко встраиваются практически в любую корпоративную программную среду.

Пример корпоративной интеграции с «облачным» сервисом Литера5

Рисунок 2. Пример корпоративной интеграции с «облачным» сервисом Литера5

Помимо облачной реализации, «Литера5» может быть развернута в локальной корпоративной сети и intranet. Компоненты системы устанавливаются на физическом сервере или виртуальном вычислительном кластере организации, работа сервиса осуществляется без доступа извне.

Планы компании

Планы компании

Как отмечают в «Орфограмматике», планов у компании — громадьё. Предполагается совершенствование алгоритмического ядра и повышение качества проверки текста.

«Сейчас мы работаем над версией «Литеры» с улучшенными алгоритмами выявления случаев тавтологии (явная смысловая избыточность) и плеоназмов (неявная избыточность, например «свободная вакансия» или «кивнуть головой»). Основные трудности, которые пришлось преодолеть, это корректное разрешение паронимии и омонимии».

Кирилл Губарь, коммерческий директор ООО «Орфограмматика»

В компании уделяют внимание и разработке свежей версии дерева синтаксического разбора текста. Штатные лингвисты уже приступили к работе над задачами. Выпуск версии ожидается осенью. Кроме того, решается интересная задача по сохранению чистоты русского языка, защите русской культуры. Речь идет о бездумном заимствовании иностранных слов. В компании планируют выпустить стилистический алгоритм, который будет советовать людям использовать корректные русскоязычные аналоги.

Это интересно!  Трансформация виртуальной инфраструктуры, или Как облако IaaS влияет на развитие новых трендов

Заключение

Сегодня облачные технологии находят применение в разных сферах деятельности. Стирая грань между проблемой и ее решением, облачные сервисы в модели IaaS, SaaS успешно справляются с задачами распределения высоких нагрузок, помогают снизить расходы, а в случае с облачным сервисом «Литера5» — повысить уровень грамотности. И хоть решение не сможет полностью заменить редактора или корректора, оно сможет помочь всем, кто ежедневно работает с большими объемами текста на русском языке.


1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (1 оценок, среднее: 5,00 из 5)
Загрузка...