Оценка сложности текста (β)

На этой странице можно оценить сложность текста при помощи обученной модели и классических индексов читабельности.

В настоящий момент в демонстрационной версии доступна модель, обученная на корпусе книг, рекомендованных Министерством просвещения для внеклассного чтения. Этот корпус содержит книги трёх категорий: для начальной, средней и старшей школы. Корпус достаточно небольшой (131 произведение), а тексты в нём относятся только к художественной литературе. Поэтому для прочих доменов модель может ошибаться гораздо чаще.

Модель

Архитектура модели — трёхслойный перцептрон (размер слоя — 1024 нейрона, функция активации — tanh). Для обучения использовался оптимизатор Adam с максимальным числом эпох 100 и patience 20. Для векторизации текста используется модель distiluse-base-multilingual-cased. Взвешенное среднее F1 модели составляет 63.31±3.48% (5 запусков).

Больше про проведённые эксперименты можно прочитать тут и тут.

Контакты

E-mail: morozov@ruscorpora.ru | Telegram: @morozowdm

Цитирование

Если вы используете наш сервис в своей научной работе, пожалуйста, процитируйте эту статью:
Morozov D.A., Glazkova A.V., Iomdin B.L. Text complexity and linguistic features: Their correlation in English and Russian // Russian Journal of Linguistics. - 2022. - Vol. 26. - N. 2. - P. 426-448. doi: 10.22363/2687-0088-30132