Машинное обучение позволило лучше оценить сложность русских текстов

25.06.2019

Методы машинного обучения позволяют провести эффективный анализ любого текста по целому ряду критериев, например, по частоте встречаемости отдельных частей речи или по синтаксической сложности. Ученые сравнили результаты его применения с результатами, полученными по формулам удобочитаемости, в основе которых только два параметра: длина предложения и длина слова. Оказалось, что машинное обучение намного лучше показывает, будет ли понятен текст определенной целевой аудитории. Результаты исследования могут быть применены для определения уровня сложности учебников, что позволит повлиять на качество российского образования. Работа опубликована в Journal of Intelligent & Fuzzy Systems. Исследования поддержаны грантом Российского научного фонда.

«Впервые предложен математически обоснованный и экспериментально проверенный метод оценки сложности текстов на русском языке, учебных материалов. Это может помочь в повышении уровня обучения в России, в ее продвижении в международном рейтинге систем образования», – прокомментировал один из авторов статьи, профессор Казанского федерального университета Валерий Соловьев.

Наиболее популярным методом для оценки сложности текста традиционно считается использование индексов удобочитаемости. Эти индексы помогают определить, насколько текст легко читать и понимать. Их много, но наиболее часто используемые – это индекс Флеша (FRE) и индекс Флеша–Кинкейда (FKG). Изначально они созданы для английского языка, но впоследствии были адаптированы и для русского. Индексы рассчитываются по формулам читаемости, но с их помощью можно проанализировать текст не более чем по двум критериям, таким как количество слов в предложении и количество слогов в слове. Однако двух критериев недостаточно для глубокого текстового анализа: удобочитаемость текста обеспечивается десятками параметров. Ученые Казанского федерального университета совместно с коллегами из Университета Иннополис и Национального политехнического института Мексики решили использовать современные методы, которые позволят учесть гораздо большее число критериев.

Для своего исследования ученые выбрали школьные учебники по обществознанию для 5–11 классов. Отсутствие в этих книгах картинок, таблиц и карт сделало их удобным предметом для изучения. Тексты учебников разделили на группы, каждую из которых предстояло проанализировать по критериям: количество слов в предложении, количество слогов в слове, частота встречаемости длинных слов, содержание различных частей речи, доля слов в именительном и родительном падеже и прочее – всего 11 параметров, влияющих на сложность восприятия текста. Например, чем меньше в тексте слов из большого количества слогов и чем больше глаголов, тем он легче будет читаться. Анализ групп проводился с помощью нескольких методов машинного обучения. Они представляют из себя автоматические способы решения каких-либо задач компьютером (в данном случае задача – анализ текста). При этом алгоритм не предлагается заранее: программа ищет его сама на основе введенных данных.

По результатам исследования ученые выявили наиболее эффективный метод машинного обучения и подобрали необходимые для него настройки: лучшие результаты для самых длинных текстов получили при анализе полного набора признаков. Таким способом можно оценить академический текст по целому ряду критериев и сделать более точный вывод о соответствии учебных материалов уровню восприятия учеников, чем при использовании индексов удобочитаемости.

Ученые также сравнили результаты своей работы с результатами других исследований, в которых оценивалась сложность текстов в тестовых пособиях по русскому языку как иностранному. Оказалось, что в этом случае с помощью машинного обучения уровень оценить гораздо проще. Это связано с тем, что сложность текста для русскоговорящего человека определяется не столько свойствами самого текста, сколько особенностями читающего, например, его словарным запасом. В то же время иностранец, знающий язык на определенном уровне, будет нуждаться в тексте, содержащем в основном известные ему слова и грамматические конструкции.

Пресс-служба Российского научного фонда

Подразделы

Объявления