Извлечение ключевых слов из текстов в условиях отсутствия аннотированных данных с использованием обратной связи
Рассматривается задача извлечения ключевых слов из неструктурированных текстовых документов при следующих условиях: отсутствие аннотированных данных в начале работы (условия «холодного старта»), возможность улучшения результата с использованием обратной связи, необходимость сопоставления ключевым словам их канонической формы. Приведены формальная постановка задачи, анализ и сравнение существующих методов (классических методов, методов на основе BERT, открытых LLM). Для решения задачи предложен комбинированный метод, сначала использующий необучаемый метод извлечения, а после накопления обратной связи – обучаемый метод постобработки ключевых слов. В качестве необучаемого предлагается использовать классический метод (SingleRank, на Inspec F1 = 0.26); в качестве обучаемого – нейросеть на основе BERT+CRF. Рассмотрены различные стратегии дообучения BERT для постобработки ключевых слов: обработка ключевых слов по одному (отрицательный результат), всех ключевых слов в одной строке (F1 = 0.34), предложений с ключевыми словами по одному (F1 = 0.42), всех предложений с ключевыми словами (F1 = 0.50). Также выполнена оценка метода на собственном русскоязычном бенчмарке (аннотации дисциплин); последний вариант дообучения BERT при добавлении в обучающий набор аугментированных данных показывает F1 = 0.33, что сравнимо с LLM t-pro (F1 = 0.33) при меньших требованиях к VRAM (6 Гбайт против 22.8 Гбайт для LLM). Условие представления ключевых слов в канонической форме выполнено с помощью LLM qwen2.5:3b с F1 = 0.68. Полученные результаты могут быть использованы как самостоятельно для сжатого представления текстовых документов (таких, как рабочие программы дисциплин), так и в качестве входных данных для задач тематического моделирования и сравнительного анализа документов.
Авторы: П. В. Корытов, И. И. Холод
Направление: Информатика, вычислительная техника и управление
Ключевые слова: ключевые слова, холодный старт, BERT, обучение с обратной связью, LLM
Открыть полный текст статьи