Сравнительный анализ методов извлечения ключевых слов без предварительного обучения

Рассмотрена задача извлечения ключевых слов из текстов в условиях «холодного старта» – без аннотированных данных для предварительного обучения. Проведен сравнительный анализ трех категорий существующих методов: классические алгоритмы (YAKE, TextRank, SingleRank, TopicRank, PositionRank, FRAKE), методы на основе BERT (KeyBERT, KBIR-Inspec, ансамблевый метод с KBIR-Inspec и WikiNEuRal) и открытые большие языковые модели (LLM: llama3.1, qwen2.5, t-pro). Также предложена методика автоматизированной подготовки бенчмарков для оценки качества извлечения ключевых слов с помощью проприетарной LLM Claude3.5 Haiku. Оценка методов производится по метрикам «жесткого» и «мягкого» F1-score для разного количества ключевых слов. На двух собственных бенчмарках лучшие результаты показала открытая LLM t-pro с 3-shot промптом (F1 = 0.40, F1 = 0.35) даже без проведения дообучения под предметную область, однако это также и самый требовательный по ресурсам метод (~22 Гбайт VRAM). Более «легкие» методы показывают худшие результаты.

Авторы: П. В. Корытов

Направление: Информатика, вычислительная техника и управление

Ключевые слова: ключевые слова, BERT, подготовка бенчмарков, промпт-инжиниринг, большие языковые модели


Открыть полный текст статьи