Нейросетевой классификатор текстовой информации

Рассматриваются теоретические основы машинной классификации текстовой информации. В последнее время отмечается рост интереса к данной тематике. В статье выделены основные этапы и главные сложности решения задач данного направления, представлены данные, полученные в результате работы простого алгоритма классификации текстовой информации. Обсуждены предварительная фильтрация текстов, формирование векторов признаков, структура и принципы обучения нейронной сети. Для оценки результатов используется F-мера. Проведено сравнение результатов трех коллекций текстов для различных параметров предварительного фильтра, числа нейронов в скрытом слое и времени обучения сети. Предложенная модель классификатора позволяет решить задачу классификации с точностью более 80 %, при этом решающий вклад в точность классификации вносит качество обучающих данных. Сделаны выводы о качестве полученных результатов и представлены варианты дальнейших исследований по данной теме.

Авторы: Е. Н. Каруна, П. В. Соколов

Направление: Информатика, вычислительная техника и управление

Ключевые слова: Классификация, машинное обучение, тематический анализ, нейронная сеть, стемминг

Открыть полный текст статьи