Особенности реализации потоковых рекуррентных нейронных сетей на графических процессорах
Актуальность задачи оптимизации обработки потоков данных рекуррентными нейронными сетями обусловлена ростом объемов многомерных временных рядов в сложных динамических системах, где традиционные реализации не обеспечивают требуемой скорости прогноза в реальном времени и способности к непрерывному обучению без остановки системы. Целью исследований служит расширение возможностей обработки потоков многомерных временных рядов рекуррентными нейронными сетями (РНС) с управляемыми элементами за счет их эффективной реализации на графических процессорах (GPU). Предложен алгоритм такой реализации с учетом специфики данных сетей. В качестве материала исследований использовался сформированный датасет, содержащий 1000 элементов многомерных временных рядов, на котором обучались модели всех рассматриваемых архитектур; в качестве испытательной процедуры принят один цикл прогнозирования, включающий обучение на всей выборке и вычисление прогноза с горизонтом 72 такта. Проведены эксперименты по сравнению времени цикла обработки данных в РНС при реализациях на CPU- и GPU-платформах. Для каждого эксперимента использовались нейросеть с идентичными параметрами была реализована на перечисленных архитектурах. Было проведено множество экспериментов с РНС разного размера для оценки масштабируемости предложенной GPU-архитектуры. Результаты экспериментов показывают, что для малоразмерных РНС (около 650 нейронов в каждом слое) выигрыш в производительности предложенной GPU-архитектуры составляет порядка 10 раз по сравнению с CPU-реализацией, тогда как с увеличением размера сети ускорение нелинейно растет и для крупномасштабных конфигураций достигает 90 раз. Таким образом, реализация подобных РНС на GPU-платформе позволяет существенно расширить применимость этих сетей для решения задач прогнозирования временных рядов с непрерывным обучением.
Авторы: В. М. Тайц
Направление: Информатика, вычислительная техника и управление
Ключевые слова: рекуррентная нейронная сеть, графические процессоры, алгоритмы реализации, производительность
Открыть полный текст статьи