Исследование генеалогических деревьев кошек бенгальской породы методами машинного обучения с целью выявления наследственных заболеваний
Методами интеллектуального анализа исследовалась вероятность передачи болезни по наследству с помощью базы данных бенгальских кошек, которые имеют высокую предрасположенность к гипертрофической кардиомиопатии. Для выполнения поставленной задачи была выбрана графовая система управления базами данных Neo4j. Программа, реализующая сбор информации из веб-версии базы данных кошек и дальнейшую обработку полученных данных, реализована на языке Python. Применялись различные подходы для определения статуса заболевания HCM особи по ее родословной. В анализе использовались такие методы, как метод случайного леса, логистическая регрессия и многослойные перцептрон. Эксперименты показали, что самый эффективный подход к решению данной задачи – предсказание связей, а самая эффективная модель среди рассматриваемых моделей-кандидатов – метод случайного леса. На практике были рассмотрены способы решения задач машинного обучения с использованием данных структуры графов.
Авторы: Н. А. Фомченкова, Я. А. Бекенева
Направление: Информатика, вычислительная техника и управление
Ключевые слова: родословная, бенгальская кошка, HCM, граф, Data Mining, база данных
Открыть полный текст статьи