Применение методов интеллектуального анализа текста для исследования согласий на использование персональных данных

Соглашения об использовании персональных данных, размещенные на веб-сайтах компаний, предоставляют пользователям информацию о том, какие персональные данные собираются, как они обрабатываются и каким третьим лицам они передаются. Однако в большинстве случаев соглашения написаны сложно, их содержание нечетко и непрозрачно. В статье авторы исследуют возможности двух различных подходов к анализу текста для исследования политик безопасности. Для выявления различных сценариев использования персональных данных предлагается использовать латентно-семантический, а для установления связей между элементами сценария – морфологический анализ. Морфологический анализ текста позволяет построить логические цепочки, характеризующие сценарии обращения с персональными данными. Авторы применили выбранные алгоритмы на наборе размеченных документов, собранных в рамках проекта Usable Privacy Project. Полученные результаты показали, что рассмотренные подходы могут применяться для решения поставленной задачи. Например, было показано, что для каждого сценария использования персональных данных можно построить некоторый фиксированный набор семантических моделей, с помощью которых можно оценивать наличие этого сценария в тексте политики безопасности.

Авторы: М. Д. Кузнецов, В. С. Мядзель, Е. С. Новикова

Направление: Информатика, вычислительная техника и управление

Ключевые слова: Анализ текста, латентно-семантический анализ, поиск синонимов, контекстно-свободные грамматики, обработка естественного языка, соглашения об использовании персональных данных, морфологический анализ


Открыть полный текст статьи