Поиск и извлечение именованных сущностей из корпуса пользовательских соглашений

Анализ и майнинг данных используются для решения множества различных задач, однако для их эффективного использования необходимы качественные и объемные наборы данных. Открытое опубликование таких наборов не всегда возможно в соответствии с законодательством. Наличие персональных данных в наборах данных обусловливает необходимость их предварительной обработки и очистки. В частности, сформированный в 2024 г. набор текстовых данных PPInRussian для исследования аспектов обработки персональных данных не может быть опубликован, но имеет потенциал стать полезным инструментом как для исследователей в области компьютерной безопасности, так и для правоведов. В данной статье рассматриваются современные методы распознавания именованных сущностей, которые могут быть использованы для очистки текстового корпуса, проведено их тестирование и оценка применимости в рамках очистки юридических документов. Кроме того, предлагается методика очистки текстового корпуса, основанная на правилах, показывающая более точные результаты по сравнению со средствами более общего назначения. Применение этой методики позволит очистить корпус пользовательских соглашений, тем самым делая возможным его опубликование для заинтересованных исследователей.

Авторы: М. Д. Кузнецов

Направление: Информатика, вычислительная техника и управление

Ключевые слова: распознавание именованных сущностей, пользовательское соглашение, политика безопасности, персональные данные

Открыть полный текст статьи