Методика иерархической разметки текстовых данных на основе онтологического представления сценариев обработки персональных данных

В связи с интенсивной цифровизацией практически всех сфер человеческой деятельности с каждым годом растут объемы собираемых и обрабатываемых персональных данных, которые используются для предоставления различных услуг. Необходимо автоматизировать процесс формализации и структуризации пользовательских соглашений, написанных на естественном языке, так как большинство пользователей соглашаются с их условиями, не осознавая потенциальных последствий ввиду сложности данных документов. В статье предложена методика разметки текстовых данных, которая учитывает возможные семантические связи между элементами разметки и позволяет аннотировать обучающие выборки для текстовых классификаторов. Разработан и апробирован программный инструмент, реализующий предложенную методику. Разработанный инструмент планируется использовать для дальнейших исследований в области формализации пользовательских соглашений.

Авторы: М. Д. Кузнецов

Направление: Информатика, вычислительная техника и управление

Ключевые слова: соглашения об использовании персональных данных, методика аннотирования, аннотирование текстовых данных


Открыть полный текст статьи