CLASSIFICADOR PARA IDENTIFICAÇÃO AUTOMATIZADA DE DADOS PESSOAIS NO CONTEXTO DA LGPD

Conteúdo do artigo principal

Nancy Miyuki Yuzawa
Andreiwid Sheffer Correa

Resumo

Com a vigência da Lei Geral de Proteção de Dados (LGPD) desde 2020, tornou-se necessário implementar mecanismos para o adequado tratamento de dados pessoais e sensíveis. No entanto, muitos desses dados tratados anteriormente à lei permanecem disponíveis e de forma inadequada na internet. Diante disso, este projeto tem como objetivo identificar a divulgação de dados pessoais de forma automatizada e de acordo com a LGPD, tendo como o estudo de caso as páginas do site de uma prefeitura. Por meio do uso de web crawling (navegação automatizada em sites) e scraping (extração de informações de páginas web), foi possível identificar e verificar páginas da web com a divulgação de dados pessoais e sensíveis. Na primeira rodada obteve-se 87% de “falsos positivos”, ou seja, apesar de remeterem a potenciais dados pessoais e sensíveis, essas páginas não divulgavam ou solicitavam dados de abrangência da LGPD, o que foi importante para o refinamento do algoritmo. Assim, na segunda rodada, com foco nas páginas HTML e PDF, apesar de constatado um aumento na porcentagem de “falsos positivos” em HTML, as páginas com PDFs obtiveram resultado melhor, perfazendo cerca de 48% de “falsos positivos”.

Detalhes do artigo

Seção
Artigos