{"title":"Análise Exploratória de Atributos Textuais em Bases de Dados para Identificação de Campos Sensíveis","authors":"Bruno H. Labres, A. Grégio, F. Silva","doi":"10.5753/sbseg_estendido.2021.17365","DOIUrl":null,"url":null,"abstract":"A iminente implantação da Lei Geral de Proteção de Dados Pessoais brasileira torna urgente a criação de técnicas automatizadas para anonimização de bases de dados. As ferramentas existentes são dependentes de que um especialista manualmente escolha os campos de interesse. Neste trabalho, propõe-se o uso de algoritmos de aprendizado de máquina em atributos textuais a fim de explorar como identificar nomes e outras informações sensíveis. Com isso, espera-se fomentar aplicações capazes de classificar automaticamente campos sensíveis em bancos de dados em um passo anterior à anonimização. A avaliação experimental da representação por frequência de digramas proposta, mostra que é possível obter modelos simples de aprendizado de máquina, como florestas aleatórias e redes neurais, capazes de classificar nomes de pessoas, endereços e descrições textuais com alta taxa de acurácia (97%) usando 676 características.","PeriodicalId":102643,"journal":{"name":"Anais Estendidos do XXI Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais (SBSeg Estendido 2021)","volume":"12 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-10-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Anais Estendidos do XXI Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais (SBSeg Estendido 2021)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5753/sbseg_estendido.2021.17365","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
A iminente implantação da Lei Geral de Proteção de Dados Pessoais brasileira torna urgente a criação de técnicas automatizadas para anonimização de bases de dados. As ferramentas existentes são dependentes de que um especialista manualmente escolha os campos de interesse. Neste trabalho, propõe-se o uso de algoritmos de aprendizado de máquina em atributos textuais a fim de explorar como identificar nomes e outras informações sensíveis. Com isso, espera-se fomentar aplicações capazes de classificar automaticamente campos sensíveis em bancos de dados em um passo anterior à anonimização. A avaliação experimental da representação por frequência de digramas proposta, mostra que é possível obter modelos simples de aprendizado de máquina, como florestas aleatórias e redes neurais, capazes de classificar nomes de pessoas, endereços e descrições textuais com alta taxa de acurácia (97%) usando 676 características.