A vigência da LGPD (Lei Geral de Proteção de Dados) trouxe à tona no ambiente organizacional conceitos importantes como a anonimização de dados.
Na Era da informação, a quantidade de dados criados diariamente é surpreendente, chegando a aproximadamente 2,5 quintilhões de bytes.
Este volume, mais que expressivo, engloba muitos dados pessoais, ou seja, aqueles que são capazes de identificar um indivíduo de forma direta e indireta.
A LGPD e outras legislações, como a GDPR (General Data Protection Regulation) europeia, foram criadas mundo afora por conta das discussões a respeito da privacidade dos dados pessoais identificáveis.
A anonimização de dados é uma ação básica dentro de uma estratégia de proteção de dados, mas que pode ser muito efetiva para a adequação à LGPD.
Como a vigência da LGPD ainda é relativamente recente, muitos gestores ainda têm dúvidas sobre o processo e as técnicas de anonimização de dados e sua importância.
Basicamente podemos dizer que a anonimização de dados consiste na desvinculação entre os dados pessoais e seus titulares para promover a segurança dos mesmos.
Nos próximos tópicos, vamos explorar o conceito, além de explicar sua importância e como realizar a anonimização de dados. Confira!
O que é anonimização de dados?
Antes de explicar o que é anonimização de dados, vamos relembrar o que são dados pessoais do ponto de vista da LGPD.
De forma simples, um dado pessoal corresponde a qualquer informação que possa identificar uma pessoa.
Nesse contexto, além dos dados completos, os fragmentos de informações que juntas podem identificar uma pessoa também são considerados dados pessoais.
Para a LGPD, dado pessoal é uma “informação relacionada a pessoa natural identificada ou identificável”.
Agora vamos ao conceito de anonimização.
Como mencionamos no tópico anterior, a anonimização de dados corresponde a um processo de desvinculação entre os dados pessoais e seus titulares.
Ou seja, quando um dado é anonimizado, o titular do mesmo não pode mais ser identificado a partir dele. Daí a relevância desse procedimento para o cumprimento da LGPD.
A remoção dos vínculos identificáveis entre as pessoas e os seus dados pessoais também é chamada de impersonificação de dados, data masking ou data sanitization.
Dessa forma, a anonimização de dados pode ser definida como um método utilizado pelas empresas para cumprir a regulamentação e manter sua confiabilidade junto aos clientes sem precisar deixar de utilizar os dados pessoais no desempenho de suas atividades.
Segundo a LGPD, a anonimização de dados é “utilização de meios técnicos razoáveis e disponíveis no momento do tratamento, por meio dos quais um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo”.
Podemos dizer que depois que os dados são anonimizados as exigências da LGPD deixam de se aplicar a eles, pois elas se referem aos dados capazes de identificar uma pessoa.
Nesse sentido, um dado anonimizado torna-se o oposto de um dado pessoal, já que este último é concebido justamente para ser associado a um titular.
Para ter a certeza de que uma reidentificação dos dados não vai ocorrer, após a aplicação de uma técnica de anonimização, esse risco é verificado.
Se o risco for muito baixo, o dado em questão é considerado anonimizado. Se o risco for alto, novas técnicas de anonimização de dados são aplicadas e a verificação é refeita.
Falamos em risco baixo porque não existe técnica de anonimização que garanta 100% de eficácia.
Assim, ainda que as técnicas cumpram muito bem o seu papel, sempre haverá uma possibilidade, mesmo remota, de o dado anonimizado ser transformado novamente em dado pessoal.
Isso não significa que a anonimização de dados não deva ser priorizada. Pelo contrário, se não há estratégia totalmente eficaz, o caminho é utilizar as que possuírem o maior grau de eficácia.
Existem diversas táticas para burlar os esforços relativos à proteção de dados pessoais, entre elas o cruzamento de dados de bases distintas e os novos algoritmos.
Isso torna mais urgente a utilização e o aperfeiçoamento das técnicas de anonimização de dados.
Normalmente, os dados que passam pela anonimização dizem respeito a sobrenomes, endereços, números de telefone, números de documentos pessoais, idade, entre outras possibilidades.
Além do conceito de anonimização de dados, existe também a ideia de pseudoanonimização.
Ela diz respeito à possibilidade de associar o dado a seu titular somente quando se recorre a informações suplementares, que precisam ser armazenadas e tratadas separadamente.
Essa possibilidade é utilizada em casos específicos, que surgem de acordo com o segmento de negócios e com o contexto do tratamento dos dados.
Como fazer a anonimização de dados?
O primeiro passo para colocar a anonimização de dados em prática é conhecer a fundo os conceitos relacionados à LGPD, bem como as necessidades da empresa e os dados sob seus cuidados.
Além disso, é preciso conhecer as técnicas ou métodos de anonimização de dados para definir qual deles é mais apropriado para cada situação.
Também é importante considerar os possíveis riscos de cruzamento de informações que podem identificar os titulares dos dados por inferência.
Por fim, é preciso também conhecer a natureza do atributo, ou seja, se ele é numérico ou categórico.
Um dado numérico, logicamente, diz respeito a um número e sua anonimização oculta os valores ou os substitui por outros, provocando uma queda considerável de sua utilidade.
Um dado categórico é aquele que pode ser visto como um grupo finito e distinto e tem base em alguma propriedade qualitativa.
A análise do próprio atributo vai definir a técnica mais apropriada a ser utilizada na anonimização.
Com esses pressupostos em mente, é hora de definir a técnica que será aplicada, considerando todas as particularidades envolvidas.
Veja em seguida quais são as principais técnicas de anonimização de dados.
Generalização
A generalização diz respeito à redução da precisão dos dados. Nesse caso, os valores são substituídos por outros menos específicos que tenham semelhança semântica.
Ou seja, esse tipo de anonimização de dados preserva sua veracidade e pode ser utilizada tanto para atributos numéricos quanto para categóricos.
No caso dos atributos numéricos, o número pode ser substituído por um intervalo, mantendo o dado útil analiticamente.
No caso dos atributos categóricos, uma hierarquia semântica pode abstrair a especificidade do dado em si preservando seu sentido.
A generalização precisa ser feita com critério, para que os dados não se tornem inúteis nas tarefas de análise.
Ou seja, é preciso definir um número mínimo de modificações de modo a manter a utilidade atendendo aos requisitos mínimos da anonimização de dados.
Como exemplos da generalização podemos citar a troca da idade pela faixa etária e troca do endereço completo contendo logradouro, número e CEP pela informação somente do logradouro.
Agregação
A agregação é a conversão de um conjunto de dados em uma lista de valores resumidos, ou seja, no lugar de uma coleção com diversas entradas, há uma transformação em novas colunas, com a preservação das propriedades estatísticas e o mascaramento da identidade dos titulares.
Enquanto a agregação provoca uma abstração do valor de cada atributo, a agregação remove colunas de informações e cria outras.
Você pode, por exemplo, em uma lista que informa os gastos de um grupo de pessoas com determinado produto ou serviço, ocultar o nome de cada comprador promovendo uma agregação dos valores gastos em um intervalo numérico.
Mascaramento
A técnica de anonimização de dados conhecida como mascaramento diz respeito à substituição de caracteres do atributo por símbolos como “*” ou “X”.
Normalmente, o mascaramento oculta apenas uma parte do atributo, podendo ser aplicado em uma quantidade fixa de caracteres.
Isso pode acontecer, por exemplo, com números de documentos ou de cartões de crédito, além de endereços de e-mail.
Essa técnica é aplicada para os casos em que os titulares dos dados precisam ser capazes de identificá-los por meio dos caracteres remanescentes.
Nos casos em que os caracteres envolvidos são variáveis, como ocorre com os endereços de e-mail, é preciso ter cuidado quanto à possibilidade de mascaramento de uma quantidade fixa de caracteres para que o dado não seja completamente ocultado.
Perturbação
No processo de perturbação, os dados verdadeiros são trocados por outros, com a utilização de recursos como arredondamento, adição de ruídos e algoritmos de randomização RDP (Random Data Perturbation).
De forma diversa ao que ocorre com a generalização, a perturbação não preserva a veracidade dos dados, o que quase sempre afeta a utilidade.
Você pode, por exemplo, arredondar todos os valores de determinada coluna de informações para os múltiplos de cinco ou de sete mais próximos do número original.
Supressão
A supressão consiste na remoção de uma seção inteira de dados de uma base já anonimizada.
Essa possibilidade é considerada uma técnica mais forte que as demais porque não há como revertê-la.
Ela costuma ser aplicada quando não é possível fazer a anonimização de dados de forma adequada utilizando outra técnica.
Por que a anonimização de dados é importante?
Quando se pensa na anonimização de dados como uma necessidade ou como uma alternativa para as empresas, que precisam utilizar dados pessoais em seu dia a dia, imediatamente sua importância é associada ao cumprimento dos dispositivos da LGPD.
Sem dúvida, a vigência da lei é uma ótima razão para as iniciativas que visam a proteção de dados no contexto organizacional. Mas ela não é a única.
A própria criação da LGPD ocorreu em razão dos riscos de vazamento e acesso indevido a dados pessoais.
Esse tipo de ocorrência prejudica tanto o titular dos dados quanto a própria empresa no que diz respeito à confiabilidade no mercado.
Os transtornos que o vazamento de dados pode gerar para um consumidor são diversos e é papel das empresas fazer com que os clientes sintam-se seguros.
Na atualidade, a fidelização de um cliente vai muito além da necessidade de oferecer um produto ou serviço de qualidade.
A empresa precisa garantir uma experiência positiva como um todo e isso perpassa a garantia de tratamento adequado dos dados pessoais dos clientes.
De todo modo, as penalidades previstas na LGPD são argumentos mais palpáveis para promover a anonimização de dados com vistas ao cumprimento da lei.
Mas o ideal é ir além da obrigação de cumprir uma regra coercitiva. Anonimizar os dados e garantir sua segurança é uma forma de não perder a confiança dos clientes.
Uma rápida busca na internet pode revelar dezenas de notícias sobre vazamentos de dados e os prejuízos causados por elas. Além disso, essa mesma busca vai mostrar o quão variados são os ramos de atuação das empresas que sofreram com esse problema.
Isso significa que nenhum empreendimento está livre de um incidente relacionado ao vazamento ou acesso indevido a dados pessoais.
Muitas vezes os danos são irreversíveis e a empresa perde totalmente a confiança não apenas de seus clientes, mas da sociedade em geral.
Além disso, as bases de dados vazadas podem ser utilizadas para o cruzamento de dados em outras bases. Nesse sentido, a anonimização de dados também é uma medida de controle de danos.
Tudo isso leva à compreensão de que a anonimização de dados deve compor a gestão de riscos de uma empresa. Sobre este último assunto, recomendamos a leitura do artigo “Gestão de riscos e vulnerabilidade: qual a importância?”. Até o próximo conteúdo.