4.1. Limpeza de dados – o que é e por que é importante?
Como analista de dados você receberá dados de diversas fontes. Esses dados virão em diversos formatos e, na maioria das vezes são o o que chamamos de dados “sujos”. Isso quer dizer que eles não estão prontos para análise e precisam primeiramente ser limpos.
O que são dados sujos?
São quaisquer dados que precisam ser manipulados ou trabalhados de alguma forma antes de poderem ser analisados. Alguns tipos de dados sujos incluem:
- Dados inconsistentes ou imprecisos: dados desatualizados ou que contêm erros estruturais, como erros de digitação, uso inconsistente de maiúsculas e convenções de nomenclatura irregulares.
- Dados incompletos: uma planilha com valores ausentes que seriam relevantes para sua análise.
- Dados duplicados: registros que aparecem duas vezes (ou várias vezes) no mesmo conjunto de dados. Isso pode ocorrer se você estiver combinando dados de várias fontes ou bancos de dados.
Estas situações também são consideradas com dados sujos:
- Dados inseguros: aqui entram as leis de segurança e a privacidade de dados.
- Excesso de dados: a acumulação de dados e os dados desatualizados andam de mãos dadas.
- Dados imprecisos: aqui deve-se monitorar todos os pontos de entrada de dados e diagnosticar a causa dos dados imprecisos.
É importante saber com que tipo de dados sujos você está lidando, pois isso informará como você os limpará. Portanto, sempre que receber ou coletar dados, você gastará um bom tempo inspecionando-os para avaliar onde precisa concentrar seus esforços de limpeza.
Dados limpos e de qualidade são essenciais para executar análises significativas e confiáveis. Acerte na etapa de limpeza de dados e você criará algo forte, confiável e duradouro.
Trabalhar com dados sujos não é apenas uma prática ruim; pode ser extremamente custoso a longo prazo. Como analista de dados, você precisa ter confiança nas conclusões que tira e nos conselhos que dá.