4.2. Limpeza de dados – quais são algumas etapas principais no processo de limpeza de dados?
No capítulo anterior (4.1. Limpeza de dados – o que é e por que é importante?), foi citada a importância da etapa de limpeza de dados.
A próxima etapa é apresentar algumas técnicas de limpeza de dados. Para limpar seus dados, você pode fazer algumas ou todas as seguintes ações:
- Excluir colunas desnecessárias: é provável que seu conjunto de dados contenha alguns valores que não são relevantes para sua análise. Você pode simplesmente excluir as colunas que contêm esses dados irrelevantes para a análise.
- Identificar e remover duplicatas: dados duplicados tendem a ocorrer durante a fase de coleta de dados, por isso é importante filtrá-los.
- Lidar com dados ausentes: no caso de dados ausentes, você pode excluir toda a entrada associada a ela (ou seja, excluir toda a linha que contém a célula vazia), imputar o valor ausente com base em outros dados ou sinalizar todos os dados ausentes como tal, inserindo “0” ou “ausente” na respectiva célula. Cada método para lidar com dados ausentes tem implicações para sua análise, portanto, você precisará escolher sua abordagem com cuidado.
- Remover valores discrepantes indesejados: valores discrepantes são valores que diferem significativamente de outros valores nos seus dados. Por exemplo, se você observar que a maioria das notas dos alunos está entre 60 e 80, mas que um aluno obteve nota 2, isso pode ser considerado um valor discrepante. Valores discrepantes podem ser resultado de um erro, mas nem sempre é esse o caso. Portanto, tenha cuidado ao decidir se deve ou não removê-los.
- Corrigir inconsistências: como já mencionado, inconsistências nos dados incluem coisas como erros de digitação e convenções de nomenclatura irregulares. Você pode corrigi-las manualmente (por exemplo, usando a função “Localizar e substituir” no Planilhas Google ou no Microsoft Excel para localizar uma ortografia ou convenção e substituí-la por outra) ou criando um filtro.