em

Data quality: qualidade nos dados na mineração

A importância dos dados na mineração

Durante este mês vamos publicar uma série de textos sobre a Qualidade da Informação na Mineração, do geólogo australiano Scott McManus. O primeiro texto da série traz a discussão sobre sua experiência na área, ações que garantem a qualidade do dado. Também traz alguns conceitos de banco de dados na mineração. Boa leitura!

“Um dos meus interesses e atividades de longo prazo tem sido a qualidade dos dados: assegurando que ela exista, garantindo que haja propriedade e assegurando que seja preservada. Durante o meu bacharelado, que era em tempo parcial, trabalhei em TI, predominantemente com dados, administração de dados, dba, qualidade de dados, modelagem de dados e análise de dados no setor financeiro. Essa base sólida em dados me levou a papéis e situações similares na indústria de mineração. (…)

Uma das minhas frases favoritas é ‘O software não fornece qualidade de dados, as pessoas fornecem qualidade de dados’. Software e repositório podem de alguma maneira estruturar um ambiente para que a qualidade exista. No entanto, as pessoas, os gerenciadores de dados, os profissionais de banco de dados e os proprietários dos dados (aqueles que têm responsabilidade sobre eles) são os que realmente fazem a diferença.

Bom software e qualidade nos dados na mineração

Eu já vi de tudo: dados armazenados em arquivos de texto, planilhas, arquivos GIS, arquivos de sistema de mineração, bancos de dados desenvolvidos localmente, sistemas de banco de dados de prateleira, sistemas de banco de dados customizados e sistemas ad hoc. Surpreendentemente, às vezes a qualidade dos dados não corresponde ao local que está armazenado. Um repositório de dados de baixa tecnologia, às vezes, pode conter dados de melhor qualidade do que um sistema mais caro. O fator-chave na qualidade dos dados não é o local, mas os humanos que gerenciam os dados dentro dele. Isso não quer dizer que você não precise de um bom software para armazenar os dados. Porém ele não é garantia de qualidade ou que preservará essa qualidade.

Eu fui desacreditado por alguns clientes por ‘não confiar’ em seus projetos ou por ‘ousar’ olhar seus dados e validá-los antes de fazer estimativa de recursos (e ainda ter sido categoricamente informado de que não precisava tomar estas atitudes). Porém, preferi verificar os dados antes, e minha conclusão foi: que eles façam o trabalho e se responsabilizem por ele.

A verdade é que a qualidade dos dados é uma atividade ininterrupta de melhoria contínua. Não para. Todo mundo que entra em um projeto e usa os dados precisa se sentir confortável com eles e conhecê-los. Fazer cheques de qualidade de dados é uma boa maneira de se sentir confortável com o nível da qualidade, bem como conhecer os dados antes de começar a usá-los.

Conceitos na qualidade dos dados

Gostaria de discutir alguns conceitos em relação à qualidade dos dados e medidas ou protocolos que podem ser implementados. A chave do negócio são os perfis de risco. Qual o risco, sob os diferentes aspectos da qualidade de dados, que você está disposto a permitir em seu negócio e qual é o perfil de risco pessoal de todas as pessoas que tocam esses dados? Isso geralmente é moderado por restrições orçamentárias, mas a realidade preocupante é que os dados geocientíficos podem custar centenas de milhares a milhões de dólares para coletar, mas seu armazenamento, sua qualidade e preservação podem ser deixados para um pessoal técnico e não profissional específico ou, por vezes, para o pessoal administrativo. E investimentos falhos são postos no uso de softwares de gerenciamento de dados de maior risco – sem a necessária interação humana para reduzir esse risco.

Eu acredito que é importante estabelecer um documento descrevendo quais são os riscos que sua empresa está disposta a aceitar, como ela se propõe a armazenar os dados, como ela se propõe a validar e verificar os dados, quais códigos e bibliotecas que serão usados, o esquema ou layout do banco de dados e quaisquer traduções de software especiais que possam ocorrer, como os dados serão preservados, bem como quem é responsável pelos dados em momentos diferentes.

Este deve ser um documento vivo, com versões que descrevem as mudanças nas responsabilidades, bem como mudanças no esquema de dados, armazenamento ou metodologias de backup.

Dado Verificado x Validado

Os dados válidos (ou validados) são dados que atendem a uma série de restrições e, portanto, tornam-se válidos. Alguns exemplos são dados de ensaio, que podem ser numéricos entre um intervalo de -100 a 300. Os dados categóricos podem ser limitados a uma biblioteca de 30 códigos possíveis. Os dados que se enquadram no intervalo ou que possuem um desses códigos são válidos. Pode não ser correto ou verificado. Dados verificados são dados que não são só válidos, mas são também checados para serem considerados verdadeiramente corretos.

Verificando os dados

Como verificamos os dados? Geralmente, temos alguns dados antigos em que podemos nos basear. Em termos de qualidade dos dados e a suposição de que a coleta inicial dos dados foi correta ou atendida por um programa de Controle de Qualidade, estamos apenas interessados em verificar a “primeira instância” da gravação de dados. No passado, os logs de sondagem e amostragem em papel registravam um range de informações e metadados que era aceito como verdadeiro. Isso pode ou não incluir dados gravados no mesmo formato de códigos, para dados categóricos.

Especialmente em projetos com vários programas de exploração ou sondagem, uma série de códigos categóricos podem ser usados e, em algum momento, pode haver traduções entre códigos ou redescrição do furo. Em algum momento, no entanto, haverá uma cópia da sondagem ou dados de exploração, que a versão eletrônica deverá replicar. Em alguns casos e, mais recentemente, o primeiro registro pode não ser analógico, mas uma planilha eletrônica ou documento word, um arquivo GIS ou ter sido coletado direto para um banco de dados através de um coletor portátil.

(Este é um conceito ligeiramente diferente de verificação de dados, por exemplo, reamostragem ou furo gêmeo).

Ter um registro em papel facilita a comparação entre o que existe e o que está no banco de dados. Verifique um e outro, como em uma auditoria.

O uso da tecnologia nos dados

Ter somente dados eletrônicos pode gerar alguma dificuldade. Onde existe um arquivo original, como uma planilha ou arquivo de registros, que pode ser importado para um banco de dados eletrônico, esse arquivo físico pode fornecer o cheque da qualidade do dado. Quando os dados são inseridos diretamente em um banco de dados, como você o verifica? Se você possui um sistema que também registra mudanças e armazena o log de transações e edições dos dados, isso pode ser rastreado. Caso contrário, o método de armazenamento de dados (armazenar versões de bancos de dados) precisa ser investigado, onde as versões de dados podem ser comparadas às antigas que foram aceitas como corretas.

O uso de tecnologia de codificação, que transforma registros de dados inteiros em hexadecimal, pode ser usado para comparar os dados rapidamente, para ver se há diferenças. Ter um sistema que registra apenas o último editor e a data da última alteração, e não preserva os dados alterados, pode complicar a verificação em relação ao que é ‘coisa’ original.

Aprimorando o uso da tecnologia

Um método que eu usei com registros digitais é imprimir uma cópia e armazenar a impressão como um retrato da versão ‘boa’ dos dados a serem comparados. Funciona, mas parece contra-producente (…). Existem métodos digitais de ‘fotografar’ os dados, desde um simples backup até técnicas de armazenamento de dados mais complexas. Mais uma vez, o perfil de risco das empresas e sua filosofia determinarão o que funciona melhor. Uma coisa a se preocupar com os backups digitais é ter certeza de que existe uma metodologia clara e que não haverá confusão com o ‘controle de versão’.

Não há nada pior do que fazer uma auditoria e encontrar múltiplas cópias de bancos de dados, ou arquivos ou planilhas, sem uma forma rápida ou clara de determinar a idade ou a versão correta. Nem toda informação ‘Modified Date’ do arquivo eletrônico refere-se à modificação do mesmo. Alguns tipos de ‘Modified Date’ refere-se a última vez em que o arquivo foi acessado ou lido (e não alterado).”

Referências:

*Scott McManus é geólogo de recursos na Skandus Pty Ltd , e autorizou a versão do texto para o português. Acompanhe seu Linkedin.

Fernanda Nishiyama é geóloga especialista em banco de dados geocientíficos e consultora na GEOM3 e fez a versão para o português.  Email: fernanda.nishiyama@geom3.com

Para ler o texto original (em inglês), na íntegra, acesse aqui.

Escrito por Equipe Geokrigagem

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Geoestatistica no R - tutorial aprenda o básico do R objetos e estruturas

Geoestatística no R: objetos e estruturas

Geoestatística no R: Leitura e gravação de dados