em ,

O Data Schema e a Biblioteca de Dados

O primeiro texto da série, “Data Quality: qualidade dos dados na mineração” foi publicado na semana passada. Dando continuidade ao tema “Data quality”, o segundo texto discorre sobre um Modelo de Dados bem definido e a importância da documentação atualizada numa biblioteca de dados.

Organize a biblioteca de dados

“A documentação em relação ao armazenamento de dados é crítica, um bom documento de dados deve mostrar as tabelas e campos em um relatório de estilo ERD (Entity Relationship Diagram). Existem muitos tipos e estilos para escolher, acredito que uma versão simples com o Objeto, o nome do objeto e as linhas que mostram relações com as chaves estrangeiras é suficiente para um documento de visão geral inicial, suportado por um diagrama secundário que lista todos os campos, e seus tipos de dados e se eles incluem um índice. Isso mostra rapidamente os dados, o formato em que está armazenado e como as diferentes entidades (tabelas) se relacionam entre si.

O suporte a esses diagramas deve ser um documento com uma tabela para cada entidade indicando seu nome, os campos, o tipo de dado e o comprimento. Também deve indicar o tipo de dado que será armazenado nesse campo e o intervalo de valores permitido (tornando-o um dado validado). Se houver uma biblioteca ou uma tabela de pesquisa que forneça respostas válidas (lista de referência), esta deve ser vinculada à tabela no documento ou reimpressa como parte da documentação para a entidade.

Se a entidade for uma tabela totalmente normalizada onde algum tipo de agrupamento, classe ou associação é necessária – por exemplo, uma tabela de amostras, onde o campo para ‘AssayName’ dá o elemento a ser testado e ‘AssayValue’, o valor, então isso deve ser claramente indicado em cada entidade.

Mantenha os documentos atualizados

A documentação geralmente leva muito tempo para produzir e manter atualizada enquanto os negócios mudam. Mas é fundamental para comunicar aos novos funcionários, auditores e consultores o que deve acontecer e como isso deve acontecer. Não ter uma documentação clara significa que algumas pessoas irão fazer as coisas à medida elas que acontecem, apenas para executar o serviço (…) (e não como devem ser feitas).

Ela também fornece uma referência e serve como lembrete para os funcionários que usam o sistema regularmente, caso encontrem um dado incomum e ficarem na dúvida de o que fazer com ele. Isso também significa que os geólogos de campo não precisam memorizar como o sistema funciona. Eles podem manter uma compreensão básica do sistema e apenas consultar a documentação tal como eles exigem. Infelizmente, vi os geólogos de campo passar meses aprendendo um novo sistema de banco de dados à custa de fazer o que são bons e o que dá mais valor à empresa, quando realmente eles só precisavam da visão geral e saber onde colocar as mãos na documentação.

Deixe claro que houve alterações na biblioteca de dados

Quando a biblioteca de dados e os códigos mudam. Isso tabém precisa ser documentado e armazenado. Há muitas razões para uma mudança, mas uma das mais freqüentes é quando existem várias ‘eras’ de trabalho realizadas com diferentes esquemas de registro e a empresa quer consolidar os códigos para um sistema. Outra ocorrência comum é que alguém quer mudar um código ou reduzir o número de códigos para um único código.

Não somente vale a pena documentar isso para o futuro, para facilitar o retrocesso das mudanças e mostrar aos auditores a trilha e prova as mudanças nos dados, que podem não corresponder a uma versão pontualmente retratada, mas também permite a reversão de mudanças, caso uma nova pessoa assuma e tenha idéias diferentes sobre os códigos de litologia (por exemplo). Em um projeto, eu vi os códigos mudaram 6 vezes em 18 meses. Neste lugar, eles foram sábios e criaram um bom sistema de log de transações, que lhes permitiu reverter as mudanças e aplicar novas alterações ao seu sistema de registro de forma rápida, eficiente e transparente.

Os dados são essenciais para existência da empresa

Uma das piores coisas a ser encontrada é descobrir que não há correlação entre o retrato passado (dados de uma determinada época) e o banco de dados atual. Nenhum registro de transações de mudanças, nenhuma documentação de mudança, nenhum memorando de um A4 simples do porquê que mudanças foram feitas, em um arquivo, em algum lugar.

Consultando o pessoal, você obtém uma série de respostas, mas geralmente, isso resume-se a: ‘Oh, eu precisava mudar isso por causa de XYZ’ ou ‘Eu sabia que aquilo estava errado e deveria ser isto’. O que sempre me pergunto é ‘Então você tem a documentação pedindo que você mude isso? Oh, você não tem?’ ou ‘Você tem um memorando afirmando por que todos os códigos FL foram alterados para códigos HYD?’ Muitas vezes, me dizem: ‘Nós não temos tempo para isso’ ou ‘Eu sei disso, está bem aqui’ – apontado para a sua cabeça.

Ambas as respostas não são realmente adequadas. Não importa quão pequeno ou apertado seja o orçamento de uma empresa, seu valor (em bolsa) está vinculado à qualidade de seus dados. Se não tiver sido orçamentado adequadamente para que as pessoas de qualidade gerenciem seus dados em um método de qualidade, talvez a empresa devesse reavaliar sua existência. Isso afeta seus relatórios compatíveis com o código, bem como sua capacidade de se vender ou vender seus projetos no futuro.

A segunda resposta sempre acompanha a questão: ‘Então, o que acontece com a empresa se você for atropelado por um ônibus, na próxima vez que você estiver em seu break?’

“Guia do usuário” para a biblioteca de dados

Muitas vezes é sábio ter um ‘Guia do Usuário’ e, nele, deve estabelecer os seguintes processos, responsabilidades e detalhes de contato:

  • Um diagrama de fluxo de processo que mostra como os dados se movimentam para dentro e para fora do sistema e quaisquer processos que ocorrem nele. Isso pode ser simplificado e apenas como uma visão geral de alto nível;
  • Prints de menus e formulários usados para inserir, carregar, manipular ou exportar os dados. Isso deve incluir um procedimento passo a passo para o processo e destacar as bibliotecas, chaves ou informações necessárias que precisam ser inseridas. Isso pode parecer contra-intuitivo, mas isso permite que funcionários não técnicos ingressem os dados e rastreiem rapidamente novos funcionários nos sistemas das empresas;
  • Se houver algum procedimento que modifique os dados, isso deve ser documentado sobre o que eles fazem e como eles fazem isso. Coisas como o carregamento de amostras de ensaio e a fusão com registros de intervalos (especialmente qualquer processo que possa modificar dados como a conversão de unidades ou alterar abaixo os limites de detecção para uma ‘convenção’), o carregamento de dados do coletor portátil, tudo o que calcula ou manipula dados. Se houver um sistema QAQC para análise, os procedimentos para como ele é usado e os gráficos e relatórios também devem ser detalhados;
  • Se houver algum dado ou processo que precise ser executado antes de um outro relatório, exportações podem ser executadas, isso deve ser destacado para reduzir as surpresas;
  • Qualquer segurança deve ser detalhada, bem como os privilégios anexados a diferentes grupos de usuários, quem é responsável por o quê;
  • Detalhes de contato das pessoas habilitadas para fazer alterações quando a equipe encontra problemas, para obter backups, para obter suporte para logins de usuários;
  • Se houver um sistema de prioridade que seja usado para que vários resultados possam ser armazenados, mas um resultado é preferido sobre outro, isso precisa ser especificado e como essa prioridade é determinada. Também precisa ser delineado como as exportações chegam a resultados preferenciais em relação a outros ou se todos os resultados são exportados ou se há uma escolha.”

Referências:

Scott McManus é geólogo de recursos na Skandus Pty Ltd , e nos autorizou a transcrição/versão do texto.

Fernanda Nishiyama é geóloga especialista em banco de dados geocientíficos e consultora na GEOM3.

Leia aqui o texto em inglês, na íntegra.

Escrito por Equipe Geokrigagem

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Geoestatística no R: Leitura e gravação de dados

Geoestatística no R – Lição 4: Estrutura gráfica