Como corrigir um PR - basedosdados/pipelines GitHub Wiki
Verificar em schedule.py:
- a frequência de atualização faz sentido
- parametros e label são os de produção
- os demais parametros estão consistentes
- existe algum parametro no flow que é obrigatório e não consta no schedule
Verificar em flows.py:
- os parâmetros do
flow estão corretos
- os parâmetros dentro do
materialization_flow estão corretos
- o time_delta na task
update_django_metadata está igual a querie no repositório de queries-basedosdados
upstream_tasks = wait_upload_table na task update_django_metadata
- o nome do flow foi linkado ao final com o
schedule correto
- dentro do flow tem apenas tasks, parametros e cases (o arquivo de flow não é um espaço de codar, apenas de gerenciar o fluxo das tasks)
Verificar no BQ:
- os dados tem a cobertura temporal conforme indicada nos metadados
- os dados estão bem preenchidos (sem colunas inteiras nulas)
Verificar nos metadados:
- O conjunto tem fonte externa
- Todos os campos devem estar preenchidos. Os únicos campos não obrigatório são
Arquivos auxiliares e Partições no BigQuery
- Nome da tabela tem que ser mais amigável a leitura (com acentos, conjunções e letra maiúscula)
- Ordem das colunas igual no django e no BQ