O Desafio - AnselmoBorges/projetorescue GitHub Wiki

Desenho de arquitetura

Segue abaixo um desenho que explica as integrações de dados e ferramentas que sugerimos nesse projeto

Desenho de arquitetura

Explicando o projeto

Vamos pegar dados que estão disponíveis no site do Ministério da Cultura (salicNet), são os dados de incentivadores (Pessoa Juridica nesse caso) que contribuiram em algum projeto cultural de 1992 até o ano atual (2023), esses dados estão disponiveis no site (http://sistemas.cultura.gov.br/salicnet/Salicnet/Salicnet.php#) e estão divididos por ano, o primeiro desafio é centralizar esses dados que tem na sua origem a extensão .xslo que não é viável pra gente, precisamos converte-los para .csv, centralizar todos os anos em um único arquivo e faço algumas melhorias nele como:

  • mudança do header (cabeçalho) colocando strings mais fáceis de busca sem espaço como vem nos arquivos origem
  • os campos string com nome da empresa e nome do projeto cultural, alguns foram inseridos em maiúsculo outros minúsculo, fiz uma padronização por todos maiúsculos.
  • como cada arquivo representa um ano, no arquivo em si não consta a data dos incentivos, sendo assim atribui uma nova coluna para os dados de acordo com o ano que vem no arquivo .xls. Caso precise fazer calculos referente a anos por exemplo fica melhor.
  • com tudo concluido vamos disponibilizar esse .csv em um storage account Azure para que seja criada uma tabela BRONZE/RAW no Databricks a partir dele.
  • vamos fazer os tratamentos adequados e criação de tabelas fato e dimensão via DBT, documentando todo processo e fazendo um controle de versão. Outra vantagem desse step é o uso do Databricks SQL Analytics e armazenamento dos dados das tabelas no formato Delta, trazendo menor uso de espaço e melhor performance nas consultas analíticas.
  • Com os dados todos disponíveis vamos realizar a exibição dos Dashboards usando o Superset.