Preparando o ambiente para a Ingestão - AnselmoBorges/projetorescue GitHub Wiki

Projeto Rescue - Configurando ambiente local

IMPORTANTE

Fiz todo o material no meu MAC mas pra simular esse passo a passo fiz num note Windows 10 que tenho aqui, ele é um I3 com 8GB de RAM e 500GB de disco, não é um note de ponta, portanto o final dessa instalação sugerida ficou bem pesado, dá pra usar mas tá bem lento, recomendo o uso de um computador um pouco melhor.

Pontos necessários para essa fase:

Instalando o Docker

Baixe o Docker desktop de acordo com seu sistema operacional (se for Windows ele precisa ser PRO)

Siga a orientação do próprio site para fazer a instalação mas não tem muito segredo e pra saber qual a função do Docker vou deixar um videozinho rápido (12 minutos) pra você sair do zero.

O que é o Docker?

O Docker precisa de restart pro WLS funcionar, reinicie

Instalação do WSL

O computador precisa que o Hypervision seja ativado e o WSL seja instalado para que o Docker funcione na sua maquina, segue o link abaixo para download, instale e reinicie o computador.

Instalando o Git-scm

Pra poder realizar o download dos repositórios referêntes a esse Hands On, vamos precisar instalar o Git-scm, uma ferramenta linha de comando que nos permite interagir com repositórios de código na web, onde podemos fazer controle de versão e muito mais. Caso queira saber mais sobre o GIT e o que ele faz segue esse videozinho também que pode te ajudar.

O que é o Git?

Segue um link do post do vídeo sobre o Git - https://blog.betrybe.com/tecnologia/git-e-github/

Vamos baixar o Git-scm nesses links abaixo de acordo com seu sistema operacional:

Pro Windows a instalação é bem "next > next > finish" e pros demais sistemas operacionais siga o roteiro dos links.

Instalando o Python

Vamos rodar algumas coisinhas em Python, primeiro de tudo, se você já é programador nem vem zuar meus códigos (sou péssimo em programação mas atinjo meus objetivos, rs). Teremos que instalar o Python, no meu caso estou usando a versão 3.11 do Python (a mais recente no momento), para instalar no seu computador segue os links para cada sistema operacional.

Não tem muito segredo pra instalar, mas assim que terminar, rode o comando abaixo no seu CMD ou no Terminal de acordo com o sistema operacional que você está usando.

python --version

Se retornar algo mais ou menos assim, tá tudo certo!

Python 3.11.1

Instalando pré requisitos do Python

Precisamos baixar alguns modulos usando o utilitário pip do python, esses caras são:

  • pandas - pra poder trabalhar com os dados das nossas tabelas no formato de dataframe
  • xlrd - vai servir pra converter o formato dos arquivos de .xls para .csv

No terminal ou no CMD do Windows rode o comando abaixo

python -m pip install --upgrade pip
pip install pandas xlrd

Mas Anselmo, não sei python!

Pensei nisso também, vai lá, faz esse cursinho e quando terminar volta, pois ai você vai entender melhor a parte do Airflow que é toda Python, vai sem pressa, aprenda e volte, esse material não vai sumir daqui. Clique na imagem abaixo e faça o cursinho gratuíto. Curso de Python para Iniciantes

Instalando o Editor de Texto

Nesse projeto vamos usar o Visual Studio Code, se você não conhece só baixa ele e instala, vou deixar o link de download ai fácil, caso já conheça e seja desses, "ai prefiro, o outro", para o bom andamento desse tutorial recomendo que você use esse, pois algumas funcionalidades desse projeto dependem diretamente dele.

Segue abaixo o link para Download de acordo com seu Sistema Operacional:

Com o Visual Studio Code instalado recomendo você usar o recurso clonar repositório onde você clona o repositório desse projeto pra sua máquina, já trazendo todos os documentos necessários para esse projeto, os dados e a estrutura de pastas que vamos usar, isso vai facilitar muito o processo.

A URL do repositório segue abaixo:

Baixar repositório do projeto (modo raiz)

Caso queira baixar o repositório de outra forma, podemos agora usar o Git que configuramos para baixar o projeto, usando o terminal ou o CMD no Windows copiamos o comando abaixo, colamos e executamos.

cd Documentos
git clone https://github.com/AnselmoBorges/projetorescue.git

Esse comando vai fazer o download da pasta do nosso projeto trazendo todos os arquivos necessários para esse lab, demora no máximo uns 2 minutinhos dependendo da sua internet.

Instalando extensões

Na lateral direita quando você abrir o VSCode pela primeira vez, vai aparecer algumas recomendações de instalação de extensões como o pacote de linguagem para o Português e a extensão do Docker. No canto esquerdo tem um menuzinho com uns ícones e um deles tem 4 quadrados, é o ícone de extensões, você vai clicar nele e procurar por essas extensões:

  • Python: Vai instalar um interpretador de código em Python, que auto completa conforme você desenvolve, o Jupyter pro VSCode que vou mostrar mais pra frente e outras funcionalidades.
  • Docker: Caso não tenha sido exibido logo de cara

Configurando o Interpretador Python

Vamos abri o menu de configurações digitando ctrl+shift+f e escrever python interpreter, se a instalação do Python solicitada no passo anterior foi feita com sucesso já vai aparecer o 3.11 como opção, escolha e dê enter.

Instalando o Astro CLI

Com o Docker e o Git instalados, vamos fazer o Download do astro cli que vai nos auxiliar na criação de um Airflow básico pra podermos dar sequência ao nosso projeto. O Airflow que vamos usar é suportado por uma empresa chamada Astronomer, ele encapsula o Airflow e usa com as ferramentas deles, tipo essa que vamos instalar o astro cli, é bem simples, não precisa se assustar. Segue o link com o processo de instalação para cada Sistema Operacional:

Colocando o Astro no Path

Por padrão o comando astro não vai estar disponível de qualquer diretório, usando o CMD vá no diretório onde o binário do astro está (no meu caso a pasta Download) e copie para o diretório do comando a seguir.

cd Downloads
copy astro_1.10.0_windows_amd64.exe %USERPROFILE%\AppData\Local\Microsoft\WindowsApps\astro.exe 

Com essa copia realizada o comando pode ser executado de qualquer diretório do prompt.

Instalando o Airflow no Docker

Usando o astro cli vamos iniciar o projeto e rodar um start, ele se carrega de baixar todas as imagens necessárias, se você nunca fez vai ficar besta com a facilidade.

  1. Se você clonou o repositório como o indicado no passo de instalação do Editor de texto, basta entrar nesse path projetorescue\ingestao\airflow, já existem os arquivos de quando eu criei aqui, mas rodando denovo ele recria pro seu ambiente, se pedir pra sobrescrever, pode autorizar, faça pelo terminal ou CMD no Windows.

**Antes de rodar certifique que seu Docker está funcionando (basta iniciar o Docker Desktop)

cd Documentos\projetorescue\ingestao\airflow
astro dev init
astro dev start

Esses comandos vão baixar todos os arquivos necessários para criar o container do airflow, baixar as imagens e iniciar o serviço. O Airflow vai subir no endereço abaixo e vai pedir um usuário e uma senha onde o usuário é admin e a senha é admin.

Se deu tudo certo tente acessar por esse endereço na sua maquina: http://localhost:8080/home

Tem que aparecer uma tela assim: Login Airflow

** OBS: O Airflow é composto por 4 containers (WebServer, Scheduler, um que não lembro agora e um Postgres), ele é pesadinho, no meu caso usou 5Gb dos meus 8 do notebook, pode ser que seu PC fique lento assim que subir tudo**

Quer aprender o básico de Airflow?

Tenho uma série de 3 posts pra você sair do zero em Airflow, mas recomendo ir já sabendo o básico de Python (material que passei anteriormente). Se já está pronto, segue o primeiro de 3 posts, só clicar na imagem abaixo.

O que é o Docker?