Preparando o ambiente para a Ingestão - AnselmoBorges/projetorescue GitHub Wiki
IMPORTANTE
Fiz todo o material no meu MAC mas pra simular esse passo a passo fiz num note Windows 10 que tenho aqui, ele é um I3 com 8GB de RAM e 500GB de disco, não é um note de ponta, portanto o final dessa instalação sugerida ficou bem pesado, dá pra usar mas tá bem lento, recomendo o uso de um computador um pouco melhor.
Pontos necessários para essa fase:
- Instalação do Docker na sua máquina
- Instalação do WSL
- Instalação do Git-scm na sua máquina
- Instalação do Python
- Ter um editor de texto instalado na sua maquina
- Instalação o astro cli
- Instalação do Airflow no Docker
- Criação de conta Gratuita na Azure
- Criando um Storage Account na Azure
- Seguir certinho os passos desse tutorial ;)
Instalando o Docker
Baixe o Docker desktop de acordo com seu sistema operacional (se for Windows ele precisa ser PRO)
- Windows - https://desktop.docker.com/win/main/amd64/Docker%20Desktop%20Installer.exe?utm_source=docker&utm_medium=webreferral&utm_campaign=dd-smartbutton&utm_location=module
- MAC/OS - https://desktop.docker.com/mac/main/arm64/Docker.dmg?utm_source=docker&utm_medium=webreferral&utm_campaign=dd-smartbutton&utm_location=module
- Linux - https://docs.docker.com/desktop/linux/install/
Siga a orientação do próprio site para fazer a instalação mas não tem muito segredo e pra saber qual a função do Docker vou deixar um videozinho rápido (12 minutos) pra você sair do zero.
O Docker precisa de restart pro WLS funcionar, reinicie
Instalação do WSL
O computador precisa que o Hypervision seja ativado e o WSL seja instalado para que o Docker funcione na sua maquina, segue o link abaixo para download, instale e reinicie o computador.
Instalando o Git-scm
Pra poder realizar o download dos repositórios referêntes a esse Hands On, vamos precisar instalar o Git-scm, uma ferramenta linha de comando que nos permite interagir com repositórios de código na web, onde podemos fazer controle de versão e muito mais. Caso queira saber mais sobre o GIT e o que ele faz segue esse videozinho também que pode te ajudar.
Segue um link do post do vídeo sobre o Git - https://blog.betrybe.com/tecnologia/git-e-github/
Vamos baixar o Git-scm nesses links abaixo de acordo com seu sistema operacional:
- Windows - https://github.com/git-for-windows/git/releases/download/v2.39.1.windows.1/Git-2.39.1-64-bit.exe
- Mac/OS - https://git-scm.com/download/mac
- Linux - https://git-scm.com/download/linux
Pro Windows a instalação é bem "next > next > finish" e pros demais sistemas operacionais siga o roteiro dos links.
Instalando o Python
Vamos rodar algumas coisinhas em Python, primeiro de tudo, se você já é programador nem vem zuar meus códigos (sou péssimo em programação mas atinjo meus objetivos, rs). Teremos que instalar o Python, no meu caso estou usando a versão 3.11 do Python (a mais recente no momento), para instalar no seu computador segue os links para cada sistema operacional.
- Windows - https://www.python.org/ftp/python/3.11.1/python-3.11.1-amd64.exe
- Linux - https://www.python.org/ftp/python/3.11.1/Python-3.11.1.tar.xz
- MAC/OS - https://www.python.org/ftp/python/3.11.1/python-3.11.1-macos11.pkg
Não tem muito segredo pra instalar, mas assim que terminar, rode o comando abaixo no seu CMD ou no Terminal de acordo com o sistema operacional que você está usando.
python --version
Se retornar algo mais ou menos assim, tá tudo certo!
Python 3.11.1
Instalando pré requisitos do Python
Precisamos baixar alguns modulos usando o utilitário pip do python, esses caras são:
- pandas - pra poder trabalhar com os dados das nossas tabelas no formato de dataframe
- xlrd - vai servir pra converter o formato dos arquivos de
.xlspara.csv
No terminal ou no CMD do Windows rode o comando abaixo
python -m pip install --upgrade pip
pip install pandas xlrd
Mas Anselmo, não sei python!
Pensei nisso também, vai lá, faz esse cursinho e quando terminar volta, pois ai você vai entender melhor a parte do Airflow que é toda Python, vai sem pressa, aprenda e volte, esse material não vai sumir daqui. Clique na imagem abaixo e faça o cursinho gratuíto.
Instalando o Editor de Texto
Nesse projeto vamos usar o Visual Studio Code, se você não conhece só baixa ele e instala, vou deixar o link de download ai fácil, caso já conheça e seja desses, "ai prefiro, o outro", para o bom andamento desse tutorial recomendo que você use esse, pois algumas funcionalidades desse projeto dependem diretamente dele.
Segue abaixo o link para Download de acordo com seu Sistema Operacional:
- Windows - https://code.visualstudio.com/docs/?dv=win
- MAC/OS - https://code.visualstudio.com/docs/?dv=osx
- Linux
Com o Visual Studio Code instalado recomendo você usar o recurso clonar repositório onde você clona o repositório desse projeto pra sua máquina, já trazendo todos os documentos necessários para esse projeto, os dados e a estrutura de pastas que vamos usar, isso vai facilitar muito o processo.
A URL do repositório segue abaixo:
Baixar repositório do projeto (modo raiz)
Caso queira baixar o repositório de outra forma, podemos agora usar o Git que configuramos para baixar o projeto, usando o terminal ou o CMD no Windows copiamos o comando abaixo, colamos e executamos.
cd Documentos
git clone https://github.com/AnselmoBorges/projetorescue.git
Esse comando vai fazer o download da pasta do nosso projeto trazendo todos os arquivos necessários para esse lab, demora no máximo uns 2 minutinhos dependendo da sua internet.
Instalando extensões
Na lateral direita quando você abrir o VSCode pela primeira vez, vai aparecer algumas recomendações de instalação de extensões como o pacote de linguagem para o Português e a extensão do Docker. No canto esquerdo tem um menuzinho com uns ícones e um deles tem 4 quadrados, é o ícone de extensões, você vai clicar nele e procurar por essas extensões:
- Python: Vai instalar um interpretador de código em Python, que auto completa conforme você desenvolve, o Jupyter pro VSCode que vou mostrar mais pra frente e outras funcionalidades.
- Docker: Caso não tenha sido exibido logo de cara
Configurando o Interpretador Python
Vamos abri o menu de configurações digitando ctrl+shift+f e escrever python interpreter, se a instalação do Python solicitada no passo anterior foi feita com sucesso já vai aparecer o 3.11 como opção, escolha e dê enter.
Instalando o Astro CLI
Com o Docker e o Git instalados, vamos fazer o Download do astro cli que vai nos auxiliar na criação de um Airflow básico pra podermos dar sequência ao nosso projeto. O Airflow que vamos usar é suportado por uma empresa chamada Astronomer, ele encapsula o Airflow e usa com as ferramentas deles, tipo essa que vamos instalar o astro cli, é bem simples, não precisa se assustar. Segue o link com o processo de instalação para cada Sistema Operacional:
- Windows - https://docs.astronomer.io/astro/cli/install-cli?tab=windows#install-the-astro-cli
- MAC/OS - https://docs.astronomer.io/astro/cli/install-cli?tab=mac#install-the-astro-cli
- Linux - https://docs.astronomer.io/astro/cli/install-cli?tab=linux#install-the-astro-cli
Colocando o Astro no Path
Por padrão o comando astro não vai estar disponível de qualquer diretório, usando o CMD vá no diretório onde o binário do astro está (no meu caso a pasta Download) e copie para o diretório do comando a seguir.
cd Downloads
copy astro_1.10.0_windows_amd64.exe %USERPROFILE%\AppData\Local\Microsoft\WindowsApps\astro.exe
Com essa copia realizada o comando pode ser executado de qualquer diretório do prompt.
Instalando o Airflow no Docker
Usando o astro cli vamos iniciar o projeto e rodar um start, ele se carrega de baixar todas as imagens necessárias, se você nunca fez vai ficar besta com a facilidade.
- Se você clonou o repositório como o indicado no passo de instalação do Editor de texto, basta entrar nesse path
projetorescue\ingestao\airflow, já existem os arquivos de quando eu criei aqui, mas rodando denovo ele recria pro seu ambiente, se pedir pra sobrescrever, pode autorizar, faça pelo terminal ou CMD no Windows.
**Antes de rodar certifique que seu Docker está funcionando (basta iniciar o Docker Desktop)
cd Documentos\projetorescue\ingestao\airflow
astro dev init
astro dev start
Esses comandos vão baixar todos os arquivos necessários para criar o container do airflow, baixar as imagens e iniciar o serviço. O Airflow vai subir no endereço abaixo e vai pedir um usuário e uma senha onde o usuário é admin e a senha é admin.
Se deu tudo certo tente acessar por esse endereço na sua maquina: http://localhost:8080/home
Tem que aparecer uma tela assim:

** OBS: O Airflow é composto por 4 containers (WebServer, Scheduler, um que não lembro agora e um Postgres), ele é pesadinho, no meu caso usou 5Gb dos meus 8 do notebook, pode ser que seu PC fique lento assim que subir tudo**
Quer aprender o básico de Airflow?
Tenho uma série de 3 posts pra você sair do zero em Airflow, mas recomendo ir já sabendo o básico de Python (material que passei anteriormente). Se já está pronto, segue o primeiro de 3 posts, só clicar na imagem abaixo.



