Preparando o ambiente para a Ingestão - AnselmoBorges/projetorescue GitHub Wiki
IMPORTANTE
Fiz todo o material no meu MAC mas pra simular esse passo a passo fiz num note Windows 10 que tenho aqui, ele é um I3 com 8GB de RAM e 500GB de disco, não é um note de ponta, portanto o final dessa instalação sugerida ficou bem pesado, dá pra usar mas tá bem lento, recomendo o uso de um computador um pouco melhor.
Pontos necessários para essa fase:
- Instalação do Docker na sua máquina
- Instalação do WSL
- Instalação do Git-scm na sua máquina
- Instalação do Python
- Ter um editor de texto instalado na sua maquina
- Instalação o astro cli
- Instalação do Airflow no Docker
- Criação de conta Gratuita na Azure
- Criando um Storage Account na Azure
- Seguir certinho os passos desse tutorial ;)
Instalando o Docker
Baixe o Docker desktop de acordo com seu sistema operacional (se for Windows ele precisa ser PRO)
- Windows - https://desktop.docker.com/win/main/amd64/Docker%20Desktop%20Installer.exe?utm_source=docker&utm_medium=webreferral&utm_campaign=dd-smartbutton&utm_location=module
- MAC/OS - https://desktop.docker.com/mac/main/arm64/Docker.dmg?utm_source=docker&utm_medium=webreferral&utm_campaign=dd-smartbutton&utm_location=module
- Linux - https://docs.docker.com/desktop/linux/install/
Siga a orientação do próprio site para fazer a instalação mas não tem muito segredo e pra saber qual a função do Docker vou deixar um videozinho rápido (12 minutos) pra você sair do zero.
O Docker precisa de restart pro WLS funcionar, reinicie
Instalação do WSL
O computador precisa que o Hypervision seja ativado e o WSL seja instalado para que o Docker funcione na sua maquina, segue o link abaixo para download, instale e reinicie o computador.
Instalando o Git-scm
Pra poder realizar o download dos repositórios referêntes a esse Hands On, vamos precisar instalar o Git-scm, uma ferramenta linha de comando que nos permite interagir com repositórios de código na web, onde podemos fazer controle de versão e muito mais. Caso queira saber mais sobre o GIT e o que ele faz segue esse videozinho também que pode te ajudar.
Segue um link do post do vídeo sobre o Git - https://blog.betrybe.com/tecnologia/git-e-github/
Vamos baixar o Git-scm nesses links abaixo de acordo com seu sistema operacional:
- Windows - https://github.com/git-for-windows/git/releases/download/v2.39.1.windows.1/Git-2.39.1-64-bit.exe
- Mac/OS - https://git-scm.com/download/mac
- Linux - https://git-scm.com/download/linux
Pro Windows a instalação é bem "next > next > finish" e pros demais sistemas operacionais siga o roteiro dos links.
Instalando o Python
Vamos rodar algumas coisinhas em Python, primeiro de tudo, se você já é programador nem vem zuar meus códigos (sou péssimo em programação mas atinjo meus objetivos, rs). Teremos que instalar o Python, no meu caso estou usando a versão 3.11 do Python (a mais recente no momento), para instalar no seu computador segue os links para cada sistema operacional.
- Windows - https://www.python.org/ftp/python/3.11.1/python-3.11.1-amd64.exe
- Linux - https://www.python.org/ftp/python/3.11.1/Python-3.11.1.tar.xz
- MAC/OS - https://www.python.org/ftp/python/3.11.1/python-3.11.1-macos11.pkg
Não tem muito segredo pra instalar, mas assim que terminar, rode o comando abaixo no seu CMD ou no Terminal de acordo com o sistema operacional que você está usando.
python --version
Se retornar algo mais ou menos assim, tá tudo certo!
Python 3.11.1
Instalando pré requisitos do Python
Precisamos baixar alguns modulos usando o utilitário pip
do python, esses caras são:
- pandas - pra poder trabalhar com os dados das nossas tabelas no formato de dataframe
- xlrd - vai servir pra converter o formato dos arquivos de
.xls
para.csv
No terminal ou no CMD do Windows rode o comando abaixo
python -m pip install --upgrade pip
pip install pandas xlrd
Mas Anselmo, não sei python!
Pensei nisso também, vai lá, faz esse cursinho e quando terminar volta, pois ai você vai entender melhor a parte do Airflow que é toda Python, vai sem pressa, aprenda e volte, esse material não vai sumir daqui. Clique na imagem abaixo e faça o cursinho gratuíto.
Instalando o Editor de Texto
Nesse projeto vamos usar o Visual Studio Code
, se você não conhece só baixa ele e instala, vou deixar o link de download ai fácil, caso já conheça e seja desses, "ai prefiro, o outro", para o bom andamento desse tutorial recomendo que você use esse, pois algumas funcionalidades desse projeto dependem diretamente dele.
Segue abaixo o link para Download de acordo com seu Sistema Operacional:
- Windows - https://code.visualstudio.com/docs/?dv=win
- MAC/OS - https://code.visualstudio.com/docs/?dv=osx
- Linux
Com o Visual Studio Code instalado recomendo você usar o recurso clonar repositório
onde você clona o repositório desse projeto pra sua máquina, já trazendo todos os documentos necessários para esse projeto, os dados e a estrutura de pastas que vamos usar, isso vai facilitar muito o processo.
A URL do repositório segue abaixo:
Baixar repositório do projeto (modo raiz)
Caso queira baixar o repositório de outra forma, podemos agora usar o Git que configuramos para baixar o projeto, usando o terminal ou o CMD no Windows copiamos o comando abaixo, colamos e executamos.
cd Documentos
git clone https://github.com/AnselmoBorges/projetorescue.git
Esse comando vai fazer o download da pasta do nosso projeto trazendo todos os arquivos necessários para esse lab, demora no máximo uns 2 minutinhos dependendo da sua internet.
Instalando extensões
Na lateral direita quando você abrir o VSCode pela primeira vez, vai aparecer algumas recomendações de instalação de extensões como o pacote de linguagem para o Português e a extensão do Docker. No canto esquerdo tem um menuzinho com uns ícones e um deles tem 4 quadrados, é o ícone de extensões, você vai clicar nele e procurar por essas extensões:
- Python: Vai instalar um interpretador de código em Python, que auto completa conforme você desenvolve, o Jupyter pro VSCode que vou mostrar mais pra frente e outras funcionalidades.
- Docker: Caso não tenha sido exibido logo de cara
Configurando o Interpretador Python
Vamos abri o menu de configurações digitando ctrl+shift+f
e escrever python interpreter
, se a instalação do Python solicitada no passo anterior foi feita com sucesso já vai aparecer o 3.11 como opção, escolha e dê enter
.
Instalando o Astro CLI
Com o Docker e o Git instalados, vamos fazer o Download do astro cli
que vai nos auxiliar na criação de um Airflow básico pra podermos dar sequência ao nosso projeto. O Airflow que vamos usar é suportado por uma empresa chamada Astronomer, ele encapsula o Airflow e usa com as ferramentas deles, tipo essa que vamos instalar o astro cli
, é bem simples, não precisa se assustar. Segue o link com o processo de instalação para cada Sistema Operacional:
- Windows - https://docs.astronomer.io/astro/cli/install-cli?tab=windows#install-the-astro-cli
- MAC/OS - https://docs.astronomer.io/astro/cli/install-cli?tab=mac#install-the-astro-cli
- Linux - https://docs.astronomer.io/astro/cli/install-cli?tab=linux#install-the-astro-cli
Colocando o Astro no Path
Por padrão o comando astro
não vai estar disponível de qualquer diretório, usando o CMD vá no diretório onde o binário do astro está (no meu caso a pasta Download) e copie para o diretório do comando a seguir.
cd Downloads
copy astro_1.10.0_windows_amd64.exe %USERPROFILE%\AppData\Local\Microsoft\WindowsApps\astro.exe
Com essa copia realizada o comando pode ser executado de qualquer diretório do prompt.
Instalando o Airflow no Docker
Usando o astro cli
vamos iniciar o projeto e rodar um start, ele se carrega de baixar todas as imagens necessárias, se você nunca fez vai ficar besta com a facilidade.
- Se você clonou o repositório como o indicado no passo de instalação do Editor de texto, basta entrar nesse path
projetorescue\ingestao\airflow
, já existem os arquivos de quando eu criei aqui, mas rodando denovo ele recria pro seu ambiente, se pedir pra sobrescrever, pode autorizar, faça pelo terminal ou CMD no Windows.
**Antes de rodar certifique que seu Docker está funcionando (basta iniciar o Docker Desktop)
cd Documentos\projetorescue\ingestao\airflow
astro dev init
astro dev start
Esses comandos vão baixar todos os arquivos necessários para criar o container do airflow, baixar as imagens e iniciar o serviço. O Airflow vai subir no endereço abaixo e vai pedir um usuário e uma senha onde o usuário é admin
e a senha é admin
.
Se deu tudo certo tente acessar por esse endereço na sua maquina: http://localhost:8080/home
Tem que aparecer uma tela assim:
** OBS: O Airflow é composto por 4 containers (WebServer, Scheduler, um que não lembro agora e um Postgres), ele é pesadinho, no meu caso usou 5Gb dos meus 8 do notebook, pode ser que seu PC fique lento assim que subir tudo**
Quer aprender o básico de Airflow?
Tenho uma série de 3 posts pra você sair do zero em Airflow, mas recomendo ir já sabendo o básico de Python (material que passei anteriormente). Se já está pronto, segue o primeiro de 3 posts, só clicar na imagem abaixo.