Analytics - ribeiry/AWS-Professional-Study GitHub Wiki

Athena

Athena é um serviço serveless da AWS, de consultas interativas que facilita a análise de dados no Amazon S3 usando SQL padrão; Tipos de Formatos suportados :

  • Apache ORC
  • Apache Parquet
  • JSON Cobrado por query e por montante de dados analisados Athena pode ser usado com Driver ODBC

Redshift

Serviço de DataWareHouse colunar na AWS, aonde pode se rodar queries em seus dados, é escalável até petabyte de informação, útil para workloads OLAP

  • Baseado no Postgre
  • Tipo Columnar
  • Carrega os dados vindo do S3, Kinesis FireHouse, DynamoDB DMS
  • Pode ter de 1 nó até 128 nós
  • Cada nó pode ter até 160 GB de espaço
  • Redshift é provisionado, so que vale a pena quando voce tem um uso sustentado, para uso esporadicos use Athena
  • Snapshot e Desaster Recovery
  • Os backups são armazenados internamente dentro do S3
  • Snapshot são incrementais
  • Voce pode restaurar um snapshot dentro de um novo cluster
  • Snapshot automatizado:
    • a cada 8 horas
    • a cada 5 GB
    • ou não agendado
    • Precisa configurar o periodo de retenção

Redshift Spectrum

Efetua a analise de queries executada no Redshift, possível executar consultas e recuperar com eficiência os dados estruturados e semiestruturados dos arquivos no Amazon S3 sem que seja necessário carregar os dados em tabelas do Amazon Redshift. As consultas do Redshift Spectrum usam paralelismo massivo para executar muito rapidamente conjuntos de dados grandes. Grande parte do processamento ocorre na camada do Redshift Spectrum, e a maioria dos dados permanece no Amazon S3. Vários clusters podem executar consultas simultaneamente com o mesmo conjunto de dados no Amazon S3 sem precisar fazer cópias dos dados de cada cluster.

  • Suporta o tipo de database colunar.

OBS.: Voce não pode configurar um RedShift cluster para fazer o uso do Auto Scaling group.

Copiando um Snapshot criptografado com KMS

AWS KMS chaves são especificas para uma AWS Região. Se voce habilitar a copia de Amazon RedShift snapshot para uma outra AWS Região, e sua origem do cluster e esses snapshots são encriptogradas usando a chave root de um AWS KMS, voce precisa configurar uma permissão para Amazon RedShift para usar a chave raiz no destino da AWS Região. Isso garante habilitar Amazon Redshift para encriptografar o snapshots no destino AWS Região.

Atenção: Se voce habilitar a copia do snapshot de um cluster encriptografado e usar o AWS KMS para sua chave raiz, voce não pode renomear o seu cluster por que o nome do cluster é parte do contexto da criptografia. Se voce renomear o seu cluster, voce pode desabilitar a copia do seu snapshot na origem AWS Região, renomeia o cluster, e então configure a habilitação de copia do seu snapshot novamente.

O processo para configurar a conceção para copiar o snapshot seguindo os seguinte passos:

  1. Na Região de destino, crie um snpashot copia garantindo fazendo os seguintes passos:
    • Se voce não tiver uma chave de KMS pronta para usar crie uma.
    • Especifica o nome para o snapshot que ira conceder a copia. Este nome deve ser unico por região da sua conta.
    • Especifica o KMS Key ID para que você está criando a concessão. Se voce não especificar um Key ID, a permissão aplicada sera a chave default.
  2. Na Região de origem, habilite a copia do snapshots e espeficica o nome do snapshot copia a garantia que voce irá cria no destino da Região.

O procedimento dos processos é somente necessário se voce habilitar a copia de snapshots usando o AWS CLI, O Amazon RedShift API, ou SDKs. Se voce usar o console, Amazon RedShift prove e propõe workflow para configurar a permissão quando você habilitar o cross-Region copia do snapshot.
Depois do snapshot foi copiado para a região de destino, Amazon Redshift descriptografa o snapshot usando a chave raiz na sua região de Origem e re-encripta temporariamente usando uma chave randomica gerada pelo RSA que o Amazon RedShift gerencia internamente. O Amazon Redshift então copia o snapshot sobre o canal de segurança da região de destino, descriptografando o snapshot usando a chave gerada internamente gerenciada pelo RSA, e então re-encripta o snapshot usando a chave raiz para a região de destino.

SageMaker

Amazon SageMaker é um serviço de Machine Learning totalmente gerenciado. Com o SageMaker, cientistas de dados e desenvolvedores podem criar e treinar modelos de Machine Learning com rapidez e facilidade e, depois, implantá-los diretamente em um ambiente hospedado pronto para produção. O serviço oferece uma instância de notebook de autoria Jupyter integrado para facilitar o acesso a fontes de dados para fins de exploração e análise, sem necessidade de gerenciar servidores. Além disso, oferece algoritmos comuns de Machine Learning que são otimizados para execução eficiente com volumes de dados extremamente altos em um ambiente distribuído. Com suporte nativo para algoritmos e estruturas próprios do usuário, o SageMaker oferece opções flexíveis de treinamento distribuído que se ajustam a fluxos de trabalho específicos. Implante um modelo em um ambiente seguro e escalável, inicie-o com alguns cliques no SageMaker Studio ou no console do SageMaker Studio. O treinamento e a hospedagem são cobrados por minutos de uso, sem taxas mínimas nem compromissos antecipados.