AI Session - ribeiry/AWS-Professional-Study GitHub Wiki

Tokens

são as unidades básicas de texto que os modelos de IA processam. Eles podem ser palavras inteiras, partes de palavras ou até caracteres, dependendo do contexto.

Usado para:

Cálculo de custo: Muitos serviços de IA cobram com base no número de tokens.
Limite de entrada/saída: Os modelos têm limites no número de tokens que podem processar por vez.

Context Window

Uma janela de contexto em modelos de linguagem de grande escala (LLMs) refere-se ao número máximo de tokens que um modelo pode processar em uma única entrada. Tokens são unidades de texto, como palavras ou subpalavras, que são codificadas e interpretadas pelo modelo durante o treinamento e a inferênciax

Conceito	Definição
Token	Unidade básica do texto (palavra, subword ou caractere).
Embedding	Representação numérica (vetor) de um token para processamento matemático.

Exemplo de embedding "gato" -> [0.1, 0.8, -0.5, 0.3] "cachorro" -> [0.2, 0.7, -0.4, 0.4] "computador" -> [0.9, -0.2, 0.3, 0.1]

BedRock

Voce so pode customizar modelos no modo provisioned throughput mode Não é possível RHLF no Amazon Bedrock

BedRock Agents

Criar agentes que podem chamar APIs e executar ações.
Pode chamar API`s ou Base de Dados

O que é Prompting Prompting é o processo de criar instruções ou perguntas (chamadas de prompts) para que uma inteligência artificial, como pergunta ou comandos

Configuracoes Possiveis

Mais temperatura no prompt mais criativo
Top P % de palavras baseada em probabilidades
Top k quantas palavras sera considerada para escolher a proxima palavra

Tecnicas de prompt

Zero-Shot Prompting

Técnica de interação com modelos de IA onde você pede que o modelo realize uma tarefa sem fornecer exemplos ou instruções específicas.
A IA deve entender e resolver a tarefa apenas com base no contexto fornecido pelo prompt.
Útil para tarefas onde o modelo já possui conhecimento implícito.

Few-Shot Prompting

Técnica de interação com modelos de IA onde você fornece alguns exemplos (shots) de como realizar uma tarefa dentro do próprio prompt.
Esses exemplos ajudam a IA a entender melhor o que você espera como resposta.
Melhora a precisão e a relevância das respostas, especialmente para tarefas complexas.

Chain of Thought Prompting

Técnica de prompting que incentiva o modelo de IA a explicar seu raciocínio passo a passo antes de fornecer uma resposta final.
Ajuda a IA a lidar melhor com tarefas complexas que exigem várias etapas de raciocínio lógico ou matemático.
Melhora a capacidade do modelo de resolver problemas que exigem raciocínio sequencial.

Retrieval-Augmented Generation (RAG)

Técnica que combina busca de informações externas com a geração de texto por modelos de IA.
Melhora a precisão e relevância das respostas, especialmente para tarefas que exigem conhecimento atualizado ou especializado.
Permite que o modelo acesse informações externas para complementar seu conhecimento interno.

Amazon Q

Amazon Q é construido BedRock, voce pode escolher o FM
Amazon Q é construido com o conhecimento dos seus dados da sua companhia
Data conectors (Totalmente gerenciado pelo RAG)

+40 fontes de dados enterprise (Sharepoint, S3, RDS, Aurora)

Plugins para terceiros

Jira, SalesForces,ZenDesk ,ServiceNow

Custom Plugins via API

Login via IAM Center
Admin Controls == GuardRails BedRock

Tipos de Amazon Q

Amazon Q Business - Assistent AI para a sua empresa

Based on your company knowledge
	Responde questões, prove sumários, gera conteúdo, automatiza tarefa, performa ações de rotina
Construído no Bedrock mas vc não pode escolher o FM.

Amazon Q Business + IAM Identity Center :

Usuários podem ser autenticados através do IAM Identity Center
Usuários podem receber respostas de documentos apenas que eles tem acesso
IAM Identity Center pode ser configurado com um IDP externo.

Amazon Q Business - Admim Controls

Constrola e customiza respostas  para sua organização
Adm Controls == Guardrails
Bloqueia palavras ou topicos específicos
Responde apenas com informações internas
Controle global e controle de nível de tópicos

Amazon Q App

Create Gen AI-Powred apps without coding by using natural language
Leverages your companys internal data
Possibilita plugins

Amazon Q Developer

Responde sobre documentação AWS
Responde questões sobre recursos na sua conta AWS
Suggest CLI
Ajuda a analisar, resolver erros, troubleshooting.
Extenção para IDE

Amazon Q com outros produtos

QuickSight
EC2
ChatBot

Métricas de Avaliacao de FM(Foundation Model)

GPT (Generative Pre-Trained Transformer) - gera texto humano ou codigo de computador de acordo com o input
BERT (Bidirecional Encoder Representations from Transformers) - Para comparar a contextualizacao incorporacoes de ambos textos e calcula a semelhanca de cosseno entre eles

Similiar e semantico gerado por texto

Usa pré treino de modelos BERT(Bidirecional Encoder Representations from Transformers)

Capaz de capturar mais nunaces entre textos

RNN (Recurent Neural Network) - sequencial de dados significativos como time-serials ou textos usuais em reconhecimento de fala, ou predicao de tempo
ResNet (Residual Network) - Deep Convolutional Neural Network (CNN) usado para tarefas de reconhecimento de imagens, detecao de objetos ou reconhecimento facial (CNN = Imagens e videos para Canal de TV)
SM (Support Vector Machine) - ML algoritmo para classificacao e regressao.
WaveNet - Modelo para gerar um raw audio waveform, usado para falas Sinteticas (Wave = ondas, o som anda via ondas sonoras)
GAN(Generative Adversarial NetWork) - modelo usado para gerar dados sinteticos como imagens, videos ou sons que assemelham-se a treinamento de dados. Util para argumentacao de dados .
BLEU: Bilingual Evaluation Understudy

Avaliar a qualidade de geracao de textos, especiais para traducoes

Considera ambas precisao e penaliza muito a breviadade

Avalia a combinacao de n-grams(1,2,3,4)

Prescritive Model | Descritivo Model | Preditive Model

Prescritive Model

Prescritive AI model prove recomendacoes que acoes ira tomar para determinada situacao, frequentemente usando a otimizacao ou fazendo a decisao de algoritimos.

4f49e813-7930-4267-86d6-caaaf37ea5e2

Comprehend

Usa tokens para cobrar
Organiza DOcumentos em categorias
Suporta diferentes tipos de documentos
Analise sync e async de documentos
Named Entity Recognization (NER)
Extrai e predefine o proposito do documento

Comprehend Medical

Amazon Comprehend Medico detecta e retorna informacoes uteis em dados nao estruturados em texto:

Anotacoes Fisicas
Resultados de tests
Notas de Case
Usa NLP para detectar e proteger PHI(Protected Health Information)
Armazena os dados em um S3
Analisa dados em real-time com o Kinesis Data FireHouse
Usa Amazon Transcribe para transcrever narrativas dentro do texto que pode ser analizado pelo Comprehend Medical

AWS Artifact – Third-Party Reports

• On-demand access to security compliance reports of Independent Software Vendors (ISVs) • ISV compliance reports will only be accessible to the AWS customers who have been granted access to AWS Marketplace Vendor Insights for a specific ISV • Ability to receive notifications when newreports are available

AWS Augmented AI (A2I)

Objetivo Principal: O A2I é voltado para a validação humana de modelos de aprendizado de máquina. Ele é projetado para adicionar a intervenção humana em processos de ML para melhorar a precisão do modelo
Habilitar voce revisar predicoes do Amazon Rekognition e Amazon Textract. Voce pode tambem criar seu proprio workflow de revisao para modelos de ML usando SageMaker ou outras ferramentas.

Hardwares

Instancias com GPU otimizadas familia P.... e G...

AWS Trainium

Chip de ML desenvolvido para executar Deep Learning em mais de 100 bilhões de modelos de parâmetros
A instância Trn1 possui, por exemplo, 16 Aceleradores Trainium
Redução de 50% nos custos de treinamento de um modelo

AWS Inferentia

Chip de ML desenvolvido para fornecer inferência com alto desempenho e baixo custo
Instâncias Inf1 e Inf2 são alimentadas pela AWS Inferentia
Taxa de transferência de até 4x e redução de custos de 70%

Sage Maker AI

Cria Dominio
Add Usuario
Add Apps como docker, canvas e IR

Sage Maker Data Wrangler

Suporta SQL
Ferramenta de qualidade dos Dados
Prepara imagem e dados tabular para o Machine Learning
Preparaçāo do dado, Transformacao e Features Engenieers
Unida interface para:
1. Selecao dos dados
2. Limpeza de dados
3. Exploracao dos dados
4. Visualizacao dos dados
5. Processamento dos dados
Transforma dados

Exemplo: data de nascimento em idade

Sage Maker Clarify

Esta insights sobre o modelos
De acordo com fator humanos
Usando métricas para construir algoritmos
Parte do SageMaker
Ajuda a entender o modelo
Detector de preconceitos

Sage Maker Ground Truth

RLHF - Reinforcement Learning from Human Feedback (Reforco de aprendizado por feedback humano) (trabalha com labels)

Revisão, personalização e avaliação do modelo
Alinhamento do modelo às preferências humanas
Aprendizado por reforço onde o feedback humano é incluído na função de "recompensa"

Feedback Humano para ML

Criação ou avaliação do seus modelos
Geração ou anotação de dados (criação de rótulos)
Revisores : Trabalhadores do Amazon Mechanical Turk, seus funcionários ou fornecedores terceirizados

Sage Maker Ground Truth Plus

Usa forca de trabalho para colocar labels nos dados

Ground Truth vs AWS Augmented AI

Ground Truth é mais voltado para a criação de datasets rotulados que servirão de base para o treinamento desses modelos
AWS Augmented AI (A2I) é mais voltado para a validação das previsões feitas por modelos de aprendizado de máquina

Sage Maker - Governance

Modelo de cards
Dashbords de Modelos

Repositorio centralizado

Informacoes e insights para todos os modelos

SageMaker Gerenciamento de Role

Defina roles para papeis

SageMaker Automatic Model Tunning (AMT)

Tune Hyperparameters

SageMaker Pipelines

Workflow que automatiza o processo de construcao, treinametno e deploy do modelo
CI/CD para ML Steps:

Processamento para o dados

Trainamento do Modelo

Tuning para hyperparametrizacao de otimizacao

AutoML - Treinamento automatico do modelo

Model - para criar ou registrar um Sage Maker model

Clarify Check - perfomance ou rascunho contra baselines (preconceito nos dados, modelo dos dados)

QualityCheck - performance do rascunho contra baselines( qualidade dos dados, qualidade do modelo)

Core e responsabilidade de AI Determinismo nao 'e uma capacidade do GenAI AI nāo é responsavel por escabilidade Responsabilidade de AI Mitigando ponteciais riscos e saidas negativas que pode emanar de um AI System Fairness Explainability Privacy and security Transparency Veracity and robustness Governance Safety Controllability Entendimento de preconceitos utilizar o Explicabilidade Com AWS AI Service Cards voce pode encontrar informacoes sobre praticas de AI Um modelo prove transparencias dentro de um sistema humana paode explicar a saida do modelo e considerado de interpretacao facil TradeOff de Interpretacao
Mais facil interpretacao mais pobre de performance Partial Dependecia Plots (PDP) Mostra como um unica feature pode influenciar a predicao de saida enquanto outras features constantes Human Center Desging (HCD) Abordagem para desenho de sistemas de AI para humanos Desenhado para amplificar a tomada de decisao Uso Indevido de Prompt Hijacking e injecao de Prompt Envenenamento Exposicao Vazamento de dados Sensiveis Vazamento de Prompt JailBreaking

Sage Maker Deploy

Deploy with one click, automatic scaling, no servers to manage (as opposed to self-hosted)
Managed solution: reduced overhead
Real-time
One prediction at a time
Serverless
Idle period between traffic spikes
Can tolerate more latency (cold starts)

Governança

Linhagem do Dado

Source Citation

Attributing and acknowledging the sources of the data

Datasets, databases, other sources

Relevant licenses, terms of use, or permissions

Documenting Data Origins

Details of the collection process

Methods used to clean and curate the data

Pre-processing and transformation to the data

Cataloging – organization and documentation of datasets

Helpful for transparency, traceability and accountability

Model Evaluation – Regressions Metrics

MAE = Mean Absolute Error between predicted and actual values
MAPE = Mean Absolute Percentage Error
RMSE = Root mean squared error (RMSE)
R² (R Squared): explains variance in your model R² close to 1 means predictions are good

Monitoring AI systems

Performance Metrics

Model Accuracy – ratio of positive predictions

Precision – ratio of true positive predictions (correct vs. incorrect positive prediction)

Recall – ratio of true positive predictions compare to actual positive

F1-score – average of precision and recall (good balanced measure)

Latency – time taken by the model to make a prediction

Infrastructure monitoring (catch bottlenecks and failures)

Compute resources (CPU and GPU usage)

Network performance

Storage

System Logs

Bias and Fairness, Compliance and Responsible AI

Melhores praticas de Seguranca

Avaliando a qualidade do dado

Acuracia do dado
Tempo de armazenamento do dado
Consistencia do dado
Monitoramento do Dado

Privacidade do Dado

Encryptar o dado
Obfuscando o dado
Tokenizacao para proteger o dado durante o precesamento e uso

Controle de Acesso ao dado

Compreensao a governanca do dado com politicas claras
Roles baseadas em controle de acessos
Single-sign on, multifactor authentication
Monitoracao e logs dos acessos e atividades

Integridade dos dados

Dados completo e consistentes sem erros
Backup dos dados e estrategia de recuperacao
Auditacao dos dados
Monitoramente e testes de intregridades dos dados e controle de validacao

Tipos de Modelo

Diffusion Models

IA generativa para imagem de alta qualidade a partir de um texto.

Aprendizagem de Modelo

Continued Pre Training

Provem de dados (unlabeled) nao tagueados para continuar um treino
Deixa o modelo mais esperto em um especifico dominio
Ideal para industrias com a suas proprias terminologias

Regression Metrics

MAE - Mean Absolute Error (Entre Valores previstos e Reais)
MAPE - Mean Absolute Percentage Error
RMSE - Root Mean Square Error
R2 - Explica a variancia do Modelo R2 perto 1 mean predictions are good

LLM x Foundation Models

Foundation Models provide a broad base with generalized capabilities that can be applied to various tasks such as natural language processing (NLP), question answering and image classification. The size and general-purpose nature of FMs make them different from traditional ML models, which typically perform specific tasks, like analyzing text for sentiment, classifying images, and forecasting trends. Generally, an FM uses learned patterns and relationships to predict the next item in a sequence. For example, with image generation, the model analyzes the image and creates a sharper, more clearly defined version of the image. Similarly, with text, the model predicts the next word in a string of text based on the previous words and their context. It then selects the next word using probability distribution techniques. In contrast, Large Language Models are specifically designed for tasks involving the understanding and generation of human language, making them more specialized. LLMs specifically focus on language-based tasks such as summarization, text generation, classification, open-ended conversation, and information extraction.

Tipos de Modelo

Característica	Modelo Determinístico	Modelo Probabilístico
Saída	Sempre a mesma para a mesma entrada	Pode variar com base em distribuições
Incerteza	Não considera incerteza	Lida com incerteza e ruído
Exemplo	Regressão linear fixa 𝑦=3𝑥+2	Classificação com probabilidades (70% gato, 30% cachorro)
Aplicações	Cálculos físicos, regras fixas	IA, reconhecimento de padrões, estatística

📌 Quando usar cada um?

Modelos determinísticos → Quando os processos são bem definidos e previsíveis.
Modelos probabilísticos → Quando há incerteza e precisamos considerar variações nos dados. 🚀 Conclusão: Modelos probabilísticos são essenciais para aprendizado de máquina, pois ajudam a lidar com incertezas do mundo real, enquanto os determinísticos são úteis quando as regras são fixas e previsíveis.

Model FIT

BIAs

Bias = Diferença ou erro entre o valor preditivo e o atual. Ocorre devido a escolha errada no processo de ML;

High Bias = O modelo não corresponde de perto aos dados de treinamento.

• Exemplo: função de regressão linear em um conjunto de dados não linear;

• Considerado como subajuste.

Variance

Variance é o quanto a performace de um modelo muda se treinado em um dataset diferente que tem uma distribuição similar;

High Variace é o quanto o modelo é muito sensitivo para mudanças no dado de treinamento. Esse é o caso de Overfiting.

Reducingt the Variance :

• Seleção de recursos (menos recursos mais importantes);

• Dividir em conjuntos de dados de treinamento e teste várias vezes.

Underfitting

Modelo performa mal no dado de treinamento e em dados novos nunca vistos antes. Possui High BIAs

Como evitar

Escolher um modelo mais adequado ao cenário desejado

Overfitting

Performa bem no dado de treinamento, mas mal em dados novos e nunca vistos antes. High Variance

Como evitar

Ter maior quantidade e variados datasets de treinamento

Etapas de um FM

Resumo das diferenças:

Etapa	Função	Ajuste de Parâmetros?	Uso
Treinamento	Ensinar o modelo	✅ Sim	Maior parte dos dados
Validação	Ajustar hiperparâmetros	✅ Sim	Pequena parte dos dados
Teste	Avaliação final	❌ Não	Apenas para medir a performance

AWS AI Service Cards

Form of responsible AI documentation

Help understand the service and its features
Find intended use cases and limitations
Responsible AI design choices
Deployment and performance optimization best practices

Security Scoping Matrix

O AI Security Scoping Matrix é uma estrutura desenvolvida pelo MITRE para ajudar a definir os requisitos de segurança em sistemas de inteligência artificial (IA). Ele auxilia organizações a identificar riscos, vulnerabilidades e ameaças específicas que podem afetar modelos de Machine Learning (ML) e IA ao longo do ciclo de vida.

🎯 Como usar essa matriz?

1️⃣ Identifique os riscos mais relevantes para sua aplicação de IA.

2️⃣ Defina controles de mitigação para cada risco.

3️⃣ Implemente monitoramento contínuo para detectar novas ameaças.

4️⃣ Eduque sua equipe sobre boas práticas de segurança em IA.

🚀 Essa matriz ajuda a garantir que sua solução de IA seja segura desde a concepção até a implantação! Quer um exemplo mais detalhado para um caso específico?

Fine-Tuning x Continued Pre-Training

Critério	Fine-Tuning (Ajuste Fino)	Continued Pre-Training (Pré-treinamento Contínuo)
Objetivo	Adaptar um modelo para uma tarefa específica.	Expandir o conhecimento do modelo para um novo domínio.
Uso de dados	Pequeno volume de dados especializados.	Grande volume de dados no novo domínio.
Treinamento	Camadas superiores ou selecionadas.	Modelo inteiro.
Exemplo	Ajustar um modelo de IA para atendimento ao cliente.	Ensinar um modelo geral sobre medicina.

✅ Precisa que o modelo execute uma tarefa específica? → Fine-Tuning

✅ Quer adaptar o modelo para um novo domínio/língua? → Continued Pretraining

Shapley vs PDP

No contexto de Inteligência Artificial, tanto Shapley quanto PDP (Partial Dependence Plot) são métodos usados para explicar modelos de machine learning, mas eles têm abordagens e objetivos diferentes.

Shapley (Shapley Values)

Os Shapley values são uma técnica de explicação baseada em teoria dos jogos que visa atribuir uma contribuição justa de cada característica (ou variável) na previsão de um modelo. A ideia é calcular a média da contribuição marginal de cada variável em todas as possíveis ordens de entrada, considerando todas as combinações possíveis de características no modelo.

Objetivo: A principal ideia do Shapley é atribuir um valor justo e individualizado para cada variável no contexto de uma previsão, considerando como a variável impacta o modelo quando ela está presente ou ausente, e levando em consideração as interações com outras variáveis.

Vantagens: Fornece uma explicação local (para uma previsão específica) e é considerada uma das abordagens mais justas e teóricas para explicações, pois leva em conta todas as interações entre as variáveis de maneira equilibrada.

Desvantagens: O cálculo de Shapley pode ser computacionalmente caro e exigir uma grande quantidade de tempo, especialmente para modelos complexos com muitas variáveis, devido à necessidade de explorar todas as combinações possíveis.

PDP (Partial Dependence Plot)

O Partial Dependence Plot (PDP) é uma técnica para visualizar o efeito de uma ou mais variáveis independentes (ou características) sobre a previsão do modelo, mantendo as outras variáveis constantes. Essencialmente, o PDP mostra como a previsão do modelo muda à medida que uma variável específica é alterada, enquanto todas as outras variáveis são "fixadas" em um valor médio.

Objetivo: O PDP tem como objetivo visualizar o efeito global de uma variável (ou de um conjunto de variáveis) no modelo, fornecendo uma explicação que pode ser mais intuitiva para a compreensão de tendências gerais. Ele é usado para entender como uma variável influencia a previsão média do modelo.

Vantagens: O PDP é fácil de entender e computacionalmente mais eficiente que os Shapley values, fornecendo uma visão global do impacto das variáveis.

Desvantagens: O PDP não leva em conta interações complexas entre variáveis. Em modelos com fortes interações entre variáveis, o PDP pode ser enganoso, já que ele assume que as outras variáveis permanecem constantes.

Resumo das Diferenças

Shapley: Foca em explicações locais e individuais, atribuindo uma contribuição justa de cada variável para uma previsão específica. Considera interações entre as variáveis e é baseado na teoria dos jogos. No entanto, pode ser computacionalmente caro.

PDP: Foca em explicações globais, mostrando como a previsão média do modelo muda à medida que uma variável é modificada, enquanto as outras são mantidas constantes. É intuitivo e computacionalmente mais eficiente, mas não leva em conta interações complexas entre variáveis.

Ambos os métodos têm seu lugar dependendo do tipo de explicação que você busca: o Shapley é mais adequado para explicações locais e precisas, enquanto o PDP é útil para uma visão geral das tendências de uma variável no modelo.

Tipos de Aprendizado

Supervisioned Learning

Aprendizado Supervisionado - Pode prever a saída para novos dados de entrada não vistos, dados rotulados de pré-visualizações.

Supervisioned Learging Classification

Usado para prever um valor numérico com base em dados de entrada
A variável de saída é contínua, o que significa que pode assumir qualquer valor dentro de um intervalo

Supervised Learning Classification

Usado para prever o rótulo categórico de dados de entrada. - A variável de saída é discreta, o que significa que ela se enquadra em uma categoria ou classe específica

Multi-Class Classification: Cada amostra pertence a uma única classe entre várias possíveis. Exemplo: classificar imagens de animais onde cada imagem pode ser "cachorro", "gato" ou "pássaro", mas nunca mais de um ao mesmo tempo.
Multi-Label Classification: Cada amostra pode pertencer a múltiplas classes simultaneamente. Exemplo: classificar gêneros musicais de uma música, onde uma mesma música pode ser "rock", "pop" e "alternativo" ao mesmo tempo.

Unsupervisioned Learning

O objetivo é descobrir padrões, estruturas ou relacionamentos inerentes dentro dos dados de entrada
A máquina deve descobrir e criar os grupos por conta própria, mas os humanos ainda atribuem rótulos
Técnicas comuns incluem agrupamento, aprendizado de regras de associação e detecção de anomalias

Self-Supervisioned Learging

Use uma pequena quantidade de dados rotulados e uma grande quantidade de dados não rotulados para treinar sistemas
O algoritmo parcialmente treinado então rotula os dados não rotulados
Isso é chamado de pseudo-rotulagem

RL - Reinforcement Learning

Um tipo de aprendizado de máquina no qual um agente aprende a tomar decisões realizando ações em um ambiente para maximizar recompensas cumulativas.
Conceitos-chave
Agente – o aprendiz ou tomador de decisão
Ambiente – o sistema externo com o qual o agente interage
Ação – as escolhas feitas pelo agente
Recompensa – o feedback do ambiente com base nas ações do agente
Estado – o estado atual do ambiente
Política – a estratégia que o agente usa para determinar ações com base no estado

RLHF - Reinforcement Learning from Human Feedback

Use o feedback humano para ajudar os modelos de ML a aprenderem de forma mais eficiente
No Aprendizado por Reforço, há uma função de recompensa

DeepRacer

O AWS DeepRacer é um veiculo com WI-FI habilitado, um veiculo fisico que pode dirigir sozinho em uma pista fisica usando modelo Reinforcement Leraning.

Você pode controlar o veiculo manualmente ou efetuar um deploy de um modelo para o veiculo para direcao autonoma.

A autonomia roda um modelo de inferencia no modelo computacional do veiculo. Inferencia usa a imagens que sao capturadas da camera do veiculo em sua dianteira.

Uma conexão WI-FI permite que o veiculo faça o download do software. A conexão também permite que o usuario acessa o console do dispositivo para operar o veiculo usando um computador ou um celular.

Data Lineage

Fonte de Citacao

Atribuindo e conhecendo fonte de dados
Datasets, Databases e outras fontes
Licensas Relevantes, termos de uso ou permissoes

Documentacao do Dado de Origem

Detalhes de colecao do processo
Metodo usado para limpeza e acuracia do dado
Pre-processamento e transformacao do dado

Catalogos

Organizacao e documentacao de datasets
Ajuda a Transparencia, rastreabilidade e responsabilidade

Dados Tagueados

Labeled

Usado tags sao atribuidos por humanos em seus dados.
Usado em:
    Supervised onde o modelo aprende de acordo com as tags atribuidada

Unlabeled Tag

Usado em que nao possuem tags, modelo nao tem informacao explicita sobre a saida.
Usado em:
    Unsupervised Learning onde o modelo tenta encontrar padrões nos dados, como agrupamento de clientes (clustering) ou redução de dimensionalidade.
    Semi - supervised onde há uma pequena parte dos dados rotulados e o modelo tenta inferir os rótulos para o restante.

Resumo Rápido

Tipo de Aprendizado	Precisa de label?	O que faz?
Supervised	✅ Sim	Aprende padrões a partir de dados rotulados
Unsupervised	❌ Não	Encontra padrões ocultos e grupos nos dados
Self-Supervised	⚠️ Não (gera seus próprios rótulos)	Aprende representações úteis para outras tarefas

👉 Self-Supervised Learning é como um meio-termo entre supervisionado e não supervisionado: ele usa grandes quantidades de dados não rotulados, mas cria seus próprios rótulos internamente. 🚀

Feature Engineering

O processo de usar domínio de conhecimento para selecionar e transformar dado bruto em features significativas Ajuda a melhorar a performace do modelo de ML Particularmente significativo para a aprendizagem supervisionada.

Técnicas :

Feature Extraction

Extrai informações úteis do dado bruto

Feature Seleção

Seleciona um subconjunto relevante de features, como escolher preditor importante em um modelo de regreção

Feature de transformação

Tranformar dado para melhorar a performace do modelo, como normalizar dado numérico etc.

Mechanical Turk

Mercado de crowdsoruce para executar tarefas simples Força de trabalho virutal distribuída Exemplo :

Você tem um conjunto de 10mil imagens e quer rotular essas imagens...
Você distribui a tarefa no Mechanical Turk e humanos marcarão essas imagens
Você define a recompensa por imagen (por exemplo, US$ 0,10 por imagem)

Caso de uso : Classificação de imagens, coletad de dados, processamento de negócio.

=======================

Precisa melhorar

Dados Estruturados https://aws.amazon.com/compare/the-difference-between-structured-data-and-unstructured-data/