AI Session - ribeiry/AWS-Professional-Study GitHub Wiki
Tokens
são as unidades básicas de texto que os modelos de IA processam. Eles podem ser palavras inteiras, partes de palavras ou até caracteres, dependendo do contexto.
Usado para:
- Cálculo de custo: Muitos serviços de IA cobram com base no número de tokens.
- Limite de entrada/saída: Os modelos têm limites no número de tokens que podem processar por vez.
Context Window
Uma janela de contexto em modelos de linguagem de grande escala (LLMs) refere-se ao número máximo de tokens que um modelo pode processar em uma única entrada. Tokens são unidades de texto, como palavras ou subpalavras, que são codificadas e interpretadas pelo modelo durante o treinamento e a inferênciax
Conceito | Definição |
---|---|
Token | Unidade básica do texto (palavra, subword ou caractere). |
Embedding | Representação numérica (vetor) de um token para processamento matemático. |
Exemplo de embedding "gato" -> [0.1, 0.8, -0.5, 0.3] "cachorro" -> [0.2, 0.7, -0.4, 0.4] "computador" -> [0.9, -0.2, 0.3, 0.1]
BedRock
Voce so pode customizar modelos no modo provisioned throughput mode Não é possível RHLF no Amazon Bedrock
BedRock Agents
Criar agentes que podem chamar APIs e executar ações.
Pode chamar API`s ou Base de Dados
O que é Prompting Prompting é o processo de criar instruções ou perguntas (chamadas de prompts) para que uma inteligência artificial, como pergunta ou comandos
Configuracoes Possiveis
- Mais temperatura no prompt mais criativo
- Top P % de palavras baseada em probabilidades
- Top k quantas palavras sera considerada para escolher a proxima palavra
Tecnicas de prompt
Zero-Shot Prompting
- Técnica de interação com modelos de IA onde você pede que o modelo realize uma tarefa sem fornecer exemplos ou instruções específicas.
- A IA deve entender e resolver a tarefa apenas com base no contexto fornecido pelo prompt.
- Útil para tarefas onde o modelo já possui conhecimento implícito.
Few-Shot Prompting
- Técnica de interação com modelos de IA onde você fornece alguns exemplos (shots) de como realizar uma tarefa dentro do próprio prompt.
- Esses exemplos ajudam a IA a entender melhor o que você espera como resposta.
- Melhora a precisão e a relevância das respostas, especialmente para tarefas complexas.
Chain of Thought Prompting
- Técnica de prompting que incentiva o modelo de IA a explicar seu raciocínio passo a passo antes de fornecer uma resposta final.
- Ajuda a IA a lidar melhor com tarefas complexas que exigem várias etapas de raciocínio lógico ou matemático.
- Melhora a capacidade do modelo de resolver problemas que exigem raciocínio sequencial.
Retrieval-Augmented Generation (RAG)
- Técnica que combina busca de informações externas com a geração de texto por modelos de IA.
- Melhora a precisão e relevância das respostas, especialmente para tarefas que exigem conhecimento atualizado ou especializado.
- Permite que o modelo acesse informações externas para complementar seu conhecimento interno.
Amazon Q
- Amazon Q é construido BedRock, voce pode escolher o FM
- Amazon Q é construido com o conhecimento dos seus dados da sua companhia
- Data conectors (Totalmente gerenciado pelo RAG)
- +40 fontes de dados enterprise (Sharepoint, S3, RDS, Aurora)
- Plugins para terceiros
- Jira, SalesForces,ZenDesk ,ServiceNow
- Custom Plugins via API
- Login via IAM Center
- Admin Controls == GuardRails BedRock
Tipos de Amazon Q
Amazon Q Business - Assistent AI para a sua empresa
Based on your company knowledge
Responde questões, prove sumários, gera conteúdo, automatiza tarefa, performa ações de rotina
Construído no Bedrock mas vc não pode escolher o FM.
Amazon Q Business + IAM Identity Center :
Usuários podem ser autenticados através do IAM Identity Center
Usuários podem receber respostas de documentos apenas que eles tem acesso
IAM Identity Center pode ser configurado com um IDP externo.
Amazon Q Business - Admim Controls
Constrola e customiza respostas para sua organização
Adm Controls == Guardrails
Bloqueia palavras ou topicos específicos
Responde apenas com informações internas
Controle global e controle de nível de tópicos
Amazon Q App
Create Gen AI-Powred apps without coding by using natural language
Leverages your companys internal data
Possibilita plugins
Amazon Q Developer
Responde sobre documentação AWS
Responde questões sobre recursos na sua conta AWS
Suggest CLI
Ajuda a analisar, resolver erros, troubleshooting.
Extenção para IDE
Amazon Q com outros produtos
QuickSight
EC2
ChatBot
Métricas de Avaliacao de FM(Foundation Model)
- GPT (Generative Pre-Trained Transformer) - gera texto humano ou codigo de computador de acordo com o input
- BERT (Bidirecional Encoder Representations from Transformers) - Para comparar a contextualizacao incorporacoes de ambos textos e calcula a semelhanca de cosseno entre eles
- Similiar e semantico gerado por texto
- Usa pré treino de modelos BERT(Bidirecional Encoder Representations from Transformers)
- Capaz de capturar mais nunaces entre textos
- RNN (Recurent Neural Network) - sequencial de dados significativos como time-serials ou textos usuais em reconhecimento de fala, ou predicao de tempo
- ResNet (Residual Network) - Deep Convolutional Neural Network (CNN) usado para tarefas de reconhecimento de imagens, detecao de objetos ou reconhecimento facial (CNN = Imagens e videos para Canal de TV)
- SM (Support Vector Machine) - ML algoritmo para classificacao e regressao.
- WaveNet - Modelo para gerar um raw audio waveform, usado para falas Sinteticas (Wave = ondas, o som anda via ondas sonoras)
- GAN(Generative Adversarial NetWork) - modelo usado para gerar dados sinteticos como imagens, videos ou sons que assemelham-se a treinamento de dados. Util para argumentacao de dados .
- BLEU: Bilingual Evaluation Understudy
- Avaliar a qualidade de geracao de textos, especiais para traducoes
- Considera ambas precisao e penaliza muito a breviadade
- Avalia a combinacao de n-grams(1,2,3,4)
Prescritive Model | Descritivo Model | Preditive Model
Prescritive Model
Prescritive AI model prove recomendacoes que acoes ira tomar para determinada situacao, frequentemente usando a otimizacao ou fazendo a decisao de algoritimos.
Comprehend
- Usa tokens para cobrar
- Organiza DOcumentos em categorias
- Suporta diferentes tipos de documentos
- Analise sync e async de documentos
- Named Entity Recognization (NER)
- Extrai e predefine o proposito do documento
Comprehend Medical
Amazon Comprehend Medico detecta e retorna informacoes uteis em dados nao estruturados em texto:
- Anotacoes Fisicas
- Resultados de tests
- Notas de Case
- Usa NLP para detectar e proteger PHI(Protected Health Information)
- Armazena os dados em um S3
- Analisa dados em real-time com o Kinesis Data FireHouse
- Usa Amazon Transcribe para transcrever narrativas dentro do texto que pode ser analizado pelo Comprehend Medical
AWS Artifact – Third-Party Reports
• On-demand access to security compliance reports of Independent Software Vendors (ISVs) • ISV compliance reports will only be accessible to the AWS customers who have been granted access to AWS Marketplace Vendor Insights for a specific ISV • Ability to receive notifications when newreports are available
AWS Augmented AI (A2I)
-
Objetivo Principal: O A2I é voltado para a validação humana de modelos de aprendizado de máquina. Ele é projetado para adicionar a intervenção humana em processos de ML para melhorar a precisão do modelo
-
Habilitar voce revisar predicoes do Amazon Rekognition e Amazon Textract. Voce pode tambem criar seu proprio workflow de revisao para modelos de ML usando SageMaker ou outras ferramentas.
Hardwares
Instancias com GPU otimizadas familia P.... e G...
AWS Trainium
- Chip de ML desenvolvido para executar Deep Learning em mais de 100 bilhões de modelos de parâmetros
- A instância Trn1 possui, por exemplo, 16 Aceleradores Trainium
- Redução de 50% nos custos de treinamento de um modelo
AWS Inferentia
- Chip de ML desenvolvido para fornecer inferência com alto desempenho e baixo custo
- Instâncias Inf1 e Inf2 são alimentadas pela AWS Inferentia
- Taxa de transferência de até 4x e redução de custos de 70%
Sage Maker AI
- Cria Dominio
- Add Usuario
- Add Apps como docker, canvas e IR
Sage Maker Data Wrangler
- Suporta SQL
- Ferramenta de qualidade dos Dados
- Prepara imagem e dados tabular para o Machine Learning
- Preparaçāo do dado, Transformacao e Features Engenieers
- Unida interface para:
- Selecao dos dados
- Limpeza de dados
- Exploracao dos dados
- Visualizacao dos dados
- Processamento dos dados
- Transforma dados
- Exemplo: data de nascimento em idade
Sage Maker Clarify
- Esta insights sobre o modelos
- De acordo com fator humanos
- Usando métricas para construir algoritmos
- Parte do SageMaker
- Ajuda a entender o modelo
- Detector de preconceitos
Sage Maker Ground Truth
RLHF - Reinforcement Learning from Human Feedback (Reforco de aprendizado por feedback humano) (trabalha com labels)
- Revisão, personalização e avaliação do modelo
- Alinhamento do modelo às preferências humanas
- Aprendizado por reforço onde o feedback humano é incluído na função de "recompensa"
Feedback Humano para ML
- Criação ou avaliação do seus modelos
- Geração ou anotação de dados (criação de rótulos)
- Revisores : Trabalhadores do Amazon Mechanical Turk, seus funcionários ou fornecedores terceirizados
Sage Maker Ground Truth Plus
- Usa forca de trabalho para colocar labels nos dados
Ground Truth vs AWS Augmented AI
- Ground Truth é mais voltado para a criação de datasets rotulados que servirão de base para o treinamento desses modelos
- AWS Augmented AI (A2I) é mais voltado para a validação das previsões feitas por modelos de aprendizado de máquina
Sage Maker - Governance
- Modelo de cards
- Dashbords de Modelos
- Repositorio centralizado
- Informacoes e insights para todos os modelos
SageMaker Gerenciamento de Role
- Defina roles para papeis
SageMaker Automatic Model Tunning (AMT)
- Tune Hyperparameters
SageMaker Pipelines
- Workflow que automatiza o processo de construcao, treinametno e deploy do modelo
- CI/CD para ML Steps:
- Processamento para o dados
- Trainamento do Modelo
- Tuning para hyperparametrizacao de otimizacao
- AutoML - Treinamento automatico do modelo
- Model - para criar ou registrar um Sage Maker model
- Clarify Check - perfomance ou rascunho contra baselines (preconceito nos dados, modelo dos dados)
- QualityCheck - performance do rascunho contra baselines( qualidade dos dados, qualidade do modelo)
Core e responsabilidade de AI
Determinismo nao 'e uma capacidade do GenAI
AI nāo é responsavel por escabilidade
Responsabilidade de AI
Mitigando ponteciais riscos e saidas negativas que pode emanar de um AI System
Fairness
Explainability
Privacy and security
Transparency
Veracity and robustness
Governance
Safety
Controllability
Entendimento de preconceitos utilizar o Explicabilidade
Com AWS AI Service Cards voce pode encontrar informacoes sobre praticas de AI
Um modelo prove transparencias dentro de um sistema humana paode explicar a saida do modelo e considerado de interpretacao facil
TradeOff de Interpretacao
Mais facil interpretacao mais pobre de performance
Partial Dependecia Plots (PDP)
Mostra como um unica feature pode influenciar a predicao de saida enquanto outras features constantes
Human Center Desging (HCD)
Abordagem para desenho de sistemas de AI para humanos
Desenhado para amplificar a tomada de decisao
Uso Indevido de Prompt
Hijacking e injecao de Prompt
Envenenamento
Exposicao
Vazamento de dados Sensiveis
Vazamento de Prompt
JailBreaking
Sage Maker Deploy
- Deploy with one click, automatic scaling, no servers to manage (as opposed to self-hosted)
- Managed solution: reduced overhead
- Real-time
- One prediction at a time
- Serverless
- Idle period between traffic spikes
- Can tolerate more latency (cold starts)
Governança
Linhagem do Dado
- Source Citation
- Attributing and acknowledging the sources of the data
- Datasets, databases, other sources
- Relevant licenses, terms of use, or permissions
- Documenting Data Origins
- Details of the collection process
- Methods used to clean and curate the data
- Pre-processing and transformation to the data
- Cataloging – organization and documentation of datasets
- Helpful for transparency, traceability and accountability
Model Evaluation – Regressions Metrics
- MAE = Mean Absolute Error between predicted and actual values
- MAPE = Mean Absolute Percentage Error
- RMSE = Root mean squared error (RMSE)
- R² (R Squared): explains variance in your model R² close to 1 means predictions are good
Monitoring AI systems
- Performance Metrics
- Model Accuracy – ratio of positive predictions
- Precision – ratio of true positive predictions (correct vs. incorrect positive prediction)
- Recall – ratio of true positive predictions compare to actual positive
- F1-score – average of precision and recall (good balanced measure)
- Latency – time taken by the model to make a prediction
- Infrastructure monitoring (catch bottlenecks and failures)
- Compute resources (CPU and GPU usage)
- Network performance
- Storage
- System Logs
- Bias and Fairness, Compliance and Responsible AI
Melhores praticas de Seguranca
Avaliando a qualidade do dado
- Acuracia do dado
- Tempo de armazenamento do dado
- Consistencia do dado
- Monitoramento do Dado
Privacidade do Dado
- Encryptar o dado
- Obfuscando o dado
- Tokenizacao para proteger o dado durante o precesamento e uso
Controle de Acesso ao dado
- Compreensao a governanca do dado com politicas claras
- Roles baseadas em controle de acessos
- Single-sign on, multifactor authentication
- Monitoracao e logs dos acessos e atividades
Integridade dos dados
- Dados completo e consistentes sem erros
- Backup dos dados e estrategia de recuperacao
- Auditacao dos dados
- Monitoramente e testes de intregridades dos dados e controle de validacao
Tipos de Modelo
Diffusion Models
- IA generativa para imagem de alta qualidade a partir de um texto.
Aprendizagem de Modelo
Continued Pre Training
- Provem de dados (unlabeled) nao tagueados para continuar um treino
- Deixa o modelo mais esperto em um especifico dominio
- Ideal para industrias com a suas proprias terminologias
Regression Metrics
- MAE - Mean Absolute Error (Entre Valores previstos e Reais)
- MAPE - Mean Absolute Percentage Error
- RMSE - Root Mean Square Error
- R2 - Explica a variancia do Modelo R2 perto 1 mean predictions are good
LLM x Foundation Models
Foundation Models provide a broad base with generalized capabilities that can be applied to various tasks such as natural language processing (NLP), question answering and image classification. The size and general-purpose nature of FMs make them different from traditional ML models, which typically perform specific tasks, like analyzing text for sentiment, classifying images, and forecasting trends. Generally, an FM uses learned patterns and relationships to predict the next item in a sequence. For example, with image generation, the model analyzes the image and creates a sharper, more clearly defined version of the image. Similarly, with text, the model predicts the next word in a string of text based on the previous words and their context. It then selects the next word using probability distribution techniques. In contrast, Large Language Models are specifically designed for tasks involving the understanding and generation of human language, making them more specialized. LLMs specifically focus on language-based tasks such as summarization, text generation, classification, open-ended conversation, and information extraction.
Tipos de Modelo
Característica | Modelo Determinístico | Modelo Probabilístico |
---|---|---|
Saída | Sempre a mesma para a mesma entrada | Pode variar com base em distribuições |
Incerteza | Não considera incerteza | Lida com incerteza e ruído |
Exemplo | Regressão linear fixa 𝑦=3𝑥+2 | Classificação com probabilidades (70% gato, 30% cachorro) |
Aplicações | Cálculos físicos, regras fixas | IA, reconhecimento de padrões, estatística |
📌 Quando usar cada um?
- Modelos determinísticos → Quando os processos são bem definidos e previsíveis.
- Modelos probabilísticos → Quando há incerteza e precisamos considerar variações nos dados. 🚀 Conclusão: Modelos probabilísticos são essenciais para aprendizado de máquina, pois ajudam a lidar com incertezas do mundo real, enquanto os determinísticos são úteis quando as regras são fixas e previsíveis.
Model FIT
BIAs
Bias = Diferença ou erro entre o valor preditivo e o atual. Ocorre devido a escolha errada no processo de ML;
High Bias = O modelo não corresponde de perto aos dados de treinamento.
• Exemplo: função de regressão linear em um conjunto de dados não linear;
• Considerado como subajuste.
Variance
Variance é o quanto a performace de um modelo muda se treinado em um dataset diferente que tem uma distribuição similar;
High Variace é o quanto o modelo é muito sensitivo para mudanças no dado de treinamento. Esse é o caso de Overfiting.
Reducingt the Variance :
• Seleção de recursos (menos recursos mais importantes);
• Dividir em conjuntos de dados de treinamento e teste várias vezes.
Underfitting
Modelo performa mal no dado de treinamento e em dados novos nunca vistos antes. Possui High BIAs
Como evitar
Escolher um modelo mais adequado ao cenário desejado
Overfitting
Performa bem no dado de treinamento, mas mal em dados novos e nunca vistos antes. High Variance
Como evitar
Ter maior quantidade e variados datasets de treinamento
Etapas de um FM
Resumo das diferenças:
Etapa | Função | Ajuste de Parâmetros? | Uso |
---|---|---|---|
Treinamento | Ensinar o modelo | ✅ Sim | Maior parte dos dados |
Validação | Ajustar hiperparâmetros | ✅ Sim | Pequena parte dos dados |
Teste | Avaliação final | ❌ Não | Apenas para medir a performance |
AWS AI Service Cards
Form of responsible AI documentation
- Help understand the service and its features
- Find intended use cases and limitations
- Responsible AI design choices
- Deployment and performance optimization best practices
Security Scoping Matrix
O AI Security Scoping Matrix é uma estrutura desenvolvida pelo MITRE para ajudar a definir os requisitos de segurança em sistemas de inteligência artificial (IA). Ele auxilia organizações a identificar riscos, vulnerabilidades e ameaças específicas que podem afetar modelos de Machine Learning (ML) e IA ao longo do ciclo de vida.
🎯 Como usar essa matriz?
1️⃣ Identifique os riscos mais relevantes para sua aplicação de IA.
2️⃣ Defina controles de mitigação para cada risco.
3️⃣ Implemente monitoramento contínuo para detectar novas ameaças.
4️⃣ Eduque sua equipe sobre boas práticas de segurança em IA.
🚀 Essa matriz ajuda a garantir que sua solução de IA seja segura desde a concepção até a implantação! Quer um exemplo mais detalhado para um caso específico?
Fine-Tuning x Continued Pre-Training
Critério | Fine-Tuning (Ajuste Fino) | Continued Pre-Training (Pré-treinamento Contínuo) |
---|---|---|
Objetivo | Adaptar um modelo para uma tarefa específica. | Expandir o conhecimento do modelo para um novo domínio. |
Uso de dados | Pequeno volume de dados especializados. | Grande volume de dados no novo domínio. |
Treinamento | Camadas superiores ou selecionadas. | Modelo inteiro. |
Exemplo | Ajustar um modelo de IA para atendimento ao cliente. | Ensinar um modelo geral sobre medicina. |
✅ Precisa que o modelo execute uma tarefa específica? → Fine-Tuning
✅ Quer adaptar o modelo para um novo domínio/língua? → Continued Pretraining
Shapley vs PDP
No contexto de Inteligência Artificial, tanto Shapley quanto PDP (Partial Dependence Plot) são métodos usados para explicar modelos de machine learning, mas eles têm abordagens e objetivos diferentes.
Shapley (Shapley Values)
Os Shapley values são uma técnica de explicação baseada em teoria dos jogos que visa atribuir uma contribuição justa de cada característica (ou variável) na previsão de um modelo. A ideia é calcular a média da contribuição marginal de cada variável em todas as possíveis ordens de entrada, considerando todas as combinações possíveis de características no modelo.
Objetivo: A principal ideia do Shapley é atribuir um valor justo e individualizado para cada variável no contexto de uma previsão, considerando como a variável impacta o modelo quando ela está presente ou ausente, e levando em consideração as interações com outras variáveis.
Vantagens: Fornece uma explicação local (para uma previsão específica) e é considerada uma das abordagens mais justas e teóricas para explicações, pois leva em conta todas as interações entre as variáveis de maneira equilibrada.
Desvantagens: O cálculo de Shapley pode ser computacionalmente caro e exigir uma grande quantidade de tempo, especialmente para modelos complexos com muitas variáveis, devido à necessidade de explorar todas as combinações possíveis.
PDP (Partial Dependence Plot)
O Partial Dependence Plot (PDP) é uma técnica para visualizar o efeito de uma ou mais variáveis independentes (ou características) sobre a previsão do modelo, mantendo as outras variáveis constantes. Essencialmente, o PDP mostra como a previsão do modelo muda à medida que uma variável específica é alterada, enquanto todas as outras variáveis são "fixadas" em um valor médio.
Objetivo: O PDP tem como objetivo visualizar o efeito global de uma variável (ou de um conjunto de variáveis) no modelo, fornecendo uma explicação que pode ser mais intuitiva para a compreensão de tendências gerais. Ele é usado para entender como uma variável influencia a previsão média do modelo.
Vantagens: O PDP é fácil de entender e computacionalmente mais eficiente que os Shapley values, fornecendo uma visão global do impacto das variáveis.
Desvantagens: O PDP não leva em conta interações complexas entre variáveis. Em modelos com fortes interações entre variáveis, o PDP pode ser enganoso, já que ele assume que as outras variáveis permanecem constantes.
Resumo das Diferenças
Shapley: Foca em explicações locais e individuais, atribuindo uma contribuição justa de cada variável para uma previsão específica. Considera interações entre as variáveis e é baseado na teoria dos jogos. No entanto, pode ser computacionalmente caro.
PDP: Foca em explicações globais, mostrando como a previsão média do modelo muda à medida que uma variável é modificada, enquanto as outras são mantidas constantes. É intuitivo e computacionalmente mais eficiente, mas não leva em conta interações complexas entre variáveis.
Ambos os métodos têm seu lugar dependendo do tipo de explicação que você busca: o Shapley é mais adequado para explicações locais e precisas, enquanto o PDP é útil para uma visão geral das tendências de uma variável no modelo.
Tipos de Aprendizado
Supervisioned Learning
- Aprendizado Supervisionado - Pode prever a saída para novos dados de entrada não vistos, dados rotulados de pré-visualizações.
Supervisioned Learging Classification
- Usado para prever um valor numérico com base em dados de entrada
- A variável de saída é contínua, o que significa que pode assumir qualquer valor dentro de um intervalo
Supervised Learning Classification
- Usado para prever o rótulo categórico de dados de entrada. - A variável de saída é discreta, o que significa que ela se enquadra em uma categoria ou classe específica
-
Multi-Class Classification: Cada amostra pertence a uma única classe entre várias possíveis. Exemplo: classificar imagens de animais onde cada imagem pode ser "cachorro", "gato" ou "pássaro", mas nunca mais de um ao mesmo tempo.
-
Multi-Label Classification: Cada amostra pode pertencer a múltiplas classes simultaneamente. Exemplo: classificar gêneros musicais de uma música, onde uma mesma música pode ser "rock", "pop" e "alternativo" ao mesmo tempo.
Unsupervisioned Learning
- O objetivo é descobrir padrões, estruturas ou relacionamentos inerentes dentro dos dados de entrada
- A máquina deve descobrir e criar os grupos por conta própria, mas os humanos ainda atribuem rótulos
- Técnicas comuns incluem agrupamento, aprendizado de regras de associação e detecção de anomalias
Self-Supervisioned Learging
- Use uma pequena quantidade de dados rotulados e uma grande quantidade de dados não rotulados para treinar sistemas
- O algoritmo parcialmente treinado então rotula os dados não rotulados
- Isso é chamado de pseudo-rotulagem
RL - Reinforcement Learning
- Um tipo de aprendizado de máquina no qual um agente aprende a tomar decisões realizando ações em um ambiente para maximizar recompensas cumulativas.
- Conceitos-chave
- Agente – o aprendiz ou tomador de decisão
- Ambiente – o sistema externo com o qual o agente interage
- Ação – as escolhas feitas pelo agente
- Recompensa – o feedback do ambiente com base nas ações do agente
- Estado – o estado atual do ambiente
- Política – a estratégia que o agente usa para determinar ações com base no estado
RLHF - Reinforcement Learning from Human Feedback
- Use o feedback humano para ajudar os modelos de ML a aprenderem de forma mais eficiente
- No Aprendizado por Reforço, há uma função de recompensa
DeepRacer
O AWS DeepRacer é um veiculo com WI-FI habilitado, um veiculo fisico que pode dirigir sozinho em uma pista fisica usando modelo Reinforcement Leraning.
Você pode controlar o veiculo manualmente ou efetuar um deploy de um modelo para o veiculo para direcao autonoma.
A autonomia roda um modelo de inferencia no modelo computacional do veiculo. Inferencia usa a imagens que sao capturadas da camera do veiculo em sua dianteira.
Uma conexão WI-FI permite que o veiculo faça o download do software. A conexão também permite que o usuario acessa o console do dispositivo para operar o veiculo usando um computador ou um celular.
Data Lineage
Fonte de Citacao
- Atribuindo e conhecendo fonte de dados
- Datasets, Databases e outras fontes
- Licensas Relevantes, termos de uso ou permissoes
Documentacao do Dado de Origem
- Detalhes de colecao do processo
- Metodo usado para limpeza e acuracia do dado
- Pre-processamento e transformacao do dado
Catalogos
- Organizacao e documentacao de datasets
- Ajuda a Transparencia, rastreabilidade e responsabilidade
Dados Tagueados
Labeled
Usado tags sao atribuidos por humanos em seus dados.
Usado em:
Supervised onde o modelo aprende de acordo com as tags atribuidada
Unlabeled Tag
Usado em que nao possuem tags, modelo nao tem informacao explicita sobre a saida.
Usado em:
Unsupervised Learning onde o modelo tenta encontrar padrões nos dados, como agrupamento de clientes (clustering) ou redução de dimensionalidade.
Semi - supervised onde há uma pequena parte dos dados rotulados e o modelo tenta inferir os rótulos para o restante.
Resumo Rápido
Tipo de Aprendizado | Precisa de label? | O que faz? |
---|---|---|
Supervised | ✅ Sim | Aprende padrões a partir de dados rotulados |
Unsupervised | ❌ Não | Encontra padrões ocultos e grupos nos dados |
Self-Supervised | ⚠️ Não (gera seus próprios rótulos) | Aprende representações úteis para outras tarefas |
👉 Self-Supervised Learning é como um meio-termo entre supervisionado e não supervisionado: ele usa grandes quantidades de dados não rotulados, mas cria seus próprios rótulos internamente. 🚀
Feature Engineering
O processo de usar domínio de conhecimento para selecionar e transformar dado bruto em features significativas Ajuda a melhorar a performace do modelo de ML Particularmente significativo para a aprendizagem supervisionada.
Técnicas :
Feature Extraction
Extrai informações úteis do dado bruto
Feature Seleção
Seleciona um subconjunto relevante de features, como escolher preditor importante em um modelo de regreção
Feature de transformação
Tranformar dado para melhorar a performace do modelo, como normalizar dado numérico etc.
Mechanical Turk
Mercado de crowdsoruce para executar tarefas simples Força de trabalho virutal distribuída Exemplo :
- Você tem um conjunto de 10mil imagens e quer rotular essas imagens...
- Você distribui a tarefa no Mechanical Turk e humanos marcarão essas imagens
- Você define a recompensa por imagen (por exemplo, US$ 0,10 por imagem)
Caso de uso : Classificação de imagens, coletad de dados, processamento de negócio.
=======================
Precisa melhorar
Dados Estruturados https://aws.amazon.com/compare/the-difference-between-structured-data-and-unstructured-data/