Epic_1_Sprint_2 Implement default plugin - robbiemu/aclarai GitHub Wiki
Tarefa: Implementar plugin padrão para sistema de conversão de formato plugável
Descrição
Desenvolver um plugin padrão para o sistema de conversão de formato plugável do aclarai, permitindo a importação e conversão de formatos de arquivo não reconhecidos por plugins específicos, garantindo que o sistema possa processar uma ampla variedade de formatos de entrada.
Escopo
Incluído
- Implementação de um plugin de fallback que sempre aceita a entrada
- Desenvolvimento de um agente baseado em LLM para interpretar e formatar conteúdo não estruturado
- Criação de lógica para detectar e extrair conversas de texto não estruturado
- Implementação de formatação para saída em Markdown padrão do aclarai
- Adição de metadados apropriados (título, participantes, contagem de mensagens)
- Assegurar que o plugin se conforme integralmente à interface
Plugin
(métodoscan_accept
econvert
) e que seja configurado para ser descoberto e utilizado pelo orquestrador central de conversão. - Documentação de uso e extensão do plugin
Excluído
- Implementação de plugins específicos para formatos conhecidos (JSON, CSV, etc.)
- Otimização avançada para redução de uso de tokens LLM
- Interface de usuário para configuração do plugin
- Suporte para formatos binários ou criptografados
Critérios de Aceitação
- O plugin sempre retorna
True
decan_accept(...)
- O agente LLM é capaz de extrair conversas de texto não estruturado
- O plugin formata corretamente a saída como Markdown com estrutura
speaker: text
- Metadados apropriados são incluídos: título, participantes, contagem de mensagens
- O plugin adere à interface
Plugin
e pode ser carregado/utilizado com sucesso pela função central de conversão de arquivos (convert_file_to_markdowns
). - O plugin lida graciosamente com falhas, retornando
None
quando não consegue extrair conversas - Documentação clara sobre como usar e estender o plugin
Dependências
- Sistema de plugins base implementado
- Acesso a modelos LLM para processamento de texto
- Definição da estrutura de saída Markdown padrão do aclarai
Entregáveis
- Código-fonte do plugin de fallback
- Implementação do agente LLM para extração de conversas
- Testes unitários e de integração
- Documentação de uso e extensão
- Exemplos de conversão para diferentes tipos de entrada
Estimativa de Esforço
- 3 dias de trabalho
Riscos e Mitigações
- Risco: Qualidade inconsistente na extração de conversas de texto não estruturado
- Mitigação: Implementar verificações de qualidade internas para a saída do LLM (e.g., padrões esperados de
speaker: text
, contagem mínima de mensagens) e garantir logging detalhado para o monitoramento da qualidade da extração.
- Mitigação: Implementar verificações de qualidade internas para a saída do LLM (e.g., padrões esperados de
- Risco: Uso excessivo de tokens LLM
- Mitigação: Implementar estratégias de chunking e limites de tamanho
- Risco: Falhas silenciosas na extração
- Mitigação: Assegurar logging detalhado para todas as etapas de extração e conversão do LLM, permitindo o diagnóstico preciso de falhas internas.
Notas Técnicas
- Utilizar prompts cuidadosamente projetados para guiar o LLM na extração de conversas
- Implementar estratégias de chunking para lidar com arquivos maiores
- Considerar o uso de heurísticas simples antes de recorrer ao LLM para casos óbvios
- Armazenar metadados sobre o uso do plugin de fallback para análise futura
- Implementar cache para evitar reprocessamento de conteúdos similares