Learning ML - danifilho/Evo2_BASF GitHub Wiki
O que significa X.npy, Y.npy e y_genes.npy?
arquivo |
conteúdo |
forma & tipo |
para que serve |
X.npy |
Matriz com todos os vetores de embeddings Evo2 (um por janela de 128 bp). |
(N, 4096) – float32 (N ≈ 1 854 864).Gravado via memmap, ocupa ~30 GB. |
Entrada (features) do modelo de ML. Cada linha representa 128 bp codificados pelo Evo2-7B. |
y.npy |
Vetor de rótulos 0/1 obtidos da primeira abordagem (picos ReMap). |
(N,) – uint8. |
Alvo (label) para treinar/testar o modelo contra evidência experimental de CRE. |
y_gene.npy |
Novo vetor de rótulos 0/1 baseado na segunda abordagem (“a janela 128 bp está dentro de uma janela 150 kb que contém um gene”). |
(N,) – uint8. |
Alternativa de alvo, solicitada pelo seu chefe. Permite comparar desempenho do mesmo X contra rótulos “gene-based”. |
Como eles se inter-relacionam?
┌───────────────┐
│ X.npy │ ← características fixas (embeddings)
└───────────────┘
↑ ↑
│ │
rótulo 1 rótulo 2
(ReMap) (genes)
│ │
┌────┴────┐ ┌────┴───────┐
│ y.npy │ │ y_gene.npy │
└─────────┘ └────────────┘
- X.npy é único (não muda).
- y.npy e y_gene.npy são dois vetores de rótulo diferentes para o mesmo conjunto de entradas — você escolhe qual usar ao treinar.
Por que manter ambos?
- Comparar desempenho do modelo sob dois critérios de verdade:
- CREs suportados por ChIP-seq (alta precisão, cobertura limitada).
- Janelas contendo genes (cobertura alta, precisão menor).
- Permite experimentar fusões de critérios depois (ex.: rotular 1 apenas se satisfaz ambos, ou usar estratégia multi-task).