Base de Dados - Marlon-Souza16/Redes-Neurais-e-Proteomica GitHub Wiki

Base de grafos:

Será uitlizado new4j para criação da base de grafos, e weaviate para base de dados vetorial (armazenamento dos exames).


erDiagram
    %% ------------- RELACIONAMENTOS -------------
    CLINICA      ||--o{ MEDICO        : possui
    MEDICO       |{--o{ PACIENTE      : atende
    PACIENTE     ||--o{ EXAME         : realiza
    EXAME        ||--|{ BASE_VETORIAL : "armazenado em"

    %% ------------- ENTIDADES -------------
    CLINICA {
        int       idClinica   PK
        string    nome
        datetime  dataCriacao
    }

    MEDICO {
        int       idMedico    PK
        string    nome
        string    CRM
        datetime  dataCriacao
    }

    PACIENTE {
        int       idPaciente  PK
        string    nome
        string    contato
        date      dataNasc
        datetime  dataCriacao
    }

    EXAME {
        int       idExame     PK
        datetime  dataCriacao
    }

    BASE_VETORIAL {
        int       idPaciente  FK
        int       idExame     FK
        date      dataExame
        blob      laudo
        datetime  dataCriacao
    }

Loading

Base de Dados genéticos (p/ treinamento do modelo):

1. clinvar_brca.csv:

Coluna Origem no VCF O que representa Exemplo interpretado
CHROM Campo fixo (1ᵃ coluna) Cromossomo em que a variante está, na referência GRCh38 (o VCF da ClinVar publica duas versões, 37 e 38; você baixou a de 38). 13 ⇒ cromossomo 13
POS Campo fixo (2ᵃ coluna) Coordenada 1-based, posição inicial do alelo de referência (REF). 32 314 943 ⇒ a base “A” no cromossomo 13, posição 32.314.943
REF Campo fixo (4ᵃ coluna) Alelo de referência no genoma GRCh38. A ⇒ a base naquele local no genoma de referência
ALT Campo fixo (5ᵃ coluna) Alelo(s) alternativo(s) observados. Se houver mais de um, ficam separados por vírgulas. G ⇒ nucleotídeo trocado de A → G (substituição simples)
CLNSIG Tag CLNSIG no bloco INFO Classificação clínica atribuída pela ClinVar. Valores comuns: Pathogenic, Likely_pathogenic, Benign, Likely_benign, Uncertain_significance, etc. Benign ⇒ consenso de que não está associado à doença
GENEINFO Tag GENEINFO no bloco INFO Lista de pares símbolo de gene:GeneID que se sobrepõem à variante. Quando a posição cai em região compartilhada/sobreposta, aparecem vários genes separados por |. BRCA2:675|ZAR1L:646799|LOC106721785:106721785

2. clinvar_BRCA_variant_summary.csv:

Coluna O que é / para que serve Exemplo (Allele ID 24356)
#AlleleID Identificador interno único da variante no ClinVar. 24356
Type Categoria molecular da alteração (single nucleotide variant, Deletion, Indel …). Deletion
Name Designação HGVS “preferida” (transcrito + HGVS + proteína). NM_000059.4(BRCA2):c.7004_7007+2del
GeneID ID numérico do gene no NCBI Gene. 675
GeneSymbol Símbolo oficial do gene. BRCA2
HGNC_ID ID da HGNC (curadoria de genes humanos). HGNC:1101
ClinicalSignificance Classificação textual clínica (Pathogenic, Benign, etc.). Pathogenic
ClinSigSimple Código numérico simplificado (0 = Benign/LB, 1 = Path/LP, 2 = Conflicting, 3 = VUS). 1
LastEvaluated Data da avaliação mais recente. Jun 30 2022
RS# (dbSNP) rs ID correspondente no dbSNP (se houver). 397507890
nsv/esv (dbVar) ID de variante estrutural no dbVar (caso aplicável). -
RCVaccession Lista de registros clínicos (RCV) agregados. `RCV000009902
PhenotypeIDS IDs de ontologias de fenótipo (MONDO, OMIM, HPO …). MONDO:MONDO:0012933,…
PhenotypeList Nomes humanos dos fenótipos associados. Breast-ovarian cancer…
Origin Origem declarada (germline, somatic, inherited, unknown). germline
OriginSimple Origem simplificada (um único valor). germline
Assembly Genoma de referência da coordenada (GRCh37 ou GRCh38). GRCh37
ChromosomeAccession Accession RefSeq da molécula cromossômica. NC_000013.10
Chromosome Número/letra do cromossomo. 13
Start / Stop Coordenadas 1-based do alelo de referência dentro do assembly. 32921029 / 32921034
ReferenceAllele / AlternateAllele Alelos conforme HGVS (podem vir na em indels complexos). na / na
Cytogenetic Banda citogenética. 13q13.1
ReviewStatus Nível de consenso (“reviewed by expert panel”, etc.). criteria provided, multiple submitters, no conflicts
NumberSubmitters Número de laboratórios/submitters que contribuíram. 3
Guidelines Conjunto(s) ACMG/AMP ou outros usados para classificação. ACMG2013,ACMG2016,ACMG2021,ACMG2022
TestedInGTR Y/N – se aparece em testes catalogados no GTR. N
OtherIDs IDs adicionais (ClinGen CAid, OMIM var, BIC, UniProt …). ClinGen:CA325946, OMIM:600185.0001
SubmitterCategories Nº de categorias distintas de submitter (clinical, research…). 3
VariationID ID “legacy” de variação (às vezes igual ao AlleleID). 9317
PositionVCF Posição 1-based conforme o VCF de distribuição ClinVar. 32921028
ReferenceAlleleVCF / AlternateAlleleVCF Alelos como aparecem na linha do VCF público. CTTTCGG / C
SomaticClinicalImpact  … (5 colunas) Informações específicas de impacto somático e oncogenicidade (tipicamente vazias em variantes germinativas). -
SCVsForAggregateGermlineClassification Lista de SCV IDs usados para o consenso germline. `SCV000759183
SCVsForAggregateSomaticClinicalImpact SCVs para impacto somático. -
SCVsForAggregateOncogenicityClassification SCVs para oncogenicidade. -
⚠️ **GitHub.com Fallback** ⚠️