Base de Dados - Marlon-Souza16/Redes-Neurais-e-Proteomica GitHub Wiki
Será uitlizado new4j para criação da base de grafos, e weaviate para base de dados vetorial (armazenamento dos exames).
erDiagram
%% ------------- RELACIONAMENTOS -------------
CLINICA ||--o{ MEDICO : possui
MEDICO |{--o{ PACIENTE : atende
PACIENTE ||--o{ EXAME : realiza
EXAME ||--|{ BASE_VETORIAL : "armazenado em"
%% ------------- ENTIDADES -------------
CLINICA {
int idClinica PK
string nome
datetime dataCriacao
}
MEDICO {
int idMedico PK
string nome
string CRM
datetime dataCriacao
}
PACIENTE {
int idPaciente PK
string nome
string contato
date dataNasc
datetime dataCriacao
}
EXAME {
int idExame PK
datetime dataCriacao
}
BASE_VETORIAL {
int idPaciente FK
int idExame FK
date dataExame
blob laudo
datetime dataCriacao
}
1. clinvar_brca.csv:
Coluna | Origem no VCF | O que representa | Exemplo interpretado |
---|---|---|---|
CHROM | Campo fixo (1ᵃ coluna) | Cromossomo em que a variante está, na referência GRCh38 (o VCF da ClinVar publica duas versões, 37 e 38; você baixou a de 38). |
13 ⇒ cromossomo 13 |
POS | Campo fixo (2ᵃ coluna) | Coordenada 1-based, posição inicial do alelo de referência (REF). |
32 314 943 ⇒ a base “A” no cromossomo 13, posição 32.314.943 |
REF | Campo fixo (4ᵃ coluna) | Alelo de referência no genoma GRCh38. |
A ⇒ a base naquele local no genoma de referência |
ALT | Campo fixo (5ᵃ coluna) | Alelo(s) alternativo(s) observados. Se houver mais de um, ficam separados por vírgulas. |
G ⇒ nucleotídeo trocado de A → G (substituição simples) |
CLNSIG | Tag CLNSIG no bloco INFO |
Classificação clínica atribuída pela ClinVar. Valores comuns: Pathogenic , Likely_pathogenic , Benign , Likely_benign , Uncertain_significance , etc. |
Benign ⇒ consenso de que não está associado à doença |
GENEINFO | Tag GENEINFO no bloco INFO |
Lista de pares símbolo de gene:GeneID que se sobrepõem à variante. Quando a posição cai em região compartilhada/sobreposta, aparecem vários genes separados por | . |
BRCA2:675|ZAR1L:646799|LOC106721785:106721785 |
2. clinvar_BRCA_variant_summary.csv:
Coluna | O que é / para que serve | Exemplo (Allele ID 24356) |
---|---|---|
#AlleleID | Identificador interno único da variante no ClinVar. | 24356 |
Type | Categoria molecular da alteração (single nucleotide variant , Deletion , Indel …). |
Deletion |
Name | Designação HGVS “preferida” (transcrito + HGVS + proteína). | NM_000059.4(BRCA2):c.7004_7007+2del |
GeneID | ID numérico do gene no NCBI Gene. | 675 |
GeneSymbol | Símbolo oficial do gene. | BRCA2 |
HGNC_ID | ID da HGNC (curadoria de genes humanos). | HGNC:1101 |
ClinicalSignificance | Classificação textual clínica (Pathogenic, Benign, etc.). | Pathogenic |
ClinSigSimple | Código numérico simplificado (0 = Benign/LB, 1 = Path/LP, 2 = Conflicting, 3 = VUS). | 1 |
LastEvaluated | Data da avaliação mais recente. | Jun 30 2022 |
RS# (dbSNP) |
rs ID correspondente no dbSNP (se houver). |
397507890 |
nsv/esv (dbVar) | ID de variante estrutural no dbVar (caso aplicável). | - |
RCVaccession | Lista de registros clínicos (RCV) agregados. | `RCV000009902 |
PhenotypeIDS | IDs de ontologias de fenótipo (MONDO, OMIM, HPO …). | MONDO:MONDO:0012933,… |
PhenotypeList | Nomes humanos dos fenótipos associados. | Breast-ovarian cancer… |
Origin | Origem declarada (germline, somatic, inherited, unknown). | germline |
OriginSimple | Origem simplificada (um único valor). | germline |
Assembly | Genoma de referência da coordenada (GRCh37 ou GRCh38). | GRCh37 |
ChromosomeAccession | Accession RefSeq da molécula cromossômica. | NC_000013.10 |
Chromosome | Número/letra do cromossomo. | 13 |
Start / Stop | Coordenadas 1-based do alelo de referência dentro do assembly. | 32921029 / 32921034 |
ReferenceAllele / AlternateAllele | Alelos conforme HGVS (podem vir na em indels complexos). |
na / na |
Cytogenetic | Banda citogenética. | 13q13.1 |
ReviewStatus | Nível de consenso (“reviewed by expert panel”, etc.). | criteria provided, multiple submitters, no conflicts |
NumberSubmitters | Número de laboratórios/submitters que contribuíram. | 3 |
Guidelines | Conjunto(s) ACMG/AMP ou outros usados para classificação. | ACMG2013,ACMG2016,ACMG2021,ACMG2022 |
TestedInGTR |
Y /N – se aparece em testes catalogados no GTR. |
N |
OtherIDs | IDs adicionais (ClinGen CAid, OMIM var, BIC, UniProt …). | ClinGen:CA325946, OMIM:600185.0001 |
SubmitterCategories | Nº de categorias distintas de submitter (clinical, research…). | 3 |
VariationID | ID “legacy” de variação (às vezes igual ao AlleleID). | 9317 |
PositionVCF | Posição 1-based conforme o VCF de distribuição ClinVar. | 32921028 |
ReferenceAlleleVCF / AlternateAlleleVCF | Alelos como aparecem na linha do VCF público. | CTTTCGG / C |
SomaticClinicalImpact … (5 colunas) | Informações específicas de impacto somático e oncogenicidade (tipicamente vazias em variantes germinativas). | - |
SCVsForAggregateGermlineClassification | Lista de SCV IDs usados para o consenso germline. | `SCV000759183 |
SCVsForAggregateSomaticClinicalImpact | SCVs para impacto somático. | - |
SCVsForAggregateOncogenicityClassification | SCVs para oncogenicidade. | - |