Pipeline descargas ncbi - jovillarrealm/cnsg-scripts GitHub Wiki

Scripts trifecta

Scripts usables por CNSG :3

Summary downloader

El punto de este script es que descargue un tsv que salga de datasets summary.

Debe contener suficientes fields para nombrar los archivos descargados, y para realizar un filtrado preliminar:

Accession, Organism Infraspecific Names Strain,Organism Name,Organism Infraspecific Names Breed, Assembly Stats Total Sequence Length, Assembly Atypical Is Atypical, Assembly Atypical Warnings, Assembly Level, Assembly Stats Contig L50, CheckM completeness, CheckM contamination Assembly Stats Contig N50, Assembly Stats Scaffold N50, Assembly Stats Number of Scaffolds

Tsv tidier

Las primeras 3 columnas van a ser usadas como nombres de archivos en el siguiente script.

El punto es tener un control de esas primeras 3 columnas

Tsv Downloader

A partir de un tsv ya depurado, descarga, y renombra archivos al directorio GENOMIC en donde se especifique. Realiza deduplicación según un prefijo configurable.

Es decir, si tengo redundancia de GCF y GCA, por defecto prefiere los GCF, y si no existe uno, descarga los GCA. Si toca preferir GCA, pues entonces solo se van a descargar GCA.