Depositar datos de secuenciación masiva del gen 16S rRNA y las regiones ITS al SRA de NCBI - MariaAlvBla/Dataton-2022 GitHub Wiki


Este instructivo provee una guía paso a paso para depositar datos de secuenciación masiva del gen 16S rRNA y las regiones ITS en el National Center for Biotechnology Information (NCBI).


Table of contents


  1. Cómo registrarse a NCBI
  2. Cómo acceder al Sequence Read Archive (SRA)
  3. Cómo depositar secuencias a SRA a través del Submission Wizard
    1. Aspectos a considerar antes de depositar secuencias
    2. Depositar las secuencias
      1. Paso 1. Submitter
      2. Paso 2. General Information
      3. Paso 3. Project (BioProject) information
      4. Paso 4. BioSample type
      5. Paso 5. BioSample attributes
        1. Posibles causas de error en este paso
      6. Paso 6. SRA Metadata
        1. Recomendaciones para evitar errores comunes al depositar los metadatos
        2. Depositar un nuevo BioSample versus depositar en uno que ya existe
        3. Explicación de los datos de acceso público en una muestra de SRA
      7. Paso 7. Files
        1. Posibles causas de error o advertencia en este paso
      8. Paso 8. Review and Submit
  4. Acceder un depósito sin terminar
  5. Procesando el depósito de las secuencias
    1. El BioProject está siendo revisado por el personal de NCBI
    2. El BioProject ha sido aceptado
      1. Datos de acceso público de un BioSample
      2. Datos de acceso público de un SRA Experiment
  6. Modificar datos que ya han sido depositados
  7. Descargar secuencias
    1. Descargar secuencias correspondientes a un código de acceso
    2. Descargar secuencias correspondientes a varios códigos de acceso


Cómo registrarse a NCBI


Para registrarse a NCBI siga estos pasos:


  1. Acceda a la página de inicio de NCBI y haga click en Log in.




  1. Aparecerá un menu con varias opciones para registrarse. Puede escoger cualquiera de las opciones para registrar su cuenta.




Cómo acceder al Sequence Read Archive (SRA)


Se Para acceder al Sequence Read Archive (SRA) siga estos pasos:


  1. Luego de haber iniciado sesión, , acceda a la página de inicio de NCBI.


  1. Haga click en Submit.




  1. Aparecerá la página principal del Submission Portal. Por motivo del Datatón, escriba 16S rRNA en la barra de búsqueda y haga click en SRA.

**Escriba 16S rRNA aún si está depositando datos de secuenciación masiva de ITS, ya que si escribe ITS lo va a dirigir al GenBank, el cual no es un portal adecuado para depositar secuencias no ensambladas**



  1. Aparecerá un página con información acerca del Sequence Read Archive (SRA). Haga click en Submit.




Cómo depositar secuencias a SRA a través del Submission Wizard


Aspectos a considerar antes de depositar secuencias


  • Si las secuencias provienen de un estudio en humanos, el consentimiento del donador es usualmente necesario.

  • Cada depósito debe ser menor a 5 TB, si es más, debe hacer varios depósitos separados.

  • Varios depósitos pueden estar ligados al mismo BioProject, por lo tanto, todas las secuencias de estos depósitos pueden ser accesados a través del código del BioProject.

  • Cada archivo fastq, que desea depositar, debe tener un tamaño menor a 100 GB. Si aún los archivos comprimidos son más grandes que 100 GB, por favor divídalos antes de depositarlos.


Depositar las secuencias


Este proceso se lleva a cabo mediante varios pasos separados. Para guardar su progreso luego de completar un paso, haga click en Continue. Puede revisar o hacer cambios a los pasos previos haciendo click en las pestañas correspondientes.

En cualquier momento, luego de haber guardado su progreso, puede salir del portal de NCBI y continuar el depósito luego. Si, sin embargo, hace click en el botón de Submit en el último paso, hacer nuevos cambios va a requerir pasos adicionales.

Puede se que en momentos en que está guardando su progreso le aparezcan mensajes de error (Error) o de advertencia (Warning). Los mensajes de error describen el error que ha ocurrido y sugieren una solución. El error debe corregirse para poder continuar con el siguiente paso. Por otra parte, los mensajes de precaución previenen posibles errores, pero no deben ser corregidos necesariamente para continuar con los siguientes pasos.


Paso 1. Submitter




Aquí, la persona que está depositando los datos debe incluir su información profesional. Recomendamos que use su e-mail institucional y que escriba la información de la institución (institution) para la que usted trabaja.


Paso 2. General Information




El BioProject representa el proyecto de investigación del cual se originan las secuencias. La información que se incluye en el BioSample provee contexto experimental a las secuencias. Cada metagenoma, tipo de tejido, o tratamiento debe tener su propio Biosample; pero las réplicas técnicas no son consideradas BioSamples únicos. Si las secuencias que va a depositar no están ligadas a ningún depósito previo, seleccione No en las categorías del BioProject y BioSample en este paso.

Nota: Usualmente cada muestra va a tener su propio BioSample. Si las muestras son réplicas técnicas, es decir, varias secuencias del mismo ADN, estas forman parte de un mismo BioSample. En la mayoría de los casos, si no está seguro, es mejor que cada muestra tenga un BioSample separado.



Dependiendo de sus respuestas en este paso, los siguientes pasos van a seguir uno de estos caminos:




La fecha de lanzamiento (release date) por defecto es inmediatamente luego del procesamiento de las muestras (Release immediately following processing), pero puede seleccionar una fecha específica para publicar los datos. Si no sabe la fecha exacta puede cambiarla aún luego de haber terminado el proceso de depósito, haciendo click en la pestaña Manage tab en el Submission Portal.

Paso 3. Project (BioProject) information




En la Public description provea la información que mejor describe su proyecto; esta luego se mostrará como la descripción pública de su BioProject. Si tiene un resumen de artículo (abstract) o un resumen de su proyecto de investigación, debería incluirlo aquí. También recomendamos que en el URL añada el enlace DOI de cualquiera de sus publicaciones que esté relacionada con estas secuencias.

Paso 4. BioSample type


En este paso, normalmente se selecciona el Package que mejor se ajusta al contexto de su Biosample. De acuerdo con el paquete que haya seleccionado, el Submission Portal le proporcionaría un attribute table para el siguiente paso.

Por motivo del Datatón, hemos creado una tabla personalizada para homogenizar la forma es que se escriben los valores en las tablas. Nuestra tabla fue creada a partir de una tabla dada por NCBI cuando se seleccionan las opciones que se muestran en la siguiente figura. Primero seleccione el paquete MIMARKS Survey related. Luego, en el menú desplegable, seleccione el tipo de muestra soil.




Si sus muestras no provienen de suelos y considera que a nuestra tabla personalizada le faltan algunas categorías necesarias para describir su tipo de muestra, puede seleccionar el BioSample type que mejor describe sus muestras. Luego, puede comparar las columnas de la tabla dada por NCBI y las de la tabla personalizada y añadir las columnas que son obligatorias para el Datathon, pero que no están incluidas en la tabla de NCBI. Las columnas obligatorias están marcadas con verde y naranja en nuestra tabla personalizada.

Si hace esto, en las columnas obligatorias, por favor escriba sólo los "valores aceptados" que están especificados en la pestaña de la clave que se encuentra en la tabla personalizada. Asegúrese de escribir los valores exactamente como aparecen en la tabla personalizada. De esta forma es posible mantener un formato homogéneo para todos los datos compartidos durante el Datatón.

Paso 5. BioSample attributes


Este paso provee información del contexto de sus muestras.




Por motivo del Datatón, seleccione Uploading a file using Excel format y utilice la siguiente tabla de Excel personalizada:

MIMARKS.survey.soil.5.0_Dataton.xlsm *Esta tabla contiene Macros de Excel, y para que funcionen, deben ser habilitados manualmente. Para ello, antes de abrir la tabla, abra las Propiedades del archivo, y en la pestaña General, en la sección Seguridad, marque la casilla Desbloquear.


Por favor lea con atención las instrucciones incluidas en el Excel antes de llenar la tabla. Nótese que para subir la tabla NCBI, debe borrar la hoja llamada "Clave", y guardar el archivo en formato .xlsx. Tome en cuenta que al exportar la hoja de Excel no es necesario borrar las filas con instrucciones.

El nombre de muestra (sample_name) que le dé a cada muestra en la tabla de atributos se utilizará nuevamente en la tabla de metadatos de las secuencias (SRA metadata table), para ligar los archivos de las secuencias a sus respectivos metadatos. Los nombres de las muestras deben ser iguales en ambos documentos de Excel para que queden ligados correctamente.

Si quiere incluir sus secuencias en la base de datos de MiCoDa, por favor envíe la tabla que tabla MIMARKS.survey.soil.5.0_Dathaton.xlsm que completó para este depósito a [email protected]. Antes de enviarlo, modifique el nombre de la tabla de forma que incluya los apellidos de los primeros tres autores de los datos; de esta forma "Apellido autor 1_Apellido autor 2_Apellido autor 3_MIMARKS.survey.soil.5.0_Dathaton.xlsm". En el correo también debe incluir los nombres completos y los emails de cada autor.


Posibles causas de error en este paso

Error: Multiple BioSamples cannot have identical attributes


Problema

Este error ocurre cuando, luego de haber completado la tabla de atributos, las muestras individuales no son distinguibles por al menos un atributo o la combinación de los atributos.

Solución

Asegúrese de que el valor combinado de todos los atributos sea único para cada muestra biológica. Note que el nombre de la muestra (sample name), título de la muestra (sample title), y la descripción (description) no se utilizan para el chequeo automático de si los atributos de las muestras son distinguibles. De ser necesario, puede agregar columnas nuevas que le permitan diferencias las muestras. Si este problema ocurre porque se trata de réplicas biológicas, por favor incluya una columna llamada replicates y asígnele códigos diferentes a cada réplica. Si, por el contrario, se trata de réplicas técnicas, estas van en un solo BioSample y las réplicas se colocan en una misma fila de la tabla que se utiliza en el paso SRA metadata.


Error: These samples have the same Sample Names and identical attributes


Problema

Este error puede ocurrir si está intentando depositar secuencias que ya han sido depositadas previamente en NCBI; y el Submission Portal está previniendo que deposite archivos duplicados. El portal detecta las secuencias duplicadas a través del nombre de los archivos.

Solución

En el caso de que quiera depositar nuevas secuencias a BioSamples previamente depositados, regrese a la pestaña General Info y seleccione Yes a la pregunta Did you already register BioSamples for this data set?. El SRA Submission Wizard se saltará los pasos del tipo y attributos del BioSample. En el paso SRA metadata, debe utilizar la tabla SRA_metadata_Dataton_ES_previous biosamples.xlsm. Allí se agregan los códigos de acceso de los BioSamples (SAMN#) a la columna biosample_accession para ligar los archivos de las nuevas secuencias a los Biosamples preexistentes. *Esta tabla contiene Macros de Excel, y para que funcionen, deben ser habilitados manualmente. Para ello, antes de abrir la tabla, abra las Propiedades del archivo, y en la pestaña General, en la sección Seguridad, marque la casilla Desbloquear.

Para encontrar los códigos de acceso de BioSamples que registró previamente, vaya al Submission Portal y siga estos pasos:


  1. Haga click en My submissions.




  1. Haga click en objects en la sección de BioSample del BioProject. Estos son los BioSamples preexistentes que fueron creados o registrados dentro de un BioProject anteriormente.



Paso 6. SRA Metadata


La SRA metadata describe los aspectos técnicos de cada experimento de secuenciación: las librerías de secuenciación, las técnicas de preparación y los nombres de los archivos.




Por motivo del Datatón, seleccione Uploading a file using Excel format y use la siguiente tabla de Excel personalizada:

SRA_metadata_Dataton.xlsm *Esta tabla contiene Macros de Excel, y para que funcionen, deben ser habilitados manualmente. Para ello, antes de abrir la tabla, abra las Propiedades del archivo, y en la pestaña General, en la sección Seguridad, marque la casilla Desbloquear.

Por favor lea con detenimiento las instrucciones incluidas en la tabla antes de llenar los valores. Nótese que solamente puede subir la versión del archivo de texto delimitado por tabulador (o tab-delimited text file) de la hoja de Excel llamada SRA data. Si esto no funciona, puede intentar subir el documento de Excel tras haber borrado las hojas que no son SRA data y haber guardado el archivo como xslx.

Cuando se deposita un proyecto, el SRA Experiment muestra la combinación única de técnicas que fue utilizada para secuenciar una muestra en particular (p. ej., cada combinación de library + sequencing strategy + layout + instrument model representa un experimento diferente). Si dos de sus secuencies tienen valores exactamente iguales en estas columnas, es una clara indicación de que son réplicas técnicas y deben ir en una misma fila.

Nota: la mayoría del tiempo todas las muestras dentro de un proyecto se secuencian utilizando las mismas técnicas y por lo tanto pertenecen a un único Experimento. La excepción más común es cuando dos regiones de un gen (p. ej., 16S rRNA y ITS) son secuenciadas para el mismo proyecto.

Si quiere incluir sus secuencias en la base de datos de MiCoDa, por favor envíe la tabla que tabla SRA_metadata_Datathon.xlsm que completó para este depósito a [email protected]. Antes de enviarla, modifique el nombre de la tabla de forma que incluya los apellidos de los primeros tres autores de los datos; de esta forma "Apellido autor 1_Apellido autor 2_Apellido autor 3_SRA_metadata_Datathon.xlsm". En el correo también debe incluir los nombres completos y los emails de cada autor.


Recomendaciones para evitar errores comunes al depositar los metadatos

  • Archivos de datos de extremos emparejados (paired-end), tanto hacia adelante (forward) como inversos, (reverse) deben colocarse juntos en la misma leída (Run) para que los dos archivos se procesen correctamente como una sola leída. Esto se logra colocando el archivo hacia adelante y el inverso en la misma fila de la hoja de Excel. Todos los archivos que hayan sido registrados bajo un mismo Run se combinarán para formar un solo sra archive file. Por lo tanto, archivos de diferentes muestras o experimentos no debería agruparse en el mismo Run.

  • El nombre del(los) archivo(s) para los Experiments no deben incluir ninguna información sensible porque aparecerán públicamente en la nube the Google y AWS.

  • Evite depositar archivos duplicados porque el portal no lo permite y dichos archivos pueden ser borrados sin previo aviso.


Depositar un nuevo BioSample versus depositar en uno que ya existe

Cuando deposite nuevos BioSamples durante el paso BioSample attributes, un nombre específico para cada muestra es asignado en la columna sample_name del archivo MIMARKS.survey.soil.5.0_Dataton.xlsm. En el paso SRA Metadata, en la tabla SRA_metadata_Dathaton.xlsm, el sample_name debe corresponder con el que se le dio al nuevo BioSample para ligar correctamente las secuencias a los metadatos.

Si, por otra parte, quiere depositar secuencias a BioSamples preexistentes, en el paso SRA metadata, debe utilizar la tabla SRA_metadata_Dataton_ES_previous biosamples.xlsm. En esta tabla, se deben agregar los códigos de acceso de los BioSamples (SAMN#) a la columna biosample_accession para ligar los archivos de las nuevas secuencias a los BioSamples preexistentes, y así incluirlos en el nuevo BioProject. *Esta tabla contiene Macros de Excel, y para que funcionen, deben ser habilitados manualmente. Para ello, antes de abrir la tabla, abra las Propiedades del archivo, y en la pestaña General, en la sección Seguridad, marque la casilla Desbloquear.



Explicación de los datos de acceso público en una muestra de SRA



Paso 7. Files


En este paso va a subir los archivos especificados en el documento de Excel del SRA Metadata. Los archivos pueden comprimirse utilizando gzip or bzip2 y pueden depositarse como archivos tar, pero comprimir los archivos no es obligatorio. Subir archivos con formato zip no se permite. Si sube una carpeta comprimida tar, debe especificar el nombre de cada archivo dentro de la carpeta, no el nombre del folder.




Recomendamos que utilice la opción Web browser upload via HTTP or Aspera Connect plugin para subir los archivos; a menos que tenga más de 10 GB en archivos, o más de 300 archivos para subir a la vez.

Además, recomendamos que seleccione Autofinish submission una vez que los archivos se han terminaron de subir. Tome en consideración que dependiendo del tamaño y el número de archivos, este proceso puede durar desde un par de minutos o varias horas.

No olvide hacer click en Continue para guardar su proceso. Si no lo hace y cierra el navegador o cambia de pestaña tendrá que volver a subir los archivos.

Posibles causas de error o advertencia en este paso

Warning: You uploaded one or more extra files that are not in your Metadata table


Problema

Ha subido archivos que no están indicados en su Excel SRA Metadata.

Solución

Si no pretende incluir estos archivos un este depósito, haga click en Continue. Todos los archivos que no estén en la lista del SRA Metadata serán ignorados. Si, por otro lado, quiere incluir estos archivos, regrese al paso SRA Metadata y corrija o agregue los nombres de los archivos que no fueron reconocidos.


Error: Some files are missing. Upload missing files or fix metadata table


Problema

El programa no encuentra todos los archivos cuyos nombres han sido incluídos en la tabla del SRA Metadata table.

Solución

Suba los archivos que están reportados como perdidos. Además, revise que los nombres de los archivos (filenames) , incluidas las extensiones (.fq, .fastq, .sff, etc.), que están en su tabla de metadatos corresponden a las de los archivos que quiere subir. Si el problema yace en el nombre de los archivos, regrese a la pestaña de SRA Metadata, borre su archivo de texto y suba una nueva versión en que haya corregido los nombres de los archivos.


Error: File is corrupted. Please re-upload the file...


Problema

Este error ocurre ya sea porque alguno de sus archivos está corrupto o el archivo se corrompió durante la transferencia.

Solución

Vuelva a subir los archivos que fueron reportados como corruptos. Para esto, haga click en el botón Fix y siga las instrucciones para subir de nuevo los archivos. Asegúrese de que los nombres de los archivos que va a subir son iguales a los de los originales.

Paso 8. Review and Submit


En este paso puede revisar el resumen de su depósito y asegurarse de que todo está correcto. En este punto todavía puede regresar y cambiar cualquier paso de su depósito haciendo click en la pestaña correspondiente.




Haga click en Submit cuando está seguro de que todo está correcto. Luego de haber depositado los datos, los cambios que se le pueden hacer al BioProject son limitados o sólo se pueden realizar contactando al servicio de atención al cliente de NCBI.

Si, por otra parte, quiere borrar el depósito, haga click en Delete submission. Esta es la última oportunidad que tendrá para borrar el depósito sin tener que contactar al servicio de atención al cliente de NCBI.


Acceder un depósito sin terminar


Para acceder a un depósito sin terminar siga estos pasos:


  1. Luego de haber iniciado sesión, vaya a la página de inicio de NCBI.


  1. Haga click en Submit


  1. En el Submission Portal haga click en My submissions.




  1. Encuentre el depósito que diga Unfinished y que tiene el título del BioProject o el submission ID (SUB#) que está buscando.




Procesando el depósito de las secuencias


El BioProject está siendo revisado por el personal de NCBI


Una vez depositado, el depósito será procesado automáticamente. Probablemente recibirá retroalimentación a más tardar 24 horas luego de haber realizado el depósito.

Si su depósito se registró correctamente recibirá el siguiente correo electrónico:




El código del BioProject que se le otorgue será permanente y único, pero no le aparecerá a otros usuarios hasta que el personal de NCBI lo haya terminado de procesar. Si desea que su BioProject esté incluído en la base de datos del Datatón, indíquenos el código de acceso que se le ha otorgado (PRJNA#).

El BioProject ha sido aceptado


Luego de que los datos depositados hayan terminado de ser procesados, recibirá el siguiente correo electrónico:




Una vez que el BioProject ha sido aceptado, cuando alguien lo busque en la base de datos de NCBI, aparecerá la siguiente información:




Datos de acceso público de un BioSample




El BioSample (SAMN#) es un código de identificación de BioSamples específicos. Hacer click en Retrieve all samples from this project le permite ver todos los otros BioSamples asociados al BioProject.

Datos de acceso público de un SRA Experiment




Los elementos marcados son:

  • Experiment (SRX#): código de identificación del instrumento y la información de la librería de una muestra específica (SRS#).

  • Study (SRP#): código de identificación de un estudio dentro de un BioProject.

  • Sample (SRS#): código de identificación de una muestra de secuencias.

  • Run (SRR#): código de identificación the archivos derivados al secuenciar una librería descrita por el Experiment asociado.



Modificar datos que ya han sido depositados


Si desea modificar depósitos anteriores, siga estos pasos:


  1. Luego de haber iniciado sesión vaya a la página de inicio de NCBI.


  1. Haga click en Submit


  1. En el Submission Portal haga click en Manage data.




  1. Seleccione el BioProject (PRJNA#) que quiere corregir. En este buscador también puede filtrar por BioSamples en la pestaña de BioSample o por Experiments en la pestaña de SRA. Desafortunamente si utiliza los últimos dos filtros, la información presentada por el Data Manager no es editable.



La página de edición del BioProject permite lo siguiente:

  • Editar (Edit) campos que fueron escritos durante el proceso de depósito.

  • Añadir (Add) información que no fue escrita durante el proceso de depósito.

  • Editar (Edit) la mayoría de campos del SRA Metadata. Debe seleccionar los Experiments que quiere modificar primero.




Si quiere añadir más secuencias a un BioProject o Biosample preexistentes, cree un nuevo depósito e indique el código de acceso del BioProject (PRJNA#) o Biosample (SAMN#), al que quiere ligar las nuevas secuencias en el paso 2.

Si quiere cambiar los atributos o eliminar un BioProject or BioSample que ya ha sido depositado, pero que no necesariamente ha sido aceptado, debe contactar a [email protected] o [email protected] en el caso de depósitos de BioProjects y BioSamples respectivamente.

Luego de que un Run se ha cargado, ni los archivos ni los nombres de los archivos se pueden cambiar. Si quiere cambiarlos debe depositar nuevos archivos en un depósito separado usando los códigos de acceso de los BioProjects o BioSamples preexistentes y solicitando que se retire el Run que tiene los documentos viejos. La solicitud de retiro se puede hacer escribiendo al servicio de atención al cliente de NCBI.

Descargar secuencias


Descargar secuencias correspondientes a un código de acceso


Como hemos visto, NCBI permite incluir amplios metadatos cuando se depositan secuencias. Sin embargo descargar todas las secuencias asociadas a un código de acceso puede dificultarse en este portal. Para descargar todas las secuencias correspondientes a un BioProject específico recomendamos el uso del portal del European Bioinformatics Institute como parte del European Molecular Biology Laboratory (EMBL-EBI). Para ello siga estos pasos:


  1. Acceda a la Página principal de EMBL-EBI


  1. Escriba el código de acceso del BioProject, BioSample, o SRA de su interés y haga click en Search.




  1. Desplácese hacia abajo y seleccione el link correspondiente al código de acceso que está buscando.


  1. Aparecerá una versión resumida de los metadatos, así como todos los archivos correspondientes al código de acceso de interés. Para accedar la opción de descarga de los archivos, desplácese hacia la derecha en la sección que tiene la lista de archivos.




  1. Haga click en Download All si quiere descargar todos los Experiments (SRR) asociados a este código de acceso. Si sólo quiere descargar algunos Experiments seleccione los archivos específicos y haga click en Download selected files.



Descargar secuencias correspondientes a varios códigos de acceso


Para descargar grandes cantidades de secuencias le recomendamos utilizar el SRA Toolkit.

⚠️ **GitHub.com Fallback** ⚠️