Compartir secuencias que ya han sido depositadas en el SRA de NCBI - MariaAlvBla/Dataton-2022 GitHub Wiki


Una vez que los datos han sido depositados, el SRA de NCBI crea una tabla resumen de los metadatos de la muestras (por ejemplo la localización geográfica de la muestra y el tipo de muestra) y los metadatos técnicos (por ejemplo el secuenciador utilizado) de todas las muestras incluídas en un BioProject o BioSample. Como no hay nomenclaturas estándar para muchos de los tipos de metadatos, integrar los metadatos de varios proyectos para análisis a gran escala se dificulta. Por ejemplo, la palabra amplicón puede escribirse: amplicón, Amplicón o AMPLICÓN, y aunque el significado es el mismo para ojos humanos, los programas computacionales los interpretan como valores diferentes.

Para el Datatón hemos creado una tabla personalizada que tiene una nomenclatura fija para las categorías que son esenciales en análisis a gran escala. Mantener esta nomenclatura estandar facilita que los investigadores compartan y combinen sus secuencias. *Este tutorial guiará a los usuarios en cómo accesar, y cómo transformar las tablas de medatadatos provenientes del Sequence Read Archive (SRA) a la nomenclatura estándar propuesta.


Tabla de contenidos


  1. Acceder los metadatos asociados a un BioProject
    1. A partir de un código de acceso conocido
    2. Buscando el código de acceso en "my submissions"
  2. Descargar la tabla resumen de un BioProject o un BioSample
  3. Transferir los metadatos a la tabla personalizada del Datatón
    1. Abrir correctamente la tabla resumen de NCBI
    2. Completar la tabla personalizada


Acceder los metadatos asociados a un BioProject


Para acceder a las secuencias de, ya sea, un BioProject completo o un BioSample específico dentro de un BioProject, siempre es necesario acceder primero al BioProject. Desde el BioProject se puede escoger si se acceden todos los Experiments de, ya sea, el BioProject o el BioSample. Esto se explicará con más detenimiento luego. Si ya sabe cómo accesar a un Experiment, salte a (descargar la tabla resumen).

Acceder las secuencias asociadas a un BioProject puede realizarse de dos maneras: 1) si recuerda el código de acceso y 2) si no recuerda el código de acceso. Por favor seleccione la opción que mejor aplique a usted.

A partir de un código de acceso conocido


Para encontrar la información de acceso público de las secuencias de su BioProject siga estos pasos:


  1. Acceda a la página de inicio de NCBI y escriba el código de acceso del BioProject (PRJNA#) que está buscando.




  1. De la lista que aparece, haga click en el BioProject de su interés.




  1. La información de acceso público del BioProject aparecerá. Para encontrar la información asociada a las secuencias del BioProject, haga click en el número a la derecha de los SRA Experiments.




Continue a la sección *Descargar la tabla resumen de un BioProject o un BioSample.

Buscando el código de acceso en my submissions


Para encontrar la información de acceso público de las secuencias de su BioProject siga estos pasos:


  1. Luego de haber iniciado sesión en el portal de NCBI, vaya a la página de inicio.


  1. Haga click en Submit




  1. En el Submission Portal, haga click en My submissions.




  1. Encuentre el título que corresponde al BioProject de su interés y haga click en el código de acceso (PRJNA#).




  1. La información de acceso público del BioProject aparecerá. Para encontrar la información asociada a las secuencias del BioProject, haga click en el número a la derecha de los SRA Experiments.




Continue a la sección Descargar la tabla resumen de un BioProject o un BioSample.


Descargar la tabla resumen de un BioProject o un BioSample


Siga estos pasos para acceder y descargar la tabla resumen de los atributos y metadatos de las secuencias de un BioProject o BioSample.


  1. Haga click en el nombre de cualquiera de los Experiments que se muestran, luego de haber accedido a los SRA Experiments en la sección anterior.




  1. En la información de acceso público del Experiment haga click en All Runs para, ya sea, el BioProject (A) o el BioSample (B) de su interés. Aún si selecciona un Run específico del BiopProject o BioSample, la tabla resumen incluirá la información tanto del Experiment seleccionado como de todos los otros Experiments incluidos en el mismo BioProject o BioSample.




  1. Para descargar todos los Runs incluidos en un BioProject o BioSample, haga click en Metadata en la opción Total.




Alternativamente puede descargar Runs específicos seleccionando las casillas correspondientes a los Runs de su interés y haciendo click en Metadata en la opción Selected.




Transferir los metadatos a la tabla personalizada del Datatón


Luego de haber descargado la tabla resumen de NCBI, debe abrirla utilizando ajustes específicos, de forma que la información se muestre correctamente. Luego de haberla abierto, una parte de los datos deben ser transferidos a una tabla personalizada que ha sido creada para el Datatón. De esta forma nos aseguramos de que todos los datos que se compartan tienen un formato consistente.


Abrir correctamente la tabla resumen de NCBI


Si siguió los pasos de la sección anterior, ahora debería tener un archivo de texto (.txt) llamado SraRunTable. En vez de abrirlo con un procesador de texto, ábralo con un programa como Open Office Calc, o Excel.

Si utiliza Open Office Calc necesitará revisar las especificaciones de separación (o Separator Options) para evitar que los valores de las columnas se desacomoden.

En la siguiente imagen las especificaciones están incorrectas, y columnas con valores que tiene espacios han sido separadas en varias columnas. Por ejemplo, en vez de decir University of Copenhagen en una sola celda, este nombre está dividido en tres columnas diferentes:



Si en cambio, selecciona las opciones de separación correctas, que dependerá del lenguaje en que importó el documento, las columnas que tienen valores con espacios ya no deberían aparecer separadas. En nuestro ejemplo, ahora el nombre de la universidad aparece en una sóla celda.



Completar la tabla personalizada


Ahora puede descargar y abrir la siguiente tabla personalizada:

Already_uploaded_Data_Dataton.xlsm *Esta tabla contiene Macros de Excel, y para que funcionen, deben ser habilitados manualmente. Para ello, antes de abrir la tabla, abra las Propiedades del archivo, y en la pestaña General, en la sección Seguridad, marque la casilla Desbloquear.


Esta tabla incluye los nombres de las columnas de interés que corresponden a columnas en la tabla resumen de NCBI. Por favor transfiera la información de solamente las columnas que aparecen en la tabla personalizada; y contacte al equipo de MICODA si desea añadir columnas extra a la tabla. Antes de añadir los datos, asegurese de haber leído cuidadosamente las instrucciones incluídas en la tabla; y tome en cuenta que algunas de las columnas tienen menús desplegables o requieren un formato específico.

Si quiere incluir sus secuencias en la base de datos de MiCoDa, envíe la tabla que tabla Already_uploaded_Data_Dataton.xlsm que completó para este depósito a [email protected]. Antes de enviarlo, modifique el nombre de la tabla incluyendo los apellidos de los primeros tres autores de los datos; de esta forma: "Apellido autor 1_Apellido autor 2_Apellido autor 3_Already_uploaded_Data_Dataton.xlsm". En el correo también debe incluir los nombres completos y los emails de cada autor.

Nota: Si desea compartir la información de varios BioProjects, por favor llene tablas separadas para cada BioProject.

⚠️ **GitHub.com Fallback** ⚠️