Kit de avaliação rápida de arquivos FASTA e FASTQ - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

Seqkit é um pacote super interessante e importante para avaliar rapidamente arquivos FASTAs e FASTQs, como, por exemplo, após uma montagem. Ele possui N métricas e operações, inclusive ótimas para corte de tamanho.

Conheça mais as funcionalidade do seqkit aqui.

2. Instalação

  • Via conda:

conda install -c bioconda seqkit

  • Via repositório:

Você pode acessar o repositório do seqkit e baixar a última versão, extrair e usar!

Acesso em: https://github.com/shenwei356/seqkit/releases/tag/v0.16.0

3. Uso

  • Estatísticas básicas

Com o comando seqkit stats file.fasta você acessa as métricas básicas das sequências no arquivo. Você pode usar o opção *.fasta que ele executa para todos os arquivos presentes na pasta. O output seria:

file format type num_seqs sum_len min_len avg_len max_len
seqs.fasta FASTA RNA 28,645 2,949,871 9 103 2,354
  • Cortes

Você pode cotar as suas sequências por um tamanho mínimo de 200 bp, por exemplo, através do comando:

seqkit seq -m 200 file.fasta

Caso queira um tamanho máximo de corte utilize a flag "-M".

  • Nomes (headers) e Sequências

Você consegue acessar todos os nomes das suas sequências em um arquivo FASTA através do comando:

seqkit seq -n file.fasta

Do mesmo modo, caso queira apenas as sequências, basta rodar:

seqkit seq -s file.fasta

  • Complemento reverso

O pacote também proporciona a opção de gerar o complemento reverso, tanto de DNA como RNA (utilize a flag "--seq-type DNA" ou "--seq-type RNA"). Basta rodar o comando:

seqkit seq -p file.fasta

Acesse as outras funcionalidades (são inúmeras) na seção 1 e se divirta! Eu uso bastante as opções citadas para verificações rápidas.