Kit de avaliação rápida de arquivos FASTA e FASTQ - lmigueel/Bioinformatica GitHub Wiki
1. Sobre
Seqkit é um pacote super interessante e importante para avaliar rapidamente arquivos FASTAs e FASTQs, como, por exemplo, após uma montagem. Ele possui N métricas e operações, inclusive ótimas para corte de tamanho.
Conheça mais as funcionalidade do seqkit aqui.
2. Instalação
- Via conda:
conda install -c bioconda seqkit
- Via repositório:
Você pode acessar o repositório do seqkit e baixar a última versão, extrair e usar!
Acesso em: https://github.com/shenwei356/seqkit/releases/tag/v0.16.0
3. Uso
- Estatísticas básicas
Com o comando seqkit stats file.fasta você acessa as métricas básicas das sequências no arquivo. Você pode usar o opção *.fasta que ele executa para todos os arquivos presentes na pasta. O output seria:
file | format | type | num_seqs | sum_len | min_len | avg_len | max_len |
---|---|---|---|---|---|---|---|
seqs.fasta | FASTA | RNA | 28,645 | 2,949,871 | 9 | 103 | 2,354 |
- Cortes
Você pode cotar as suas sequências por um tamanho mínimo de 200 bp, por exemplo, através do comando:
seqkit seq -m 200 file.fasta
Caso queira um tamanho máximo de corte utilize a flag "-M".
- Nomes (headers) e Sequências
Você consegue acessar todos os nomes das suas sequências em um arquivo FASTA através do comando:
seqkit seq -n file.fasta
Do mesmo modo, caso queira apenas as sequências, basta rodar:
seqkit seq -s file.fasta
- Complemento reverso
O pacote também proporciona a opção de gerar o complemento reverso, tanto de DNA como RNA (utilize a flag "--seq-type DNA" ou "--seq-type RNA"). Basta rodar o comando:
seqkit seq -p file.fasta
Acesse as outras funcionalidades (são inúmeras) na seção 1 e se divirta! Eu uso bastante as opções citadas para verificações rápidas.