Calculo de frequencia de códons de uma sequência no formato fasta com CodonW - lmigueel/Bioinformatica GitHub Wiki

1. Sobre

Dos 20 aminoácidos padrão, 18 podem ser codificados por dois a seis códons sinônimos. O uso preferencial de certos códons sinônimos, um fenômeno denominado viés de uso de códons, foi encontrado em todos os genomas avaliados. Como códons sinônimos codificam o mesmo aminoácido, eles eram anteriormente considerados funcionalmente redundantes, e mutações de códons sinônimos que não alteram as sequências de proteínas eram consideradas mutações silenciosas. No entanto, um grande corpo de evidências agora demonstra que o uso de códons desempenha vários papéis regulando a expressão gênica e a estrutura da proteína por meio de mecanismos dependentes e independentes da tradução.

Códons sinônimos são reconhecidos com diferentes eficiências por tRNAs cognatos. Em diferentes organismos eucarióticos e procarióticos, o viés de uso de códons se correlaciona com os níveis de tRNAs cognatos ou com os números de cópias do gene tRNA. Códons com forte viés são encontrados para serem fortemente enriquecidos em genes que codificam proteínas altamente expressos, e a otimização de códons aumenta a expressão de genes endógenos e heterólogos em diversos eucariotos e procariotos.. Além disso, foram observadas correlações em todo o genoma entre o viés de uso de códons e os níveis de proteína [1].

2. Programas

CodonW é um programa projetado para simplificar a análise multivariada (análise de correspondência) do uso de códons e aminoácidos. Ele também calcula índices padrão de uso de códons. Possui interfaces de menu e de linha de comando.

3. Instalação

Pra instalar no linux wsl windows:

sudo apt-get install codonw

Via conda:

 conda install -c bioconda codonw 

4. Usage

Para calcular a frequência de códons de uma sequência fasta é necessário seguir alguns passos:

  1. Depois que instalar digita:
codonw

Isso vai abrir o programa que vai te mostrar uma lista de opções..

  1. Digite: 1 - pra escolher o Load sequence file
  2. Em seguida, insira o nome do arquivo fasta que deseja analisar e pressione [Enter]
  3. Depois insira um nome para o arquivo de saída. Aperte [Enter]
  4. Depois disso, você digita um nome para a tabela de saÃída. Aperte [Enter]
  5. Em seguida, digite R para selecionar a opção de execuçãoo ou Run
  6. Basicamente pressione [Enter] para continuar (isso caso tenha várias sequências fasta nele)
  7. Pode pressionar e segurar [enter] até retornar ao menu.
  8. Ao retornar ao menu. Digite Q para sair.

Arquivos de saída: São nove arquivos de saída, mas irei descrever alguns apenas. Cada um deles pode ser visto AQUI na seção "Description of output files created during a correspondence analysis".

amino.coa ou codon.coa

Cada códon ou aminoácido incluído na análise de correspondência é representado por uma linha. A primeira coluna contém uma descrição da variável enquanto as colunas subsequentes contêm a coordenada do códon ou aminoácido em cada eixo, o número de eixos pode ser definido pelo usuário.
genes.coa
 
Cada linha representa um gene. A primeira coluna contém uma descrição única para cada gene, as colunas subsequentes contêm a coordenada do gene em cada um dos eixos registrados. 
cusort.coa

Contém o uso \do códon de cada gene, classificado pela coordenada do gene no eixo principal. Essas informações são usadas para gerar a tabela em hilo.coa.

4.1 Exemplo de saída

3417 codons in gb:HQ234500|Orga (used Universal Genetic code)

Phe UUU   45 0.94 Ser UCU   28 0.80 Tyr UAU   32 0.73 Cys UGU   29 0.92
    UUC   51 1.06     UCC   36 1.03     UAC   56 1.27     UGC   34 1.08
Leu UUA   19 0.37     UCA   55 1.57 TER UAA    0 0.00 TER UGA    0 0.00
    UUG   62 1.20     UCG   13 0.37     UAG    0 0.00 Trp UGG   93 1.00

    CUU   42 0.81 Pro CCU   24 0.68 His CAU   33 0.87 Arg CGU   17 0.47
    CUC   48 0.93     CCC   41 1.15     CAC   43 1.13     CGC   21 0.58
    CUA   37 0.71     CCA   61 1.72 Gln CAA   43 1.12     CGA    9 0.25
    CUG  103 1.99     CCG   16 0.45     CAG   34 0.88     CGG   20 0.55

Ile AUU   52 0.90 Thr ACU   59 1.04 Asn AAU   34 0.66 Ser AGU   32 0.91
    AUC   64 1.11     ACC   61 1.08     AAC   69 1.34     AGC   46 1.31
    AUA   57 0.99     ACA   80 1.42 Lys AAA   82 0.87 Arg AGA   86 2.37
Met AUG  127 1.00     ACG   26 0.46     AAG  106 1.13     AGG   65 1.79

Val GUU   57 0.85 Ala GCU   86 1.22 Asp GAU   77 0.99 Gly GGU   43 0.56
    GUC   76 1.14     GCC   87 1.23     GAC   79 1.01     GGC   50 0.65
    GUA   23 0.34     GCA   76 1.07 Glu GAA  101 0.93     GGA  129 1.68
    GUG  111 1.66     GCG   34 0.48     GAG  116 1.07     GGG   85 1.11
  • 3417 é o número total de códons que consta na sequência avaliada.

  • gb:HQ234500 é o ID da sequencia

  • Phe, Leu são os aminoácidos.

  • UUU, UUC etc são os códons

  • Utilizando como exemplo o códon UUU temos 45 como a frequência absoluta e 0.94 a frequência relativa.

5. Referências

[1] Liu, Y. (2020). A code within the genetic code: codon usage regulates co-translational protein folding. Cell Communication and Signaling, 18(1), 1-9.

[2] http://codonw.sourceforge.net/

6. Agradecimentos

Gostaria de agradecer a Larisse e Larissa Depa pelo envio do texto.

Linkedin:

https://br.linkedin.com/in/larissedepa

https://br.linkedin.com/in/larissadepa