Calculo de frequencia de códons de uma sequência no formato fasta com CodonW - lmigueel/Bioinformatica GitHub Wiki
1. Sobre
Dos 20 aminoácidos padrão, 18 podem ser codificados por dois a seis códons sinônimos. O uso preferencial de certos códons sinônimos, um fenômeno denominado viés de uso de códons, foi encontrado em todos os genomas avaliados. Como códons sinônimos codificam o mesmo aminoácido, eles eram anteriormente considerados funcionalmente redundantes, e mutações de códons sinônimos que não alteram as sequências de proteínas eram consideradas mutações silenciosas. No entanto, um grande corpo de evidências agora demonstra que o uso de códons desempenha vários papéis regulando a expressão gênica e a estrutura da proteína por meio de mecanismos dependentes e independentes da tradução.
Códons sinônimos são reconhecidos com diferentes eficiências por tRNAs cognatos. Em diferentes organismos eucarióticos e procarióticos, o viés de uso de códons se correlaciona com os níveis de tRNAs cognatos ou com os números de cópias do gene tRNA. Códons com forte viés são encontrados para serem fortemente enriquecidos em genes que codificam proteínas altamente expressos, e a otimização de códons aumenta a expressão de genes endógenos e heterólogos em diversos eucariotos e procariotos.. Além disso, foram observadas correlações em todo o genoma entre o viés de uso de códons e os níveis de proteína [1].
2. Programas
CodonW é um programa projetado para simplificar a análise multivariada (análise de correspondência) do uso de códons e aminoácidos. Ele também calcula índices padrão de uso de códons. Possui interfaces de menu e de linha de comando.
3. Instalação
Pra instalar no linux wsl windows:
sudo apt-get install codonw
Via conda:
conda install -c bioconda codonw
4. Usage
Para calcular a frequência de códons de uma sequência fasta é necessário seguir alguns passos:
- Depois que instalar digita:
codonw
Isso vai abrir o programa que vai te mostrar uma lista de opções..
- Digite: 1 - pra escolher o Load sequence file
- Em seguida, insira o nome do arquivo fasta que deseja analisar e pressione [Enter]
- Depois insira um nome para o arquivo de saída. Aperte [Enter]
- Depois disso, você digita um nome para a tabela de saÃída. Aperte [Enter]
- Em seguida, digite R para selecionar a opção de execuçãoo ou Run
- Basicamente pressione [Enter] para continuar (isso caso tenha várias sequências fasta nele)
- Pode pressionar e segurar [enter] até retornar ao menu.
- Ao retornar ao menu. Digite Q para sair.
Arquivos de saída: São nove arquivos de saída, mas irei descrever alguns apenas. Cada um deles pode ser visto AQUI na seção "Description of output files created during a correspondence analysis".
amino.coa ou codon.coa
Cada códon ou aminoácido incluído na análise de correspondência é representado por uma linha. A primeira coluna contém uma descrição da variável enquanto as colunas subsequentes contêm a coordenada do códon ou aminoácido em cada eixo, o número de eixos pode ser definido pelo usuário.
genes.coa
Cada linha representa um gene. A primeira coluna contém uma descrição única para cada gene, as colunas subsequentes contêm a coordenada do gene em cada um dos eixos registrados.
cusort.coa
Contém o uso \do códon de cada gene, classificado pela coordenada do gene no eixo principal. Essas informações são usadas para gerar a tabela em hilo.coa.
4.1 Exemplo de saída
3417 codons in gb:HQ234500|Orga (used Universal Genetic code)
Phe UUU 45 0.94 Ser UCU 28 0.80 Tyr UAU 32 0.73 Cys UGU 29 0.92
UUC 51 1.06 UCC 36 1.03 UAC 56 1.27 UGC 34 1.08
Leu UUA 19 0.37 UCA 55 1.57 TER UAA 0 0.00 TER UGA 0 0.00
UUG 62 1.20 UCG 13 0.37 UAG 0 0.00 Trp UGG 93 1.00
CUU 42 0.81 Pro CCU 24 0.68 His CAU 33 0.87 Arg CGU 17 0.47
CUC 48 0.93 CCC 41 1.15 CAC 43 1.13 CGC 21 0.58
CUA 37 0.71 CCA 61 1.72 Gln CAA 43 1.12 CGA 9 0.25
CUG 103 1.99 CCG 16 0.45 CAG 34 0.88 CGG 20 0.55
Ile AUU 52 0.90 Thr ACU 59 1.04 Asn AAU 34 0.66 Ser AGU 32 0.91
AUC 64 1.11 ACC 61 1.08 AAC 69 1.34 AGC 46 1.31
AUA 57 0.99 ACA 80 1.42 Lys AAA 82 0.87 Arg AGA 86 2.37
Met AUG 127 1.00 ACG 26 0.46 AAG 106 1.13 AGG 65 1.79
Val GUU 57 0.85 Ala GCU 86 1.22 Asp GAU 77 0.99 Gly GGU 43 0.56
GUC 76 1.14 GCC 87 1.23 GAC 79 1.01 GGC 50 0.65
GUA 23 0.34 GCA 76 1.07 Glu GAA 101 0.93 GGA 129 1.68
GUG 111 1.66 GCG 34 0.48 GAG 116 1.07 GGG 85 1.11
-
3417 é o número total de códons que consta na sequência avaliada.
-
gb:HQ234500 é o ID da sequencia
-
Phe, Leu são os aminoácidos.
-
UUU, UUC etc são os códons
-
Utilizando como exemplo o códon UUU temos 45 como a frequência absoluta e 0.94 a frequência relativa.
5. Referências
[1] Liu, Y. (2020). A code within the genetic code: codon usage regulates co-translational protein folding. Cell Communication and Signaling, 18(1), 1-9.
[2] http://codonw.sourceforge.net/
6. Agradecimentos
Gostaria de agradecer a Larisse e Larissa Depa pelo envio do texto.
Linkedin: