Redes de interação proteína proteína (PPI networks) - lmigueel/Bioinformatica GitHub Wiki
1. Sobre
Tudo começa quando começaram os estudos em grafos. Estabelecer relações entre objetos sempre foi de maneira bem complexa, mas sempre aproximamos estas relações para um grafo, e na biologia não é diferente. Quando aplicamos o conceito de redes em biologia, essa rede é chamada de rede biológica. Existem inúmeros tipos de redes biológicas, mas aqui, por hoje, iremos abordar o estudo do interactoma e as interações entre proteínas.
Uma rede do interactoma refere todas as interações da proteína-proteína que ocorrem dentro de uma célula. A visualização da rede biológica é aproximada para um grafo, onde os nós são as proteínas, e a aresta entre elas determina se existe uma interação entre elas. Com as designações feitas, análises podem ser feitas. Por exemplo, o programa Cytoscape emergiu como uma das principais ferramentas para visualização e análise de redes. Também permite o desenvolvimento de ferramentas de terceiros (plugins) que aproveitam sua funcionalidade. Vide caso abaixo de uma possível rede biológica:
Mas vem a grande pergunta: Como gerar estas interações?
2. Técnicas experimentais para detectar interações de proteínas
As duas tecnologias principais que são usadas em experimentos de detecção de interação proteína-proteína de alto rendimento são o ensaio de yeast two-hybrid (Y2H) e a purificação do complexo proteico seguido por identificação por espectrometria de massa (CoAP/MS). Essas duas técnicas são muito diferentes, cada uma com seus próprios pontos fortes e limitações. No experimento de yeast two-hydrid (Y2H), iniciado por Fields e Song [1], uma das proteínas testadas, a chamada isca, é fundida com um domínio de ligação ao DNA (geralmente GAL4 ou LexA), enquanto a segunda a proteína (presa) é fundida com um domínio de ativação transcricional para um fator de transcrição que pode ativar a expressão de um gene repórter (como a beta-galactosidase). Ambas as quimeras são então expressas em uma célula de levedura e, se interagirem, sua interação estimula a expressão do gene repórter.
A segunda tecnologia chave usada para obter interações é a identificação de co-complexos CoIP/MS, incluindo tandem affinity purification (TAP) seguida por espectrometria de massa TAP / MS [2]. Em contraste com o procedimento Y2H, esta abordagem revela interações um-para-muitos em uma condição experimental particular. Especificamente, uma proteína isca é testada quanto à interação com todas as outras proteínas (presas) expressas na condição dada. Isso é feito permitindo a formação de complexos da proteína isca com outras proteínas na célula, recuperando e purificando os complexos correspondentes e identificando proteínas co-complexadas com espectrometria de massa.
3. Predição computacional de interações de proteínas
Os procedimentos experimentais de detecção de interações proteína-proteína são complementados por abordagens computacionais. Os métodos computacionais exploram uma variedade de técnicas que podem ser divididas em três categorias: abordagens baseadas na evolução, métodos estatísticos e técnicas de aprendizado de máquina. Abordagens baseadas na evolução para prever interações de proteínas normalmente exploram a ideia de que proteínas que interagem estão sujeitas a restrições evolutivas comuns. Essas restrições podem impactar a organização espacial dos genes que interagem no genoma, a posição na rede de interação proteína-proteína ou a sequência de aminoácidos. Embora algumas dessas abordagens sejam projetadas para prever interações físicas, muitas não tentam distinguir as interações físicas das funcionais, pois os dois tipos de interação podem estar sujeitos a restrições evolutivas semelhantes.
3.1. Predição de interação dos padrões de genes em genomas.
3.1.1. Fusão de genes
O método de fusão de genes é uma abordagem baseada na evolução para prever interações físicas. A ideia principal segue da observação de que se um par de proteínas, A e B, presentes em um organismo estão em outro organismo fundidos em uma única proteína, então essas duas proteínas são susceptíveis de interagir. Uma explicação natural para essa observação é que, se A e B interagirem, colocar A e B juntos na proteína fundida facilita a interação entre eles.
3.1.2. Gene Order
O sequenciamento completo de um grande número de genomas nos permite observar padrões de organização e evolução do genoma. No contexto dos genomas bacterianos e arqueados, foi observado que, enquanto em geral a ordem dos genes ao longo dos genomas não é bem conservada entre as espécies, a ordem dos genes que codificam proteínas interagentes tende a ser conservada. Por outro lado, as proteínas codificadas por pares de genes com ordem de genes conservada frequentemente interagem fisicamente.
3.1.3. Perfil filogenético
O método de perfil filogenético é baseado na premissa de que as interações funcionais são conservadas em uma variedade de espécies. Consistentemente com essa suposição, deve haver uma correlação entre os padrões de presença e ausência em vários genomas de genes que interagem funcionalmente. Tal padrão de presença/ausência é referido como o perfil filogenético de um gene. Mais formalmente, o perfil filogenético de um gene dentro de um conjunto de genomas de referência é um vetor de comprimento n, onde o i-ésimo elemento do vetor é definido como um se o gene fornecido estiver presente no i-ésimo genoma e zero caso contrário. A similaridade entre os perfis filogenéticos pode ser medida usando métricas como distância de Hamming, coeficiente de correlação ou informação mútua. A presença/ausência de um gene dentro de um genoma também pode ser quantificada usando escores de probabilidade em vez de valores binários. As semelhanças entre os perfis filogenéticos podem ser usadas para prever a ligação funcional entre as proteínas.
3.3. Interações de domínio
Uma grande fração de proteínas procarióticas e a maioria das proteínas eucarióticas são compostas por mais de um domínio. A interação de proteínas normalmente envolve a ligação entre dois ou mais domínios específicos. Na verdade, a composição do domínio de duas proteínas pode ser usada para prever a interação entre elas
3.4. Redes de coexpressão
Partindo do pressuposto de que as proteínas do mesmo complexo de proteínas são susceptíveis de ser co-expressas, os dados de expressão foram utilizados para prever e validar novas interações proteína-proteína conhecidas. As redes de coexpressão são geralmente inferidas calculando os coeficientes de correlação de Pearson ou informações mútuas entre cada par de perfis de expressão gênica em uma variedade de condições experimentais. Foi demonstrado que genes com padrões de expressão semelhantes em um conjunto de amostras tendem a ser funcionalmente relacionados.
4. Bancos de dados
Caso você tenha uma lista de proteínas, você pode buscar os parceiros de interação entre elas. Existem alguns bancos de dados de proteína-proteína, e os mais clássicos são:
-
STRING: É o banco que mais utilizo. Nele você entra com a lista de proteínas e consegue modificar os parâmetros das interações. Você pode deixar quais parâmetros de predição da interação deseja. Minha dica é: deixe o score interaction em 0.9 (high confident), assim, você tem interações mais fidedignas.
-
BIOGRID: Muito útil. Tem dados muito bons e de muitos organismos. Recomendo demais.
-
MINT: Um pouco antigo, mas útil.
-
INTACT: Na mesma onda do MINT.
5. Métricas de rede
Existem inúmeras métricas para extrair de redes e até compará-las. Merece um post somente sobre o tema. Caso queiram comparar duas redes, deixo o BioNetComp (https://github.com/lmigueel/BioNetComp). Quer métricas para a sua rede? Leia estes artigos:
-
https://academic.oup.com/bioinformatics/article/35/12/2118/5182293
-
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0228728
-
https://www.frontiersin.org/articles/10.3389/fbioe.2020.00034/full
-
https://www.sciencedirect.com/science/article/abs/pii/S0370157319304041
-
https://med.bioinf.mpi-inf.mpg.de/netanalyzer/help/2.7/index.html
-
https://www.tandfonline.com/doi/full/10.1080/21642850.2018.1521283
6. Interação vírus-hospedeiro
Esse tipo de interactoma vírus-hospedeiro ficou famoso após o surgimento do Sars-Cov-2, mas já vinha sendo utilizado anteriormente. Deixo uma leitura agradável sobre: https://www.frontiersin.org/articles/10.3389/fmicb.2017.01557/full
7. Livros
Quer avançar em redes? Leia Barabasi: https://barabasi.com/book/bursts Somente esta dica basta.
8. Curso
Curso de Biologia de Sistemas bem legal que aborda redes: https://www.coursera.org/learn/network-biology
Referências
-
Fields, S. and O. Song, A novel genetic system to detect protein-protein interactions. Nature, 1989. 340(6230): p. 245-6
-
Puig, O., F. Caspary, G. Rigaut, B. Rutz, E. Bouveret, E. Bragado-Nilsson, M. Wilm, and B. Seraphin, The tandem affinity purification (TAP) method: a general procedure of protein complex purification. Methods, 2001. 24(3): p. 218-29.
-
Interactome. Teresa M. Przytycka and Dong-Yeon Cho.