Random Forest - Segmentation-Fault-Machine-Learning/Knowledge GitHub Wiki
Introdução
Uma Random Forest é um meta-estimador que adapta uma série de árvores de decisão de classificação em várias sub-amostras do conjunto de dados e usa a média para melhorar a precisão preditiva e o controle de over-fitting. Para entender a Random Forest é interessante antes entender como funcionam as árvores de decisão.
Árvores de Decisão
A árvore de decisão cria modelos de regressão ou classificação sob a forma de uma estrutura de árvore. Ela fragmenta um conjunto de dados em subconjuntos menores e menores, de acordo com os atributos testados. O resultado final é uma árvore com nós de decisão e nós de folha. Um nó de decisão tem dois ou mais ramos, cada um representando valores para o atributo testado. O nó da folha representa uma decisão sobre o alvo numérico. As árvores de decisão podem lidar com dados tanto categóricos como numéricos.
A Random Forest
Conhecendo o conceito de árvores de decisão, o que a Random Forest faz é a utilização de várias árvores e a combinação de suas decisões para fazer as predições. Isto é feito nos seguintes passos:
- Obtém-se N amostras do dado original, onde N é o número de árvores desejadas
- Para cada amostra, é criada uma árvore de classificação ou regressão com as seguintes modificações: Para cada nó, ao invés de escolher o melhor subconjunto em relação a todos os preditores, são escolhidos M preditores randomicamente, e é escolhido o melhor subconjunto em relação a estes preditores escolhidos.
- Por fim, as predições de cada árvore são combinadas através de média
Referências
[1] LIAW, Andy et al. Classification and regression by randomForest. R news, v. 2, n. 3, p. 18-22, 2002.
[2] SAYAD, Saed. Decision Tree - Regression. Disponívem em:http://chem-eng.utoronto.ca/~datamining/dmc/decision_tree_reg.htm. Acesso em 10 de Outubro de 2017.
[3] SCIKIT LEARN. RandomForestRegressor. Dipsponívem em:http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html. Acesso em 10 de Outubro de 2017.