Stemming - Segmentation-Fault-Machine-Learning/Knowledge GitHub Wiki

Stemming

Stemming é o processo de transformação de uma palavra para sua versão 'raíz', ou seja, o processo de stemming utiliza um algoritmo que remove os principais sufixos do idioma 1. A técnica de stemming, também é conhecida por ser uma forma de normalização que tenta extrair a forma normal de uma palavra. 1 Por exemplo:

1. Considere as palavras: 'Carefully', 'Cared', 'Cares', 'Caringly'.

2. Nesse caso, o algoritmo remove todos os sufixos da língua inglesa. ('fully','es','ed','s' etc..)
 
3. O retorno para todas as palavras descritas no item 1, seria a palavra 'care', que seria então, a versão raíz de todas as expressões citadas no item 1.

Utilizar a técnica de stemming pode auxiliar a criação de modelos mais compactos, otimizando a performance do processamento de texto. 2.

Bibliografia

[1] - Mastering Machine Learning With Python in six steps - (Manohar Swamynathan - Apress, 2017)

[2] - Introduction to Machine Learning with Python_ A Guide for Data Scientists - (Andreas C. Muller & Sarah Guido, O'Reilly Media, 2016)