Stemming και Ελληνικά - greek-language-tools/greek-nlp-notes GitHub Wiki

Stemming και Ελληνικά

Η αξία του stemming, αξιολόγηση, αλγόριθμοι stemming για Ελληνικά. Εδώ θα ασχοληθούμε με την κατηγορία των λεγόμενων «αλγοριθμικών στελεχωτών» (algorithmic stemmers) όπως ο αλγόριθμος του porter για τα αγγλικά, οι οποίοι έχουν γενικά πολύ καλή αποδοτικότητα σε πόρους και ταχύτητα σε σχέση με τις μεθόδους που βασίζονται σε λεξικά. Στην πράξη βέβαια η «στελέχωση» βολεύει περισσότερο στην ανάκτηση πληροφορίας και στον αυτόματο εμπλουτισμό μορφολογικών λεξικών, παρά στις πιο «έξυπνες» μορφές επεξεργασίας φυσικής γλώσσας όπου χρησιμοποιούμε πλήρη μορφολογική ανάλυση ή λημματοποίηση.

Αναφορές:

Διπλωματική του Γιώργου Νταή. Ήταν το πρώτο κείμενο που περιείχε αρκετά λεπτομερή περιγραφή ώστε να επιτρέψει ανεξάρτητες υλοποιήσεις. Όλοι οι ΕΛΛΑΚ stemmers για τα Ελληνικά που υπάρχουν αυτή τη στιγμή βασίστηκαν σε αυτό το κείμενο.

Διπλωματική του Σπύρου Σαρούκου με αντικείμενο βελτιώσεις στο stemmer του Νταή.

Άρθρο σχετικά με ένα γενετικό αλγόριθμο για hierarchical stem clustering με στόχο τη βοήθεια στην ανάπτυξη μορφολογικού λεξικού.

Διπλωματική της Βασιλικής Ρουσκοπούλου όπου αναφέρονται μερικές βελτιώσεις στο stemmer Σαρούκου