POS Tagging - greek-language-tools/greek-nlp-notes GitHub Wiki

Υπολογιστική επισήμανση μερών του λόγου (POS Tagging) σε Ελληνικά κείμενα

Εδώ θα μιλήσουμε για θέματα που έχουν να κάνουν με την αυτόματη επισήμανση των μερών του λόγου σε προτάσεις γραμμένες στη Νέα Ελληνική. Η λειτουργία αυτή (στο βαθμό που μπορεί να συντελεστεί με μεγάλη ακρίβεια) αποτελεί ένα χρήσιμο βήμα για πολλές άλλες εργασίες όπως συντακτική ανάλυση (parsing), αυτόματη επιμέλεια (proofreading), μετατροπή κειμένου σε φωνή (text to speech), αυτόματη εκμάθηση γραμματικής (grammar induction) και άλλες.

Αντίθετα με γλώσσες με απλή μορφολογία όπως η Αγγλική που παρουσιάζουν μεγάλο βαθμό αμφισημίας ως προς το μέρος του λόγου μιας λέξης (π.χ., λέξεις όπως "dog"/σκύλος αλλά και κυνηγάω, "book"/βιβλίο αλλά και «κάνω κράτηση π.χ., εισιτηρίου») στα Ελληνικά η «μορφολογική» αυτή αμφισημία είναι γενικά μικρή και περιορίζεται σε ορισμένους λεκτικούς τύπους («λεξήματα») αλλά όχι τόσο σε λήμματα λεξικού. (Π.χ., "οι λύσεις"/ουσιαστικό πληθυντικός και "θα λύσεις"/ρήμα δεύτερο πρόσωπο ενικού, αλλά τα αντίστοιχα λήμματα «λύνω» και «λύση» δεν παρουσιάζουν ασάφεια).

Στα Ελληνικά οι πιο ενδιαφέρουσες πηγές αμφισημίας ως προς το μέρος του λόγου είναι πιθανότατα στις μονοσύλλαβες λέξεις, ειδικά αν λάβουμε υπόψιν μας κείμενα χωρίς τόνους ή χωρίς ιδιαίτερη προσοχή στη χρήση των τόνων. Π.χ., το άρθρο «η» σε σχέση με το διαζευκτικό «ή», το άρθρο «του» σε σχέση με τη σύντομη μορφή της αναφορικής αντωνυμίας αυτού/του κλπ. Επίσης, τα ουσιαστικά τείνουν να μοιάζουν σε μεγάλο βαθμό μορφολογικά με τα επίθετα, ειδικά όταν ο POS Tagger δεν περιλαμβάνει λεξικό ή για λέξεις εκτός του λεξικού.