Συντακτική Ανάλυση - greek-language-tools/greek-nlp-notes GitHub Wiki

Συντακτική Ανάλυση (parsing) για τα Νέα Ελληνικά

Η Ελληνική γλώσσα παρουσιάζει ενδιαφέρον ως προς τη συντακτική ανάλυση και τη δημιουργία γλωσσικών μοντέλων μεταξύ άλλων λόγω της σχετικά ελεύθερης σειράς των λέξεων (υποκείμενο, ρήμα, αντικείμενο, κατηγορούμενο κλπ) σε μια πρόταση π.χ.,

  • Ο Γιώργος έδωσε στο Γιάννη το μήλο
  • Στο Γιάννη έδωσε ο Γιώργος το μήλο
  • Το μήλο έδωσε ο Γιάννης στο Γιώργο
  • Έδωσε το μήλο ο Γιάννης στο Γιώργο

Καμία από τις παραπάνω προτάσεις δεν είναι γραμματικά εσφαλμένη και το νόημα είναι ουσιαστικά το ίδιο, με μόνη διαφορά το πού δίνεται η έμφαση. Αυτό δυσκολεύει τη χρήση μοντέλων που βασίζονται στη σειρά των λέξεων (π.χ., n-grams ειδικά για n>2) για την περιγραφή των Ελληνικών.

Παρακάτω θα μιλήσουμε για θεωρίες συντακτικής ανάλυσης (γραμματικές) καθώς και στατιστικά γλωσσικά μοντέλα που έχουν εφαρμοστεί στα Ελληνικά. Τουλάχιστον στο βαθμό που γνωρίζει ο γράφων δεν υπάρχει αυτή τη στιγμή κάποιος ευρείας κάλυψης ΕΛ/ΛΑΚ συντακτικός αναλυτής (parser) για τα Νέα Ελληνικά. Ελπίζω οι πληροφορίες αυτής της σελίδας να συμβάλλουν έστω και ελάχιστα στη δημιουργία τέτοιων parsers.

Αναφορές

Διπλωματική του Πέτρου Σπαχού για Συντακτικό Αναλυτή της Ελληνικής

Διδακτορική Διατριβή της Κάτιας Λίδας Κερμανίδου για αυτόματη εκμάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών για την Ελληνική Γλώσσα

Βιβλιογραφία για συντακτικούς αναλυτές της Ελληνικής

Δείγμα της Ελληνικής dependency treebank από το ΙΕΛ.

Δημοσίευση για την αυτόματη εκμάθηση ρηχών εξαρτήσεων σε Ελληνικά κείμενα.