Συλλαβισμός και Υφένωση (hyphenation) - greek-language-tools/greek-nlp-notes GitHub Wiki

Η λεγόμενη «υφένωση» (ελληνική απόδοση του όρου hyphenation από το περιοδικό «εύτυπον» της Ελληνικής κοινότητας του TeX) είναι η τυπογραφική λειτουργία σύμφωνα με την οποία ο υπολογιστής μπορεί αυτόματα να χωρίσει λέξεις στο τέλος μιας γραμμής με παύλες, προκειμένου το μή* κος των γραμμών σε χαρακτήρες να διατηρείται σχετικά ομοιόμορφο. Ο συλλαβισμός (syllabification) αφορά τον αυτόματο χωρισμό των λέξεων σε συλλαβές. Εδώ θα μιλήσουμε για τις λεπτές διαφορές μεταξύ των δύο αυτών λειτουργιών καθώς και τις πρακτικές δυσκολίες στην υλοποίηση ενός υψηλής ποιότητας συλλαβιστή για τα Ελληνικά και τους τρόπους αντιμετώπισής τους.

Ορισμένες ενδιαφέρουσες λέξεις ως προς το συλλαβισμό:

  • γάιδαρος (4 συλλαβές ή 3; Παραβαίνει τον κανόνα ότι οι ελληνικές λέξεις δεν τονίζονται πριν την προπαραλήγυσα συλλαβή;)
  • άγγελος αλλά και συγγνώμη (χωρισμός όμοιων συμφώνων)

Αναφορές

Σύστημα βασισμένο σε κανόνες για τα Ελληνικά (χρησιμοποιείται στο MS Office)

Τεκμηρίωση των Ελληνικών κανόνων για υφένωση στο TeX, του Δημήτρη Φιλίππου

Τεκμηρίωση του αλγορίθμου υφένωσης του hunspell (που χρησιμοποιεί το Libreoffice). Εστιάζει σε μη-τυπικά φαινόμενα υφένωσης π.χ., Μαΐου -> Μα-ίου

Tutorial για το Patgen2 (γεννήτρια μοτίβων υφένωσης του LaTeX) από το Γιάννη Χαραλάμπους

Τεκμηρίωση του πακέτου hyph-utf8 του TeX που περιέχει πλέον τα μοτίβα υφένωσης όλων των γλωσσών σε utf-8.

Σύστημα της Neurosoft (εστιάζει στο φαινόμενο της «συνίζησης»)