Δυσκολίες και προκλήσεις - greek-language-tools/greek-nlp-notes GitHub Wiki

Δυσκολίες και προκλήσεις στην ανάπτυξη και εφαρμογή τεχνολογιών επεξεργασίας φυσικής γλώσσας ανοιχτού κώδικα για τη Νέα Ελληνική

Εδώ θα ήταν χρήσιμο να ρίξουμε μια ματιά στο τοπίο που επικρατεί αυτή τη στιγμή σε σχέση με τις γλωσσικές τεχνολογίες και τα Ελληνικά και να αναρωτηθούμε με ειλικρίνεια γιατί δεν έχουμε ακόμα π.χ., σοβαρούς ανοιχτού κώδικα επιμελητές κειμένων για τα Ελληνικά ή π.χ., κάποιο Ελληνικό και ανοιχτού κώδικα αντίστοιχο του Siri, Google Now, Cortana κλπ.

Η προσωπική άποψη του γράφοντος είναι ότι υπάρχει ένας συνδυασμός προκλήσεων, το άθροισμα των οποίων είναι που δυσκολεύει την κατάσταση για τα Ελληνικά σε τέτοιο βαθμό που δεν έχουμε ως τώρα την πρόοδο που θα θέλαμε στο γλωσσικό τομέα. Παρά το γεγονός ότι σε αυτή τη σελίδα εκφράζονται προσωπικές απόψεις, θα χαρώ πολύ να ενσωματώσω διορθώσεις παρανοήσεων ή αντικειμενικά εσφαλμένων αντιλήψεων για το ζήτημα (ο αριθμός των ανθρώπων που γνωρίζει περισσότερα από μένα για τις λεπτομέρειες της Ελληνικής γλώσσας είμαι σίγουρος ότι μετριέται σε εκατομμύρια). Επίσης, με βάση και την προσωπική εμπειρία από άλλους τομείς ανάπτυξης του ΕΛ/ΛΑΚ, προσωπικά πιστεύω βαθύτατα ότι όλες αυτές οι δυσκολίες, όσο κι αν φαντάζουν ανυπέρβλητες, μπορούν εύκολα να ανατραπούν "εν μία νυκτί" αν συμβούν κάποιες μικρές αλλαγές ή (φαινομενικά τυχαία) γεγονότα.

Η έλλειψη κονδυλίων για τη σχετική έρευνα

Μικρή και φτωχή σχετικά αγορά, περιορισμένες κρατικές και Ευρωπαϊκές επενδύσεις κλπ.

Γεγονός είναι ότι στη σημερινή εποχή (όπου πάνω από το 90% των επιστημόνων που υπήρξαν ποτέ στην ιστορία της ανθρωπότητας είναι εν ζωή) η χρήση πακτωλού χρημάτων μπορεί σίγουρα να λύσει σχεδόν οποιοδήποτε πρόβλημα (τουλάχιστον αυτά που δεν είναι άλυτα με βάση τους φυσικούς νόμους αν και το ποια προβλήματα πραγματικά είναι άλυτα με βάση τους φυσικούς νόμους τείνει να επαναπροσδιορίζεται όσο περνά ο καιρός). Είναι απολύτως σίγουρο ότι κάθε προσπάθεια για την εξασφάλιση επιπλέον χρηματοδότησης για τον τομέα της φυσικής γλώσσας δρα συνολικά θετικά ως προς την πρόοδο. Από αυτή τη μεριά ο οδηγός αυτός έχει δίκιο στην τοποθέτησή του.

Από την άλλη μεριά όμως, η απουσία πακτωλού χρημάτων δεν πρέπει να είναι επαρκής ως δικαιολογία για την παρατηρούμενη έλλειψη προόδου, ειδικά όταν φαίνεται να υπάρχουν ακόμα μικρότερες χώρες όπως η Εσθονία με σχετικά μεγαλύτερη πρόοδο σε σχέση με τα Ελληνικά.

Η ανάπτυξη "πίσω από κλειστές πόρτες"

Και ειδικά η έλλειψη ελεύθερα διαθέσιμων και κοινά αποδεκτών εργαλείων ανοιχτού κώδικα και (ακόμα περισσότερο) συνόλων δεδομένων και λεξικών πόρων με ελεύθερη άδεια. Ως χαρακτηριστικό παράδειγμα του πόσο η τωρινή κατάσταση με τα σύνολα δεδομένων αποτελεί τροχοπέδη για την πρόοδο σκεφτείτε μερικά απλά παραδείγματα:

  • Κάποιος που θέλει να φτιάξει ένα πρόγραμμα σχετικό με φυσική γλώσσα, πόσο εφικτό είναι να ασχοληθεί με τα Ελληνικά αν το σύνολο δεδομένων που απαιτείται για να ξεκινήσει κοστίζει 30000 ευρώ και χρειάζεται 1 μήνα για να το παραλάβει; Ποια η πιθανότητα να είναι βιώσιμη μια τέτοια επένδυση στις τωρινές συνθήκες αν υπολογίσουμε και το κόστος των εργατοωρών για την ανάπτυξη του προγράμματος;

  • Ένας «περιστασιακός βοηθός» (occasional contributor) σε ένα έργο ανοιχτού λογισμικού πόσο εφικτό είναι να μπορέσει να συνεισφέρει μια απλή διόρθωση σε ένα αλγόριθμο μηχανικής μάθησης αν προϋπόθεση είναι να πληρώσει π.χ., 50 ευρώ για να βρει το dataset που χρησιμοποιήθηκε ώστε να «εκπαιδευτεί» ο αλγόριθμος αυτός; (Πόσο μάλλον αν πρέπει να περιμένει και τουλάχιστον κάποιες εβδομάδες για να το παραλάβει σε CD από το ταχυδρομείο.)

Η αδυναμία σχηματισμού αρκετά μαζικού consensus ως προς τους αποδεκτούς κανόνες της γλώσσας

Μία πολύ ωραία σχετική συζήτηση βρίσκεται εδώ: b.wki.pe/glossiki_artiotita

Σημειώστε ότι μιλάμε για τη Βικιπαίδεια το περιεχόμενο της οποίας έχει κατεξοχήν πληροφοριακό χαρακτήρα και σίγουρα δεν έχει ως προτεραιότητα π.χ., την τέρψη του αναγνώστη ή τη δημιουργία εντυπώσεων. Επίσης η πραγματικότητα είναι ότι υπάρχουν πολλές «αόρατες πλευρές» στην επιβολή κάποιων γλωσσικών κανόνων για τους συγγραφείς των άρθρων, όπως ακριβώς συμβαίνει και με τη μορφοποίηση του κώδικα για τους προγραμματιστές. Πιθανότατα η μη ύπαρξη εργαλείων που να μπορούν αυτόματα και σχετικά αξιόπιστα να ελέγξουν / επιβάλλουν κάποιους κανόνες δυσχεραίνει αρκετά τη δυνατότητα σχηματισμού consensus σε αυτούς δεδομένου ότι πολύς κόσμος π.χ., δεν έχει διδαχθεί σύγχρονες ιδιοτροπίες όπως ότι το άρθρο «τον» διατηρεί πάντα το τελικό "ν" αλλά όχι το «την» (πόσο μάλλον αν σκεφτεί κανείς ότι αμφιβάλλω αν έχει υπάρξει κάποια αντικειμενικά υποστηρίξιμη αιτιολόγηση για τις αλλαγές αυτές που να περιλαμβάνει συχνότητες εμφάνισης κλπ για να πείσει ότι ο σχετικός περιορισμός της αμφισημίας που μας προσφέρει αυτός ο κανόνας, υπερσκελίζει ξεκάθαρα την ασύμμετρη πλέον αντιμετώπιση για το αρσενικό και θηλυκό άρθρο, καθώς και τις πρόσθετες δυσκολίες που δημιουργεί στην ανάγνωση, π.χ., ότι τώρα πρέπει να λέμε "τον Θανάση" αντί για «το Θανάση» που βολεύει περισσότερο).

Είναι πολύ πιθανό ότι η ύπαρξη εργαλείων αυτόματου ελέγχου για στοιχειώδεις γλωσικούς κανόνες θα μπορούσε να βοηθήσει στην εξασφάλιση μεγαλύτερης ομοιογένειας των κειμένων της Βικιπαίδειας με τον ίδιο τρόπο που εργαλεία όπως οι linters, formatters και scripts τύπου «checkpatch» επιτρέπουν την ομοιογένεια στη μορφοποίηση του κώδικα σε έργα όπως ο πυρήνας του Linux κλπ. (Π.χ., αποφεύγοντας την ανάγκη για μεγάλο αριθμό από τετριμμένες γλωσσικές διορθώσεις εκ των υστέρων και την αύξηση του φόρτου εργασίας που αυτό επιφέρει).

Η εγγενής πολυπλοκότητα της Ελληνικής (και των Ελλήνων)

Ειδικά αν σκεφτούμε εφαρμογές που πρέπει να προσπαθήσουν να βγάλουν χρήσιμα συμπεράσματα από τυχαίο κείμενο στα Ελληνικά που βρίσκουν στο διαδίκτυο είναι πολύ εύκολο να καταλάβει κανείς γιατί το πρόβλημα είναι πραγματικά τόσο δύσκολο:

  • Κάποιοι μιλούν και γράφουν κάποια από τις εκδόσεις της Κοινής Νέας Ελληνικής (Δημοτικής), κάποιοι καθαρεύουσα, κάποιοι Νέα Ελληνική αλλά και πολυτονικό, κάποιοι δεν ξέρουν από πολυτονικό αλλά χρησιμοποιούν αυτόματους πολυτονιστές για κοινωνικοπολιτικούς λόγους.
  • Έχουμε πληθώρα τοπικών διαλέκτων, τεράστιο βαθμό επιρροής από τα Αγγλικά,
  • Greeklish
  • slang
  • η Ελληνική γλώσσα έχει πραγματικά πλούτο δυνατοτήτων ως προς τη λεξιπλασία,
  • Σημαντικός όγκος των γραπτών ειδικά στο διαδίκτυο και τα κοινωνικά μέσα αποσκοπεί περισσότερο στη δημιουργία εντυπώσεων ή τη διασκέδαση παρά στη μεταφορά πληροφορίας οπότε ανθούν τα λογοπαίγνια, τα «τσιτάτα» κλπ.
  • Εκτός από τα «λάθη» που γίνονται επίτηδες για λόγους χιουμοριστικούς ή δημιουργίας εντυπώσεων, γνωρίζουν μεγάλη άνθηση και τα γνήσια ορθογραφικά/γραμματικά/κλπ λάθη ειδικά από δημοσιογράφους, μεταφραστές και άλλους συγγραφείς κειμένων τα οποία εν μέρει οφείλονται στην ανεπαρκή υποστήριξη των επαγγελματιών αυτών από λογισμικό καθώς και στην αφόρητη πίεση χρόνου που δέχονται.
  • Πληθώρα συμβάσεων για θέματα όπως η αναγραφή ημερομηνιών, αριθμών κλπ.
  • Διάφορες νέες τάσεις ως προς τη γραφή της Ελληνικής ειδικά από bloggers (π.χ.,
  • Διάφορες κωδικοποιήσεις του ελληνικού αλφαβήτου βρίσκονται ακόμα σε χρήση (utf-8, ucs16, iso8859-7, windows-1253, cp737 κλπ). Ακόμα και στα πλαίσια του συνόλου Unicode υπάρχουν 2 διαφορετικοί τρόποι αναπαράστασης ενός χαρακτήρα που φέρει π.χ., τόνο (δηλ το "έ" π.χ., μπορεί να αναπαρασταθεί με 2 διαφορετικούς τρόπους, είτε ως ένας εννιαίος χαρακτήρας μαζί με τον τόνο είτε ως σύνθεση 2 διαφορετικών χαρακτήρων («ε» και «τόνος»).

Όλη αυτή η πολυπλοκότητα απαιτεί τεράστιου μεγέθους γλωσσικούς πόρους ή/και τεράστια σύνολα κανόνων για να αντιμετωπιστεί, οπότε σε συνδυασμό με την ανυπαρξία τέτοιων γλωσσικών πόρων (καθώς και χρηματικών πόρων) είναι εύκολο να καταλάβει κανείς γιατί δεν είμαστε στο σημείο που θα θέλαμε ως προς την υποστήριξη των ελληνικών :)