Μηχανική & υποβοηθούμενη μετάφραση (CAT & MT) - greek-language-tools/greek-nlp-notes GitHub Wiki

Υπολογιστικά Υποβοηθούμενη μετάφραση (CAT), Μηχανική μετάφραση (MT) και Νέα Ελληνικά

Ίσως είναι καλύτερο αντί να σκεφτόμαστε ξεχωριστά τις περιπτώσεις μηχανικής και μηχανικά υποβοηθούμενης μετάφρασης, να τα σκεφτούμε ως μια ενιαία περιοχή σε συνδυασμό μια και αυτός είναι ο τρόπος που τείνουν να χρησιμοποιούνται από τους μεταφραστές στην πράξη. Υπάρχουν αρκετά ενδιαφέροντα θέματα στον τομέα της μηχανικής μετάφρασης που παραμένουν ακόμα «άλυτα» (με την έννοια ότι δεν υπάρχει τουλάχιστον στο βαθμό που γνωρίζει ο γράφων έτοιμο ΕΛ/ΛΑΚ που τα λύνει), π.χ.,:

  • Πώς μπορούμε να πετύχουμε υψηλής ποιότητας επιλογή και «ευθυγραμμισμό» σε επίπεδο πρότασης ξεκινώντας από παράλληλα, αλλά ακόμα καλύτερα από απλά παρόμοια κείμενα (comparable documents);

  • Τεχνικές «αυτόματης εκμάθησης γραμματικών» (grammar induction) ή καλύτερα αυτόματου εμπλουτισμού της ήδη υπάρχουσας γραμματικής γνώσης για μια καινούργια γλώσσα.

  • Τρόποι συνδυασμού κανόνων και απλών στατιστικών μοντέλων για υβριδικά συστήματα μετάφρασης.

  • Πώς μπορούμε να προσθέσουμε σημασιολογική γνώση για την αύξηση της ακρίβειας της μηχανικής μετάφρασης (τόσο σημασιολογική γνώση που εξάγουμε από τα ίδια τα κείμενα όσο και "commonsense" γνώση από μεγάλες δημόσιες βάσεις γνώσεων)

  • Πώς μπορούμε να κωδικοποιήσουμε αποδοτικά και να επιλύσουμε τυχόν επιπλέον περιορισμούς που πρέπει να ικανοποιεί μία μετάφραση (π.χ., ομοιοκαταληξία).

Ειδικά για τα Ελληνικά τώρα, ορισμένα θέματα που προκύπτουν είναι:

  • Στα Ελληνικά τα ουσιαστικά έχουν γένος, στα Αγγλικά όχι, συνήθως τα συστήματα μηχανικής μετάφρασης δεν καταφέρνουν να μαντέψουν σωστά το γραμματικό γένος όταν μεταφράζουν από Αγγλικά σε Ελληνικά. Αντίστοιχα συμβαίνει και πιο γενικά με τις πτώσεις π.χ., των ουσιαστικών.

  • Μεγάλο πρόβλημα στη μηχανική μετάφραση είναι συνήθως και τα κύρια ονόματα/επίθετα, ειδικά όταν αντιστοιχούν σε λέξεις π.χ., "Παπουτσής", "Τσαγκάρης" κλπ, πολλές φορές μεταφράζονται αντί απλά να μεταγραφούν. Π.χ., αντί για "Παπουτσής" -> Papoutsis λαμβάνουμε Παπουτσής -> shoemaker.

  • Η αυτόματη φωνητική μεταγραφή (transliteration) είναι και αυτή ενδιαφέρουσα.

  • Αρκετοί όροι των αγγλικών έχουν μόνο περιφραστική απόδοση στα Ελληνικά και αντίστροφα.

  • Αντιμετώπιση των προβλημάτων της πολυσημίας και της ασάφειας των λέξεων.

  • Αξιοποίηση των μεγάλων βάσεων γνώσεων (commonsense) που υπάρχουν στα Αγγλικά για την ανάλυση κειμένου στα Ελληνικά.

Σώματα κειμένων και γλωσσικοί πόροι για ανάπτυξη λύσεων μηχανικής μετάφρασης

Σε αυτό τον τομέα είμαστε σε κάπως καλό επίπεδο, υπάρχουν π.χ., αρκετά παράλληλα και συγκρίσιμα σώματα κειμένων που περιλαμβάνουν και Ελληνικά στο OPUS. (π.χ., το corpus από το Ευρωπαϊκό κοινοβούλιο).

Αυτό που κυρίως λείπει από τη μετάφραση είναι ελεύθεροι γλωσσικοί πόροι όπως μεγάλα λεξικά ορολογίας, μορφολογικά λεξικά κλπ.

Για τα Ελληνικά υπάρχει ένα μορφολογικό λεξικό σε εμβρυακό στάδιο ως μέρος του συστήματος apertium.