Σώματα κειμένων - greek-language-tools/greek-nlp-notes GitHub Wiki

Σώματα κειμένων (corpora)

Η χρησιμότητα των μεγάλων συλλογών κειμένων (corpora) είναι ένα από τα πιο σημαντικά θέματα που έχει αναδείξει η σύγχρονη γλωσσολογία, υπολογιστική και μη. Ειδικά για την υπολογιστική επεξεργασία φυσικής γλώσσας είναι πάρα πολύ δύσκολο να σημειωθεί ουσιαστική πρόοδος αν δεν υπάρχουν κοινά συμφωνημένα corpora αναφοράς με βάση τα οποία οι διαφορετικοί αλγόριθμοι και τα διάφορα μαθηματικά μοντέλα να μπορούν να αξιολογηθούν και να συγκριθούν. Εδώ θα συζητήσουμε για την κατάσταση που επικρατεί αυτή τη στιγμή με τα Ελληνικά corpora, ποιες δυνατότητες υπάρχουν και πώς μπορεί να υπάρξει πρόοδος, ειδικά από την οπτική γωνία του ΕΛ/ΛΑΚ όπου μας ενδιαφέρουν σχεδόν αποκλειστικά και μόνο corpora με άδειες που να επιτρέπουν την ελεύθερη χρήση και διανομή.