Tokenization - greek-language-tools/greek-nlp-notes GitHub Wiki

Αυτόματος χωρισμός σε λέξεις και προτάσεις

Ένα από τα πρώτα βήματα στην επεξεργασία ενός σώματος κειμένου είναι ο χωρισμός σε λεκτικά (tokens) και προτάσεις (sentences). Στη θεωρία αυτό θα έπρεπε να είναι μια σχετικά εύκολη διαδικασία για τα Ελληνικά δεδομένου ότι είναι μια γλώσσα όπου οι λέξεις συνήθως χωρίζονται με κενά και οι προτάσεις χωρίζονται με σημεία στίξης όπως τελεία (.), ερωτηματικό (;) και θαυμαστικό (!). Η πραγματικότητα φυσικά είναι αρκετά πιο ενδιαφέρουσα. Εδώ θα μιλήσουμε για προβλήματα που παρουσιάζονται στην πράξη και πώς μπορούν να ξεπεραστούν.

Εδώ θα μας απασχολήσουν και θέματα όπως ο χειρισμός:

Ημερομηνιών
Αριθμών
Χρηματικών ποσών
URLs
Διευθύνσεων email

τα οποία εμφανίζονται πολύ συχνά σε κείμενα στον πραγματικό κόσμο.