Σύνολα χαρακτήρων και κωδικοποιήσεις - greek-language-tools/greek-nlp-notes GitHub Wiki

Σύνολα χαρακτήρων και κωδικοποιήσεις ελληνικών

Εδώ θα μιλήσουμε για Unicode, UTF-8, αλλά και τις παλαιότερες / 8-bit κωδικοποιήσεις των Ελληνικών όπως η ISO-8859-7 και τις πρακτικές συνέπειες όλων αυτών στην αποδοτική αναπαράσταση των δεδομένων αλλά και σε αλγορίθμους επεξεργασίας (ταξινόμηση, δεικτοθέτηση/indexing κλπ) καθώς και ενδιαφέροντα προβλήματα που προκύπτουν κατά καιρούς.