4. Τα συνδεδεμένα δεδομένα σήμερα - Pavlov123/semantic_indexer GitHub Wiki

4.1 Το μέγεθος του σημασιολογικού ιστού

Το datahub.io είναι ένα ευρετήριο ανοιχτών συνδεδεμένων δεδομένων όπου δημοσιεύονται τοποθεσίες datasets από τους εκδότες τους. Το datahub.io κατά τη συγγραφή της εργασίας παρέχει πληροφορίες για 10.912 datasets εκ των οποίων μόλις 550 παρέχονται μέσω sparql όπως θα δούμε αργότερα ακόμα λιγότερα από αυτά είναι ενεργά.

Μία πιο εκτενής εικόνα για την κατάσταση των ανοιχτών συνδεδεμένων δεδομένων είναι διαθέσιμη στο http://stats.lod2.eu[2].

Το stats.lod2.eu είναι μέρος του προγράμματος lod2 συγχρηματοδοτούμενου από την ευρωπαϊκή επιτροπή, με στόχο την στατιστική ανάλυση των datasets που αναφέρονται από υπηρεσίες ευρετηρίασης μεταξύ των οποίων είναι και το datahub.io.

Συνοπτικά το stats.lod2.eu κατά τη συγγραφή της εργασίας αναφέρει ότι:

  1. Υπάρχουν 9960 datasets εκ των οποίων τα 544 είναι διαθέσιμα μέσω sparql.

  2. Τα 7203 εμφανίζουν κάποιου είδους λάθος.

  3. Στα 145 datasets που είναι διαθέσιμα μέσω sparql και δεν εμφανίζουν λάθη υπάρχουν περισσότερες από 130 δισεκατομμύρια εγγραφές.

Οι παραπάνω αριθμοί αποτελούν παράδειγμα του προβλήματος των σημερινών ευρετηρίων ανοιχτών δεδομένων, το οποίο είναι ότι ένα πολύ μεγάλο ποσοστό των datasets εμφανίζουν τεχνικά προβλήματα, απαιτούν ταυτοποίηση του χρήστη, δεν χρησιμοποιούν πλέον τις τοποθεσίες που έχουν αναφέρει στα ευρετήρια ή δεν λειτουργούν καθόλου.

4.2 Τα χαρακτηριστικά του γράφου των ανοιχτών συνδεδεμένων δεδομένων

Τον Αύγουστο του 2014 οι Max Schmachtenberg, Christian Bizer, και Heiko Paulheim[7] προέβησαν σε μια ανάλυση των ανοιχτών συνδεδεμένων δεδομένων. Σε αυτήν την ανάλυση βρήκαν ότι η πλειονότητα των datasets είναι ελαφρώς συνδεδεμένη με τον υπόλοιπο σημασιολογικό ιστό, ενώ ταυτόχρονα οι διασυνδέσεις είναι κυρίως γύρω από ένα σχετικά μικρό αριθμό datasets, όπως φαίνεται και παρακάτω.

Εικόνα 1. Η διασύνδεση των ανοιχτών συνδεδεμένων δεδομένων τον Αύγουστο του 2014. πηγή: [7]. Η εικόνα σε πλήρες μέγεθος http://lod-cloud.net/versions/2014-08-30/lod-cloud_colored.png

Στο παραπάνω γράφημα(εικόνα 1) φαίνεται το σύνολο, και η διασύνδεση των datasets των συνδεδεμένων δεδομένων των Αύγουστο του 2014. Τα διαφορετικά χρώματα αντιστοιχούν σε διαφορετικές κατηγορίες δεδομένων, ενώ τα βέλη σε συνδέσμους ανάμεσα στα datasets. Το μέγεθος των datasets εκφράζει το πλήθος των εγγράφων του dataset. Το συμπέρασμα της μελέτης φαίνεται και στο γράφημα το μεγαλύτερο μέρος των συνδέσεων είναι γύρω από έναν μικρό αριθμό μεγάλων datasets.

Στην επόμενη ενότητα θα εξεταστούν οι δυσκολίες που παρουσιάζονται με την σημερινή κατάσταση της διασύνδεσης των ανοιχτών συνδεδεμένων δεδομένων.

⚠️ **GitHub.com Fallback** ⚠️