7. Εφαρμογή και αποτελέσματα του συστήματος - Pavlov123/semantic_indexer GitHub Wiki

Παρακάτω παρουσιάζονται τα αποτελέσματα της εφαρμογής του προαναφερθέντος συστήματος για το dataset της dbpedia.


Εικόνα 5. Το σχήμα της βάσης δεδομένων.

Τα αποτελέσματα της ανεύρεσης αποθηκεύονται στην βάση δεδομένων στο παραπάνω σχήμα (εικόνα 5). Στον πίνακα resource αποθηκεύονται οι οντότητες του dataset που εξετάζεται, στον πίνακα endpoint αποθηκεύονται τα url των εξυπηρετητών στα οποία βρέθηκαν σύνδεσμοι, και τέλος στον πίνακα backlink αποθηκεύονται το πλήθος των συνδέσμων κάθε οντότητας ανά εξυπηρετητή ανά κατηγόρημα.

Παραδείγματα εγγραφών.

Πίνακας backlink

  id    | resource_id | endpoint_id |                                predicate        | count
--------+-------------+-------------+-------------------------------------------------+-------
1652105 |      586647 |          19 | http://www.w3.org/2000/01/rdf-schema#label      | 1137
   4491 |        1995 |           4 | http://purl.org/dc/elements/1.1/subject         |  132
   6274 |        4280 |           4 | http://purl.org/dc/elements/1.1/subject         |  145
 203043 |      174112 |          15 | http://www.w3.org/1999/02/22-rdf-syntax-ns#type | 2514

Πίνακας endpoint

 id |                             url
----+--------------------------------------------------------------
  1 | http://biolit.rkbexplorer.com/sparql
  2 | http://data.aalto.fi/sparql
  3 | http://data.nobelprize.org/sparql
  4 | http://era.rkbexplorer.com/sparql/
  5 | http://202.45.139.84:10035/catalogs/fao/repositories/agrovoc

Πίνακας resource

 id |                            uri
----+------------------------------------------------------------
  1 | http://dbpedia.org/resource/Person
  2 | http://dbpedia.org/resource/Author
  3 | http://dbpedia.org/void.ttl#DBpedia
  4 | http://dbpedia.org/resource/Category:Social_responsibility
  5 | http://dbpedia.org/resource/Oyster_Bay%2C_NY
  6 | http://dbpedia.org/resource/Wickenberg%2C_AZ
  7 | http://dbpedia.org/resource/Category:Geodesy
  8 | http://dbpedia.org/ontology/University

Κύρια ερωτήματα που απαντά η βάση δεδομένων

Ο κύριος στόχος της αναζήτησης είναι να μπορεί να δοθεί απάντηση στο ερώτημα που υπάρχουν σχετικές εγγραφές δεδομένης μια οντότητας. Σε όρους της βάσης δεδομένων το παραπάνω ερώτημα εκφράζεται ως εξής.

select distinct(endpoint.url) from backlink
    inner join endpoint on backlink.endpoint_id = endpoint.id
    inner join resource on backlink.resource_id = resource.id
where resource.uri = 'Resource uri';

Το παραπάνω ερώτημα μπορεί να εμπλουτιστεί με την προσθήκη του πλήθους των απομακρυσμένων συνδέσμων ανά εξυπηρετητή.

select endpoint.url, sum(count) from backlink
    inner join endpoint on backlink.endpoint_id = endpoint.id
    inner join resource on backlink.resource_id = resource.id
where resource.uri = 'Resource uri'
group by endpoint.url;

Παράδειγμα αποτελέσματος για την οντότητα 'http://dbpedia.org/resource/Person'.

                    url                     | sum
--------------------------------------------+-----
 http://linkeddata.uriburner.com/sparql     |   2
 http://www.imagesnippets.com/sparql/images |  45
 http://data.open.ac.uk/query               | 181
 http://biolit.rkbexplorer.com/sparql       |   1
 http://factforge.net/sparql                |   1
 http://sparql.yovisto.com/                 |   3
 http://era.rkbexplorer.com/sparql/         |   1
(7 rows)

Όπως φαίνεται από το σχήμα της βάσης διατηρείται και το κατηγόρημα των απομακρυσμένων συνδέσμων. Αυτό επιτρέπει στο χρήστη να επιλέξει και το κατηγόρημα ως αποτέλεσμα, με το παρακάτω ερώτημα.

select endpoint.url, predicate, count from backlink
  inner join endpoint on backlink.endpoint_id = endpoint.id
  inner join resource on backlink.resource_id = resource.id
where resource.uri = 'Resource uri'
order by endpoint.url;

Τα αποτελέσματα για την οντότητα 'http://dbpedia.org/resource.Person' ανά κατηγόρημα.

                    url                     |                    predicate                    | count
--------------------------------------------+-------------------------------------------------+-------
 http://biolit.rkbexplorer.com/sparql       | http://purl.org/dc/terms/subject                |     1
 http://data.open.ac.uk/query               | http://purl.org/dc/elements/1.1/subject         |   179
 http://data.open.ac.uk/query               | http://www.w3.org/1999/02/22-rdf-syntax-ns#type |     1
 http://data.open.ac.uk/query               | http://www.w3.org/2000/01/rdf-schema#label      |     1
 http://era.rkbexplorer.com/sparql/         | http://purl.org/dc/terms/subject                |     1
 http://factforge.net/sparql                | http://www.w3.org/1999/02/22-rdf-syntax-ns#type |     1
 http://linkeddata.uriburner.com/sparql     | http://www.w3.org/1999/02/22-rdf-syntax-ns#type |     2
 http://sparql.yovisto.com/                 | http://dbpedia.org/property/wikilink            |     3
 http://www.imagesnippets.com/sparql/images | https://w3id.org/lio/v1#shows                   |     9
 http://www.imagesnippets.com/sparql/images | http://www.w3.org/2000/01/rdf-schema#label      |     2
 http://www.imagesnippets.com/sparql/images | https://w3id.org/lio/v1#depicts                 |     8
 http://www.imagesnippets.com/sparql/images | http://www.w3.org/1999/02/22-rdf-syntax-ns#type |    23
 http://www.imagesnippets.com/sparql/images | https://w3id.org/lio/v1#hasInBackground         |     2
 http://www.imagesnippets.com/sparql/images | https://w3id.org/lio/v1#looksLike               |     1
(14 rows)

Προφανώς μπορούν να απαντηθούν αντίστροφα ερωτήματα όπως ποιες οντότητες αναφέρονται από ένα συγκεκριμένο απομακρυσμένο εξυπηρετητή.

select resource.uri, sum(count) from backlink
  inner join endpoint on backlink.endpoint_id = endpoint.id
  inner join resource on backlink.resource_id = resource.id
where endpoint.url = 'url'
group by resource.uri order by sum(count) desc;

Οι πρώτες πέντε εγγραφές του αποτελέσματος για τον εξυπηρετητή http://data.open.ac.uk/query.

                            uri                            | count
-----------------------------------------------------------+-------
 http://dbpedia.org/resource/England                       | 13663
 http://dbpedia.org/resource/Open_University               |  8252
 http://dbpedia.org/resource/Website                       |  7842
 http://dbpedia.org/resource/Publishing                    |  7740
 http://dbpedia.org/resource/Hypertext_Transfer_Protocol   |  7298

Δευτερεύοντα ερωτήματα που απαντά η βάση.

Πέρα από τα παραπάνω ερωτήματα η βάση δεδομένων περιέχει αρκετή πληροφορία για τη διασύνδεση του τοπικού συνόλου δεδομένων με το υπόλοιπο σημασιολογικό ιστό. Και λόγο αυτού είναι σε θέση να απαντήσει ερωτήματα όπως ποια είναι η οντότητα με τους περισσότερους απομακρυσμένους συνδέσμους, ποιος απομακρυσμένος εξυπηρετητής έχει τους περισσότερους συνδέσμους και αντίστοιχα ερωτήματα.

Οντότητες με τους περισσότερους συνδέσμους.

select resource.uri, sum(count) from backlink
  inner join resource on backlink.resource_id = resource.id
group by resource_id
order by sum(count) desc;

Αποτέλεσμα

                    uri                      |  count
---------------------------------------------+----------
 http://dbpedia.org/ontology/Place           |  2483619
 http://dbpedia.org/ontology/Person          |  1160524
 http://dbpedia.org/ontology/Agent           |   891168
 http://dbpedia.org/ontology/PopulatedPlace  |   771145
 http://dbpedia.org/ontology/Settlement      |   764307

Τοποθεσίες sparql με τους περισσότερους συνδέσμους.

select endpoint.url, sum(count) from backlink
  inner join endpoint on backlink.endpoint_id = endpoint.id
group by endpoint_url
order by sum(count) desc;

Αποτέλεσμα

                    uri                            |  count
---------------------------------------------------+----------
http://data.utpl.edu.ec/ecuadorresearch/lod/sparql | 23163598
http://sparql.yovisto.com/                         | 19692610
http://serendipity.utpl.edu.ec/lod/sparql          | 16826544
http://lod.sztaki.hu/sparql                        |  7993309
http://visualdataweb.infor.uva.es/sparql           |  1706354

8. Συμπεράσματα και Επόμενα Βήματα

Στις προηγούμενες ενότητες παρουσιάστηκαν το εκτενές μέγεθος του δικτύου των συνδεδεμένων δεδομένων, οι δυσκολίες που παρουσιάζονται λόγο της φύσης και της κατανομής της διασύνδεσης των δεδομένων, διάφορες προσέγγισης για την αντιμετώπιση τους και η υλοποίηση του συστήματος για την αρχικοποίηση του μητρώου δεδομένων.

Μετά από διαδοχικές εκτέλεσης της εφαρμογής βγήκαν τα ακόλουθα συμπεράσματα. Το μεγαλύτερο μέρος των εξυπηρετητών δεν λειτουργούν, Το μεγαλύτερο μέρος των εξυπηρετητών μπορούν να εξετασθούν από το σύστημα σε λιγότερο από 7 ημέρες περίπου το 80%. Η τελευταία πλήρης εκτέλεση του συστήματος κατέληξε σε 126 εξυπηρετητές με 83 εκατομμύρια εγγραφές backlinks σε 28 εκατομμύρια οντότητες της dbpedia.

Τα παραπάνω αποτελέσματα δείχνουν το γεγονός ότι είναι εφικτό για έναν πάροχο ανοιχτών συνδεδεμένων δεδομένων να εξετάσει το σύνολο των δεδομένων που παρέχονται από εξυπηρετητές sparql για backlinks. Καθώς και να αρχικοποιήσει μια εγκατάσταση του μητρώου backlinks με μια σχετικά μικρή επένδυση χρόνου.

Για την πλήρη εκμετάλλευση του συστήματος απαιτείται αρχικά η υλοποίηση των βασικών υπηρεσιών του μητρώου backlinks όπως περιγράφονται στο [9]. Ένας εξυπηρετητής ο οποίος έχει τη δυνατότητα να παρακολουθεί τα ερωτήματα που μεταβάλουν τα περιεχόμενα του συνόλου των εγγράφων και ενημερώνει αντίστοιχους εξυπηρετητές για την δημιουργία backlinks όταν αυτό είναι απαραίτητο. Δεδομένης αυτής της αρχικής υποδομής μπορεί να προστεθεί περαιτέρω αξία στο σύνολο του συστήματος με τον σχεδιασμό και την υλοποίηση περαιτέρω υπηρεσιών που βασίζονται πάνω στα δεδομένα διασύνδεσης που παρέχονται από τα μητρώα backlinks, όπως υπηρεσίες αναζήτησης.

⚠️ **GitHub.com Fallback** ⚠️