Το ότι το Web είναι απέραντο το γνωρίζουμε όλοι. Ωστόσο, καθημερινά ζούμε με την ιδέα ότι με την εμπειρία μας και με τη βοήθεια των μηχανών αναζήτησης ή ? σπανιότερα ? των δικτυακών πυλών θα καταφέρουμε να ανακαλύψουμε τις πληροφορίες που μας ενδιαφέρουν μέσα σε αυτή τη χαοτική απεραντοσύνη. Δυστυχώς, όμως, η ιδέα αυτή είναι απατηλή. Στην πραγματικότητα το μεγαλύτερο μέρος του Web βρίσκεται έξω από την εμβέλεια ακόμη και της πανίσχυρης Google και για τους περισσότερους από εμάς είναι σαν να μην υπάρχει. Σαν το ψάρεμα στην επιφάνεια της θάλασσας, που αφήνει ανεκμετάλλευτο τον πλούτο που υπάρχει στα βάθη της, η τυπική αναζήτηση περιορίζεται ακόμη και σήμερα από τεχνικά και άλλα φράγματα σε ένα υποσύνολο του Web, το λεγόμενο «Επιφανειακό Ιστό» (Surface Web), αυτόν με τον οποίο συνήθως ερχόμαστε σε επαφή στο καθημερινό μας σερφάρισμα. Υπάρχει όμως και ένας μεγαλύτερος και πιο περίπλοκος «Βαθύς Ιστός» (Deep Web), ο οποίος χωρίς συστηματική αναζήτηση μένει σε μεγάλο βαθμό αναξιοποίητος, αν και περιέχει πολλές από τις πιο αξιόπιστες και συνεπώς πολύτιμες πληροφορίες που μπορούμε να βρούμε στο Διαδίκτυο. Αν και όχι αποκλειστικά, ο Βαθύς Ιστός έχει κυρίως να κάνει με online βάσεις δεδομένων, των οποίων το περιεχόμενο παίρνει τη γνώριμη μορφή μιας ιστοσελίδας με δυναμικό τρόπο, όταν εμείς το ζητήσουμε (on-the-fly), συμπληρώνοντας, για παράδειγμα, κάποιο ερώτημα (query). Σε αυτό το περιεχόμενο συνήθως έχουμε πρόσβαση μέσα από την εσωτερική μηχανή αναζήτησης που διαθέτει ο συγκεκριμένος δικτυακός τόπος και όχι μέσα από τις γνωστές μηχανές αναζήτησης που παραδοσιακά δεν μπορούν να προσπελάσουν άμεσα πληροφορίες που «κρύβονται» πίσω από passwords, logins, queries ή άλλα «εμπόδια». Σε αυτή την κατηγορία εμπίπτει ένας τεράστιος όγκος περιεχομένου με πολυποίκιλο χαρακτήρα: δημόσια έγγραφα, επιστημονικές εργασίες, ιατρικές και νομικές πληροφορίες, δεδομένα δορυφόρων, αρχεία ήχου, εικόνας και video, ψηφιοποιημένα βιβλία και βιβλιογραφίες, κατάλογοι προϊόντων, αγγελιών ή υπηρεσιών, αλλά και κατάλογοι βιβλιοθηκών, συλλογών ή μουσείων. Ένα ποσοστό αυτού του περιεχομένου είναι διαθέσιμο επί πληρωμή ή σε περιορισμένο αριθμό χρηστών (π.χ. η ηλεκτρονική βιβλιοθήκη ενός πανεπιστημίου). Ωστόσο, το μεγαλύτερο τμήμα του διατίθεται δωρεάν και χωρίς περιορισμούς, αρκεί κανείς να γνωρίζει την ύπαρξή του και τον τρόπο για να οδηγηθεί σε αυτό.
Υπόγεια αλλαγή. Για να κατανοήσουμε πως περιήλθαμε σε αυτή την άβολη κατάσταση, θα πρέπει να ανατρέξουμε στα μέσα της δεκαετίας του ?90, λίγο μετά τη γέννηση του Web, όταν αυτό άρχισε να αποκτά μια «κρίσιμη μάζα» και να γίνεται δημοφιλές. Εκείνη την εποχή οι δικτυακοί τόποι ήταν σχετικά ολιγάριθμοι, μικροί και απλοί στη δομή τους. Περιείχαν μερικές δεκάδες ή εκατοντάδες σελίδες, οπότε ήταν εύκολο αυτές να έχουν τη μορφή στατικών σελίδων που συνδέονταν μεταξύ τους με σταθερούς συνδέσμους (links). Οι παραδοσιακές μηχανές αναζήτησης ? τόσο οι παλαιότερες, όπως ο Lycos ή η Altavista, όσο και οι μεταγενέστερες, όπως η Google ? ουσιαστικά δημιουργήθηκαν για να αντεπεξέλθουν σε ένα τέτοιο περιβάλλον. Η βασική λογική τους είναι απλή: Επιστρατεύοντας αυτοματοποιημένα προγράμματα, γνωστά ως spiders (ή crawlers ή robots ή πιο απλά bots), ξεκινούν από κάποιες αρχικές ιστοσελίδες και στη συνέχεια σαρώνουν το web ακολουθώντας κάθε σύνδεσμο που θα βρουν. Όταν εντοπιστεί μια ιστοσελίδα, η μηχανή τη «διαβάζει», συλλέγει πληροφορίες γι? αυτή και στο τέλος την αρχειοθετεί σε μια τεράστια βάση δεδομένων που ανανεώνεται σε τακτά χρονικά διαστήματα και ουσιαστικά περιέχει ένα αντίγραφο από κάθε σελίδα που έχει εντοπίσει ο spider. Όταν εμείς ζητάμε από τη μηχανή να κάνει μια αναζήτηση, αυτή ουσιαστικά ψάχνει τη δική της βάση δεδομένων και όχι το ίδιο το Web σε πραγματικό χρόνο.
Αυτή η μέθοδος, βέβαια, λειτουργεί εξαιρετικά αποτελεσματικά σε ένα περιβάλλον με στατικές σελίδες. Ωστόσο, σε ελάχιστο χρονικό διάστημα το Web γνώρισε μια ποσοτική αλλά και ποιοτική αλλαγή, καθώς ο αριθμός των δικτυακών τόπων και παράλληλα ο όγκος του περιεχομένου αυξανόταν εκθετικά. Το δεύτερο ήμισυ της δεκαετίας του ?90 ήταν η εποχή που σημαδεύτηκε από την εμφάνιση του ηλεκτρονικού εμπορίου, των βάσεων δεδομένων και άλλων σχετικών τεχνολογιών (π.χ., τεχνολογίες δυναμικού περιεχομένου, όπως η ASP, η PHP ή η ColdFusion). Όσοι διέθεταν ή παρήγαγαν μεγάλο όγκο περιεχομένου ? μεγάλες εταιρείες, δημόσιοι οργανισμοί, εκπαιδευτικά ιδρύματα ? εγκατέλειψαν τη δομή με τις στατικές ιστοσελίδες και ? τόσο για πρακτικούς λόγους όσο και για οικονομικούς ? υιοθέτησαν την αρχιτεκτονική των βάσεων δεδομένων και της δυναμικής ανάσυρσης και παρουσίασης της πληροφορίας. Ήταν όμως μια υπόγεια, σταδιακή αλλαγή, όχι εύκολα ορατή στους περισσότερους από εμάς, παρά μόνο στις κραυγαλέες περιπτώσεις, όπως είναι η αναζήτηση κάποιου προϊόντος στον κατάλογο ενός ηλεκτρονικού καταστήματος. Εξίσου δυσδιάκριτο ήταν το ότι η αλλαγή αυτή ξεπέρασε τις γνωστές μηχανές αναζήτησης, καθώς η νέα προσέγγιση με το στιγμιαία παραγόμενο περιεχόμενο ήταν πολύ «εξωτική» για την τεχνολογία τους. Με απλά λόγια, χωρίς σταθερούς συνδέσμους δεν μπορούσαν να σαρώσουν αποτελεσματικά το περιεχόμενο των βάσεων δεδομένων.
Το πρόβλημα πήρε τις μεγαλύτερες διαστάσεις του στις αρχές της τρέχουσας δεκαετίας. Κάποιες εκτιμήσεις τότε υποστήριζαν ότι το περιεχόμενο του Βαθέους Ιστού ήταν περίπου 500 φορές μεγαλύτερο από τον κατάλογο του Google, που εκείνη την εποχή περιλάμβανε γύρω σε ένα δισεκατομμύριο σελίδες! Αν και ποτέ κανείς δε μπορεί να είναι σίγουρος με τους αριθμούς στο Web, το βέβαιο είναι ότι από τότε το χάσμα αυτό έχει μικρύνει σημαντικά και σε πολλές περιπτώσεις τα όρια μεταξύ Επιφανειακού και Βαθέους Ιστού έχουν γίνει δυσδιάκριτα, καθώς όλες οι γνωστές μηχανές αναζήτησης πασχίζουν καθημερινά να βρουν τρόπους διείσδυσης στον τελευταίο. Ένα γνωστό σε όλους δείγμα αυτής της προσπάθειας είναι το γεγονός ότι σήμερα περιλαμβάνουν και τύπους αρχείων που παλαιότερα δεν «διάβαζαν», όπως .pdf, .doc, ή .ps (postscript), τα οποία τότε αποτελούσαν μια υποκατηγορία του Βαθέους Ιστού. Παράλληλα, η Google, η Microsoft και άλλες μεγάλες εταιρείες έχουν ρίξει κάποια άλλα φράγματα με ειδικούς δικτυακούς τόπους, όπως το Google Scholar (http://scholar.google.com) ή το Live Search Academic (http://academic.live.com), οι οποίοι, σε συνεργασία συνήθως με εκδότες και βιβλιοθήκες, επιτρέπουν τουλάχιστον την αναζήτηση και σε ορισμένες περιπτώσεις και την πρόσβαση σε ένα κομμάτι της βιβλιογραφίας, που επίσης κάποτε ανήκε στο Βαθύ Ιστό. Ένα σημαντικό τμήμα του τελευταίου, τέλος, έχει αποκαλυφθεί με πρωτοβουλία είτε των υπευθύνων σχετικών δικτυακών τόπων είτε των επισκεπτών τους, οι οποίοι διευκολύνουν το έργο των μηχανών αναζήτησης παραθέτοντας τις δυναμικές διευθύνσεις (URL) ορισμένων ή και όλων των περιεχομένων μιας βάσης δεδομένων σε κάποια στατική σελίδα, πρακτική που επιτρέπει στη μηχανή αναζήτησης να τα ανακαλύψει και να τα καταλογογραφήσει.
Πάντως, παρ? όλες τις προσπάθειες, το πρόβλημα του Βαθέος Ιστού παραμένει και δεν περιορίζεται μόνο στις ποικίλες βάσεις δεδομένων. Για παράδειγμα, σε αυτόν περιλαμβάνεται επίσης ένας μεγάλος αριθμός ιστοσελίδων, τις οποίες οι ιδιοκτήτες των κατά τα άλλα ανοιχτών δικτυακών τόπων κρατούν σκόπιμα κρυφές. Ο πιο συνηθισμένος τρόπος για να γίνει κάτι τέτοιο είναι η ύπαρξη ενός αρχείου «robots.txt» σε ένα δικτυακό τόπο, το οποίο καθοδηγεί τις μηχανές αναζήτησης να αγνοήσουν κάποια αρχεία ή και ολόκληρους καταλόγους. (Τελευταία μάλιστα έχει δημιουργηθεί σχετικό θέμα, καθώς οι μεγάλοι ειδησεογραφικοί οργανισμοί θέλουν να διευρύνουν το συγκεκριμένο πρωτόκολλο για να έχουν μεγαλύτερο έλεγχο στη χρήση του περιεχομένου τους?)
Στην ευρύτερη κατηγορία των κρυφών σελίδων θα πρέπει να περιλάβουμε και τις στατικές ιστοσελίδες που ? είτε ηθελημένα είτε όχι ? δεν συνδέονται με συνδέσμους με τον υπόλοιπο ιστό και είναι προσβάσιμες μόνο σε εκείνους που γνωρίζουν τη διεύθυνσή τους. Επίσης, οι μηχανές αναζήτησης δεν συμπαθούν ιδιαίτερα τις τόσο δημοφιλείς σε πολλούς τεχνολογίες Flash και AJAX καθώς καθιστούν δύσκολη ή και αδύνατη τη σάρωση ενός δικτυακού τόπου, αν δεν υλοποιηθούν σωστά. (Από αυτή την άποψη, ο χρυσός κανόνας παραμένει: Εμπλουτίστε το δικτυακό σας τόπο με αυτές τις τεχνολογίες, ωστόσο βασιστείτε στην παλιά καλή HTML για την πλοήγηση σε αυτόν και για τη δημοσιοποίηση του περιεχομένου που θεωρείτε κρίσιμο?)
Πρόσφατες εκτιμήσεις δείχνουν ότι το μέγεθος του Βαθέος Ιστού εξακολουθεί να ξεπερνά αυτό του Επιφανειακού, ίσως και με μια σχέση 50 προς 1. Αν σκεφτούμε ότι οι ιστοσελίδες που έχουν καταλογογραφηθεί από τις μηχανές αναζήτησης υπολογίζονται γύρω στα 20 με 30 δισεκατομμύρια, η διαφορά αυτή γίνεται ακόμη πιο εντυπωσιακή. Ωστόσο, το όλο ζήτημα δεν έχει μόνο ποσοτική διάσταση. Με σημαντικό κομμάτι του να προέρχεται από αξιόπιστες πηγές ? δημόσιους οργανισμούς, επιστημονική κοινότητα, βιβλιοθήκες κ.α. -, ο Βαθύς Ιστός απευθύνεται κυρίως στους πιο απαιτητικούς χρήστες, που είναι διατεθειμένοι να αφιερώσουν περισσότερο χρόνο στην αναζήτηση για να έχουν όσο το δυνατόν πιο έγκυρη πληροφόρηση. Επιπλέον σε αντίθεση με τις «χύμα» πληροφορίες πολλών δικτυακών τόπων, ο Βαθύς Ιστός περιέχει σε μεγάλο βαθμό δομημένη πληροφορία, που συνοδεύεται συνήθως από πολύτιμα Metadata. Γι? αυτό, αποτελεί ιδανική «πρώτη ύλη» για το Σημασιολογικό Ιστό (Semantic Web), την πολυσυζητημένη «νοήμονα» μετενσάρκωση του Παγκόσμιου Ιστού, στην οποία η πληροφορία δεν θα είναι κατανοητή μόνο από τους ανθρώπους αλλά και από τους υπολογιστές?
«Κατάδυση» στο Βαθύ Ιστό. Το ότι ο Ιστός έχει και «βαθιά νερά» δεν σημαίνει πάντως ότι δεν μπορούμε να «ψαρέψουμε» σε αυτά ή τουλάχιστον σε κάποια από αυτά. Αντίθετα, μάλιστα, η έρευνα στο Βαθύ Ιστό είναι επιβεβλημένη σε μια διεξοδική αναζήτηση, ιδιαίτερα αν ζητάμε κάτι εξειδικευμένο, όπως υλικό για μια επιστημονική εργασία ή αρχειακό υλικό. Ο πιο απλός τρόπος για να επιχειρήσουμε την είσοδό μας στο Βαθύ Ιστό είναι να περιλάβουμε τη λέξη «database» στους όρους της αναζήτησής μας στο Google ή σε κάποια άλλη μηχανή: π.χ. «medical plants database». Αν μη τι άλλο, μια τέτοια αναζήτηση είναι πολύ πιθανόν να φέρει στις αρχικές θέσεις των αποτελεσμάτων πιο εξειδικευμένους ? και πιθανώς πιο σχετικούς με την αναζήτησή μας ? δικτυακούς τόπους, απαλλάσσοντάς μας από την ανάγκη να «φυλλομετρήσουμε» κατεβατά από σελίδες αποτελεσμάτων. Δεν πρέπει επίσης να διστάζουμε ? ή να βαριόμαστε ? να εξερευνήσουμε δικτυακούς τόπους που διαθέτουν δωρεάν πληροφορίες, απαιτούν όμως να συμπληρώσουμε κάποια φόρμα, να θέσουμε κάποιο ερώτημα ή να εγγραφούμε σε αυτούς για να μας επιτρέψουν την είσοδο. Οι μηχανές αναζήτησης ίσως να μην μπορούν να μας οδηγήσουν σε αυτές τις πληροφορίες.
Όσοι ενδιαφέρονται για βιβλία ή για επιστημονική βιβλιογραφία θα πρέπει να αξιοποιήσουν τα χρήσιμα σχετικά εργαλεία που προσφέρουν οι μεγάλοι του Διαδικτύου, τα οποία συχνά παραβλέπουμε, όπως το Google Book Search, το Amazon Search Inside the Book, το Google Scholar ή το Live Search Academic. Χρειάζεται, όμως, πάντα να έχουμε υπόψη μας τους περιορισμούς τους: Κατ? αρχάς, επιτρέπουν την αναζήτηση και όχι απαραίτητα την πρόσβαση, καθώς το υλικό στο οποίο παραπέμπουν συχνά βρίσκεται υπό copyright. Δεύτερον, και πιο σημαντικό, και αυτά τα εργαλεία, αν και εξειδικευμένα, περιέχουν πρόσβαση σε μικρό κομμάτι των εκδόσεων που υπάρχουν Online ? συνήθως στο Βαθύ Ιστό. Είναι ενδεικτικό ότι σε μια σχετική έρευνα που διεξήγαγε το Πανεπιστήμιο του Berkley διαπιστώθηκε ότι το Google Scholar έχει πρόσβαση μόλις στο 10% των βάσεων δεδομένων με εξειδικευμένη επιστημονική βιβλιογραφία (επιστημονικά περιοδικά, συγγράμματα και άλλες εκδόσεις σε ηλεκτρονική μορφή), στις οποίες έχει συνδρομή το συγκεκριμένο πανεπιστήμιο.
Για μια πιο επισταμένη έρευνα στο Βαθύ Ιστό, θα πρέπει, τέλος να καταφύγουμε σε δικτυακούς τόπους που έχουν δημιουργηθεί γι? αυτόν το σκοπό. Σε γενικές γραμμές αυτοί έχουν τις γνώριμες μορφές που συναντάμε και στον Επιφανειακό Ιστό. Συγκεκριμένα, κάποιοι είναι συλλογές σχετικών συνδέσμων που έχουν επιλεγεί από άτομα ή φορείς, άλλοι είναι κατάλογοι που παίζουν το ρόλο «πύλης» στο Βαθύ Ιστό, άλλοι μας προσφέρουν εξειδικευμένες μηχανές αναζήτησης και άλλοι κάποιο συνδυασμό των προηγούμενων. Υπάρχει, όμως, μια σημαντική διαφορά: Σε αντίθεση με την Google, τη Yahoo! και τις άλλες μηχανές αναζήτησης του Επιφανειακού Ιστού, που ουσιαστικά ψάχνουν ό, τι υπάρχει ήδη καταλογογραφημένο στη βάση δεδομένων τους, αυτές του Βαθέος Ιστού υιοθετούν μια διαφορετική μέθοδο αναζήτησης, τη λεγόμενη federated search. Σε αυτή, η μηχανή αναζήτησης υποβάλλει τους όρους της αναζήτησής μας ταυτόχρονα σε διάφορες συνεργαζόμενες βάσεις δεδομένων, οι οποίες ψάχνουν τις καταχωρίσεις τους σε πραγματικό χρόνο και επιστρέφουν τα αποτελέσματα, που παρουσιάζονται σε εμάς σε ενιαία μορφή. (Μια γνωστή μορφή federated search είναι οι metasearch engines του Επιφανειακού Ιστού.) Η μέθοδος αυτή παρέχει ένα εμφανές πλεονέκτημα: Εξασφαλίζει ότι τα δεδομένα που σαρώνονται είναι ενημερωμένα. Υπάρχουν διάφορες τέτοιες εξειδικευμένες μηχανές αναζήτησης, η καθεμιά από τις οποίες προσφέρει πρόσβαση σε ένα διαφορετικό υποσύνολο ? άλλοτε μικρό και άλλοτε μεγάλο ? του Βαθέος Ιστού.
Πηγή: Άρθρο του Αλέξη Πετίδη στο περιοδικό RAM, σελ. 37 ? 40
Σημείωση: Ο τίτλος της ανάρτησης δεν είναι ο τίτλος του άρθρου στο περιοδικό
Ακολουθεί λίστα από συνδέσμους του Βαθέους Ιστού
Librarians Index to the Internet (http://lii.org). Πύλη με θεματικούς καταλόγους. Δικτυακοί τόποι επιλεγμένοι και σχολιασμένοι από βιβλιοθηκάριους
Virtual Library (http://vlib.org). Ο Παλαιότερος θεματικός κατάλογος του Web, που ξεκίνησε από τον Tim Berners-Lee.
OAIster (http://www.oaister.org). Με 935 πηγές (ψηφιακές βιβλιοθήκες, ηλεκτρονικές εκδόσεις κ.α.) από δεκάδες διαφορετικές χώρες και πάνω από 15.000.000 καταχωρίσεις δεδομένων που κατά κύριο λόγο διατίθενται δωρεάν, αυτή η υπηρεσία, η οποία προσφέρεται από τη Βιβλιοθήκη του Πανεπιστημίου του Μίσιγκαν, αποτελεί ένα πραγματικό θησαυρό πληροφορίας.
INFOMINE (http://infomine.ucr.edu). Άλλο ένα προϊόν συνεργασίας βιβλιοθηκάριων από διαφορετικά αμερικάνικα πανεπιστήμια. Πρόκειται για μια κεντρική ψηφιακή βιβλιοθήκη διαδικτυακών πηγών, που απευθύνεται κυρίως την πανεπιστημιακή κοινότητα και παρέχει πρόσβαση σε ποικίλο περιεχόμενο.
Office Of Science and Technical Information του Υπουργείου Ενέργειας των ΗΠΑ (http://osti.gov). Κεντρική πύλη και federated search για έναν τεράστιο όγκο έγκυρης και δωρεάν διαθέσιμης επιστημονικής πληροφορίας που παράγεται από αμερικανικές κρατικές υπηρεσίες. Ενδεικτικά αναφέρουμε ότι «υποσύνολο» του OSTI είναι και το πιο γνωστό Science.gov (http://www.science.gov) το οποίο καλύπτει 12 ομοσπονδιακές επιστημονικές υπηρεσίες των ΗΠΑ, 16 διαφορετικούς οργανισμούς, 1800 δικτυακούς τόπους και πάνω από 50 εκατομμύρια ιστοσελίδες. Επίσης το OSTI βρίσκεται πίσω και από το WorldWideScience (http://worldwidescience.org) μια federated search engine με διεθνές βεληνεκές, καθώς συνεργάζεται με επιστημονικές βάσεις δεδομένων.
Directory of Open Access Journals (http://doaj.org), Scirus.com (http://www.scirus.com/srsapp/) και EEVL Xtra (http://www.eevlxtra.ac.uk/spp/portal/) Τρεις πύλες πρόσβασης σε εξειδικευμένα επιστημονικά περιοδικά και άλλες σχετικές εκδόσεις.
Medical Library (http://medem.com/MedLB/medlib_entry.cfm), US Department of Health and Human Services (http://www.hhs.gov), και National Library of Medicine (http://www.nlm.nih.gov/). Καθετί που έχει σχέση να κάνει με την υγεία. Θησαυρός έγκυρης και αξιόπιστης ιατρικής πληροφορίας, που καλύπτει τις ανάγκες τόσο των απλών ανθρώπων όσο και των ειδικών.
Intute (http://www.intute.ac.uk) Μηχανή αναζήτησης και πύλη με ιδιαίτερα καλό τμήμα για τις τέχνες και τα γράμματα.
Pipl-People Search (http://www.pipl.com/). Αν ψάχνετε για κάποιον, τότε αυτή η εξειδικευμένη μηχανή αναζήτησης μπορεί να σας βοηθήσει, καθώς εξορύσσει ονόματα και από το Βαθύ Ιστό.
BusinessResearch (http://business.exploritnow.com/index.php). Federated search engine προσανατολισμένη στον κόσμο των επιχειρήσεων.
Internet Archive (http://www.archive.org/index.php) Τεράστια βάση δεδομένων με χιλιάδες ταινίες, κείμενα, αρχεία ήχου και παλιό λογισμικό