Θα μπορούσε ένας υπολογιστής να μάθει και να ανταποκριθεί με ανθρώπινο τρόπο, ενσωματώνοντας το βιονευρωνικό δίκτυο του ανθρώπινου σώματος σε ένα λειτουργικό σύστημα; Αυτή την ιδέα που πυροδότησε ο αντισυμβατικός της ΑΙ-Marvin Minsky, ρίζωσε και τώρα αποτελεί ένα σοβαρό πεδίο έρευνας στον τομέα. Αυτές οι έρευνες έχουν διευρύνει μια εντελώς νέα εκτίμηση του θαύματος της ανθρώπινης αντίληψης.
Ο εγκέφαλος είναι ένας αξιοσημείωτος υπολογιστής. Ερμηνεύει ανακριβείς πληροφορίες από τις αισθήσεις με απίστευτα γρήγορο ρυθμό. Διακρίνει έναν ψίθυρο σε ένα θορυβώδες δωμάτιο, ένα πρόσωπο σε ένα αμυδρά φωτισμένο σοκάκι και μια κρυφή ατζέντα σε μια πολιτική δήλωση. Το πιο εντυπωσιακό από όλα είναι ότι ο εγκέφαλος μαθαίνει χωρίς σαφείς οδηγίες – για να δημιουργήσει τις εσωτερικές αναπαραστάσεις που καθιστούν δυνατές αυτές τις δεξιότητες.
Πολλά είναι ακόμα άγνωστα για το πώς ο εγκέφαλος εκπαιδεύεται να επεξεργάζεται πληροφορίες, επομένως οι θεωρίες αφθονούν. Για να δοκιμάσουμε αυτές τις υποθέσεις, οι συνάδελφοί μου και εγώ προσπαθήσαμε να μιμηθούμε τις διαδικασίες μάθησης του εγκεφάλου δημιουργώντας δίκτυα τεχνητών νευρώνων. Κατασκευάζουμε αυτά τα νευρωνικά δίκτυα προσπαθώντας πρώτα να συναγάγουμε τα βασικά χαρακτηριστικά των νευρώνων και τις διασυνδέσεις τους. Στη συνέχεια, συνήθως προγραμματίζουμε έναν υπολογιστή για να προσομοιώσει αυτά τα χαρακτηριστικά.
Επειδή η γνώση μας για τους νευρώνες είναι ελλιπής και η υπολογιστική μας ισχύς περιορισμένη, τα μοντέλα μας είναι αναγκαστικά χονδροειδείς εξιδανικεύσεις πραγματικών δικτύων νευρώνων. Φυσικά, συζητάμε με ενθουσιασμό ποια χαρακτηριστικά είναι πιο σημαντικά στην προσομοίωση των νευρώνων. Δοκιμάζοντας αυτά τα χαρακτηριστικά σε τεχνητά νευρωνικά δίκτυα, έχουμε καταφέρει να αποκλείσουμε κάθε είδους θεωρίες σχετικά με το πώς ο εγκέφαλος επεξεργάζεται πληροφορίες. Τα μοντέλα αρχίζουν επίσης να αποκαλύπτουν πώς ο εγκέφαλος μπορεί να επιτύχει τα αξιοσημείωτα κατορθώματά του στη μάθηση.
Στον ανθρώπινο εγκέφαλο, ένας τυπικός νευρώνας συλλέγει σήματα από άλλους μέσω μιας σειράς λεπτών δομών που ονομάζονται δενδρίτες. Ο νευρώνας στέλνει αιχμές ηλεκτρικής δραστηριότητας μέσω μιας μακριάς, λεπτής αλυσίδας γνωστής ως άξονας, η οποία διαιρείται σε χιλιάδες κλάδους. Στο τέλος κάθε κλάδου, μια δομή που ονομάζεται σύναψη μετατρέπει τη δραστηριότητα από τον άξονα σε ηλεκτρικά φαινόμενα που αναστέλλουν ή διεγείρουν τη δραστηριότητα στους συνδεδεμένους νευρώνες. Όταν ένας νευρώνας λαμβάνει διεγερτική είσοδο που είναι αρκετά μεγάλη σε σύγκριση με την ανασταλτική του είσοδο, στέλνει μια αιχμή ηλεκτρικής δραστηριότητας κατά μήκος του άξονα του. Η μάθηση συμβαίνει αλλάζοντας την αποτελεσματικότητα των συνάψεων, έτσι ώστε η επίδραση ενός νευρώνα σε έναν άλλο να αλλάζει
Τα τεχνητά νευρωνικά δίκτυα συνήθως αποτελούνται από διασυνδεδεμένες «μονάδες», οι οποίες χρησιμεύουν ως νευρώνες-μοντέλα. Η λειτουργία της σύναψης μοντελοποιείται από ένα τροποποιήσιμο βάρος, το οποίο σχετίζεται με κάθε σύνδεση. Τα περισσότερα τεχνητά δίκτυα δεν αντικατοπτρίζουν τη λεπτομερή γεωμετρία των δενδριτών και των αξόνων και εκφράζουν την ηλεκτρική έξοδο ενός νευρώνα ως έναν μόνο αριθμό που αντιπροσωπεύει τον ρυθμό ενεργοποίησης της δραστηριότητάς του.
Το δίκτυο νευρώνων στον εγκέφαλο παρέχει στους ανθρώπους τη δυνατότητα να αφομοιώνουν πληροφορίες. Θα αποκαλύψουν οι προσομοιώσεις τέτοιων δικτύων τους υποκείμενους μηχανισμούς μάθησης;
Κάθε μονάδα μετατρέπει το μοτίβο των εισερχόμενων δραστηριοτήτων που λαμβάνει σε μία μόνο εξερχόμενη δραστηριότητα που μεταδίδει σε άλλες μονάδες. Εκτελεί αυτή τη μετατροπή σε δύο στάδια. Πρώτον, πολλαπλασιάζει κάθε εισερχόμενη δραστηριότητα με το βάρος στη σύνδεση και προσθέτει όλες αυτές τις σταθμισμένες εισόδους για να λάβει μια ποσότητα που ονομάζεται συνολική είσοδος. Δεύτερον, μια μονάδα χρησιμοποιεί μια συνάρτηση εισόδου-εξόδου που μετασχηματίζει τη συνολική είσοδο στην εξερχόμενη δραστηριότητα.
Η συμπεριφορά ενός τεχνητού νευρωνικού δικτύου εξαρτάται τόσο από τις σταθμίσεις όσο και από τη συνάρτηση εισόδου-εξόδου που καθορίζεται για τις μονάδες. Αυτή η συνάρτηση συνήθως εμπίπτει σε μία από τις τρεις κατηγορίες: γραμμική, κατωφλίου ή σιγμοειδούς. Για τις γραμμικές μονάδες, η δραστηριότητα εξόδου είναι ανάλογη με τη συνολική σταθμισμένη είσοδο. Για τις μονάδες κατωφλίου, η έξοδος ορίζεται σε ένα από τα δύο επίπεδα, ανάλογα με το αν η συνολική είσοδος είναι μεγαλύτερη ή μικρότερη από κάποια τιμή κατωφλίου. Για τις σιγμοειδείς μονάδες, η έξοδος μεταβάλλεται συνεχώς, αλλά όχι γραμμικά καθώς αλλάζει η είσοδος. Οι σιγμοειδείς μονάδες έχουν μεγαλύτερη ομοιότητα με τους πραγματικούς νευρώνες από ό,τι οι γραμμικές ή οι κατωφλίου μονάδες, αλλά και οι τρεις πρέπει να θεωρούνται πρόχειρες προσεγγίσεις.
Για να δημιουργήσουμε ένα νευρωνικό δίκτυο που εκτελεί κάποια συγκεκριμένη εργασία, πρέπει να επιλέξουμε τον τρόπο με τον οποίο οι μονάδες συνδέονται μεταξύ τους και πρέπει να ορίσουμε τα βάρη στις συνδέσεις κατάλληλα. Οι συνδέσεις καθορίζουν αν είναι δυνατόν μια μονάδα να επηρεάσει μια άλλη. Τα βάρη καθορίζουν την ισχύ της επιρροής
Ο πιο συνηθισμένος τύπος τεχνητού νευρωνικού δικτύου αποτελείται από τρεις ομάδες, ή επίπεδα, μονάδων: ένα επίπεδο μονάδων εισόδου συνδέεται με ένα επίπεδο «κρυφών» μονάδων, το οποίο συνδέεται με ένα επίπεδο μονάδων εξόδου. Η δραστηριότητα των μονάδων εισόδου αντιπροσωπεύει τις ακατέργαστες πληροφορίες που τροφοδοτούνται στο δίκτυο. Η δραστηριότητα κάθε κρυφής μονάδας καθορίζεται από τις δραστηριότητες των μονάδων εισόδου και τα βάρη στις συνδέσεις μεταξύ των μονάδων εισόδου και των κρυφών μονάδων. Ομοίως, η συμπεριφορά των μονάδων εξόδου εξαρτάται από τη δραστηριότητα των κρυφών μονάδων και τα βάρη μεταξύ των κρυφών μονάδων και των μονάδων εξόδου.
Αυτός ο απλός τύπος δικτύου είναι ενδιαφέρων επειδή οι κρυφές μονάδες είναι ελεύθερες να κατασκευάσουν τις δικές τους αναπαραστάσεις της εισόδου. Τα βάρη μεταξύ των μονάδων εισόδου και των κρυφών μονάδων καθορίζουν πότε κάθε κρυφή μονάδα είναι ενεργή, και έτσι τροποποιώντας αυτά τα βάρη, μια κρυφή μονάδα μπορεί να επιλέξει τι αντιπροσωπεύει.
Μπορούμε να διδάξουμε σε ένα δίκτυο τριών επιπέδων να εκτελεί μια συγκεκριμένη εργασία χρησιμοποιώντας την ακόλουθη διαδικασία. Πρώτον, παρουσιάζουμε το δίκτυο με παραδείγματα εκπαίδευσης, τα οποία αποτελούνται από ένα μοτίβο δραστηριοτήτων για τις μονάδες εισόδου μαζί με το επιθυμητό μοτίβο δραστηριοτήτων για τις μονάδες εξόδου. Στη συνέχεια, καθορίζουμε πόσο στενά ταιριάζει η πραγματική έξοδος του δικτύου με την επιθυμητή έξοδο. Στη συνέχεια, αλλάζουμε το βάρος κάθε σύνδεσης, έτσι ώστε το δίκτυο να παράγει μια καλύτερη προσέγγιση της επιθυμητής εξόδου.
Για παράδειγμα, ας υποθέσουμε ότι θέλουμε ένα δίκτυο να αναγνωρίζει χειρόγραφα ψηφία. Θα μπορούσαμε να χρησιμοποιήσουμε μια σειρά από, ας πούμε, 256 αισθητήρες, καθένας από τους οποίους θα καταγράφει την παρουσία ή την απουσία μελανιού σε μια μικρή περιοχή ενός μοναδικού ψηφίου. Το δίκτυο θα χρειαζόταν επομένως 256 μονάδες εισόδου (μία για κάθε αισθητήρα), 10 μονάδες εξόδου (μία για κάθε είδος ψηφίου) και έναν αριθμό κρυφών μονάδων. Για κάθε είδος ψηφίου που καταγράφεται από τους αισθητήρες, το δίκτυο θα πρέπει να παράγει υψηλή δραστηριότητα στην κατάλληλη μονάδα εξόδου και χαμηλή δραστηριότητα στις άλλες μονάδες εξόδου
Για να εκπαιδεύσουμε το δίκτυο, παρουσιάζουμε μια εικόνα ενός ψηφίου και συγκρίνουμε την πραγματική δραστηριότητα των 10 μονάδων εξόδου με την επιθυμητή δραστηριότητα. Στη συνέχεια, υπολογίζουμε το σφάλμα, το οποίο ορίζεται ως το τετράγωνο της διαφοράς μεταξύ των πραγματικών και των επιθυμητών δραστηριοτήτων. Στη συνέχεια, αλλάζουμε το βάρος κάθε σύνδεσης, ώστε να μειώσουμε το σφάλμα. Επαναλαμβάνουμε αυτή τη διαδικασία εκπαίδευσης για πολλές διαφορετικές εικόνες κάθε είδους ψηφίου μέχρι το δίκτυο να ταξινομήσει σωστά κάθε εικόνα.
Για να εφαρμόσουμε αυτήν τη διαδικασία, πρέπει να αλλάξουμε κάθε βάρος κατά ένα ποσό που είναι ανάλογο με τον ρυθμό με τον οποίο αλλάζει το σφάλμα καθώς αλλάζει το βάρος. Αυτή η ποσότητα – που ονομάζεται παράγωγος σφάλματος για το βάρος, ή απλώς EW – είναι δύσκολο να υπολογιστεί αποτελεσματικά. Ένας τρόπος για να υπολογίσουμε το EW είναι να διαταράξουμε ελαφρώς ένα βάρος και να παρατηρήσουμε πώς αλλάζει το σφάλμα.
Αλλά αυτή η μέθοδος είναι αναποτελεσματική επειδή απαιτεί ξεχωριστή διαταραχή για καθένα από τα πολλά βάρη.
Γύρω στο 1974, ο Paul J. Werbos εφηύρε μια πολύ πιο αποτελεσματική διαδικασία για τον υπολογισμό του EW ενώ εργαζόταν για διδακτορικό στο Πανεπιστήμιο του Χάρβαρντ. Η διαδικασία, γνωστή πλέον ως αλγόριθμος ανατροφοδότησης, έχει γίνει ένα από τα πιο σημαντικά εργαλεία για την εκπαίδευση νευρωνικών δικτύων.
Ο αλγόριθμος ανατροφοδότησης είναι πιο εύκολος στην κατανόηση εάν όλες οι μονάδες στο δίκτυο είναι γραμμικές. Ο αλγόριθμος υπολογίζει κάθε EW υπολογίζοντας πρώτα την EA, τον ρυθμό με τον οποίο αλλάζει το σφάλμα καθώς αλλάζει το επίπεδο δραστηριότητας μιας μονάδας. Για τις μονάδες εξόδου, η EA είναι απλώς η διαφορά μεταξύ της πραγματικής και της επιθυμητής εξόδου. Για να υπολογίσουμε την EA για μια κρυφή μονάδα στο επίπεδο ακριβώς πριν από το επίπεδο εξόδου, προσδιορίζουμε πρώτα όλα τα βάρη μεταξύ αυτής της κρυφής μονάδας και των μονάδων εξόδου με τις οποίες είναι συνδεδεμένη. Στη συνέχεια, πολλαπλασιάζουμε αυτά τα βάρη με τις EA αυτών των μονάδων εξόδου και προσθέτουμε τα γινόμενα. Αυτό το άθροισμα ισούται με την EA για την επιλεγμένη κρυφή μονάδα. Αφού υπολογίσουμε όλες τις EA στο κρυφό επίπεδο ακριβώς πριν από το επίπεδο εξόδου, μπορούμε να υπολογίσουμε με παρόμοιο τρόπο τις EA για άλλες στρώσεις, κινούμενοι από στρώμα σε στρώμα σε μια κατεύθυνση αντίθετη από τον τρόπο με τον οποίο οι δραστηριότητες διαδίδονται μέσω του δικτύου. Αυτό είναι που δίνει στην ανατροφοδότηση το όνομά της Μόλις υπολογιστεί η EA για μια μονάδα, είναι εύκολο να υπολογιστεί η EW για κάθε εισερχόμενη σύνδεση της μονάδας. Η EW είναι το γινόμενο της EA και της δραστηριότητας μέσω της εισερχόμενης σύνδεσης.
Για μη γραμμικές μονάδες, ο αλγόριθμος ανατροφοδότησης περιλαμβάνει ένα επιπλέον βήμα. Πριν από την ανατροφοδότηση, η EA πρέπει να μετατραπεί σε EI, τον ρυθμό με τον οποίο αλλάζει το σφάλμα καθώς αλλάζει η συνολική είσοδος που λαμβάνεται από μια μονάδα.
Ο αλγόριθμος ανατροφοδότησης αγνοήθηκε σε μεγάλο βαθμό για χρόνια μετά την εφεύρεσή του, πιθανώς επειδή η χρησιμότητά του δεν είχε εκτιμηθεί πλήρως. Στις αρχές της δεκαετίας του 1980, ο David E. Rumelhart, τότε στο Πανεπιστήμιο της Καλιφόρνια στο San Diego, και ο David B. Parker, τότε στο Πανεπιστήμιο του Stanford, ανακάλυψαν ξανά ανεξάρτητα τον αλγόριθμο. Το 1986, ο Rumelhart, ο Ronald J. Williams και εγώ διαδώσαμε τον αλγόριθμο αποδεικνύοντας ότι μπορούσε να διδάξει τις κρυφές μονάδες να παράγουν ενδιαφέρουσες αναπαραστάσεις σύνθετων μοτίβων εισόδου.
Ο αλγόριθμος ανατροφοδότησης έχει αποδειχθεί εκπληκτικά καλός στην εκπαίδευση δικτύων με πολλαπλά επίπεδα για την εκτέλεση μιας ευρείας ποικιλίας εργασιών. Είναι ιδιαίτερα χρήσιμο σε περιπτώσεις όπου η σχέση μεταξύ εισόδου και εξόδου είναι μη γραμμική και τα δεδομένα εκπαίδευσης είναι άφθονα. Εφαρμόζοντας τον αλγόριθμο, οι ερευνητές έχουν δημιουργήσει νευρωνικά δίκτυα που αναγνωρίζουν χειρόγραφα ψηφία, προβλέπουν συναλλαγματικές ισοτιμίες και μεγιστοποιούν τις αποδόσεις των χημικών διεργασιών. Έχουν χρησιμοποιήσει ακόμη και τον αλγόριθμο για να εκπαιδεύσουν δίκτυα που αναγνωρίζουν προκαρκινικά κύτταρα σε τεστ Παπανικολάου και που προσαρμόζουν τον καθρέφτη ενός τηλεσκοπίου έτσι ώστε να ακυρώνουν τις ατμοσφαιρικές παραμορφώσεις.
Στον τομέα της νευροεπιστήμης, οι Richard Andersen και David Zipser έδειξαν ότι ο αλγόριθμος ανατροφοδότησης είναι ένα χρήσιμο εργαλείο για την εξήγηση της λειτουργίας ορισμένων νευρώνων στον φλοιό του εγκεφάλου. Εκπαίδευσαν ένα νευρωνικό δίκτυο να ανταποκρίνεται σε οπτικά ερεθίσματα χρησιμοποιώντας ανατροφοδότηση. Στη συνέχεια, διαπίστωσαν ότι οι αποκρίσεις των κρυφών μονάδων ήταν αξιοσημείωτα παρόμοιες με εκείνες των πραγματικών νευρώνων που είναι υπεύθυνοι για τη μετατροπή των οπτικών πληροφοριών από τον αμφιβληστροειδή σε μια μορφή κατάλληλη για βαθύτερες οπτικές περιοχές του εγκεφάλου
Ωστόσο, η αντίστροφη διάδοση έχει λάβει μάλλον ανάμεικτες αντιδράσεις ως θεωρία για το πώς μαθαίνουν οι βιολογικοί νευρώνες. Από τη μία πλευρά, ο αλγόριθμος αντίστροφης διάδοσης έχει κάνει μια πολύτιμη συμβολή σε αφηρημένο επίπεδο. Ο αλγόριθμος είναι αρκετά καλός στη δημιουργία λογικών αναπαραστάσεων στις κρυφές μονάδες. Ως αποτέλεσμα, οι ερευνητές απέκτησαν εμπιστοσύνη στις διαδικασίες μάθησης στις οποίες τα βάρη προσαρμόζονται σταδιακά για τη μείωση των σφαλμάτων. Προηγουμένως, πολλοί ερευνητές υπέθεταν ότι τέτοιες μέθοδοι θα ήταν άνευ ελπίδας, επειδή αναπόφευκτα θα οδηγούσαν σε τοπικά βέλτιστες αλλά παγκοσμίως κακές λύσεις. Για παράδειγμα, ένα δίκτυο αναγνώρισης ψηφίων μπορεί να εστιάζει σταθερά σε ένα σύνολο βαρών που κάνει το δίκτυο να συγχέει μονάδες και εφτάρια, παρόλο που υπάρχει ένα ιδανικό σύνολο βαρών που θα επέτρεπε στο δίκτυο να διακρίνει μεταξύ των ψηφίων. Αυτός ο φόβος υποστήριζε μια ευρέως διαδεδομένη πεποίθηση ότι μια διαδικασία μάθησης ήταν ενδιαφέρουσα μόνο εάν ήταν εγγυημένο ότι θα συγκλίνει τελικά στη συνολικά βέλτιστη λύση.
Η ανατροφοδότησης έδειξε ότι για πολλές εργασίες η ολική σύγκλιση δεν ήταν απαραίτητη για την επίτευξη καλής απόδοσης.
Από την άλλη πλευρά, η ανατροφοδότηση φαίνεται βιολογικά απίθανη. Η πιο προφανής δυσκολία είναι ότι οι πληροφορίες πρέπει να ταξιδεύουν μέσω των ίδιων συνδέσεων προς την αντίστροφη κατεύθυνση, από το ένα επίπεδο στο προηγούμενο. Σαφώς, αυτό δεν συμβαίνει σε πραγματικούς νευρώνες. Αλλά αυτή η αντίρρηση είναι στην πραγματικότητα μάλλον επιφανειακή. Ο εγκέφαλος έχει πολλές οδούς από τα μεταγενέστερα επίπεδα πίσω στα προηγούμενα, και θα μπορούσε να χρησιμοποιήσει αυτές τις οδούς με πολλούς τρόπους για να μεταφέρει τις πληροφορίες που απαιτούνται για τη μάθηση.
Ένα πιο σημαντικό πρόβλημα είναι η ταχύτητα του αλγορίθμου αντίστροφης διάδοσης. Εδώ το κεντρικό ζήτημα είναι πώς ο χρόνος που απαιτείται για τη μάθηση αυξάνεται καθώς το δίκτυο μεγαλώνει. Ο χρόνος που απαιτείται για τον υπολογισμό των παραγώγων σφάλματος για τα βάρη σε ένα δεδομένο παράδειγμα εκπαίδευσης είναι ανάλογος με το μέγεθος του δικτύου, επειδή η ποσότητα υπολογισμού είναι ανάλογη με τον αριθμό των βαρών. Αλλά τα μεγαλύτερα δίκτυα συνήθως απαιτούν περισσότερα παραδείγματα εκπαίδευσης, και πρέπει να ενημερώνουν τα βάρη περισσότερες φορές. Ως εκ τούτου, ο χρόνος εκμάθησης αυξάνεται πολύ πιο γρήγορα από ό,τι το μέγεθος του δικτύου
Η πιο σοβαρή αντίρρηση στην αντίστροφη διάδοση ως μοντέλο πραγματικής μάθησης είναι ότι απαιτεί από έναν δάσκαλο να παρέχει το επιθυμητό αποτέλεσμα για κάθε παράδειγμα εκπαίδευσης. Αντίθετα, οι άνθρωποι μαθαίνουν τα περισσότερα πράγματα χωρίς τη βοήθεια ενός δασκάλου. Κανείς δεν μας παρουσιάζει μια λεπτομερή περιγραφή των εσωτερικών αναπαραστάσεων του κόσμου που πρέπει να μάθουμε να εξάγουμε από την αισθητηριακή μας είσοδο. Μαθαίνουμε να κατανοούμε προτάσεις ή οπτικές σκηνές χωρίς άμεσες οδηγίες.
Πώς μπορεί ένα δίκτυο να μάθει κατάλληλες εσωτερικές αναπαραστάσεις αν ξεκινά χωρίς γνώση και χωρίς δάσκαλο; Αν σε ένα δίκτυο παρουσιάζεται ένα μεγάλο σύνολο μοτίβων αλλά δεν του δίνονται πληροφορίες για το τι να κάνει με αυτά, προφανώς δεν έχει ένα σαφώς καθορισμένο πρόβλημα να λύσει. Παρ’ όλα αυτά, οι ερευνητές έχουν αναπτύξει αρκετές γενικού σκοπού, χωρίς επίβλεψη, διαδικασίες που μπορούν να προσαρμόσουν τα βάρη στο δίκτυο κατάλληλα.
Όλες αυτές οι διαδικασίες μοιράζονται δύο κοινά χαρακτηριστικά: βασίζονται, έμμεσα ή ρητά, σε κάποια έννοια της ποιότητας μιας αναπαράστασης και λειτουργούν αλλάζοντας τα βάρη για να βελτιώσουν την ποιότητα της αναπαράστασης που εξάγεται από τις κρυφές μονάδες.
Γενικά, μια καλή αναπαράσταση είναι αυτή που μπορεί να περιγραφεί πολύ οικονομικά, αλλά παρόλα αυτά περιέχει αρκετές πληροφορίες για να επιτρέψει μια στενή προσέγγιση των ακατέργαστων δεδομένων εισόδου που πρόκειται να ανακατασκευαστούν. Για παράδειγμα, σκεφτείτε μια εικόνα που αποτελείται από αρκετές ελλείψεις. Ας υποθέσουμε ότι μια συσκευή μεταφράζει την εικόνα σε μια σειρά από ένα εκατομμύριο μικροσκοπικά τετράγωνα, καθένα από τα οποία είναι είτε ανοιχτό είτε σκοτεινό. Η εικόνα θα μπορούσε να αναπαρασταθεί απλώς από τις θέσεις των σκοτεινών τετραγώνων. Αλλά είναι επίσης δυνατές και άλλες, πιο αποτελεσματικές αναπαραστάσεις. Οι ελλείψεις διαφέρουν μόνο με πέντε τρόπους: προσανατολισμό, κατακόρυφη θέση, οριζόντια θέση, μήκος και πλάτος. Η εικόνα μπορεί επομένως να περιγραφεί χρησιμοποιώντας μόνο πέντε παραμέτρους ανά έλλειψη
Παρόλο που η περιγραφή μιας έλλειψης με πέντε παραμέτρους απαιτεί περισσότερα bit από την περιγραφή ενός μόνο σκοτεινού τετραγώνου με δύο συντεταγμένες, επιτυγχάνουμε μια συνολική εξοικονόμηση επειδή χρειάζονται πολύ λιγότερες παράμετροι από τις συντεταγμένες. Επιπλέον, δεν χάνουμε καμία πληροφορία περιγράφοντας τις ελλείψεις με βάση τις παραμέτρους τους: δεδομένων των παραμέτρων της έλλειψης, θα μπορούσαμε να ανακατασκευάσουμε την αρχική εικόνα, αν το επιθυμούσαμε.
Σχεδόν όλες οι διαδικασίες μάθησης χωρίς επίβλεψη μπορούν να θεωρηθούν ως μέθοδοι ελαχιστοποίησης του αθροίσματος δύο όρων, ενός κόστους κώδικα και ενός κόστους ανακατασκευής. Το κόστος κώδικα είναι ο αριθμός των bit που απαιτούνται για την περιγραφή των δραστηριοτήτων των κρυφών μονάδων. Το κόστος ανακατασκευής είναι ο αριθμός των bit που απαιτούνται για την περιγραφή της ασυμφωνίας μεταξύ της ακατέργαστης εισόδου και της καλύτερης προσέγγισης σε αυτήν που θα μπορούσε να ανακατασκευαστεί από τις δραστηριότητες των κρυφών μονάδων. Το κόστος ανακατασκευής είναι ανάλογο με την τετραγωνική διαφορά μεταξύ της ακατέργαστης εισόδου και της ανακατασκευής της.
Δύο απλές μέθοδοι για την ανακάλυψη οικονομικών κωδίκων επιτρέπουν την αρκετά ακριβή ανακατασκευή της μάθησης κύριων στοιχείων εισόδου και της ανταγωνιστικής μάθησης. Και στις δύο προσεγγίσεις, πρώτα αποφασίζετε πόσο οικονομικός πρέπει να είναι ο κώδικας και στη συνέχεια τροποποιήστε τα βάρη στο δίκτυο για να ελαχιστοποιήσετε το σφάλμα ανακατασκευής.
Μια στρατηγική μάθησης κύριων στοιχείων βασίζεται στην ιδέα ότι εάν οι δραστηριότητες ζευγών μονάδων εισόδου συσχετίζονται με κάποιο τρόπο, είναι σπατάλη bit να περιγραφεί κάθε δραστηριότητα εισόδου ξεχωριστά. Μια πιο αποτελεσματική προσέγγιση είναι η εξαγωγή και η περιγραφή των κύριων στοιχείων – δηλαδή, των στοιχείων μεταβολής που μοιράζονται πολλές μονάδες εισόδου. Αν θέλουμε να ανακαλύψουμε, ας πούμε, 10 από τα κύρια στοιχεία, τότε χρειαζόμαστε μόνο ένα επίπεδο 10 κρυφών μονάδων.
Επειδή τέτοια δίκτυα αναπαριστούν την είσοδο χρησιμοποιώντας μόνο έναν μικρό αριθμό στοιχείων, το κόστος κώδικα είναι χαμηλό. Και επειδή η είσοδος μπορεί να ανακατασκευαστεί αρκετά καλά από τα κύρια στοιχεία, το κόστος ανακατασκευής είναι μικρό.
Ένας τρόπος για να εκπαιδεύσετε αυτό το είδος δικτύου είναι να το αναγκάσετε να ανακατασκευάσει μια προσέγγιση στην είσοδο σε ένα σύνολο μονάδων εξόδου.
Στη συνέχεια, η αντίστροφη διάδοση μπορεί να χρησιμοποιηθεί για να ελαχιστοποιηθεί η διαφορά μεταξύ της πραγματικής εξόδου και της επιθυμητής εξόδου. Αυτή η διαδικασία μοιάζει με εποπτευόμενη μάθηση, αλλά επειδή η επιθυμητή έξοδος είναι ακριβώς η ίδια με την είσοδο, δεν απαιτείται δάσκαλος
Πολλοί ερευνητές, συμπεριλαμβανομένων των Ralph Linsker και Erkki Oja, έχουν ανακαλύψει εναλλακτικούς αλγόριθμους για την εκμάθηση κύριων συνιστωσών. Αυτοί οι αλγόριθμοι είναι πιο βιολογικά εύλογοι επειδή δεν απαιτούν μονάδες εξόδου ή αντίστροφη διάδοση. Αντίθετα, χρησιμοποιούν τη συσχέτιση μεταξύ της δραστηριότητας μιας κρυφής μονάδας και της δραστηριότητας μιας μονάδας εισόδου για να προσδιορίσουν την αλλαγή στο βάρος.
Όταν ένα νευρωνικό δίκτυο χρησιμοποιεί εκμάθηση κύριων συνιστωσών, ένας μικρός αριθμός κρυφών μονάδων συνεργάζεται στην αναπαράσταση του μοτίβου εισόδου. Αντίθετα, στην ανταγωνιστική μάθηση, ένας μεγάλος αριθμός κρυφών μονάδων ανταγωνίζεται έτσι ώστε μια μόνο κρυφή μονάδα να χρησιμοποιείται για την αναπαράσταση οποιουδήποτε συγκεκριμένου μοτίβου εισόδου. Η επιλεγμένη κρυφή μονάδα είναι αυτή της οποίας τα εισερχόμενα βάρη είναι πιο παρόμοια με το μοτίβο εισόδου.
Ας υποθέσουμε τώρα ότι έπρεπε να ανακατασκευάσουμε το μοτίβο εισόδου αποκλειστικά από τη γνώση μας για το ποια κρυφή μονάδα επιλέχθηκε. Η καλύτερη επιλογή μας θα ήταν να αντιγράψουμε το μοτίβο των εισερχόμενων βαρών της επιλεγμένης κρυφής μονάδας. Για να ελαχιστοποιήσουμε το σφάλμα ανακατασκευής, θα πρέπει να μετακινήσουμε το μοτίβο βαρών της νικήτριας κρυφής μονάδας ακόμη πιο κοντά στο μοτίβο εισόδου. Αυτό κάνει η ανταγωνιστική μάθηση. Εάν στο δίκτυο παρουσιαστούν δεδομένα εκπαίδευσης που μπορούν να ομαδοποιηθούν σε συστάδες παρόμοιων μοτίβων εισόδου, κάθε κρυφή μονάδα μαθαίνει να αντιπροσωπεύει μια διαφορετική συστάδα και τα εισερχόμενα βάρη της συγκλίνουν στο κέντρο της συστάδας.
Όπως και ο αλγόριθμος κύριων στοιχείων, η ανταγωνιστική μάθηση ελαχιστοποιεί το κόστος ανακατασκευής διατηρώντας παράλληλα το κόστος κώδικα χαμηλό. Μπορούμε να χρησιμοποιήσουμε πολλές κρυφές μονάδες, επειδή ακόμη και με ένα εκατομμύριο μονάδες χρειάζονται μόνο 20 bit για να πούμε ποια κέρδισε
Στις αρχές της δεκαετίας του 1980, ο Teuvo Kohonen εισήγαγε μια σημαντική τροποποίηση του αλγορίθμου ανταγωνιστικής μάθησης. Ο Kohonen έδειξε πώς να κάνουμε τις φυσικά γειτονικές κρυφές μονάδες να μαθαίνουν να αναπαριστούν παρόμοια μοτίβα εισόδου. Ο αλγόριθμος του Kohonen προσαρμόζει όχι μόνο τα βάρη της νικήτριας κρυφής μονάδας, αλλά και τα βάρη των γειτόνων του νικητή. Η ικανότητα του αλγορίθμου να αντιστοιχίζει παρόμοια μοτίβα εισόδου σε κοντινές κρυφές μονάδες υποδηλώνει ότι μια διαδικασία αυτού του τύπου μπορεί να είναι αυτό που χρησιμοποιεί ο εγκέφαλος για να δημιουργήσει τους τοπογραφικούς χάρτες που βρίσκονται στον οπτικό φλοιό
Οι αλγόριθμοι μη επιβλεπόμενης μάθησης μπορούν να ταξινομηθούν ανάλογα με τον τύπο αναπαράστασης που δημιουργούν. Στις μεθόδους κύριων στοιχείων, οι κρυφές μονάδες συνεργάζονται και η αναπαράσταση κάθε μοτίβου εισόδου κατανέμεται σε όλες. Στις ανταγωνιστικές μεθόδους, οι κρυφές μονάδες ανταγωνίζονται και η αναπαράσταση του μοτίβου εισόδου εντοπίζεται στη μία μόνο κρυφή μονάδα που επιλέγεται. Μέχρι πρόσφατα, οι περισσότερες εργασίες για τη μη επιβλεπόμενη μάθηση επικεντρώνονταν σε μία ή την άλλη από αυτές τις δύο τεχνικές, πιθανώς επειδή οδηγούν σε απλούς κανόνες για την αλλαγή των βαρών. Αλλά οι πιο ενδιαφέροντες και ισχυροί αλγόριθμοι πιθανότατα βρίσκονται κάπου ανάμεσα στα άκρα των καθαρά κατανεμημένων και των καθαρά τοπικών αναπαραστάσεων.
Ο Horace B. Barlow πρότεινε ένα μοντέλο στο οποίο κάθε κρυφή μονάδα είναι σπάνια ενεργή και η αναπαράσταση κάθε μοτίβου εισόδου κατανέμεται σε έναν μικρό αριθμό επιλεγμένων κρυφών μονάδων. Αυτός και οι συνεργάτες του έχουν δείξει ότι αυτός ο τύπος κώδικα μπορεί να μαθευτεί αναγκάζοντας τις κρυφές μονάδες να μην συσχετίζονται, διασφαλίζοντας παράλληλα ότι ο κρυφός κώδικας επιτρέπει την καλή ανακατασκευή της εισόδου.
Δυστυχώς, οι περισσότερες σύγχρονες μέθοδοι ελαχιστοποίησης του κόστους κώδικα τείνουν να εξαλείφουν όλο τον πλεονασμό μεταξύ των δραστηριοτήτων των κρυφών μονάδων. Ως αποτέλεσμα, το δίκτυο είναι πολύ ευαίσθητο στη δυσλειτουργία μίας μόνο κρυφής μονάδας. Αυτό το χαρακτηριστικό δεν είναι χαρακτηριστικό του εγκεφάλου, ο οποίος γενικά δεν επηρεάζεται σημαντικά από την απώλεια μερικών νευρώνων
Ο εγκέφαλος φαίνεται να χρησιμοποιεί αυτό που είναι γνωστοί ως κώδικες πληθυσμού, στους οποίους οι πληροφορίες αντιπροσωπεύονται από έναν ολόκληρο πληθυσμό ενεργών νευρώνων. Αυτό το σημείο αποδείχθηκε άψογα στα πειράματα του David L. Sparks και των συναδέλφων του. Ενώ ερευνούσαν πώς ο εγκέφαλος ενός πιθήκου δίνει οδηγίες στα μάτια του πού να κινηθούν, διαπίστωσαν ότι η απαιτούμενη κίνηση κωδικοποιείται από τις δραστηριότητες ενός ολόκληρου πληθυσμού κυττάρων, καθένα από τα οποία αντιπροσωπεύει μια κάπως διαφορετική κίνηση. Η κίνηση των ματιών που πραγματικά γίνεται αντιστοιχεί στον μέσο όρο όλων των κινήσεων που κωδικοποιούνται από τα ενεργά κύτταρα. Εάν ορισμένα εγκεφαλικά κύτταρα αναισθητοποιηθούν, το μάτι μετακινείται στο σημείο που σχετίζεται με τον μέσο όρο των υπόλοιπων ενεργών κυττάρων. Οι κώδικες πληθυσμού μπορούν να χρησιμοποιηθούν για την κωδικοποίηση όχι μόνο των κινήσεων των ματιών αλλά και των προσώπων, όπως έδειξαν οι Malcolm P. Young και Shigeru Yamane στο Ινστιτούτο RIKEN στην Ιαπωνία σε πρόσφατα πειράματα στον κατώτερο κροταφικό φλοιό πιθήκων
Τόσο για τις κινήσεις των ματιών όσο και για τα πρόσωπα, ο εγκέφαλος πρέπει να αντιπροσωπεύει οντότητες που ποικίλλουν σε πολλές διαφορετικές διαστάσεις. Στην περίπτωση μιας κίνησης των ματιών, υπάρχουν μόνο δύο διαστάσεις, αλλά για κάτι σαν το πρόσωπο, υπάρχουν διαστάσεις όπως η ευτυχία, η τριχοφυΐα ή η οικειότητα, καθώς και χωρικές παράμετροι όπως η θέση, το μέγεθος και ο προσανατολισμός. Αν συσχετίσουμε το καθένα με
Ανεξάρτητα από τις παραμέτρους του προσώπου που το καθιστούν πιο ενεργό, μπορούμε να υπολογίσουμε τον μέσο όρο αυτών των παραμέτρων σε έναν πληθυσμό ενεργών κυττάρων για να ανακαλύψουμε τις παραμέτρους του προσώπου που αντιπροσωπεύονται από αυτόν τον κώδικα πληθυσμού. Με αφηρημένους όρους, κάθε κύτταρο προσώπου αντιπροσωπεύει ένα συγκεκριμένο σημείο σε έναν πολυδιάστατο χώρο πιθανών προσώπων και οποιοδήποτε πρόσωπο μπορεί στη συνέχεια να αναπαρασταθεί ενεργοποιώντας όλα τα κύτταρα που κωδικοποιούν πολύ παρόμοιες όψεις, έτσι ώστε να εμφανίζεται μια αύξηση δραστηριότητας στον πολυδιάστατο χώρο πιθανών προσώπων.
Η κωδικοποίηση πληθυσμού είναι ελκυστική επειδή λειτουργεί ακόμα και αν ορισμένοι από τους νευρώνες έχουν υποστεί βλάβη. Μπορεί να το κάνει αυτό επειδή η απώλεια ενός τυχαίου υποσυνόλου νευρώνων έχει μικρή επίδραση στον μέσο όρο πληθυσμού. Η ίδια συλλογιστική ισχύει εάν ορισμένοι νευρώνες παραβλέπονται όταν το σύστημα βιάζεται. Οι νευρώνες επικοινωνούν στέλνοντας διακριτές αιχμές που ονομάζονται δυναμικά δράσης και σε πολύ σύντομο χρονικό διάστημα πολλοί από τους «ενεργούς» νευρώνες μπορεί να μην έχουν χρόνο να στείλουν μια αιχμή. Παρ’ όλα αυτά, ακόμη και σε τόσο σύντομο χρονικό διάστημα, ένας κώδικας πληθυσμού σε ένα μέρος του εγκεφάλου μπορεί να δημιουργήσει έναν κατά προσέγγιση σωστό κώδικα πληθυσμού σε ένα άλλο μέρος του εγκεφάλου
Με την πρώτη ματιά, ο πλεονασμός στους κώδικες πληθυσμού φαίνεται ασύμβατος με την ιδέα της κατασκευής εσωτερικών αναπαραστάσεων που ελαχιστοποιούν το κόστος κώδικα. Ευτυχώς, μπορούμε να ξεπεράσουμε αυτή τη δυσκολία χρησιμοποιώντας ένα λιγότερο άμεσο μέτρο κόστους κώδικα. Εάν η δραστηριότητα που κωδικοποιεί μια συγκεκριμένη οντότητα είναι ένα ομαλό εξόγκωμα στο οποίο η δραστηριότητα αποκλίνει με έναν τυπικό τρόπο καθώς απομακρυνόμαστε από το κέντρο, μπορούμε να περιγράψουμε πλήρως το εξόγκωμα δραστηριότητας απλώς καθορίζοντας το κέντρο του. Έτσι, ένα πιο δίκαιο μέτρο του κόστους κώδικα είναι το κόστος περιγραφής του κέντρου του εξογκώματος δραστηριότητας συν το κόστος περιγραφής του πώς οι πραγματικές δραστηριότητες των μονάδων αποκλίνουν από το επιθυμητό ομαλό εξόγκωμα δραστηριότητας.
Χρησιμοποιώντας αυτό το μέτρο του κόστους κώδικα, διαπιστώνουμε ότι οι κώδικες πληθυσμού είναι ένας βολικός τρόπος εξαγωγής μιας ιεραρχίας προοδευτικά πιο αποτελεσματικών κωδικοποιήσεων της αισθητηριακής εισόδου. Αυτό το σημείο παρουσιάζεται καλύτερα με ένα απλό παράδειγμα. Σκεφτείτε ένα νευρωνικό δίκτυο που παρουσιάζεται με μια εικόνα ενός προσώπου. Ας υποθέσουμε ότι το δίκτυο περιέχει ήδη ένα σύνολο μονάδων αφιερωμένων στην αναπαράσταση των μύτων, ένα άλλο σύνολο για τα στόματα και ένα άλλο σύνολο για τα μάτια. Όταν εμφανίζεται ένα συγκεκριμένο πρόσωπο, θα υπάρχει ένα εξόγκωμα δραστηριότητας στις μονάδες μύτης, ένα στις μονάδες στόματος και δύο στις μονάδες ματιών. Η θέση καθενός από αυτά τα εξογκώματα δραστηριότητας αντιπροσωπεύει τις χωρικές παραμέτρους του χαρακτηριστικού που κωδικοποιείται από το εξόγκωμα. Η περιγραφή των τεσσάρων εξογκωμάτων δραστηριότητας είναι φθηνότερη από την περιγραφή της ακατέργαστης εικόνας, αλλά προφανώς θα ήταν ακόμα φθηνότερο να περιγραφεί ένα μόνο εξόγκωμα δραστηριότητας σε ένα σύνολο μονάδων προσώπου, υποθέτοντας φυσικά ότι η μύτη, το στόμα και τα μάτια βρίσκονται στις σωστές χωρικές σχέσεις για να σχηματίσουν ένα πρόσωπο.
Αυτό εγείρει ένα ενδιαφέρον ζήτημα: Πώς μπορεί το δίκτυο να ελέγξει ότι τα μέρη σχετίζονται σωστά μεταξύ τους για να δημιουργήσουν ένα πρόσωπο; Πριν από λίγο καιρό, η Dana H. Ballard εισήγαγε μια έξυπνη τεχνική για την επίλυση αυτού του είδους προβλήματος που λειτουργεί καλά με κώδικες πληθυσμού
Αν γνωρίζουμε τη θέση, το μέγεθος και τον προσανατολισμό μιας μύτης, μπορούμε να προβλέψουμε τη θέση, το μέγεθος και τον προσανατολισμό του προσώπου στο οποίο ανήκει, επειδή η χωρική σχέση μεταξύ μύτης και προσώπου είναι περίπου σταθερή. Επομένως, ορίζουμε τα βάρη στο νευρωνικό δίκτυο έτσι ώστε μια αύξηση δραστηριότητας στις μονάδες της μύτης να προσπαθεί να προκαλέσει μια κατάλληλα συσχετισμένη αύξηση δραστηριότητας στις μονάδες του προσώπου. Αλλά ορίζουμε επίσης τα κατώφλια των μονάδων του προσώπου έτσι ώστε οι μονάδες της μύτης από μόνες τους να μην επαρκούν για να ενεργοποιήσουν τις μονάδες του προσώπου. Αν, ωστόσο, η αύξηση δραστηριότητας στις μονάδες του στόματος προσπαθήσει επίσης να προκαλέσει μια αύξηση στο ίδιο σημείο στις μονάδες του προσώπου, τότε τα κατώφλια μπορούν να ξεπεραστούν. Στην πραγματικότητα, έχουμε ελέγξει ότι η μύτη και το στόμα σχετίζονται σωστά μεταξύ τους, ελέγχοντας ότι και τα δύο προβλέπουν τις ίδιες χωρικές παραμέτρους για ολόκληρο το πρόσωπο.
Σχήμα:Πώς μπορεί ένα νευρωνικό δίκτυο να αναγνωρίσει ένα πρόσωπο; Εάν το δίκτυο γνωρίζει τη γενική χωρική σχέση μεταξύ των ματιών, της μύτης και του στόματος σε σχέση με το πρόσωπο, οι μονάδες αθροίζονται για να δημιουργήσουν μια αναγνώριση. Στην περίπτωση που το στόμα και η μύτη είναι εκτός φάσης με τις προγραμματισμένες παραμέτρους του προσώπου (στήλη στα δεξιά), η μηχανή δεν θα αναγνωρίσει το μοτίβο ως πρόσωπο.
Αυτή η μέθοδος ελέγχου χωρικών σχέσεων είναι ενδιαφέρουσα επειδή χρησιμοποιεί το είδος της πλεονασματικότητας μεταξύ των διαφορετικων μερών μιας εικόνας που η μη επιβλεπόμενη μάθηση θα πρέπει να είναι καλή στο να τα βρει. Επομένως, φαίνεται φυσικό να προσπαθήσουμε να χρησιμοποιήσουμε μη επιβλεπόμενη μάθηση για να ανακαλύψουμε ιεραρχικούς κώδικες πληθυσμού για την εξαγωγή σύνθετων σχημάτων. Το 1986, ο Eric Saund του M.I.T. επέδειξε μια μέθοδο εκμάθησης απλών κωδίκων πληθυσμού για σχήματα. Φαίνεται πιθανό ότι με έναν σαφή ορισμό του κόστους κώδικα, ένα μη επιβλεπόμενο δίκτυο θα είναι σε θέση να ανακαλύψει πιο σύνθετες ιεραρχίες προσπαθώντας να ελαχιστοποιήσει το κόστος κωδικοποίησης της εικόνας. Ο Richard Zemel και εγώ διερευνούμε τώρα αυτή τη δυνατότητα.
Χρησιμοποιώντας μη επιβλεπόμενη μάθηση για την εξαγωγή μιας ιεραρχίας διαδοχικά πιο οικονομικών αναπαραστάσεων, θα πρέπει να είναι δυνατό να βελτιωθεί σημαντικά η ταχύτητα εκμάθησης σε μεγάλα πολυεπίπεδα δίκτυα. Κάθε επίπεδο του δικτύου προσαρμόζει τα εισερχόμενα βάρη του για να κάνει την αναπαράστασή του καλύτερη από την αναπαράσταση στο προηγούμενο επίπεδο, έτσι ώστε τα βάρη σε ένα επίπεδο να μπορούν να μαθευτούν χωρίς αναφορά στα βάρη στα επόμενα επίπεδα. Αυτή η στρατηγική εξαλείφει πολλές από τις αλληλεπιδράσεις μεταξύ βαρών που καθιστούν τη μάθηση με οπισθοδιάδοση πολύ αργή σε βαθιά πολυεπίπεδα δίκτυα
Όλες οι διαδικασίες μάθησης που συζητήθηκαν μέχρι στιγμής εφαρμόζονται σε νευρωνικά δίκτυα στα οποία η δραστηριότητα ρέει μόνο προς τα εμπρός από την είσοδο στην έξοδο, παρόλο που οι παράγωγοι σφάλματος μπορεί να ρέουν προς τα πίσω. Μια άλλη σημαντική πιθανότητα που πρέπει να ληφθεί υπόψη είναι τα δίκτυα στα οποία η δραστηριότητα ρέει γύρω από κλειστούς βρόχους. Τέτοια επαναλαμβανόμενα δίκτυα μπορεί να σταθεροποιηθούν σε σταθερές καταστάσεις ή μπορεί να εμφανίσουν σύνθετη χρονική δυναμική που μπορεί να χρησιμοποιηθεί για την παραγωγή διαδοχικής συμπεριφοράς. Εάν σταθεροποιηθούν σε σταθερές καταστάσεις, οι παράγωγοι σφάλματος μπορούν να υπολογιστούν χρησιμοποιώντας μεθόδους πολύ απλούστερες από την αντίστροφη διάδοση.
Παρόλο που οι ερευνητές έχουν επινοήσει μερικούς ισχυρούς αλγόριθμους μάθησης που έχουν μεγάλη πρακτική αξία, ακόμα δεν γνωρίζουμε ποιες αναπαραστάσεις και διαδικασίες μάθησης χρησιμοποιούνται στην πραγματικότητα από τον εγκέφαλο. Αλλά αργά ή γρήγορα, οι υπολογιστικές μελέτες μάθησης σε τεχνητά νευρωνικά δίκτυα θα συγκλίνει με τις μεθόδους που ανακαλύφθηκαν από την εξέλιξη. Όταν συμβεί αυτό, πολλά ποικίλα εμπειρικά δεδομένα σχετικά με τον εγκέφαλο θα αποκτήσουν ξαφνικά νόημα και πολλές νέες εφαρμογές τεχνητών νευρωνικών δικτύων θα καταστούν εφικτές.