Αναζήτηση βίντεο με αναγνώριση φωνής

Στο διαδίκτυο κυκλοφορούν πολλά αρχεία με βιντεοσκοπημένες συζητήσεις, διαλέξεις και μαθήματα. Εξαιρετικό περιεχόμενο είναι συχνά διαθέσιμο μερικά μόνον κλικ μακριά μας. Και δεν είναι μόνον υλικό που, με τον έναν ή τον άλλο τρόπο, έχει υποκλαπεί αλλά και υλικό που διαθέτουν Πανεπιστήμια, εκπαιδευτικοί οργανισμοί αλλά και οι ίδιοι οι επιστήμονες που κοινοποιούν μ’ αυτό τον τρόπο τη δουλειά τους.

Το βασικό μειονέκτημα της αναζήτησης σε βιβλιοθήκες που περιέχουν αρχεία βίντεο είναι ότι γίνεται είτε με το όνομα του αρχείου είτε με τα μεταδεδομένα που προσθέτει ο δημιουργός του. Το πρόβλημα είναι όμως, ότι αυτά τα κριτήρια εύρεσης δεν αντιστοιχούν πάντα ή απολύτως με το περιεχόμενο. Μου έχει συμβεί να έχω βρει βίντεο διάλεξης διάρκειας περίπου μιας ώρας, να έχω ιδροκοπήσει προσπαθώντας να καταλάβω τι λέει ένας προφέσορας με προφορά του αμερικάνικου νότου για να ανακαλύψω στο τέλος ότι αυτό που με ενδιέφερε (και αναφερόταν στα μεταδεδομένα του αρχείου) ήταν μια ασήμαντη αναφορά διάρκειας λίγων μόνο δευτερολέπτων.

Απάντηση στο πρόβλημα δίνει η Google που χρησιμοποιεί τεχνολογία αναγνώρισης φωνής (voice recognition ή speech to text) ώστε να καταγράψει το κείμενο του κάθε βίντεο, δημιουργώντας έτσι τον κατάλογο λέξεων που διευκολύνουν την «φωνητική» αναζήτηση. Μ’ άλλα λόγια κάθε βίντεο “απομαγνητοφωνείται” ώστε να διευκολυνθεί η διαδικασία αναζήτησης.

Προς το παρόν, η δυνατότητα αυτή διατίθεται σε ορισμένα βίντεο με περιεχόμενο σχετικό με τις επερχόμενες αμερικανικές προεδρικές εκλογές ώστε να βοηθήσει τους ψηφοφόρους να αναζητήσουν τις θέσεις των υποψηφίων για το χρίσμα του προέδρου των Ηνωμένων Πολιτειών.

Μπορείτε να δείτε πως γίνεται αυτό, προσθέτοντας το Google Election Video Search Gadget στην iGoogle σελίδα σας, αν διαθέτετε φυσικά, ή στην σελίδα http://speech.clients.google.com/elections2008videosearch/gadget. Εσείς απλά δίνετε μία λέξη και το google σημαδεύει με κίτρινο χρώμα, τα σημεία όπου ακούγεται η συγκεκριμένη λέξη ή πρόταση.

Η εφαρμογή βρίσκεται σε beta έκδοση (να δω εφαρμογή της Google να φεύγει από το beta στάδιο ανάπτυξης και τι στον κόσμο) και αποτελεί ένα σημαντικό βήμα στη διαδικασία ωρίμανσης των τεχνολογιών αναγνώρισης φωνής.

Για να πάρετε μια ιδέα για το πώς λειτουργεί η εφαρμογή δείτε την εικόνα που ακολουθεί.  Ζήτησα από τα διαθέσιμα βίντεο του γερουσιαστή Μπ. Ομπάμα την άποψή του για το Ιράν. Στον κατάλογο των βίντεο φαίνεται πόσες αναφορές των λόγων του έχουν σχέση με το κριτήριο αναζήτησης ενώ στην μπάρα χρόνου σημειώνονται με κίτρινο χρώμα τα σημεία που γίνεται σχετική αναφορά. Αν περάσουμε το ποντίκι πάνω τους φαίνεται ολόκληρη η φράση για να αποφασίσουμε αν μας ενδιαφέρουν τα αποτελέσματα της αναζήτησης ή όχι.

Αφήστε μια απάντηση