Ικανές οι μηχανές να τηρούν πρακτικά ομιλιών, ανίκανες να τα κατανοούν

Επιστήμονες στο τμήμα Τεχνητής Νοημοσύνης και Έρευνας της Microsoft Corp. ανέπτυξαν ένα σύστημα αναγνώρισης ομιλίας, το οποίο κάνει

Δημοσιεύθηκε: 19 Οκτωβρίου 2016 - 23:15

Ικανές οι μηχανές να τηρούν πρακτικά ομιλιών, ανίκανες να τα κατανοούν

Επιστήμονες στο τμήμα Τεχνητής Νοημοσύνης και Έρευνας της Microsoft Corp. ανέπτυξαν ένα σύστημα αναγνώρισης ομιλίας, το οποίο κάνει, στον ίδιο ή μικρότερο βαθμό, τα λάθη που θα έκανε ένας άνθρωπος στη μεταφορά μιας συνομιλίας.

Το σύστημά τους αναγνώρισε την συντριπτική πλειονότητα των λέξεων κατά τη συζήτηση δύο αγνώστων σε προκαθορισμένο θέμα καθώς και στη τηλεφωνική συνομιλία μεταξύ μελών μιας οικογένειας χωρίς προκαθορισμένο θέμα. Στη πρώτη φάση του τεστ NIST 2000 (Switchboard), ένας άνθρωπος θα έκανε λάθη στο 5,9% του συνόλου των λέξεων και στη δεύτερη, πιο απαιτητική φάση (CallHome), τα λάθη θα ήταν περισσότερα (11,3%).

Το σύστημα των επιστημόνων της ομάδας Artificial Intelligence and Research της Microsoft δεν θα έκανε περισσότερα λάθη από τους ανθρώπους, αποδεικνύουν σε μελέτη που δημοσιεύεται στο arXiv.org τα μέλη της ομάδας στη Microsoft.

Σύμφωνα με τον Chief Speech Scientist της εταιρείας, Xuedong Huang, πρόκειται για «ιστορικό επίτευγμα», αφού ένας υπολογιστής καθίσταται ικανός να αναγνωρίσει τις λέξεις σε μια συζήτηση όσο καλά θα το έκανε και ένας άνθρωπος.

Ενθουσιασμένος δηλώνει και ο επικεφαλής της ομάδας έρευνας, Harry Shum, ο οποίος δήλωσε ότι δεν φανταζόταν «ότι κάτι τέτοιο είναι καν εφικτό». Ο Shum δεν παρέλειψε να αναφερθεί στα θετικλά επακόλουθα αυτού του επιτεύγματος, και ιδιαίτερα στην Cortana: «αυτό θα κάνει την Cortana ισχυρότερη, μια πραγματικά νοήμων βοηθό».

Ένας ακόμα επιστήμονας της ομάδας, ο Zweig έδωσε περισσότερες εξηγήσεις για το ιστορικό αυτό κατόρθωμα, εξηγώντας πως η ισοτιμία με τις επιδόσεις ενός ανθρώπου δεν σημαίνει ότι το σύστημα είναι τέλειο. Σημαίνει όμως πως, το σύστημα έκανε λάθη ανάλογα με αυτά που θα έκανε ένας άνθρωπος ακούγοντας την ίδια συζήτηση -να μεταφέρει ένα "have" ως "is" ή το "a" με ένα "the".

Ο Zweig αποδίδει το επίτευγμα στην συστηματική χρήση της πλέον εξελιγμένης τεχνολογίας νευρωνικών δικτύων σε κάθε μέρος του συστήματος αναγνώρισης ομιλίας. Επεσήμανε δε, πως κρίσιμη ήταν η αξιοποίηση μοντέλων στα οποία οι λέξεις αναπαριστώνται ως συνεχή διανύσματα στο χώρο, στα οποία συνώνυμες λέξεις βρίσκονται πολύ κοντά η μια στην άλλη (π.χ. fast, quick). «Το γεγονός επιτρέπει στα μοντέλα να γενικεύουν πολύ καλά από λέξη σε λέξη», είπε ο Zweig.

Πηγή: in.gr