Η τεχνητή νοημοσύνη μπορεί τώρα να μιμείται τη φωνή σας!

Το Voice Engine της OpenAI με μόλις 15 δευτερόλεπτα ηχογραφημένου ήχου ενός ατόμου μπορεί να αναπαράξει τη φωνή του και να δημιουργήσει ομιλία από ένα γραπτό κείμενο κατά το δοκούν.

Δημοσιεύθηκε: 30 Μαρτίου 2024 - 10:33

Το OpenAI μοιράζεται τα πρώτα αποτελέσματα από μια δοκιμή εφαρμογής που μπορεί να διαβάζει λέξεις δυνατά με πειστική ανθρώπινη φωνή – δημιουργώντας ένα νέο σύνορο για την τεχνητή νοημοσύνη και αυξάνοντας το φάσμα των κινδύνων για deepfake ειδήσεις.

Η εταιρεία μοιράζεται πρώιμα demo από μια μικρής κλίμακας προεπισκόπηση του μοντέλου μετατροπής κειμένου σε ομιλία, που ονομάζεται Voice Engine, το οποίο έχει διαθέσει με περίπου 10 προγραμματιστές μέχρι στιγμής, είπε εκπρόσωπος της εταιρείας σύμφωνα με το Bloomberg. H OpenAI αποφάσισε να μην προχωρήσει σε ευρύτερη διάθεση, για την οποία ενημέρωσε τους δημοσιογράφους νωρίτερα αυτό το μήνα.

Ένας εκπρόσωπος του OpenAI είπε ότι η εταιρεία αποφάσισε να περιορίσει την κυκλοφορία αφού έλαβε σχόλια από ενδιαφερόμενους φορείς, όπως υπεύθυνους χάραξης πολιτικής, ειδικούς του κλάδου, εκπαιδευτικούς και δημιουργούς. Η εταιρεία είχε αρχικά σχεδιάσει να κυκλοφορήσει το εργαλείο σε έως και 100 προγραμματιστές.

«Αναγνωρίζουμε ότι η παραγωγή ομιλίας που μοιάζει με τις φωνές των ανθρώπων έχει σοβαρούς κινδύνους, οι οποίοι είναι ιδιαίτερα σημαντικοί σε μια εκλογική χρονιά», έγραψε η εταιρεία σε ανάρτησή της. «Συνεργαζόμαστε με Αμερικανούς και διεθνείς εταίρους από την κυβέρνηση, τα μέσα ενημέρωσης, την ψυχαγωγία, την εκπαίδευση, την κοινωνία των πολιτών και πέραν αυτών για να διασφαλίσουμε ότι ενσωματώνουμε τα σχόλιά τους καθώς χτίζουμε».

Άλλη τεχνολογία AI έχει ήδη χρησιμοποιηθεί για την παραποίηση φωνών. Τον Ιανουάριο, ένα ψεύτικο αλλά ρεαλιστικό τηλεφώνημα που υποτίθεται ότι ήταν από τον Πρόεδρο Τζο Μπάιντεν ενθάρρυνε τους ανθρώπους στο Νιου Χάμσαϊρ να μην ψηφίσουν στις προκριματικές εκλογές - ένα γεγονός που πυροδότησε φόβους για τον ρόλο της τεχνητής νοημοσύνης ενόψει κρίσιμων παγκόσμιων εκλογών.

Σε αντίθεση με τις προηγούμενες προσπάθειες του OpenAI για τη δημιουργία περιεχομένου ήχου, το Voice Engine μπορεί να δημιουργήσει ομιλία που ακούγεται σαν συγκεκριμένου μεμονωμένου ατόμου, με τη δική του δηλαδή χροιά. Το μόνο που χρειάζεται το λογισμικό είναι 15 δευτερόλεπτα ηχογραφημένου ήχου ενός ατόμου που μιλάει για να αναδημιουργήσει τη φωνή του.

Κατά τη διάρκεια μιας επίδειξης του εργαλείου, το Bloomberg άκουσε ένα κλιπ του Διευθύνοντος Συμβούλου του OpenAI, Sam Altman, που εξηγούσε εν συντομία την τεχνολογία με μια φωνή που ακουγόταν όπως η πραγματική του ομιλία, αλλά ήταν εξ ολοκλήρου δημιουργημένη από AI.

Ένας από τους τρέχοντες συνεργάτες προγραμματιστών του OpenAI που χρησιμοποιεί το εργαλείο, το Norman Prince Neurosciences Institute στο μη κερδοσκοπικό σύστημα υγείας Lifespan, χρησιμοποιεί τεχνολογία για να βοηθήσει τους ασθενείς να ανακτήσουν τη φωνή τους. Για παράδειγμα, το εργαλείο χρησιμοποιήθηκε για την αποκατάσταση της φωνής μιας νεαρής ασθενούς που έχασε την ικανότητά της να μιλά καθαρά λόγω όγκου στον εγκέφαλο, αναπαράγοντας την ομιλία της από μια προηγούμενη ηχογράφηση για ένα σχολικό έργο, ανέφερε η ανάρτηση στο blog της εταιρείας.

Το προσαρμοσμένο μοντέλο ομιλίας του OpenAI μπορεί επίσης να μεταφράσει τον ήχο που παράγει σε διαφορετικές γλώσσες. Αυτό το καθιστά χρήσιμο για εταιρείες στον κλάδο του ήχου, όπως η Spotify Technology SA. Το Spotify έχει ήδη χρησιμοποιήσει την τεχνολογία στο δικό του πιλοτικό πρόγραμμα για τη μετάφραση των podcast δημοφιλών προσώπων όπως ο Lex Fridman.

Στο πρόγραμμα δοκιμών, το OpenAI απαιτεί από τους συνεργάτες του να συμφωνήσουν με τις πολιτικές χρήσης του, να λάβουν τη συγκατάθεση από τον αρχικό ομιλητή πριν χρησιμοποιήσουν τη φωνή του και να αποκαλύψουν στους ακροατές ότι οι φωνές που ακούνε είναι δημιουργημένες από AI. Η εταιρεία εγκαθιστά επίσης ένα μη ακουστικό «υδατογράφημα» ήχου που της επιτρέπει να διακρίνει εάν ένα κομμάτι ήχου δημιουργήθηκε από το εργαλείο της.

Η OpenAI έγραψε επίσης ότι ελπίζει ότι η προεπισκόπηση του λογισμικού της «παρακινεί την ανάγκη ενίσχυσης της κοινωνικής ανθεκτικότητας» έναντι των προκλήσεων που προκαλούνται από πιο προηγμένες τεχνολογίες τεχνητής νοημοσύνης. Για παράδειγμα, η εταιρεία κάλεσε τις τράπεζες να καταργήσουν σταδιακά τον φωνητικό έλεγχο ταυτότητας ως μέτρο ασφαλείας για την πρόσβαση σε τραπεζικούς λογαριασμούς και ευαίσθητες πληροφορίες.