Γλώσσα μηχανής: πώς Siri συλλαμβάνει τη φωνή σας;
Makradar Της τεχνολογίας / / December 19, 2019
Google, Apple, Microsoft, ακόμα και Amazon είναι ενεργά την ανάπτυξη υπηρεσιών φωνής τους. Φρεσκοψημένα για iOS 7 είναι το ίδιο Siri, μόνο νέες λειτουργίες και... φωνή. Έχετε αναρωτηθεί πώς είναι αυτή η διαδικασία; Καθώς οι υπολογιστές διδάσκονται ομιλία; αυτό πραγματική τέχνη.
Για κάθε μία από τις φωνές Siri - ηθοποιός σας. Από τη στιγμή που έχει ολοκληρωθεί το ρόλο της στην άρθρωση, το έργο έχει μόλις ξεκινήσει... Η φωνή του ανθρώπου συνεχίζει το ταξίδι του. Η ιστορία αυτού του ταξιδιού, τόσο του ανθρώπου και ρομπότ - μια από τις πιο πολύπλοκες τεχνολογικές διαδικασίες, οι οποίες δεν θα μπορούσε να πραγματοποιηθεί πριν από δέκα χρόνια.
Ας εξοικειωθούν με τον διευθυντή του σχεδιασμού και της ανάπτυξης της φωνής Nuance, είναι μια από τις μεγαλύτερες ανεξάρτητες εταιρείες στον κόσμο που ασχολούνται με την αναγνώριση ομιλίας και κειμένου σε ομιλία. Brant Ward (J. Brant Ward) ήταν συνθέτης, συνθέτουν το κόμμα για κουαρτέτα εγχόρδων σε συνθεσάιζερ, και τώρα αυτός συνθέτει χρησιμοποιώντας συνθετικές φωνές. Εργάζεται στον κλάδο της συνθετικής ομιλίας στο Silicon Valley για πάνω από μια δεκαετία.
Κείμενο σε Ομιλία - μια πολύ ανταγωνιστική βιομηχανία, και οι υπάλληλοι του είναι πολύ μυστικοπαθής. Αν και τον κόσμο και πιστεύει ότι η Nuance δημιουργεί τη φωνή του Siri για, Ward και ο συνάδελφός του Ντέιβιντ Vasquez (David Vazquez) την αποφυγή άμεση απάντηση. Παρ 'όλα αυτά, συμφώνησαν να εξηγήσει, τουλάχιστον σε γενικές γραμμές, πώς η διαδικασία δημιουργίας μια καταπληκτική ψήφους μηχάνημα.
Περιττό να πούμε ότι, δεν χρειάζεται να αρθρώσει και να γράφει κάθε λέξη από το λεξικό. Αλλά όταν πρόκειται για την εφαρμογή, η οποία θα πρέπει να διαβάσετε κάποια είδηση στο ενημερωτικό δελτίο σας, ή να βρείτε κάτι για σας στο Διαδίκτυο, είναι απλά υποχρεωμένος να μιλήσει κάθε λέξη στο λεξικό.
Οι περισσότερες από τις προτάσεις που έχουν επιλεγεί για ένα «φωνητική πλούτου» - που είναι, που περιέχουν πολλούς διαφορετικούς συνδυασμούς των φωνημάτων. «Το γεγονός είναι, τα περισσότερα δεδομένα που έχουμε, τόσο πιο ρεαλιστικό το αποτέλεσμα θα είναι,» - λέει ο Ward.
Μετά το κείμενο που ηχογραφήθηκε ζωντανά ηθοποιός φωνή (μια επίπονη διαδικασία που μπορεί να διαρκέσει αρκετούς μήνες), πολύ σκληρή δουλειά αρχίζει. Οι λέξεις και οι φράσεις που αναλύθηκαν, χωρίζονται σε κατηγορίες και καταχωρούνται σε μια μεγάλη βάση δεδομένων. Σε αυτό το περίπλοκο έργο που εμπλέκονται μια ομάδα αφοσιωμένων γλωσσολόγοι, καθώς χρησιμοποιούν το δικό τους γλωσσικό λογισμικό.
Όταν όλο αυτό γίνεται, η μονάδα της Nuance για να μεταφράσει το κείμενο σε ομιλία δημιουργεί λέξεις bit και φράσεις που ο ηθοποιός μπορεί να Ποτέ στην πραγματικότητα πρόφερε, αλλά ακούγεται πολύ παρόμοια με την ομιλία του ηθοποιού, γιατί τεχνικά είναι η φωνή ηθοποιός.
ομιλία διαδικασία είναι αναίσθητος. Εμείς το κάνουμε χωρίς να σκεφτόμαστε πώς συμβαίνει αυτή η διαδικασία: η κατάσταση κατά την οποία είναι η γλώσσα μας, η οποία οι σχέσεις χτίζονται μεταξύ των φωνημάτων, και ούτω καθεξής - εύκολα και αποτελεσματικά εκφράζουν πολύπλοκες ιδέες και συναισθήματα. Αλλά έτσι ώστε ο υπολογιστής πήρε τον ήχο της ανθρώπινης φωνές, πρέπει να λαμβάνονται υπόψη όλοι αυτοί οι παράγοντες. Ως ένας καθηγητής γλωσσολογίας, είναι το έργο του «Τιτανικού».
Δεν πρέπει να σκεφτείτε: «Μιλάω με έναν υπολογιστή.» Μπορείτε γενικά δεν χρειάζεται να το σκεφτώ.
«Τα παιδιά μου αλληλεπιδρούν με της Siri, σαν να ήταν ένα ζωντανό πλάσμα... Αυτοί δεν αισθάνονται τη διαφορά», - λέει ο Ward.
Μέχρι στιγμής, και στη φιλία μεταξύ ανθρώπων και ρομπότ - όπως οι άνθρωποι. Πολλοί άνθρωποι θα το ήθελα, αν Siri μπορεί να αναγνωρίσει τη συναισθηματική κατάσταση του ομιλητή, και με κάποιο τρόπο να αντιδράσει σε αυτό (για παράδειγμα, περιλαμβάνουν ένα χαλαρωτικό λειτουργία φωνής). Φανταστείτε - για να μιλήσει στο ρομπότ, το οποίο είναι ηθικά σας ελαφρύ κτύπημα στο κεφάλι. Ίσως, Nuance έχει ήδη σκέφτομαι ...