un blog de Radu Dumitru

Uitați-vă și pe canalul meu de YouTube.

Google îmbunătățește apelurile video simulând vocea în momentele de întrerupere

7 Apr 2020  ·

TEHNOLOGIE  ·

Spune-ți părerea

Google a mai demonstrat o aplicație foarte bună a inteligenței artificiale: completează cuvintele sau sunetele lipsă din apeluri video, atunci când conexiunea are mici probleme și nu înțelegi bine ce se zice acolo.

Google recunoaște că propriul lor sistem Duo are probleme cu sunete pierdute în 99% de apeluri, iar 10% dintre apeluri pierd mai mult de 8% din totalul fluxului audio. Cred că oricine a fost într-o conversație pe Skype, Zoom, Webex, Messenger, WhatsApp sau orice altceva s-a lovit de astfel de probleme.

Google a îmbinat două tehnologii diferite:

  1. predicția cuvintelor, adică în funcție de ce-ai spus până acum ghicește bine ce cuvânt urma să spui. Sau na, dacă spui bună și ora este 19, probabil că următorul cuvânt va fi seara. Google are însă la dispoziție o bază imensă de date privind fraze și ordinea cuvintelor, începând de la faptul că ne citește emailurile și terminând cu faptul că au indexat tot Internetul și o mulțime de cărți, iar aplicații precum Translate le permit să înțeleagă topica frazei.
  2. generarea de voce similară cu a persoanei reale care vorbea în acel moment. Asta nu-i dificil. Pe vremea mea în facultate, la cursul codare și compresie audio, se învăța despre vocodere, parametri ce descriu vocea și din care o poți resintetiza practic de la zero șamd, toate acestea fiind destul de vechi ca tehnologie. Google doar arată că o poate face în timp real.

Pentru că acesta este avantajul sistemului demonstrat de ei: funcționează în timp real. În acele milisecunde dispărut pentru că vreo câteva pachete de date cu vocea reală n-au ajuns la destinație, algoritmul Google estimează ce sunete sau cuvinte urma să spună persoana respectivă, îi simulează vocea și le rostește.

Imaginea de mai jos spune multe. Cu albastru este semnalul audio real. Cu portocaliu este ceea ce crede Google că se va spune în viitor dacă semnalul s-ar tăia la linia gri. După cum vedeți, în majoritatea cazurilor știe ce se va spune:

Momentan algoritmul lor prezice doar silabe pierdute pe drum. Găsiți pe blogul lor sample-uri before și after cu voce.

Asta după ce acum câteva zile vedeam aplicația RTX Voice de la NVIDIA, care elimină în timp real zgomotul ambiental folosind puterea de procesare a plăcii video.

    Alătură-te discuției, lasă un mesaj

    E-mail-ul nu va fi publicat. Fără înjurături și cuvinte grele, că vorbim prietenește aici. Gândiți-vă de două ori înainte de a publica. Nu o luați pe arătură doar pentru că aveți un monitor în față și nu o persoană reală.

    Apăsați pe Citează pentru a cita întreg comentariul cuiva sau selectați întâi anumite cuvinte și apăsați apoi pe Citează pentru a le prelua doar pe acelea. Link-urile către alte site-uri, dar care au legătură cu subiectul discuției, sunt ok.


    Prin trimiterea comentariului acceptați politica de confidențialitate a site-ului.



    Vreți un avatar în comentarii? Mergeți pe gravatar.com (un serviciu Wordpress) și asociați o imagine cu adresa de email cu care comentați.

    Dacă ați bifat să fiți anunțați prin email de noi comentarii sau posturi, veți primi inițial un email de confirmare. Dacă nu validați acolo alegerea, nu se va activa sistemul și după un timp nu veți mai primi nici alte emailuri

    Comentariile nu se pot edita ulterior, așa că verificați ce ați scris. Dacă vreți să mai adăugați ceva, lăsați un nou comentariu.

sus