un blog de Radu Dumitru

►► canalele mele de YouTube: youtube.com/RaduDumitru (personal) și youtube.com/NwraduBlog (tech) ◄◄

Prezentarea Google I/O a fost banală… până au ajuns la Project Astra

14 May 2024  ·

TEHNOLOGIE  ·

3 comentarii

A început Google I/O, iar în keynote-ul de la deschidere de obicei Google prezintă tot felul de noi tehnologii și proiecte pe care poate le vom vedea și puse în practică într-o bună zi. De obicei nu. Chiar și așa, multe sunt interesante pentru că arată ce poate face tehnologia de astăzi, chiar dacă Google alege apoi să nu dezvolte un produs comercial pe baza ei.

Google I/O-ul de acum a fost banal, în sensul că s-a spus ceea ce mă așteptam: cuvântul AI de foarte multe ori. CEO-ul Google a spus direct la final de câte ori s-a zis cuvântul acesta: de peste 120 de ori în 110 minute, de fapt.

De exemplu, Google Photos va primi un search AI mai bun numit Ask Photos. Vei putea căuta într-un mod mai natural în fotografii. Exemplul dat de Google este că, în loc să cauți “fotografii cu numere de mașini”, vei putea să întrebi “care este numărul mașinii mele?”. Photos se prinde din numărul de fotografii cam care este mașina ta, caută fotografia în care se vede plăcuța de înmatriculare și îți spune numărul.

Mi s-a părut un exemplu naiv (de ce ai uita numărul de înmatriculare?), dar esența lui contează. Ca utilizator de Photos și mai ales a search-ului său excelent, unul și mai bun mă bucură.

GEMINI ÎN ANDROID

Au mai arătat ce poate face AI-ul Gemini dacă îi dai acces la aplicațiile tale. Exemplul dat de Google a fost că vrei să returnezi niște pantofi. Îi spui lui Gemini “vreau să returnez pantofii aceștia” și le faci o fotografie. Gemini caută singur prin emailuri după acel model de pantofi ca să afle de unde și când i-ai cumpărat, apoi accesează interfața de retur, ba chiar cheamă și curierul să-i ridice.

Mi s-a părut genul de exemplu care dă bine în prezentări. În practică, așa cum s-a văzut de-a lungul timpului inclusiv cu comenzile vocale către Assistent, succesul chiar și pentru task-urile cele mai simple (“cheamă-mi un Uber să mă ducă acasă”) este de fapt asigurat de o muncă manuală de verificare. A chemat mașina unde trebuie sau pe partea cealaltă a bulevardului? Adresa mea a fost detectată bine? A înțeles comanda? La fel și aici. Scenariul de utilizare pare rezonabil, dar realist vorbind vei dori să verifici că face returul unde trebuie, că nu costă, că vine curierul la adresa bună și la o oră când vei fi acasă șamd.

Vom vedea, însă. Gemini poate interacționa mai bine cu Gmail, YouTube, Messages și alte aplicații, poate rezuma emailuri, te poate ajuta în mai multe moduri.

Google a anunțat și un nou Tensor Processing Unit, a șasea generație de astfel de procesoare pentru centre de date, care va fi lansată în curând. Se numește Trillium și este de 4,7 ori mai rapidă decât cea anterioară în anumite procesări.

VEO PENTRU TEXT-TO-VIDEO, PLUS IMAGEN 3

Google a mai prezentat și Veo, un model AI text-to-video similar cu Sora. Din nou, va fi în Labs, disponibil unora etc.

Mă așteptam la un astfel de model. Google nu-și permite să nu lanseze sau măcar să anunțe aceleași tipuri de AI precum OpenAI.

Imagen 3 este un model text-to-image, adică îți generează imagini pe baza cuvintelor tale. Era de așteptat să vedem un model îmbunătățit. Din câte știu, cel actual nu este disponibil în UE. Eu îl folosesc pe al Microsoft, prin urmare, dacă este nevoie de ursuleți de lână luptându-se cu săbii laser pe o plajă.

SEARCH VIDEO

O funcție interesantă este opțiunea de a încărca în Search un clip video în care filmezi problema pe care o ai și de a pune o întrebare. S-au dat exemple cu “de ce nu se mișcă maneta până la capăt” sau “de ce nu merge pickup-ul acesta”.

Google Search analizează clipul video, înțelege ce produs ai în față, ce problemă, caută pe net soluții și ți le oferă.

Mi se pare un produs excelent pentru generația tânără, obișnuită să lucreze mult mai mult cu clipuri video scurte.

PARTEA REA LEGATĂ DE SEARCH

Introducerea de AI în căutare și nu doar pe video, ci și pe text sau circle to search, pare benefică utilizatorului final. Omului care caută ceva pe net, ca să zic așa.

Cu toate acestea, toate imaginile și exemplele arătate de Google sugerează că Google Search îți va răspunde direct întrebării tale. Pui o întrebare, mai jos apare răspunsul, ba chiar poți alege dacă vrei unul simplu sau mai complex.

Nicăieri în acest search modern nu pare că Google îți mai recomandă site-uri de pe care să afli răspunsul. Ți-l dă Google direct, după ce AI-ul lor l-a învățat făcând scraping pe acele site-uri. Asta este o veste proastă pentru posesorii de site-uri, indiferent de tipul lor.

Pur și simplu search-ul modern, cel puțin cel de tipul “caut răspunsul la o întrebare”, pare să se ducă spre a oferi răspunsul direct în Google Search, nu site-uri care ar putea conține ceea ce cauți.

PROJECT ASTRA

Cum am spus, însă, toate cele de mai sus erau așteptate. Mai rapid, mai bun, dar în principiu ceea ce deja știai că Google vrea să facă.

Project Astra a fost cel mai interesant proiect anunțat la Google I/O. Mi s-a părut un alt moment wow similar cu cel Duplex din 2018. Este greu de descris în cuvinte ce este Astra. Este un fel de chatbot, asistent digital, prieten virtual care funcționează prin viewfinderul camerei foto din telefon.

În prezentarea făcută, cineva îndreaptă camera unui telefon spre un birou și zice “spune-mi când vezi ceva ce face zgomot”. Astra indica niște boxe atunci când acestea apar în cadru. Persoana respectivă trage o săgeată pe ecran și spune “ce este asta?”. Astra vine cu răspunsul.

Telefonul este apoi îndreptat spre un ecran cu linii de cod și se pune întrebarea “ce face acest cod?”. Astra dă răspunsul aproape imediat. Este impresionant pentru că prezentatorul a spus că totul din acel demo a fost filmat în timp real, dintr-un singur take, nu sărind peste pauză ca la prezentarea lor anterioară.

Telefonul este îndreptat spre fereastră cu întrebarea “în ce cartier sunt?”. Astra recunoaște zona din Londra. Am văzut asta funcționând bine în Circle to Search, dar viteza cu care s-a realizat totul pe video este foarte mare.

Demo-ul se încheie cu întrebarea “unde sunt ochelarii mei?” și Astra spune “erau pe birou, lângă un măr”. Asta înseamnă că a reținut toate cadrele peste care a trecut camera anterior și le-a analizat rapid pe fiecare. Ochelarii se dovedesc a fi unii AR. Astra pare să funcționeze și prin așa ceva, spune continuare clipului, proiectând apoi un overlay de informații direct în ochelari.

Astra răspunde și într-un limbaj natural, cu o voce umană. Frazele sunt bine structurate. E ca și cum ai fi într-un videocall cu cineva care știe de toate și îl întrebi diverse prin casă. OpenAI și noul GPT-4o au un concurent serios.

Ca multe alte proiecte arătate de Google, nici Astra nu se știe când va fi lansat efectiv sau sub ce formă. Ca demonstrație, însă, este de efect.

Puteți să vă uitați la toată prezentarea din deschiderea Google I/O, dar are 2 ore. Tot felul de alte prezentări sunt în acest playlist. Mâine Google va da detalii mai multe despre Android 15 și alte noutăți.

    3 comentarii

  1. the_real_blue

    15/05/2024 la 1:21 AM

    mda, cred ca ne indreptam catre inceputul sfarsitului lumii in care am crescut si cu care ne-am obisnuit … cam tot ce am vazut in black mirror, in wall-e, etc…

    cel putin o sa avem parte de o perioada interesanta a civilizatiei umane :)

      (Citează)

  2. Pare totusi destul de departe de GPT-4o. Ce face GPT-4o acum e deja destul de inspaimantator, daca te uiti la prezentari. Si acolo vorbim de un produs finalizat, gata sa fie livrat clientilor in zilele urmatoare.

    De vazut daca Google poate recupera.

      (Citează)

    • Este deja livrat, eu il folosesc deja. Mai putin partea cu camera live in conversatii, probabil urmeaza. Destul de scary, intradevar.

        (Citează)

    Alătură-te discuției, lasă un mesaj

    E-mail-ul nu va fi publicat. Fără înjurături și cuvinte grele, că vorbim prietenește aici. Gândiți-vă de două ori înainte de a publica. Nu o luați pe arătură doar pentru că aveți un monitor în față și nu o persoană reală.

    Apăsați pe Citează pentru a cita întreg comentariul cuiva sau selectați întâi anumite cuvinte și apăsați apoi pe Citează pentru a le prelua doar pe acelea. Link-urile către alte site-uri, dar care au legătură cu subiectul discuției, sunt ok.


    Prin trimiterea comentariului acceptați politica de confidențialitate a site-ului.



    Vreți un avatar în comentarii? Mergeți pe gravatar.com (un serviciu Wordpress) și asociați o imagine cu adresa de email cu care comentați.

    Dacă ați bifat să fiți anunțați prin email de noi comentarii sau posturi, veți primi inițial un email de confirmare. Dacă nu validați acolo alegerea, nu se va activa sistemul și după un timp nu veți mai primi nici alte emailuri

    Comentariile nu se pot edita ulterior, așa că verificați ce ați scris. Dacă vreți să mai adăugați ceva, lăsați un nou comentariu.

sus