Počítačové hlasy spoločnosti ElevenLabs sú také presvedčivé, že by oklamali vašu matku. To je na jednej strane tromf – zakladatelia firmy, členovia rebríčka Forbes 30 pod 30, sú teraz miliardári –, ale zároveň aj prekliatie pre štyri roky podnikajúcu firmu.
Dabované filmy v Poľsku bývajú hrozné. Jediný „lektor“ recituje všetky dialógy v unavenej slovanskej monotónnosti. Žiadne preobsadenie hercov. Žiadne rozdiely medzi rozprávačmi. Mladé publikum to nenávidí.
„Spýtajte sa ktoréhokoľvek Poliaka a povie vám, že je to hrozné,“ hovorí Mateusz (Mati) Staniszewski, spoluzakladateľ spoločnosti ElevenLabs, ktorá sa zaoberá rečou umelej inteligencie. „Myslím, že to bolo komunistické dedičstvo, ktoré sa uchytilo ako lacný spôsob produkcie obsahu.“
Počas práce v spoločnosti Palantir sa Staniszewski spojil s kamarátom zo strednej školy a inžinierom spoločnosti Google Piotrom Dabkowským, aby experimentovali s umelou inteligenciou. Dvojica si uvedomila, že jeden projekt, obzvlášť sľubný trenažér verejného vystupovania s umelou inteligenciou, by mohol vyriešiť tradičnú poľskú hrôzu, keď Leonarda DiCapria alebo Scarlett Johanssonovú prehluší hviezdny lektor, akým býval Maciej Gudowski.
Dvojica investovala úspory a v máji 2022 dala výpoveď, aby sa naplno venovala práci v ElevenLabs. Ich nový generátor prepisu textu na reč s umelou inteligenciou bol hneď od začiatku o triedu lepší ako robotické hlasy Siri od Applu a Alexa od Amazonu. Hlasy umelej inteligencie v ElevenLabs boli schopné vyjadriť šťastie, vzrušenie, ba dokonca aj smiech.
V januári 2023 ElevenLabs uviedol na trh svoj prvý model. Dokázal vziať akýkoľvek text a pomocou umelej inteligencie ho prečítať nahlas akýmkoľvek hlasom – vrátane klonu vášho vlastného (alebo, čo je znepokojujúce, niekoho iného).
Dopyt bol okamžite vysoký. Autori mohli pomocou softvéru okamžite vytvárať audioknihy (ceny za profesionálne vystúpenia sa teraz začínajú od 99 dolárov mesačne za vyššiu kvalitu a viac času). Tvorcovia na YouTube používali ElevenLabs na preklad videí do iných jazykov (jeho modely teraz dokážu hovoriť 29 jazykmi).
Najlepší model?
Startup so sídlom vo Varšave a Londýne získal zmluvy na aplikácie na učenie jazykov a meditáciu; potom sa k nim pridali mediálne spoločnosti ako HarperCollins a nemecký Bertelsmann. „Bolo zrejmé, že toto je najlepší model a všetci si ho vyberali,“ hovorí investorka Jennifer Li zo spoločnosti Andreessen Horowitz, ktorá v máji 2023 spoluviedla kolo investícií v hodnote 19 miliónov dolárov. O rok boli spoluzakladatelia ocenení ako súčasť rebríčka Forbes 30 Under 30 Europe.
Iní však našli aj využitie, ktoré spôsobuje obavy: zvuky umelej inteligencie, ktoré pripomínajú rečový prejav verejne známych osobností – ako napríklad prezidenta Trumpa, ktorý drsne komentuje súboje vo videohrách, herečku Emmu Watsonovú, čítajúcu Mein Kampf, či podcastového tvorcu Joea Rogana, propagujúceho podvody –, sa rýchlo stali virálnymi.
Cody Pickens, Forbes
Mati Staniszewski (vľavo) a Piotr Dabkowski, Eleven Labs.
Podvodníci neváhali
Horšie je, že podvodníci začali používať nástroje umelej inteligencie na napodobňovanie hlasov blízkych a okrádanie príbuzných v sofistikovaných podvodoch typu deepfake.
Nič z toho nezabránilo rizikovým investorom v tom, aby nalievali peniaze. Spoločnosť ElevenLabs získala celkovo viac ako 300 miliónov dolárov, pričom jej hodnota v októbri dosiahla 6,6 miliardy dolárov a stala sa jedným z najcennejších startupov v Európe.
Staniszewski (30), ktorý pôsobí ako generálny riaditeľ (firma nemá žiadne tradičné tituly), a vedúci výskumu Dabkowski (30) sú teraz obaja miliardári s majetkom niečo vyše jedna miliarda dolárov, odhaduje Forbes.
Cisco a ďalšie obry
Približne polovica zo 193 miliónov dolárov z posledných 12-mesačných tržieb spoločnosti ElevenLabs pochádza od spoločností ako Cisco, Twilio a švajčiarska náborová agentúra Adecco, ktoré využívajú jej technológiu na prijímanie hovorov so zákazníckym servisom alebo na pohovory s uchádzačmi o zamestnanie.
Epic Games ju používa na dabovanie postáv vo Fortnite, vrátane rozhovoru s Darthom Vaderom (so súhlasom pozostalých Jamesa Earla Jonesa). Druhá polovica príjmov pochádza od youtuberov, podcasterov a autorov, ktorí si ju osvojili ako prví. „Keď sa s nimi rozprávate, je ohromujúce, akí sú dobrí,“ hovorí analytik spoločnosti Gartner Tom Coshow.
Na rozdiel od väčšiny firiem zaoberajúcich sa umelou inteligenciou je ElevenLabs zisková. Forbes odhaduje, že za posledných 12 mesiacov zarobila 116 miliónov dolárov (60 % rast).
Cody Pickens, Forbes
Mati Staniszewski, Eleven Labs.
Súťaž s gigantmi
Teraz súťaží s gigantmi ako Google, Microsoft, Amazon a OpenAI o to, aby sa stala de facto hlasom umelej inteligencie. Nie je to nový priestor: technologické spoločnosti začali s vývojom produktov na počúvanie, prepisovanie a generovanie reči približne pred desiatimi rokmi.
Hoci je to pre Microsoft do istej miery vedľajšia činnosť, Satya Nadella bol ochotný v marci 2022 vynaložiť 20 miliárd dolárov na kúpu služby prepisovania hlasu Nuance, ktorá je kótovaná na burze Nasdaq. OpenAI uviedla do používania v októbri 2024 vlastný hlasový nástroj, ktorý dokáže prenášať ľudské konverzácie do ChatGPT.
Trikrát drahší
300-členný tím ElevenLabs však má náskok. Jeho modely sú také dobré, že si dokáže účtovať až trikrát viac ako americkí konkurenti. Jeho knižnica s 10-tisíc neuveriteľne ľudsky znejúcimi hlasmi je vôbec najväčšia a teraz zahŕňa aj hviezdy prvej triedy Michaela Caina a Matthewa McConaugheyho.
Je to aj spoľahlivejší postup. Startup pre dátový tréning Labelbox otestoval šesť najlepších hlasových modelov pomocou čitateľského kvízu a zistil, že ElevenLabs urobil o polovicu menej chýb ako jeho najbližší konkurent, OpenAI.
Náskok pred OpenAI
„Sme jednou z mála spoločností, ktoré sú pred OpenAI – nielen v reči, ale aj v prepise reči na text a v hudbe. To je ťažké,“ hovorí Staniszewski. Recept ElevenLabs je jednoduchý. Úzky káder výskumníkov strojového učenia s obsesívnym zameraním na jeden úzky problém a obmedzený rozpočet (spoluzakladatelia finančne zabezpečili prvý tréningový cyklus za 100-tisíc dolárov) viedli k prelomovým objavom modelov.
„Mať veľa výpočtov môže byť prekliatím, pretože nemyslíte na to, ako to vyriešiť inteligentným spôsobom,“ hovorí Dabkowski.
Právne problémy
Žaloba zo strany dvoch hercov, ktorí narozprávali audioknihy, však naznačuje ďalšiu líniu príbehu. Karissa Vacker a Mark Boyett tvrdia, že ElevenLabs použili tisíce audiokníh chránených autorskými právami na trénovanie svojich modelov. Tvrdia, že stiahli toľko ich kníh, že klony ich hlasov skončili ako predvolené možnosti v ElevenLabs.
Prípad, v ktorom ElevenLabs poprel akékoľvek pochybenie, bol v novembri mimosúdne urovnaný. (Vackerová a Boyett na žiadosť o komentár nereagovali; ElevenLabs odmietli ďalší komentár.)
Seriózny prístup?
Trh dospieva. Spoločnosť zostavila zoznam „nevhodných“ hlasov (väčšinou politikov a celebrít) po tom, čo bol klon hlasu Joea Bidena vytvorený spoločnosťou ElevenLabs použitý na odrádzanie od hlasovania v kampani s automatickými hovormi počas demokratických primárok v roku 2024.
ElevenLabs má teraz sedem ľudských moderátorov na plný úväzok (plus umelú inteligenciu, samozrejme), ktorí prehľadávajú jej klipy, či nie sú zneužité. Novo naklonované hlasy musia prejsť kontrolou súhlasu a spoločnosť ponúka bezplatný detektor deepfake.
Plány mimo hlasu
Staniszewski a Dabkowski majú veľké plány aj mimo hlasu. Tvorcovia s nedostatkom peňazí aj šetrné mediálne spoločnosti chceli hudbu na pozadí bez licenčných poplatkov, a tak v auguste dodali generátor hudby s umelou inteligenciou.
Nemáte čas natočiť video? ElevenLabs bude mať budúci rok avatary s umelou inteligenciou, ktoré budú prezentovať videá v štýle Sora. Ich najodvážnejšou stávkou je, že dokážu preniesť svoje odborné znalosti do jednotného centra pre klientov, kde budú môcť spravovať všetky svoje nástroje s umelou inteligenciou. „Budujeme platformu, ktorá vám umožní vytvárať hlasových agentov a hladko ich nasadzovať,“ hovorí Staniszewski.
Kolízia s konkurenciou
To, samozrejme, stavia ElevenLabs do kolízie s množstvom ďalších startupov, ktoré dúfajú, že dosiahnu to isté. Pomáha to, že je ziskový od prvých dní, ale jeho konkurenti z radov startupov sú bohato financovaní a technologické giganty majú prakticky neobmedzené zdroje.
Napriek tomu musí inovovať. Hlasové modely sa čoskoro stanú komoditou. Keď ich dobehnú iné modely, nestáli zákazníci, ktorí už teraz váhajú s cenami ElevenLabs, pravdepodobne prejdú na iné.
Farmy GPU
Keďže sa ElevenLabs rozširuje od hlasových služieb k výpočtovo náročnejšej hudbe a videu, musí rozšíriť svoje vlastné „farmy GPU“, aby zostal na trhu. Už minul 50 miliónov dolárov na projekt dátového centra v Oregone. „Ak chceme vybudovať generačnú spoločnosť v oblasti umelej inteligencie, musíme budovať škálovateľnosť a my budujeme,“ hovorí Staniszewski.
V Poľsku ešte starnúci segment lektorov stále existuje. Dabkowski nezabudol na pôvodnú prezentáciu ElevenLabs, v ktorej sa chválil, že jeho ďalší model preloží a nahovorí celý film na jeden raz. „Nikdy sa nevzdávame našej misie,“ hovorí.
Autor článku je Iain Martin, Forbes.com