AI Novinky 5. 2. 2025

Voice AI agenti – proč hlasoví chatboti zažívají renesanci

Hlasový AI agent mi zavolal. Nepoznal jsem to.

Vážně. Byl jsem na testu jednoho amerického startupu a zavolal mi AI agent. Přirozený hlas, reagoval v reálném čase, nezadrhl se ani jednou. Myslel jsem, že je to člověk. Nebyl.

Tohle byl moment, kdy jsem pochopil, že voice AI přestalo být sci-fi a stalo se byznysovou realitou. A většina českých firem o tom ještě netuší.

Proč hlasoví AI agenti právě teď?

Hlasová AI tu byla vždy. IVR systémy, co vás posílají "zmáčkněte jedničku pro obchodní oddělení", existují 20 let. Siri a Alexa jsou tu 10 let. Ale tohle je jiný level.

Stará hlasová AI měla tři základní problémy: latence (čekali jste na odpověď), robotický hlas (bylo to nepříjemné) a nulový kontext (zapomněla, co jste říkali před 10 sekundami). Nová generace tohle vyřešila.

ElevenLabs, Vapi, Retell AI – to jsou firmy, co přinesly kvalitativní skok. Latence pod 1 sekundu. Hlasy, co jsou k nerozeznání od lidských. Kontext celého rozhovoru v reálném čase.

Jak to celé funguje – rychle a jasně

Moderní voice AI stack jsou tři komponenty:

  1. STT (Speech-to-Text): Deepgram nebo Whisper převede váš hlas na text – za méně než 200 ms
  2. LLM (Large Language Model): Claude nebo GPT-4 zpracuje kontext, "přemýšlí" a generuje odpověď – taky rychle
  3. TTS (Text-to-Speech): ElevenLabs nebo podobný nástroj převede text zpátky na přirozený hlas

Celý cyklus – od toho, co řeknete, po odpověď agenta – trvá 600-900 milisekund. Většina lidí to jako zpoždění ani nezaznamená.

Kde to dnes reálně funguje

Zákaznická podpora je největší use case. Automatické odpovídání na běžné dotazy 24/7, bez přestávky, bez špatné nálady, vždy konzistentně. Firmy, co to implementovaly, reportují 40-60% pokles ticketů na lidské operátory.

Kvalifikace leadů – tohle je mega zajímavé. Místo aby sales rep trávil hodiny cold callingem, první hovor udělá AI agent. Zjistí základní potřeby, kvalifikuje zájem, dohodne schůzku s reálným člověkem. Sales rep se pak věnuje jen lidem, u kterých má smysl investovat čas.

Zdravotnictví – připomínání užívání léků, triáž pacientů, základní zdravotní screening. Tohle má obrovský potenciál v zemích, kde je nedostatek zdravotníků.

HR – první kolo pohovorů. AI agent projde s kandidátem základní otázky, zkontroluje prerekvizity, vyhodnotí kulturní fit. HR pak dostane přepis, skóre a doporučení. Šílené, ale funguje.

Ehm... ale co čeština?

Tohle je otázka číslo jedna, co dostávám od českých klientů. A odpověď je: lepší než před rokem, ale pořád to chce hlídat.

ElevenLabs má české hlasy – jsou dobré. Deepgram a Whisper zvládají češtinu na slušné úrovni. Největší problém jsou vlastní jména, specifické termíny a dialekty. Na standardní byznysovou češtinu to ale funguje.

Testoval jsem to sám na zákaznické podpoře pro český e-shop – výsledky byly překvapivě dobré. 80 % dotazů AI zvládla bez problémů. Zbylých 20 % předala lidskému operátorovi.

Tři firmy, co tohle dělají nejlépe

ElevenLabs – absolutní šampioni v syntéze hlasu. Jejich Turbo v2.5 model je to nejlepší, co dnes existuje pro TTS. Mají API, skvělou dokumentaci a ceny jsou rozumné.

Vapi – kompletní platforma pro voice AI agenty. Postavíte agenta za hodinu, napojíte ho na svůj telefon a jedete. Integrace s n8n a dalšími automation nástroji je přímočará.

Retell AI – podobný jako Vapi, trochu více enterprise zaměřený. Skvělý pro call centra a složitější workflow.

Co mě ale fakt překvapuje

Netechnické firmy to adoptují rychleji než tech startupy. Realitní kanceláře, pojišťovny, e-shopy – tihle lidé neřeší, jak to funguje. Řeší, jestli to ušetří peníze a zda zákazníci nebudou naštvaní. A jakmile vidí čísla, jdou do toho.

Jeden klient – realitní kancelář – mi řekl, že AI agent zachytí 70 % příchozích hovorů mimo pracovní dobu. Dříve to šlo na záznamník a zpravidla se neozývali zpět. Teď zákazník dostane odpověď okamžitě, agent zjistí zájem, a ráno má makléř v CRM qualified lead.

Rizika a kdy to nepoužívat

Transparentnost. V některých zemích (a brzy i v EU) bude povinné říct zákazníkovi, že mluví s AI. To je správně. Snažte se to dělat dobrovolně – zákazníci to respektují víc, než když na to přijdou sami.

Složité reklamace a emocionálně nabité hovory – AI agent s tím zatím neumí dobře pracovat. Eskalace na člověka musí být vždy dostupná a plynulá.

Nepodceňujte prompt engineering pro voice agenty. Text-based chatbot a voice agent jsou jiné věci. Voice agent potřebuje přirozenější flow, kratší věty, jiný rytmus.

Jak začít – bez paniky

Nejjednodušší první krok: Vapi free tier. Zaregistrujte se, vytvořte agenta, zavolejte mu. Celé to trvá hodinu. Uvidíte na vlastní uši, kde jsme dnes.

Pak si definujte jeden konkrétní use case – třeba afterhours podpora nebo kvalifikace příchozích leadů. Nepouštějte AI agenta na komplexní procesy hned od začátku.

A testujte. Hodně testujte. Nahrajte hovory, čtěte přepisy, zlepšujte prompty. Voice AI agenti se zlepšují s každou iterací – ale jen pokud iterujete.

Rok 2025 bude rok voice AI

Jsem si tím fakt jistý. ChatGPT voice mode, ElevenLabs nové modely, strejda Sam, co tlačí na real-time API – to všechno ukazuje stejným směrem.

Firmy, co začnou testovat voice AI dnes, budou mít dvanáctiměsíční náskok před konkurencí. A v AI světě je dvanáct měsíců epocha.

Takže – kdy zavolá první AI agent vašim zákazníkům?

Podívej se na celé video