“If they find a parrot who could answer to everything, I would claim it to be an intelligent being without hesitation.” —Denis Diderot, 1875
Pre začiatok odporúčam prečítať prvý diel – Úvod do LLM. Pri vysvetlení čo to vlastne chatGPT alebo LLM vlastne je, sme pracovali s konceptom Einsteina vo vašej firme. Len pre pripomenutie – Predstavte si, že máte Einsteina v teame vo vašej firme – superinteligentnú osobu/entitu s ktorou sa môžete kedykoľvek porozprávať a odpovie vám trpezlivo na akúkoľvek otázku a ponúkne riešenie na takmer akýkoľvek problém. Teraz si predstavte, že dáte tomuto Einsteinovi schopnosti plánovať, autonómne sa rozhodovať a dáte mu nástroje potrebné k splneniu misie, ktorú mu vy zadáte. Už nie len otázku, ale konkrétnu misiu s konkrétnym cieľom. To je to, čo nazývame konceptom autonómnych AI agentov.
Rozdiel medzi chatGPT a autonómnymi agentmi
- Non-agentic workflow
“Non-agentic workflow” alebo “zero-shot” je spôsob akým používa v súčasnosti chatGPT väčšina z nás. Napíšeme prompt, resp. príkaz – “Napíš mi referát o XYZ” a chatGPT nám napíše kompet referát o čom len chceme. Následne (verím že aspoň niektorí z nás) si výsledný text prečítajú, zhodnotia kvalitu, spravia edit či revíziu a najmä prekontrolujú fakty.
- Agentic workflow
V prípade “agentic workflow”, je postup iteratívnejší. Za príkazom “Napíš mi referát o XYZ” sa môže skrývať celý set podpríkazov a celého systému myslenia, ako splniť tak jednoduchú úlohu ako napísať referát o XYZ. Väčšinou kopíruje naše vlastné – ľudské postupy myslenia a rozhodovania. Napríklad v prípade písania referátu začíname tým, že si spravíme research k danej téme, nazhromaždíme si zdroje z ktorých si pripravíme prvý draft. Ten si znova prečítame a vyhodnotíme, ktoré odseky potrebujú revíziu alebo či je potrebný dodatočný research alebo fact-check. To všetko sa nám zosumarizuje v oveľa kvalitnejšom výstupe, ako keby sme mali napísať referát o XYZ len z vlastnej pamäte bez toho, aby sme čo i len raz použili backspace.
Tento use-case, ktorý popisuje písanie referátu je veľmi zjednodušený, no otvára celý vesmír možností, ako podobných autonómnych agentov použiť v biznise alebo priemysle. Skôr než začneme fantazírovať o možnostiach využitia, poďme sa pozrieť ale na realitu.
AI agenti alebo aj LLM ako chatGPT sú len ďalšou generáciou chatbotov. Prvá generácia, ktorú sme si mohli vyskúšať sú práve tie otravné a absolútne zbytočné chatovacie okná, ktoré na vás vyskočia na každom druhom eshope, či vám “môžu nejako pomôcť”, ale vo výsledku ich jedinou úlohou je byť zbytočným a predraženým doplnkom UI webu a vo výsledku vás len spoja s človekom na technickej podpore. Títo chatboti boli trénovaní na konkrétnom sete dát pre špecifické zadanie no mali problémy porozumieť komplexnejším otázkam či kontextu. Našťastie súčasná genrácia chatbotov založených na LLM modeloch je omnoho schopnejšia porozumieť komplexným otázkam a požiadavkam a dokáže ich pretransformovať do omnho užitočnejších výstupov.
Skutočným pokrokom LLM nie je len to, že sú lepšími chatbotmi, ale aj ich predispozícia pre autonómiu v rozhodovaní a kreativite. LLM v podstate slúžia ako mozog so systémom myslenia pre tzv. AI agentov. Jakmile agent chápe cieľ misie alebo úlohy, môže interagovať s aplikáciami či prostredím kde je spustený a dokonca používať dostupné nástroje. To všetko je možné vďaka ich pokročilému uvažovaniu, možnosti využívať pamäť, možnosti integrácii s rôznymi API a na rozdiel od mnohých z nás najmä schopnosti sebareflexie.
6 základných komponentov AI agentov
- Prostredie: Prevádzkové prostredie agenta, ktorým môže byť napíklad digitálna platforma, chatovacie UI, mobilná appka alebo akýkoľvek iný kontext, v ktorom vykonáva úlohy. V budúcnosti kľudne skeleton skutočného humanoida.
- Senzory: Schopnosť vnímať a porozumieť prostrediu, v ktorom sa pohybuje. V digitálnom kontexte to môže byť čítanie textov, monitorovanie aktivít servera alebo sledovanie správania používateľov priamo na webe.
- Aktuátory (vykonávače): Umožňujú agentovi konať v rámci prostredia. Napríklad chatbot môže poslať správu, softvér môže vykonávať príkazy.
- Uvažovanie a rozhodovanie: Tu sa to delí na viacero subkomponentov ktoré medzi sebou úzko súvisia a vo výsledku tvoria autonómiu LLM v jeho uvažovaní a riešení danej misie:
- Interpretácia vstupov: Agenti rozumejú príkazom v prirodzenom jazyku a reagujú na ne.
- Pamäť: Umožňuje agentom spracovávať a ukladať informácie z minulých interakcií, čo zlepšuje ich reakcie.
- Plánovanie a vykonávanie úloh: Po pochopení vstupu a určení cieľov agenti na základe nich plánujú a vykonávajú ďalšie akcie.
- Ciele: Vopred stanovené ciele, ktoré sa agent snaží splniť. Využitím schopností LLM môžu byť tieto ciele vyjadrené v prirodzenom jazyku, čo vedie k prispôsobivejším a rozmanitejším osnovám úloh.
- Učenie a adaptácia: Hoci mnoho autonómnych agentov používa na svoj vývoj rôzne stratégie strojového učenia, agent založený na LLM čerpá najmä z rozsiahlych znalostí a prispôsobivosti LLM. Napriek tomu sa môže spojiť s inými metódami učenia pre ďalšie zdokonalenie.
Využitie AI agentov v praxy
Polemizovať o prípadoch použitia AI agentov prakticky nemá význam. AI agenti nachádzajú uplatnenie v prakticky neobmedzenom spektre odvetví a situácií, čo ich robí jednými z najuniverzálnejších nástrojov moderných technológií vôbec.
Vďaka ich schopnosti adaptovať sa na rôzne prostredia a komplexné úlohy, môžu byť využívaní vo finančnom sektore na automatizáciu obchodovania a správu rizík, v zdravotníctve na monitorovanie pacientov a personalizovanú medicínu, alebo v retailovom priemysle na personalizáciu zákazníckych zážitkov (customer experience) a optimalizáciu zásob. Výrobné podniky ich môžu využívať na zlepšenie efektivity výrobných línií a minimalizáciu odpadu. Possibilities are endless…
Ich schopnosť učiť sa a prispôsobovať sa znamená, že ich aplikácie sa neustále budú rozširovať a zlepšovať, čo otvára dvere pre inovácie naprieč všetkými sektormi. Je to budúcnosť no v ďalšom článku sa pozrieme na súčasnosť a kde a ako rozbehať svoj prvý vlastný team AI agentov.
Zdroje:
Wei et al. “Chain of thought prompting elicits reasoning in large language models.” NeurIPS 2022
Yao et al. “ReAct: Synergizing reasoning and acting in language models.” ICLR 2023.
Shinn & Labash. “Reflexion: an autonomous agent with dynamic memory and self-reflection” arXiv preprint arXiv:2303.11366 (2023).
Li et al. “API-Bank: A Benchmark for Tool-Augmented LLMs” arXiv preprint arXiv:2304.08244 (2023).
Joon Sung Park, et al. “Generative Agents: Interactive Simulacra of Human Behavior.” arXiv preprint arXiv:2304.03442 (2023).AutoGPT. https://github.com/Significant-Gravitas/Auto-GPT
Lilian Weng https://lilianweng.github.io/posts/2023-06-23-agent/