Stručný úvod do generatívnej AI – ľudskou rečou

Vstupujeme do éry, kde umelá inteligencia a LLM menia základné paradigmy toho, ako pracujeme, tvoríme a komunikujeme.

Kniha “Homo Deus: Stručná história zajtrajška,” od Yuvala Noaha Harariho aj ked pôvodne vydaná v roku 2015, je dnes aktuálnejšia než kedykoľvek predtým. Kniha  sa zaoberá budúcnosťou Homo sapiens – budúcnosťou nás ako kráčame po neprebádanej ceste, kde umelá inteligencia (AI) môže byť naším pomocníkom alebo skazou. Stojíme na prahu novej éry, v ktorej sa predpokladá, že ľudia sa vyvinú do novej formy nazývanej “Homo Deus,” alebo “Boh Človek”.

Táto evolúcia nie je biologická ale primárne technologická, sociálna a intelektuálna. AI, s jej rýchlo sa rozširujúcimi schopnosťami, zohráva kľúčovú úlohu v tejto transformácii. Mení každý aspekt našich životov: od zdravia, kde diagnostika a liečby založené na AI sľubujú predĺženie života a elimináciu chorôb, po prácu a ekonomiku kde momentálne prebieha predefinovanie produktivity a kreativity, tak ako ich poznáme. 

Posledných približne 300 000 rokov kedy môžeme o Homo sapiens hovoriť ako o najinteligentnejšom druhu na planéte, samozrejme, v závislosti od toho, ako definujete inteligenciu, sa naše intelektuálne schopnosti veľmi rýchlo nezlepšujú a nevyvíjajú. Naše mozgy sú približne rovnakej veľkosti, rovnakej hmotnosti, ako boli po tisícročia. Počítače na druhej strane existujú iba pár desaťročí a teraz, s AI, sú náhle schopné plynule hovoriť takmer všetkými ľudskými jazykmi a vykonávať čoraz väčší počet intelektuálnych a kreatívnych úloh, ktoré predtým mohli robiť len ľudia. Momentálne sme na križovatke, kde schopnosti AI sa zlepšujú exponenciálnou rýchlosťou, doslova neporovnateľne s našimi schpnosťami.

Pre jednotlivcov a firmy je adaptácia na túto novú éru nielen otázkou technologickej zručnosti, ale aj strategického myslenia. Pre firmy a jednotlivcov, ktorí sú schopní prijať a adaptovať sa na tieto zmeny, sa otvárajú nové príležitosti na rast a inovácie. Tak ako pri prechode na digitálnu éru, kde osobné počítače zmenili beh histórie, aj adaptácia na éru AI prinesie svoje výzvy, ale aj nevídané príležitosti pre tých, ktorí sú na ne dobre pripravení.

Čím lepšie pochopíte túto technológiu ako jednotlivec či firma, tým lepšie budete vybavení na prežitie a prosperovanie v nadchádzajúcej ére AI. 

Einstein vo vašej firme

Predstavte si že máte Einsteina v teame vo vašej firme. A pod Einsteinom myslím kombináciu každej superinteligentnej osoby, ktorá kedy žila. Môžete sa s Einsteinom rozprávať, kedy chcete. Má okamžitý prístup k súhrnu všetkého ľudského poznania a odpovie na čokoľvek, čo si želáte, doslova do pár sekúnd. Vždy bude trpezlivo odpovedať na akúkoľvek otázku. Tiež môže prevziať akúkoľvek rolu – môže byť komikom, básnikom, doktorom, trénerom – a v každom odbore bude absolútnym expertom. Samozrejme že má aj obmedzenia: môže robiť chyby, môže skákať do unáhlených alebo nesprávnych záverov alebo vás môže nesprávne pochopiť. Ale najväčším obmedzením je vlastne len vaša predstavivosť a vaša schopnosť efektívne s ním komunikovať. 

Táto zručnosť sa nazýva “prompt engeneering” a v dobe AI je to tak zásadné ako vedieť čítať a písať. V tomto článku sa pozrieme aj na túto schopnosť. Väčšina ľudí veľmi podceňuje, čo tento Einstein vo vašom teame vlastne dokáže. Je to ako ísť za skutočným Einsteinovi a požiadať ho, aby korektúroval stredoškolský referát , alebo zamestnať svetoznámeho michelinského šéfkuchára a dať mu uvariť párky. Čím viac budete s Einsteinom interagovať, tým viac objavíte prekvapujúce a veľmi efektívne spôsoby, ako vám alebo vašej firme môže pomôcť. AI je v súčasnosti takýmto Einsteinom. Len málokto vie, ako ho využívať naozaj efektívne a dokonca sú takí, ktorí o ňom ešte ani nevedia.

AI a generatívna AI

AI nie je novinka. Veci ako strojové učenie (machine learning) a počítačové videnie (computer vision) sú tu s nami už desaťročia. Kedykoľvek vidíte odporúčanie na YouTube, výsledok vyhľadávania na webe alebo kedykoľvek vám je schválená transakcia kartou na platobnej bráne, to je tradičná AI v akcii. 

Generatívna AI je typ AI, ktorý generuje nový, originálny obsah, namiesto toho, aby len našiel alebo klasifikoval existujúci obsah. To je „G“ v GPT. Napríklad veľké jazykové modely alebo LLM (large language model) sú typom generatívnej AI, ktorá môže komunikovať používaním bežného ľudského jazyka. Chat GPT je produkt spoločnosti OpenAI. Začal ako LLM, v podstate pokročilý chatbot, používajúci novú architektúru nazvanú Transformer, ktorá, mimochodom, je „T“ v GPT. Je taký plynulý v ľudskej reči, že ho môže používať doslova ktokoľvek. Nepotrebujete byť expert na AI alebo programátor a to je vlastne to, čo spustilo celú revolúciu. Ale ako to vlastne celé funguje?

Ako LLM fungujú? 

Veľké jazykové modely (LLM) fungujú na princípe umelej neurónovej siete, ktorá simuluje spôsob, akým ľudský mozog spracúva informácie. Na začiatku je potrebné model učiť. Učenie znamená “trénovanie” na obrovskom súbore textových dát, z ktorých sa model učí jazykové vzorce, gramatiku, kontext a dokonca aj štýl. Tento proces trénovania zahŕňa milióny príkladov a môže trvať veľa hodín alebo dokonca dní výpočtového času na špecializovanom hardvéri.

Po trénovaní model dokáže generovať text tým, že predpovedá ďalšie slovo alebo frázu na základe predchádzajúcich slov vo vete. To dosahuje prostredníctvom procesu nazývaného “tokenizácia”, kde každé slovo alebo časť slova je prevedené na jedinečný numerický token, čo modelu umožňuje efektívnejšie spracovávať text.

Kľúčovou súčasťou, ktorá umožňuje LLM tak plynule generovať text, je architektúra Transformer. Táto architektúra využíva mechanizmy pozornosti, ktoré modelu umožňujú zvalidovať kontext celej vety alebo dokonca odstavca pri predpovedaní ďalšieho slova, čo vedie k vysoko koherentným a relevantným textom.

Ďalší dôležitý krok je “jemné ladenie” (fine tuning), kde model je špeciálne prispôsobený na konkrétne úlohy alebo domény – okruhy znalostí. Jemné ladenie zvyšuje presnosť a relevanciu generovaného obsahu tým, že model sa “doučí” na menšom, špecifickom datasete.

Celkovo, fungovanie LLM závisí na spojení masívnych dát, pokročilých algoritmov a výkonnej výpočtovej techniky, aby mohli pochopiť a generovať ľudský jazyk na úrovni, ktorá bola predtým nepredstaviteľná.

Ako prebieha tréning LLM? 

Veľký jazykový model môže mať miliardy alebo dokonca bilióny parametrov, preto sú považované za “veľké”. Ako sú všetky tieto čísla nastavené? Určite nie manuálnym programovaním, to by bolo nemožné. Skôr sa to deje prostredníctvom trénovania, podobne ako sa deti učia hovoriť. Dieťaťu sa nepovie, ako má hovoriť, ani nedostane návod na použitie. Namiesto toho počúva, ako ľudia okolo neho hovoria, a keď počuje dosť, začne vidieť vzor. Najprv vysloví zopár slov a neskôr celé vety. Podobne, počas trénovacieho obdobia je jazykový model kŕmený obrovským množstvom textu, z ktorého sa má učiť. Potom neustále háda ďalšie slovo z tohto všetkého, opakovane, a parametre sú automaticky upravované, až kým model nezačne byť naozaj dobrý v predpovedaní ďalšieho slova. Tento proces sa nazýva spätná propagácia (backpropagation), čo je sofistikovaný termín pre “uhádol som zle, musím niečo zmeniť”.

Avšak, aby sa model stal naozaj užitočným, musí prejsť aj ľudským trénovaním. Toto sa nazýva posilňovacie učenie s ľudskou spätnou väzbou (reinforcement learning with human feedback) a zahŕňa tisíce hodín ľudí, ktorí náročne testujú a hodnotia výstup z modelu a poskytujú spätnú väzbu, podobne ako trénovanie psa s klikrom, aby sa posilnilo dobré správanie. To je dôvod, prečo model ako GPT vám nepovie, ako spáchať supergigantický a neodhaliteľný DPHčkový podvod. Veľmi dobre vie, ako na to, ale prostredníctvom ľudského trénovania sa naučil, že by nemal pomáhať ľuďom páchať podvody. Keď je trénovanie dokončené, model je väčšinou “zmrazený”, okrem prípadného ďalšie jemného ladenia, ktoré môže nastať neskôr pri napájaní na produkt. To je to, čo v GPT znamená “P” – predtrénovaný. Hoci v budúcnosti budeme mať modely, ktoré sa môžu učiť kontinuálne, a nie len počas trénovania a ladenia.

LLM modely

GPT nie je jediný model, ktorý existuje. V skutočnosti sa nové modely objavujú rýchlejšie ako meme tokeny počas bull marketu v crypte (realne by som chcel vidieť štatistické porovnanie… lol…). Líšia sa veľmi vo výkonnosti, schopnostiach a nákladoch na tréning a prevádzku. Niektoré môžu byť spustené lokálne vo vašom počítači, iné sú dostupné len online. Niektoré sú zadarmo alebo sú to open-source projekty, zatiaľ čo iné sú komerčnými produktami. Niektoré sú ľahko použiteľné, zatiaľ čo iné vyžadujú komplikovaný setup. Niektoré sú špecializované na určité prípady použitia, iné sú univerzálnejšie a môžu byť použité takmer na čokoľvek. A niektoré sú integrované do produktov vo forme kopilotov alebo chatových okien. Je to akoby crypto v roku 2017 – nekontrolovateľné Eldorado.

Majte na pamäti, že všeobecne platí, že dostanete len to, za čo zaplatíte. Takže s bezplatným modelom môžete skončiť iba so šikovným stredoškolákom vo vašej pivnici namiesto Einsteina. Rozdiel medzi napríklad GPT-3.5 a GPT-4 je obrovský.

Tento vývoj LLM modelov ponúka používateľom širokú paletu možností, ako pristupovať a využívať umelú inteligenciu. Od jednoduchých nástrojov pre začiatočníkov až po pokročilé systémy pre odborníkov, možnosti sú takmer neobmedzené. Pri výbere vhodného modelu je dôležité zvážiť nielen technické požiadavky a dostupnosť, ale aj etické a právne aspekty spojené s používaním týchto technológií. Vzhľadom na rýchly pokrok v oblasti LLM je tiež dôležité byť obozretný a prispôsobivý, pretože dnes dominantný model môže byť zajtra nahradený ešte pokročilejšou alternatívou.

Rôzny model, rôzny výstup

Existujú rôzne typy generatívnych modelov, ktoré generujú rôzne typy obsahu:

Text na text: Tieto modely prijímajú textový vstup a generujú textový výstup. Sú schopné rôznych úloh, ako je preklad jazykov, zhrnutie článkov alebo generovanie kódu z príkazov v prirodzenom jazyku.

Text na obrázok: Modely generujúce obrázky na základe textových popisov. Umožňujú užívateľom zadávať popisy scén, objektov alebo situácií a model vytvorí vizuálnu reprezentáciu týchto popisov, často s možnosťou výberu špecifického štýlu.

Obrázok na obrázok: Tieto modely transformujú alebo kombinujú obrázky do nových vizuálnych foriem. Môžu napríklad meniť ročné obdobia na fotografiách, meniť štýl obrázku podľa určitého umeleckého smeru, alebo kombinovať viac obrázkov do jedného koherentného celku.

Obrázok na text: Modely, ktoré opisujú obsah obrázkov v textovej forme. Sú schopné identifikovať a popísať objekty, ľudí, scény a činnosti na obrázkoch, čo je užitočné napríklad pri vytváraní popisov pre nevidiacich alebo pri automatickej generácii popiskov obrázkov.

Reč na text: Modely prevádzajúce hlasový záznam na písaný text. Tieto modely sú základom technológií rozpoznávania reči a umožňujú transskripciu audiozáznamov, ako sú schôdze, prednášky alebo rozhovory.

Text na audio: Generujú hudbu alebo zvuky na základe textových promptov. Umožňujú užívateľom popísať zvuky alebo hudobnú kompozíciu a model vytvorí audiozáznam podľa týchto špecifikácií.

Text na video: Tieto modely generujú videá na základe textových popisov. Umožňujú tvorbu animácií, krátkych filmov alebo vizualizácií scén na základe scenárov alebo popisov zadávaných v prirodzenom jazyku.

Tieto modely značne rozširujú možnosti, ako môžeme interagovať s technológiou a vytvárať obsah, pričom každý typ modelu otvára nové obzory pre kreatívne, vzdelávacie, ale aj praktické využitie.

Model vs. produkt

Je dôležité rozlišovať medzi modelmi a produktmi, ktoré sú na nich postavené. Ako používateľ sa bežne nestretnete priamo s modelom, ale interagujete s produktom, webovou stránkou alebo mobilnou aplikáciou, ktorá zase komunikuje s modelom v pozadí. Produkty poskytujú používateľské rozhranie a pridávajú schopnosti a dáta, ktoré nie sú súčasťou samotného modelu. Napríklad produkt ChatGPT sleduje históriu vašich správ, zatiaľ čo model GPT-4 samotný nemá žiadnu históriu správ.

Ako programátor môžete tieto modely využiť na vytvorenie vlastných AI produktov a funkcií. Predstavme si napríklad, že máte e-learningovú stránku. Mohli by ste pridať chatbota na odpovedanie otázok ohľadom kurzov ktoré ponúkate, alebo ako HR head hunter firma by ste mohli vytvoriť AI nástroje na pomoc pri hodnotení kandidátov. V oboch prípadoch interagujú vaši používatelia s vaším produktom, a váš produkt potom interaguje s modelom. Toto sa deje prostredníctvom API (Application Programming Interfaces), ktoré umožňujú vášmu produktu komunikovať s modelom.

Umenie “prompt engineering”

Prompt engineering, je proces navrhovania a vytvárania vstupov (promptov), ktoré sú efektívne v komunikácii s modelmi ako je GPT. Tento proces doslova zahŕňa umenie vytvárať presné, konkrétne a jasné vstupy, ktoré vedú AI ku generovaniu presných a relevantných výsledkov. Poznáme rôzne typy promptov. Od otvorených otázok po špecifické požiadavky, ako sú generovanie kódu, písanie textu alebo generovanie obrázkov.

Efektívne písanie promptov zahŕňa niekoľko kľúčových prvkov: jasnosť, konkrétnosť, kontext a iteratívnosť. Jasne napísaný prompt umožňuje modelu presne pochopiť, čo od neho chcete. Konkrétnosť eliminuje nejasnosti a zameriava model na špecifický účel alebo úlohu. Poskytnutím kontextu môžete zlepšiť presnosť a relevanciu odpovedí. Iteratívnosť, proces opakovaného ladenia a zlepšovania vstupov-promptov na základe predchádzajúcich výsledkov, pomáha dosiahnuť najlepšie možné výsledky. Prax a experimentovanie s rôznymi formuláciami promptov sú kľúčom k tomu, aby ste sa stali efektívnym v ich písaní a najmä dokázali využiť plný potenciál LLM. Rozvoj tejto zručnosti nielenže zvyšuje vašu schopnosť efektívne využívať AI modely, ale tiež vylepšuje vaše komunikačné schopnosti vo všeobecnosti, keďže sa naučíte vyjadrovať myšlienky jasnejšie a pochopiteľnejšie.

Záver

Vstupujeme do éry, kde umelá inteligencia a LLM menia základné paradigmy toho, ako pracujeme, tvoríme a komunikujeme. Od revolúcie v zdravotníctve, cez transformáciu pracovného trhu, až po nové formy umenia a interakcie, AI otvára dvere do sveta neobmedzených možností. “Einstein vo vašej firme” už nie je len metafora, ale realitou, s ktorou môžeme interagovať každý deň. Rozvoj schopností ako prompt engineering je kľúčový pre efektívne využívanie tejto technológie, a poskytuje jedinečnú príležitosť na osobný aj profesionálny rast. 

Je však dôležité pristupovať k AI s otvorenou mysľou. Svet, ktorý modely ako GPT tvoria, je plný nových príležitostí a výziev. Pamätajte, že AI je nástroj, ktorý môže výrazne rozšíriť naše schopnosti, ale ako každý nástroj, jeho hodnota a efektivita sú určené tým, ako ho používame. V ďalších článkoch sa pozrieme na to ako vytvárať vlastné chatGPT pre programátorov aj neprogramátorov ale najmä ako efektívne písať prompt vstupy tak, aby ná AI rozumela čo najjasnejšie a najlepšie.