Aplikácie umožňujúce generovať umelecké diela pomocou umelej inteligencie sa postupne zdokonaľujú, a keďže sú už prístupné každému, vzbudzujú čoraz väčšiu pozornosť.
Po doznení prekvapenia nad schopnosťami generovania obrázkov prostredníctvom umelej inteligencie (AI) si mnohí možno položia niekoľko filozofických aj praktických otázok. Napríklad či umelá inteligencia v budúcnosti nahradí kreatívnu prácu, prípadne či to, čo vidíme na fotografii, je realita, ktorej môžeme dôverovať, alebo len fikcia. A je tu takisto otázka morálky či autorských práv.
Obrázky podľa zadania
Umelecké diela, vo väčšine prípadov obrázky a čoraz častejšie aj videá, sa generujú pomocou neurónových sietí na základe viac alebo menej podrobného zadania od človeka. Technicky ide o riešenie bežiace na výkonných serveroch v klaude, ku ktorému používatelia pristupujú prostredníctvom webového rozhrania. Takým je aj riešenie DALL-E 2 od spoločnosti pre výskum umelej inteligencie OpenAI, ktoré si môžete zadarmo vyskúšať na stránke openai.com/dall-e-2.
Ide o druhú, podstatne zlepšenú verziu DALL-E. Zlepšenie spočíva v tom, že zadanie môže obsahovať aj definície vzťahov medzi viacerými objektmi. Výsledkom každého zadania sú štyri rôzne obrázky – rôzne pohľady na zadanie. Ich vygenerovanie trvá 30 až 40 sekúnd. Samozrejme, zadanie by malo byť čo najpresnejšie. V niektorých prípadoch získate presne to, čo ste mali na mysli, inokedy treba zadanie spresňovať.
Medzi možnosti DALL-E 2 patrí aj vytvorenie nového obrázka, ktorý bude interpoláciou existujúcich obrázkov. Samozrejme, hneď sa ponúka možnosť zneužitia fotiek známych osobností. V podmienkach používania DALL-E síce je, že nesmiete použiť obrázok osoby bez jej súhlasu, ale budú to tvorcovia hoaxov rešpektovať?
Ako to funguje?
Zoberme si napríklad interpretáciu textového zadania: Pes číta časopis. Najskôr sa vykoná analýza textu pomocou modelu CLIP (Contrastive Language-Image Pre-training), ktorý je natrénovaný na obrovskom množstve známych obrázkov s opismi v prirodzenom jazyku.
Výsledkom analýzy bude, že na obrázku majú byť objekty pes a časopis, medzi ktorými je vzťah, že pes by mal časopis čítať. Pre algoritmus analyzujúci text to, samozrejme, nie je také triviálne ako pre človeka. Inak povedané, obrázky fiktívneho psa aj časopisu treba umiestniť do priestoru tak, aby bolo zrejmé, že pes časopis číta. Následne treba vygenerovať priestor, v ktorom je táto scéna situovaná – podobne ako je potrebné v počítačovej hre vytvoriť objekty a priestorové atribúty, ako sú perspektíva, tiene, odlesky na hladkých plochách a pod. V tomto prípade priestor nie je špecifikovaný, ale zadanie by mohlo byť: Pes číta časopis v miestnosti, kde na stene visí obraz Mona Lisa a na stole je váza s kvetmi.
Cieľom AI je aj dotvoriť obrázok z hľadiska kompozície či zladenia farieb. Toto všetko rieši tzv. difúzny model GLIDE (Guided Language-to-Image Diffusion for Generation and Editing).
Generovanie textu
V posledných rokoch urobila umelá inteligencia neuveriteľný pokrok vo svojej schopnosti generovať text podobne ako ľudia. Výsledkom je, že jej použitie na písanie sa stáva čoraz bežnejším a podniky a organizácie ju používajú na vytváranie všetkého, od marketingových materiálov po finančné správy.
Hoci je písanie pomocou umelej inteligencie stále v ranom štádiu a ďaleko od dokonalosti, je jasné, že predstavuje hrozbu pre profesionálnych copywriterov. Koniec koncov, ak stroj dokáže vytvoriť text, ktorý je na nerozoznanie od textu ľudského autora, prečo by si niekto musel na túto prácu najímať skutočného človeka?
Nejde pritom len o nízko kvalifikovanú prácu, ako je písanie marketingových textov na web, ale dokonca aj vysokokvalifikované pracovné miesta, ako sú žurnalistika a písanie románov, by mohli byť nakoniec nahradené strojmi. Jedna japonská spoločnosť už vyvinula systém AI, ktorý dokáže písať romány lepšie ako ľudia.
Samozrejme, potrvá nejaký čas, kým sa písanie AI stane dostatočne dobrým na to, aby úplne nahradilo ľudských spisovateľov vo všetkých žánroch a formátoch. No ako sa technológia neustále zlepšuje, deň, keď stroje dokážu robiť našu prácu lepšie ako my, sa rýchlo blíži.
Štyri predchádzajúce odseky v angličtine vygeneroval model AI písania s hlbokým učením od OpenAI s názvom Generative Pre-trained Transformer 3 (GPT-3). Program dokáže reagovať na akúkoľvek výzvu zadanú používateľom a okrem mnohých iných foriem písania môže vytvoriť krátky príbeh, viesť rozhovor alebo napísať správu. Znamená to koniec pre ľudských spisovateľov?
Ľuboslav Lacko, Nextech, úprava R
Článok vznikol v spolupráci s NEXTECH.