För att förstå vart det är på väg behöver du veta var vi kommer ifrån. Det är en kortare resa än du tror. Hela AI-bild-eran är bara cirka tio år gammal, och de mest dramatiska sakerna har hänt de senaste fyra åren.
Här är hela resan, i stora drag.
En forskare som heter Ian Goodfellow kom på en idé en kväll på en bar i Montreal. Han föreslog att man kunde låta två AI-modeller tävla mot varandra. Den ena gör bilder. Den andra försöker avgöra om de är äkta eller fejkade. När den andra gissar fel har den första lyckats.
Han kallade det Generative Adversarial Networks, eller GAN. Det blev grunden för allt som följde. Och bilderna det skapade var första gången datorer kunde skapa något som faktiskt liknade ett foto.
En grupp i Paris tränade ett GAN-nätverk på 15 000 historiska porträtt och lät det skapa ett eget. Resultatet, Edmond de Belamy, såldes på auktion hos Christies för 432 500 dollar. Det var första gången AI-konst nådde de stora rubrikerna.
Samma år släppte ett företag som heter Nvidia något som hette StyleGAN. Sajten This Person Does Not Exist visade bilder på "personer" som aldrig fanns. För många var det första gången de såg en AI-bild som faktiskt såg ut som ett foto.
OpenAI släpper DALL-E. Det är det första verktyget som kan ta en mening ("en armstol i form av en avokado") och göra en bild av det. Inget tekniskt kunnande. Inget krångel. Bara skriv vad du vill ha.
Det här är ögonblicket allt förändras. Innan DALL-E skapade AI bilder. Efter DALL-E översätter AI det du tänker till en bild.
På bara några månader händer tre saker som öppnar fältet för alla:
På sex månader gick AI-bilder från nyhet till vardag. Folk som aldrig hade öppnat Photoshop började skapa bilder de var stolta över.
Bilderna börjar bli skrämmande bra. DALL-E 3 släpps i oktober 2023, integrerat direkt i ChatGPT. Midjourney växer från månad till månad. Nya modeller dyker upp: Ideogram för text i bilder, Adobe Firefly för företag som inte vill bli stämda, Flux för fotorealism.
Och världen börjar märka det. Viral AI-bilder börjar lura folk på riktigt. "Påven i en vit puffjacka" 2023 blev den första AI-bilden de flesta gick på utan att inse det.
Här är vi nu. Det finns över ett dussin seriösa AI-bildmodeller, var och en bra på något specifikt. Midjourney v7 är bäst på estetik. Flux 2 är bäst på fotorealism. ChatGPT är lättast att börja med. Google Nano Banana 2 kan redigera befintliga bilder med naturligt språk. Ideogram skriver text i bilden bättre än någon annan.
Och det är gratis att börja. ChatGPT, Gemini och Ideogram har alla gratisversioner som räcker långt.
Hela den här eran är yngre än många mobiltelefoner. Allt du ser idag är startsträckan. Och tekniken är bra nog att börja använda på riktigt, oavsett vad du jobbar med.
Det är där vi tar vid.
Nästa lektion: Vart är allt det här på väg? Vad kan du förvänta dig nästa år? Spoiler: bild blir bara början. ->
När folk frågar mig vad de ska investera i att lära sig brukar jag säga: lär dig det som ger dig kunskap som håller.
40 lektioner
40 lektioner
Jämför och välj rätt AI-verktyg
ChatGPT, Claude, Gemini, Copilot och andra verktyg passar olika bra för olika uppgifter. Den här kursen hjälper dig att välja rätt utifrån behov, budget och arbetssätt.
ChatGPT: från nybörjare till van användare
Lär dig använda ChatGPT bättre för mejl, dokument, planering, research och längre arbetsflöden. Kursen går från grunderna till mer avancerade arbetssätt med projekt, filer och anpassade GPT:er.
Gemini: AI inuti Google Workspace
Lär dig använda Gemini i Gmail, Docs, Sheets och Slides så att AI blir en del av arbetet du redan gör, inte ännu ett verktyg att hålla reda på.