Lektion 1 av 16
Multimodala modeller: text, bild, ljud och video
Du fotograferar en whiteboard efter ett möte, klistrar in bilden i ChatGPT och får tillbaka en strukturerad sammanfattning. Sekunder senare ber du samma verktyg skriva ett mejl baserat på sammanfattningen. Allt i samma fönster.
Det är multimodal AI. Modeller som arbetar med text, bild, ljud och ibland video i samma konversation. Och det förändrar hur snabbt du kan gå från idé till resultat.
En multimodal modell förstår och bearbetar flera typer av information i samma session. Du kan visa den en bild och fråga vad som finns i den. Du kan ladda upp ett ljudklipp och be om en sammanfattning.
Det viktiga är inte exakt vilken modell som ligger främst just idag. Det viktiga är att de ledande systemen allt oftare kan arbeta över text, bild, ljud och video i samma gränssnitt.
Multimodal AI gör verktyg mer naturliga att använda. I stället för att hoppa mellan flera separata program kan du ofta jobba i en och samma yta. Det är särskilt användbart när en uppgift börjar i en kanal men slutar i en annan.
Praktiska exempel:
Det som tidigare krävde separata verktyg börjar samlas i samma plattformar:
Vissa modeller klarar mycket långa kontextfönster, vilket gör det lättare att arbeta med större dokument, längre möten eller fler filer i samma session.
Om du arbetar med innehåll, marknadsföring eller kommunikation betyder multimodal AI att arbetsflöden kan bli snabbare och mer sammanhållna. Du behöver inte längre lägga lika mycket tid på att flytta material mellan olika verktyg.
Det skapar också nya möjligheter för små företag och enskilda skapare. En person kan göra mer av det som tidigare krävde flera roller, så länge kvaliteten kontrolleras manuellt.
Multimodal AI är fortfarande under utveckling. Textförståelse är ofta starkast, medan video och annan mer komplex generering fortfarande kan ha tydliga begränsningar. Det är därför klokare att se multimodal AI som ett arbetsflödeslyft än som en färdig lösning för allt.
Nästa lektion: AI-agenter tar det ett steg längre. De gör inte bara vad du ber om, de planerar och agerar på egen hand. →
Vill du fördjupa dig? Den här kursen ger dig överblick. Om du vill gå vidare rekommenderar vi AI-strategi för företag för dig som vill omsätta trender till beslut, AI-ledarskap för dig som leder team genom AI-förändringen, eller Bygga AI-produkter om du vill gå från idé till fungerande AI-produkt.
ChatGPT: grunderna för vardag och jobb
Lär dig använda ChatGPT för mejl, dokument, planering och research. Från konto och första samtal till effektiva arbetssätt i vardagen.
Jämför och välj rätt AI-verktyg
ChatGPT, Claude, Gemini, Copilot och andra verktyg passar olika bra för olika uppgifter. Den här kursen hjälper dig att välja rätt utifrån behov, budget och arbetssätt.
ChatGPT avancerat: Custom GPTs, Agent Mode och team
Gå bortom vanlig chatt. Bygg egna Custom GPTs, använd Agent Mode och Deep Research, och sätt upp ChatGPT för ett helt team.
Du fotograferar en whiteboard efter ett möte, klistrar in bilden i ChatGPT och får tillbaka en strukturerad sammanfattning. Sekunder senare ber du samma verktyg skriva ett mejl baserat på sammanfattningen. Allt i samma fönster.
Det är multimodal AI. Modeller som arbetar med text, bild, ljud och ibland video i samma konversation. Och det förändrar hur snabbt du kan gå från idé till resultat.
En multimodal modell förstår och bearbetar flera typer av information i samma session. Du kan visa den en bild och fråga vad som finns i den. Du kan ladda upp ett ljudklipp och be om en sammanfattning.
Det viktiga är inte exakt vilken modell som ligger främst just idag. Det viktiga är att de ledande systemen allt oftare kan arbeta över text, bild, ljud och video i samma gränssnitt.
Multimodal AI gör verktyg mer naturliga att använda. I stället för att hoppa mellan flera separata program kan du ofta jobba i en och samma yta. Det är särskilt användbart när en uppgift börjar i en kanal men slutar i en annan.
Praktiska exempel:
Det som tidigare krävde separata verktyg börjar samlas i samma plattformar:
Vissa modeller klarar mycket långa kontextfönster, vilket gör det lättare att arbeta med större dokument, längre möten eller fler filer i samma session.
Om du arbetar med innehåll, marknadsföring eller kommunikation betyder multimodal AI att arbetsflöden kan bli snabbare och mer sammanhållna. Du behöver inte längre lägga lika mycket tid på att flytta material mellan olika verktyg.
Det skapar också nya möjligheter för små företag och enskilda skapare. En person kan göra mer av det som tidigare krävde flera roller, så länge kvaliteten kontrolleras manuellt.
Multimodal AI är fortfarande under utveckling. Textförståelse är ofta starkast, medan video och annan mer komplex generering fortfarande kan ha tydliga begränsningar. Det är därför klokare att se multimodal AI som ett arbetsflödeslyft än som en färdig lösning för allt.
Nästa lektion: AI-agenter tar det ett steg längre. De gör inte bara vad du ber om, de planerar och agerar på egen hand. →
Vill du fördjupa dig? Den här kursen ger dig överblick. Om du vill gå vidare rekommenderar vi AI-strategi för företag för dig som vill omsätta trender till beslut, AI-ledarskap för dig som leder team genom AI-förändringen, eller Bygga AI-produkter om du vill gå från idé till fungerande AI-produkt.
AI-agenter är ett steg bort från vanlig chatbotlogik. I stället för att bara svara på en fråga kan de planera, använda verktyg och arbeta vidare mot