Tag: GPT-4o

ChatGPT přidává knihovnu obrázků

ChatGPT má novou knihovnu pro obrázky. Uživatelé konečně získávají přehled

OpenAI přidalo do ChatGPT funkci, která výrazně zlepšuje práci s vizuálním obsahem. Jde o novou knihovnu obrázků, která automaticky ukládá všechny vizuály vygenerované pomocí AI. Uživatelé tak konečně nemusí složitě procházet historii chatu, aby se dostali ke starším výstupům.

Všechny obrázky přehledně na jednom místě

Knihovna je přístupná v levém panelu rozhraní ChatGPT, a to jak na webu, tak v mobilní aplikaci pro iOS a Android. Po kliknutí na záložku „Knihovna“ se zobrazí mřížka s přehledem všech dříve vygenerovaných obrázků. Funkce je dostupná pro všechny uživatele – bez ohledu na to, zda používají bezplatnou nebo placenou verzi (Free, Plus, Pro).

Co knihovna aktuálně umí

Každý obrázek lze:

  • zobrazit ve vysokém rozlišení,
  • uložit do zařízení (Save),
  • zkopírovat (Copy),
  • sdílet přes jinou aplikaci (Share).

Kromě toho je možné přímo z knihovny obrázky dále upravovat. Tlačítko „Edit“ vytvoří nový chat, kde lze zadat nový prompt pro úpravu. Funkce „Select“ umožňuje vybrat konkrétní část obrázku pro selektivní editaci, přičemž výběrový nástroj má nastavitelné rozměry a lze využít i funkce zpět/vpřed.

Pro pohodlné navázání práce je ve spodní části obrazovky k dispozici tlačítko „Make Image“, které umožní okamžité vytvoření nového obrázku bez nutnosti přecházet do nového chatu.

V krátkém videu OpenAI ukazuje, jak to funguje:

Ne všechny obrázky se zobrazí hned

Aktuálně knihovna zobrazuje pouze obrázky vytvořené novým modelem GPT-4o. Starší obrázky vytvořené pomocí DALL·E 2 nebo předchozích generací se do knihovny nezobrazí automaticky. OpenAI však potvrdilo, že probíhá zpětné doplňování starších výstupů (tzv. backfilling), takže se některé obrázky mohou objevit s odstupem několika dní.

Odstranění obrázku je zatím složité

Uživatelé zatím nemohou obrázky mazat přímo z knihovny. Aby byl obrázek odstraněn, je nutné:

  • najít původní konverzaci, ve které byl vytvořen,
  • smazat celý chat.

To je aktuálně považováno za největší nedostatek knihovny a očekává se, že OpenAI brzy přidá i přímé tlačítko pro mazání jednotlivých obrázků přímo z knihovny.

Užitečný nástroj pro všechny, kdo s AI obrázky pracují

Ačkoli se jedná o relativně jednoduchou funkci, představuje pro pravidelné uživatele AI generovaných obrázků výrazné zlepšení. Knihovna usnadňuje orientaci, šetří čas a dává lepší kontrolu nad vizuálními výstupy.

Očekává se, že OpenAI bude knihovnu dále rozvíjet – například přidáním možnosti řazení, filtrování, tagování nebo přímé archivace. Už nyní ale patří mezi funkce, které výrazně zvyšují použitelnost ChatGPT pro kreativní i pracovní účely.

ChatGPT se posouvá i v oblasti multimédií

Tato novinka přichází krátce po uvedení modelu GPT-4o (označovaný jako „GPT-4 Omni“), který propojuje práci s textem, obrázky i zvukem do jednoho plynulého systému. Uživatelé nyní mohou vytvářet multimodální výstupy efektivněji než kdy dřív, a právě knihovna obrázků zapadá do této širší strategie OpenAI – nabídnout všechen obsah generovaný umělou inteligencí na jednom místě a pod jedním účtem.

Vedle nové knihovny OpenAI zároveň testuje funkce, které dále rozšiřují práci s vizuálním obsahem. Mezi ně patří:

  • generování více variant jednoho výstupu,
  • přesnější editace pomocí pokynů (např. styl „inpainting“),
  • možnosti tzv. image remixingu, tedy přetváření původního výstupu podle nové instrukce.

Tyto možnosti zatím nejsou dostupné všem, ale ukazují, kam vývoj směřuje.

Je to jen začátek

Ačkoli může knihovna působit jako drobná úprava, ve skutečnosti znamená zásadní posun v uživatelské přívětivosti a správě obsahu. Mnozí, kdo s ChatGPT pracují intenzivně, ocení, že už není třeba složitě proklikávat historii konverzací a ztrácet čas hledáním.

Dá se předpokládat, že OpenAI tuto filozofii rozšíří i na další výstupy – například texty nebo zvukové záznamy. Cílem je vytvořit jeden ucelený prostor, kde má uživatel přístup ke všem svým výtvorům, ať už byly vytvořeny kdykoli a jakoukoli modalitou.

🔗 Zdroje

OpenAI – ChatGPT Image Library (duben 2025)
The Verge – ChatGPT gets a new image library (16. dubna 2025)
Lifehacker – ChatGPT's new image library explained (16. dubna 2025)

LLAMA 4

Meta představuje Llama 4: Ambiciózní multimodální modely s kontroverzemi

Společnost Meta nedávno uvedla na trh novou generaci velkých jazykových modelů Llama 4, které slibují výrazné zlepšení výkonu a schopností oproti předchozím verzím. Nové modely přinášejí nativní multimodalitu, architekturu Mixture-of-Experts (MoE) a podporu pro více jazyků. Nicméně, kolem jejich schopností a benchmarkových výsledků se objevily pochybnosti.

Klíčové inovace Llama 4

1. Mixture-of-Experts (MoE) architektura

Llama 4 je první model od Mety, který využívá MoE architekturu. Namísto jedné velké neuronové sítě model aktivuje pouze podmnožinu „expertů“ specializovaných na různé úkoly. Tato architektura umožňuje efektivnější škálování výkonu a snižuje výpočetní náročnost.

2. Nativní multimodalita

Modely Llama 4 jsou schopny zpracovávat nejen text, ale i obrazové vstupy. Díky „early fusion“ přístupu integrují textové a vizuální informace již během tréninku, což zlepšuje jejich schopnost porozumět komplexním multimodálním datům.

3. Rozšířená jazyková podpora

Llama 4 byla trénována na datech ve více než 200 jazycích, přičemž u poloviny z nich bylo použito přes miliardu tokenů. Modely podporují 12 jazyků, včetně angličtiny, španělštiny, němčiny a francouzštiny.


Představení modelů Llama 4

Llama 4 Scout

  • Aktivní parametry: 17 miliard (celkem 109 miliard)
  • Počet expertů: 16
  • Kontextové okno: až 10 milionů tokenů
  • Využití: efektivní provoz na jednom GPU, vhodný pro úlohy vyžadující dlouhý kontext

Llama 4 Maverick

  • Aktivní parametry: 17 miliard (celkem 400 miliard)
  • Počet expertů: 128
  • Kontextové okno: až 1 milion tokenů
  • Využití: univerzální model pro chat, kódování a multimodální úlohy​

Llama 4 Behemoth (v přípravě)

  • Aktivní parametry: 288 miliard (celkem 2 biliony)
  • Počet expertů: 16
  • Stav: model je stále ve fázi tréninku, očekává se jeho uvedení v následujících měsících​

Kontroverze a pochybnosti

Spor o benchmarky

Meta čelí kritice za údajné manipulace s benchmarkovými testy. Model Llama 4 Maverick dosáhl vysokého skóre na platformě LMArena, avšak bylo zjištěno, že Meta použila speciálně upravenou verzi modelu optimalizovanou pro tento test. Tato verze nebyla veřejně dostupná, což vyvolalo otázky o transparentnosti a férovosti srovnání.

Pochybnosti o kontextovém okně

Meta tvrdí, že model Scout zvládne kontextové okno až 10 milionů tokenů. Nicméně, odborníci upozorňují na technické limity současného hardwaru a architektury, které mohou bránit efektivnímu využití takto rozsáhlého kontextu.

Etické otázky tréninkových dat

Interní dokumenty Mety odhalily, že při tréninku modelů Llama byly použity i neautorizované zdroje, včetně pirátských kopií knih. Tato praxe vyvolává otázky ohledně autorských práv a etiky při získávání tréninkových dat. ​


Shrnutí

Llama 4 představuje významný krok vpřed v oblasti velkých jazykových modelů, zejména díky zavedení MoE architektury a nativní multimodality. Nicméně, kontroverze kolem benchmarkových testů, technických omezení a etických otázek naznačují, že je třeba přistupovat k těmto novinkám s opatrností. Uživatelé by měli pečlivě zvážit, zda Llama 4 skutečně splňuje jejich specifické potřeby a očekávání.​


🔗 Zdroje