DALL-E

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

DALL-E a DALL-E 2 jsou modely strojového učení vyvinuté společností OpenAI pro generování digitálních obrazů na základě popisů. Model DALL-E byl odhalen společností OpenAI v příspěvku na blogu v lednu 2021 a využívá verzi GPT-3 upravenou pro generování obrázků. V dubnu 2022 oznámila společnost OpenAI nástupce DALL-E 2, který má generovat realističtější obrázky ve vyšším rozlišení, které "dokáží kombinovat pojmy, atributy a styly".

Společnost OpenAI nezveřejnila zdrojový kód ani pro jeden z modelů, ačkoli výstup z omezeného výběru ukázkových výzev je k dispozici na webových stránkách OpenAI. Dne 20. +more července 2022 vstoupil DALL-E 2 do fáze beta, kdy byly pozvánky zaslány 1 milionu čekatelů. Přístup byl předtím omezen na předem vybrané uživatele pro výzkumný náhled kvůli obavám o etiku a bezpečnost. Dne 28. září 2022 byl DALL-E 2 zpřístupněn komukoli a požadavek na čekací listinu byl zrušen; uživatelé mohou zdarma vygenerovat určitý počet snímků a další si mohou zakoupit.

Technologie

DALL-E se skládá ze dvou neuronových sítí, z nichž jedna je GPT a druhá je VQ-GAN.

GPT se snaží předpovědět posloupnost tokenů na základě posloupnosti, která mu byla dána. Model je architektura transformátorů sestávající pouze z dekodéru. +more GPT se učí soustředit pozornost na předchozí slova, která jsou nejdůležitější pro předpovídání dalšího slova ve větě pomocí mechanismu pozornosti.

VQ-GAN je schopen komprimovat obraz do mřížky vektorů (tokenů) a rekonstruovat jej zpět do obrazu. Neuronová síť se skládá z kodéru, dekodéru a diskriminátoru.

VQ-GAN je kombinací myšlenek VQVAE a GAN.

DALL-E 2 využívá další vývoj OpenAI - CLIP - Contrastive Language-Image Pre-training artificial vision system (Comparative Text-Graphic Training). Systém se učí ze stovek milionů obrázků a jejich popisů, učí se rozlišovat "kolik" textového fragmentu X koreluje s obrázkem X, to znamená, že místo předpovídání, pro který obrázek je tento popis vhodnější, model umělého vidění přesně studuje, jak jsou tento text a tento obrázek propojeny. +more Srovnání namísto predikce umožňuje CLIPu navázat spojení mezi textovou a vizuální reprezentací stejného významu. CLIP definuje a vytváří sémantické vazby mezi textem a obrázkem.

Možnosti

Ihned po objevení DALL-E 2 začal humbuk (dokonce více než při objevení první verze algoritmu). Na webu se začaly rychle objevovat nové ukázky schopností neuronové sítě, takže uživatelům bylo ukázáno, jak může kreslit klasická díla, a pomocí ní proměnili "Monu Lisu" a "Dívku s perlou" v portréty v plnou výšku.

Neuronová síť byla také testována na pochopení smyslu pro humor a byla nucena předělat populární memy.

Obálka lesklého časopisu Cosmopolitan, kompletně generovaná neuronovou sítí od OpenAI, se stala velkou novinkou. Byla vytvořena týmem vedeným digitální umělkyní Karen X Chang. +more Autoři myšlenky vyzkoušeli mnoho možností, dokud se neusadili na poslední, vytvořené na vyžádání, "širokoúhlý záběr ze spodního úhlu ženského kosmonautu atletické stavby, který se houpal na kameru na povrchu Marsu v nekonečném vesmíru. ".

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top