Stable Diffusion

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

Stable Diffusion je model hlubokého učení převádějící text na obraz, který byl uveden na trh v roce 2022 na základě techniky difúze. Je primárně určen k generování podrobných obrázků na základě popisů textu, ale lze jej také použít k dalším úkolům, jako je inpainting, outpainting a generování překladů obrazu k textovému zadání. Byl vyvinut výzkumníky z CompVis Group na Ludwig Maximilian University v Mnichově a Runway, s výpočetním příspěvkem od Stability AI a trénovacími daty poskytnutými neziskovými organizacemi.

Stable Diffusion, vývojový krok v oblasti generativního umělého modelování, reprezentuje latentní difúzní model postavený na hluboké neuronové síti. Tento inovativní model byl navržen s důrazem na otevřený zdrojový kód, umožňující komunitě vývojářů přístup k jeho váhám kódu a modelu. +more Co ještě fascinující, je jeho schopnost provozu na široké škále spotřebního hardwaru, přičemž minimální požadavek je grafická karta s alespoň 4 GB VRAM (virtuální paměti).

Odklon od předchozích proprietárních modelů, jako jsou DALL-E a Midjourney, je patrný v tom, že Stable Diffusion nabízí možnost využívat jej na lokálním hardwaru bez nutnosti spoléhat se na cloudové služby. Tímto způsobem se dále posiluje nezávislost uživatelů a umožňuje větší flexibilitu při využívání této pokročilé technologie.

...
...

Rozvoj

Vývoj Stable Diffusion představuje spolupráci a finanční podporu od začínající společnosti Stability AI Technickou licenci na tento model poskytla renomovaná skupina CompVis na Univerzitě Ludwiga Maximiliana v Mnichově. Vedoucími postavami tohoto projektu byli Patrick Esser z Runway a Robin Rombach z CompVis, kteří předtím vytvořili architekturu latentní difúze, jež je v jádru modelu Stable Diffusion.

Stability AI uznává podporu EleutherAI a LAION, německé neziskové organizace, které sestavily klíčovou datovou sadu pro trénování modelu.

V říjnu 2022 získala Stability AI 101 miliónů USD (amerických dolarů) v kole vedeném společností Lightspeed Venture Partners a Coatue Management.

Technologie

Schéma latentní difúzní architektury používané Stable Diffusion +morepng|vpravo|náhled|300x300pixelů'>Proces odšumování používaný Stable Diffusion. Model generuje obrázky opakovaným odšumováním náhodného šumu, dokud není dosaženo nakonfigurovaného počtu kroků, vedený textovým kodérem CLIP předem natrénovaným na koncepty spolu s mechanismem pozornosti, což vede k požadovanému snímku zobrazujícímu reprezentaci natrénovaného konceptu. .

Architektura

Stable Diffusion využívá pokročilý difúzní model nazývaný Model latentní difúze (LDM), který vyvinula skupina CompVis na LMU Mnichov. Tato nová generace difúzních modelů, představená v roce 2015, je zaměřena na trénování s cílem eliminovat postupné aplikace Gaussova šumu na trénovacích snímcích. +more Tento postup lze přirovnat k sekvenci odšumovacích autokodérů.

Stable Diffusion se skládá ze tří klíčových částí: variačního autoenkodéru (VAE), U-Net a volitelného textového kodéru. V první fázi kodér VAE komprimuje obraz z prostoru pixelů do menšího latentního prostoru s nižším rozměrem, což umožňuje zachytit podstatný sémantický význam obrazu. +more Během dopředné difúze je na tuto komprimovanou latentní reprezentaci iterativně aplikován Gaussovský šum.

Blok U-Net, složený z páteře ResNet, následně odšumuje výstup z dopředné difúze, přivádějící latentní reprezentaci zpět do původního stavu. Nakonec dekodér VAE generuje finální obraz tím, že převede reprezentaci zpět do původního prostoru pixelů. +more Tímto sofistikovaným procesem je dosaženo Stable Diffusion, což přináší vylepšenou kvalitu a sémantickou interpretaci obrazu.

Proces odšumování je flexibilně podmíněn pomocí různých modalit, včetně textu, obrázků a dalších. Zakódovaná data pro podmíněné odšumování jsou vystavena síti U prostřednictvím mechanismu křížové pozornosti. +more Při úpravě textu je využíván pevný, předem připravený textový kodér CLIP ViT-L/14, který transformuje textové vstupy do vloženého prostoru.

Výzkumníci zdůrazňují zvýšenou výpočetní efektivitu při trénování a generování jako klíčovou výhodu modelu latentní difúze (LDM). Tato efektivita představuje výrazné zlepšení oproti jiným přístupům, což potvrzuje významný pokrok v oblasti odšumování a generativního modelování.

S 860 miliony parametry v U-Net a 123 miliony v textovém kodéru se Stable Diffusion v souladu se standardy roku 2022 řadí mezi relativně lehké modely. Na rozdíl od jiných difúzních modelů má schopnost provozovat se na spotřebitelských GPU, což představuje významnou výhodu v přístupnosti a možnosti využívání širšího spektra hardwaru. +more Tato schopnost rozšiřuje dosah modelu a umožňuje efektivní nasazení i na zařízeních s omezenými výpočetními zdroji.

Tréninkové údaje

Stable Diffusion byla trénována na dvojicích obrázků a popisků pocházejících z LAION-5B, veřejně dostupného datasetu odvozeného z dat Common Crawl, která byla načítána ze sítě. Dataset obsahuje 5 miliard párových kombinací obrazů a textů, které byly klasifikovány podle jazyka a filtrovány do samostatných datasetů podle rozlišení, pravděpodobnosti obsahu vodoznaku a předpokládané "estetické" hodnocení (například subjektivní vizuální kvality). +more Dataset vytvořila organizace LAION, německá nezisková organizace, která získává finanční prostředky od Stability AI.

Model Stable Diffusion byl trénován na třech podmnožinách LAION-5B: laion2B-en, laion-high-resolution a laion-aesthetics v2 5+. Analýza dat trénovacího modelu provedená třetí stranou identifikovala, že z menší podmnožiny 12 milionů obrázků z původního širšího datasetu pochází přibližně 47 % vzorku z 100 různých domén, přičemž Pinterest tvoří 8,5 % této podmnožiny, následovaný webovými stránkami jako WordPress, Blogspot, Flickr, DeviantArt a Wikimedia Commons. +more [citace potřebná] Vyšetřování Bayerischer Rundfunk ukázalo, že datasety LAION, hostované na Hugging Face, obsahují velké množství soukromých a citlivých dat.

Tréninkové postupy

Původně byl model trénován na podmnožinách laion2B-en a laion-high-resolution, přičemž poslední několik kol tréninku proběhlo na LAION-Aesthetics v2 5+, což je podmnožina 600 milionů popsaných obrázků. LAION-Aesthetics Predictor V2 předpověděl, že lidé by průměrně udělili hodnocení minimálně 5 z 10, když byli požádáni, aby ohodnotili, jak moc se jim obrázky líbily. +more Podmnožina LAION-Aesthetics v2 5+ také vyloučila nízké rozlišení a obrázky, které byly identifikovány jako nesoucí vodoznak s pravděpodobností vyšší než 80 % pomocí LAION-5B-WatermarkDetection. V posledních kolech tréninku bylo navíc sníženo 10 % textové podmíněnosti s cílem zlepšit metodu Classifier-Free Diffusion Guidance.

Model Stable Diffusion byl vytrénován s využitím výkonných 256 grafických karet Nvidia A100, přičemž tento trénink probíhal na webových službách Amazon. Celkem bylo vynaloženo 150 000 hodin GPU výpočetního času na dosažení optimálních výsledků.

Omezení

Stable Diffusion má potíže s degradací a nepřesnostmi v určitých scénářích. První verze modelu byla trénována na datasetu s obrázky o rozlišení 512×512, což znamená, že kvalita generovaných obrázků výrazně degraduje, když se specifikace uživatele odchýlí od "očekávaného" rozlišení 512×512. +more Verze 2. 0 aktualizace modelu Stable Diffusion následně přidala schopnost nativně generovat obrázky o rozlišení 768×768. Další výzvou je generování lidských končetin v důsledku nízké kvality dat o končetinách v databázi LAION. Model je nedostatečně vyškolen na porozumění lidským končetinám a obličejům kvůli nedostatku reprezentativních prvků v databázi, a vyvolávání generování obrázků tohoto typu může model zmat. Verze Stable Diffusion XL (SDXL) 1. 0, uvedená na trh v červenci 2023, představila nativní rozlišení 1024x1024 a zlepšenou generaci pro končetiny a text.

Dostupnost pro jednotlivé vývojáře může být také problémem. Aby bylo možné upravit model pro nové použití, které není zahrnuto v datasetu, například pro generování postav anime ("waifu difúze"), je zapotřebí nových dat a dalšího tréninku. +more Jemně naladěné adaptace modelu Stable Diffusion vytvořené prostřednictvím dalšího opětovného tréninku byly použity pro různé účely, od lékařského zobrazování po algoritmicky generovanou hudbu. Nicméně tento proces jemného ladění je citlivý na kvalitu nových dat; nízké rozlišení obrázků nebo odlišné rozlišení od původních dat může nejen selhat při naučení se nového úkolu, ale i degradovat celkový výkon modelu. I když je model dodatečně vyškolen na obrázky vysoké kvality, je pro jednotlivce obtížné spouštět modely na spotřebitelské elektronice. Například trénovací proces pro waifu-difúzi vyžaduje minimálně 30 GB VRAM, což přesahuje běžné zdroje poskytované v takových spotřebitelských GPU jako například Nvidia GeForce 30 series, které mají pouze kolem 12 GB.

Tvůrci modelu Stable Diffusion uznávají možnost algoritmického zkreslení, neboť byl model primárně trénován na obrázcích s anglickými popisy. Výsledkem je, že generované obrázky posilují sociální zkreslení a jsou západně orientované, neboť tvůrci upozorňují, že model chybí data z jiných komunit a kultur. +more Model poskytuje přesnější výsledky pro zadání napsaná anglicky ve srovnání s těmi napsanými v jiných jazycích, přičemž západní nebo bílé kultury jsou často defaultním zobrazením.

Jemné ladění koncovým uživatelem

Aby bylo možné řešit omezení původního tréninku modelu, koncoví uživatelé mohou zvolit implementaci dalšího tréninku k jemnému ladění generovaných výstupů a přizpůsobení je specifickým účelům, což je proces označovaný jako personalizace. Existují tři metody, jak lze na checkpoint modelu Stable Diffusion aplikovat přístupné jemné ladění uživatelem:

* "Vložení" lze natrénovat z kolekce obrázků poskytnutých uživatelem a umožňuje modelu generovat vizuálně podobné obrázky, kdykoli je název vložení použit ve výzvě ke generování. Vkládání je založeno na konceptu „textové inverze“, který vyvinuli vědci z Tel Aviv University v roce 2022 s podporou společnosti Nvidia, kde jsou vektorové reprezentace pro konkrétní tokeny používané kodérem textu modelu propojeny s novými pseudoslovy. +more Vložení lze použít ke snížení předsudků v rámci původního modelu nebo k napodobení vizuálních stylů. * „Hypersíť“ je malá předtrénovaná neuronová síť, která se aplikuje na různé body v rámci větší neuronové sítě a odkazuje na techniku vytvořenou vývojářem NovelAI Kurumuz v roce 2021, původně určenou pro modely transformátorů pro generování textu. Hypernetworks nasměrují výsledky určitým směrem a umožňují modelům založeným na Stable Diffusion napodobovat umělecký styl konkrétních umělců, i když umělec není rozpoznán původním modelem; zpracovávají obraz nalezením klíčových důležitých oblastí, jako jsou vlasy a oči, a poté tyto oblasti zalepují v sekundárním latentním prostoru. * DreamBooth je model generování hlubokého učení vyvinutý výzkumníky z Google Research a Boston University v roce 2022, který dokáže model doladit tak, aby generoval přesné, personalizované výstupy, které zobrazují konkrétní předmět, po školení prostřednictvím sady obrázků, které předmět zobrazují.

Schopnosti

Model Stable Diffusion podporuje schopnost generovat nové obrázky od základu pomocí textového zadání popisujícího prvky, které mají být zahrnuty nebo vynechány ve výstupu. Existující obrázky mohou být modelem překresleny a začleněny nové prvky popsané textovým zadáním (proces známý jako "vedená syntéza obrázku") pomocí jeho mechanismu difúzního vyhlazování. +more Kromě toho model umožňuje použití zadání k částečné úpravě existujících obrázků pomocí inpaintingu a outpaintingu, pokud je používán s vhodným uživatelským rozhraním, které podporuje tyto funkce, a existuje mnoho různých implementací s otevřeným zdrojovým kódem.

Pro optimální provoz modelu Stable Diffusion se doporučuje spustit ho na zařízeních s minimálně 10 GB virtuální paměti (VRAM). Nicméně, uživatelé s omezenou virtuální pamětí mají možnost načíst váhy s přesností float16 namísto výchozí float32. +more Tato možnost umožňuje vyrovnat výkon modelu s nižší spotřebou virtuální paměti, což může být výhodné pro uživatele s omezenými hardwarovými prostředky.

Generování textu na obrázek

Skript vzorkování textu na obrázek v rámci Stable Diffusion, známý jako „txt2img“, využívá kromě různých parametrů volby zahrnujících typy vzorkování, rozměry výstupního obrázku a počáteční hodnoty také textovým vstupem. Výstupem skriptu je obrazový soubor založený na interpretaci výzvy modelu. +more Vygenerované obrázky jsou označeny neviditelným digitálním vodoznakem, aby uživatelé mohli identifikovat obrázek jako vytvořený pomocí Stable Diffusion, ačkoli tento vodoznak ztrácí svou účinnost, pokud je velikost obrázku změněna nebo otočena.

Každá generace txt2img bude zahrnovat specifickou počáteční hodnotu, která ovlivňuje výstupní obrázek. Uživatelé se mohou rozhodnout randomizovat semeno (seed), aby prozkoumali různé generované výstupy, nebo použít stejné semeno k získání stejného obrazového výstupu jako dříve vygenerovaný obraz. +more Uživatelé jsou také schopni upravit počet inferenčních kroků pro vzorkovač; vyšší hodnota trvá delší dobu (lepší kvalita), avšak nižší hodnota může mít za následek vizuální vady (horší kvalita). Další konfigurovatelná možnost, hodnota vodicí stupnice bez klasifikátoru, umožňuje uživateli upravit, jak přesně se výstupní obraz připojuje k výzvě. Experimentálnější případy použití se mohou rozhodnout pro nižší hodnotu rozsahu, zatímco případy použití zaměřené na specifičtější výstupy mohou používat vyšší hodnotu.

Další funkce text2img jsou poskytovány předními implementacemi Stable Diffusion, které umožňují uživatelům upravovat váhu přidělovanou konkrétním částem textové výzvy. Značky důrazu umožňují uživatelům přidat nebo snížit důraz na klíčová slova jejich uzavřením do hranatých závorek. +more Alternativní metodou úpravy váhy na části výzvy jsou „negativní výzvy“. Negativní výzvy jsou funkcí zahrnutou v některých front-end implementacích, včetně vlastní cloudové služby DreamStudio Stability AI, a umožňují uživateli určit výzvy, kterým by se model měl během generování obrázků vyhnout. Specifikované výzvy mohou být nežádoucími rysy obrazu, které by jinak byly přítomny v obrazových výstupech kvůli pozitivním výzvám poskytnutým uživatelem nebo kvůli tomu, jak byl model původně trénován, přičemž běžným příkladem jsou rozbité lidské ruce.

Úprava obrazu

Stable Diffusion také obsahuje další vzorkovací skript „img2img“, který využívá textovou výzvu, cestu k existujícímu obrázku a hodnotu síly mezi 0,0 a 1,0. Skript vygeneruje nový obrázek založený na původním obrázku, který také obsahuje prvky poskytn vstupu. +more Hodnota síly udává množství šumu přidaného do výstupního obrazu. Vyšší hodnota síly vytváří více variací v rámci obrázku, ale může vytvořit obrázek, který není sémanticky konzistentní s poskytnutou výzvou.

Díky schopnosti img2img přidat do původního obrázku šum je potenciálně užitečný pro anonymizaci dat a rozšiřování dat, při kterých se mění a anonymizují vizuální vlastnosti obrazových dat. Stejný proces může být také užitečný pro převzorkování obrazu, při kterém se zvýší rozlišení obrazu a do obrazu může být přidáno více detailů. +more Navíc se experimentovalo se Stable Diffusion jako s nástrojem pro kompresi obrazu. Ve srovnání s JPEG a WebP, poslední metody používané pro kompresi obrazu ve Stable Diffusion face omezení při zachování malého textu a obličejů.

Další případy použití pro úpravu obrazu prostřednictvím img2img nabízí řada předních implementací modelu Stable Diffusion. Inpainting zahrnuje selektivní úpravu části existujícího obrazu vymezeného uživatelem poskytnutou maskou vrstvy, která vyplní maskovaný prostor nově vygenerovaným obsahem na základě poskytnuté výzvy. +more Spolu s vydáním Stable Diffusion 2. 0 vytvořila Stability AI speciální model speciálně vyladěný pro případy použití malování. Naopak přemalba rozšíří obraz za jeho původní rozměry a vyplní dříve prázdný prostor obsahem generovaným na základě poskytnuté výzvy.

S vydáním Stable Diffusion 2. 0 dne 24. +more listopadu 2022 byl představen hloubkově naváděný model s názvem „depth2img“. tento model odvodí hloubku poskytnutého vstupního obrazu a generuje nový výstupní obraz na základě textové výzvy a informací o hloubce, což umožňuje zachovat soudržnost a hloubku původního vstupního obrazu ve generovaném výstupu.

ControlNet

ControlNet je architektura neuronové sítě navržená pro řízení modelů difúze začleněním dalších podmínek. Duplikuje váhy bloků neuronové sítě do „uzamčené“ kopie a „trénovatelné“ kopie. +more „Trénovatelná“ kopie se naučí požadovaný stav, zatímco „uzamčená“ kopie zachová původní model. Tento přístup zajišťuje, že trénování s malými datovými sadami obrazových párů neohrozí integritu difúzních modelů připravených pro výrobu. "Nulová konvoluce" je konvoluce 1×1 s hmotností i předpětím inicializovaným na nulu. Před tréninkem všechny nulové konvoluce produkují nulový výstup, čímž se zabrání jakémukoli zkreslení způsobenému ControlNet. Žádná vrstva není trénována od nuly; proces se stále dolaďuje a udržuje původní model v bezpečí. Tato metoda umožňuje trénink modelů na malých nebo dokonce osobních zařízeních.

Vydání

1,0
1. 4srpna 2022
1. +more5října 2022
2,0listopadu 2022
2. 1prosince 2022
XL 1. 0července 2023
.

Použití a kontroverze

Stable Diffusion si nenárokuje žádná práva na generované obrázky a volně dává uživatelům práva na použití jakýchkoli vygenerovaných obrázků z modelu za předpokladu, že obsah obrázku není nezákonný nebo škodlivý pro jednotlivce nebo skupinu. Svoboda poskytovaná uživatelům v používání obrázků vyvolala spory ohledně etiky vlastnictví, protože Stable Diffusion a další generativní modely jsou trénovány z obrázků chráněných autorským právem bez souhlasu vlastníka. +more To také vede k velkému množství soukromých a citlivých informací v tréninkových datech.

Vzhledem k tomu, že vizuální styly a kompozice nepodléhají autorským právům, je často interpretováno, že uživatelé Stable Diffusion, kteří vytvářejí obrázky uměleckých děl, by neměli být považováni za porušující autorská práva vizuálně podobných děl. Jednotlivci vyobrazení na generovaných obrázcích však mohou být chráněni osobnostními právy, pokud je použita jejich podoba , a duševní vlastnictví, jako jsou rozpoznatelná loga značek, stále zůstává chráněno autorským právem. +more Vizuální umělci nicméně vyjádřili obavy, že rozšířené používání softwaru pro syntézu obrazu, jako je Stable Diffusion, může nakonec vést k tomu, že lidští umělci spolu s fotografy, modelkami, kameramany a herci postupně ztrácejí komerční životaschopnost proti konkurentům založeným na umělé inteligenci.

Stable Diffusion je ve srovnání s jinými komerčními produkty založenými na generativní umělé inteligenci zejména tolerantnější, pokud jde o typy obsahu, který mohou uživatelé vytvářet, jako jsou násilné nebo sexuálně explicitní snímky. Generální ředitel společnosti Stability AI, Emad Mostaque, se vypořádal s obavami, že model může být použit pro zneužití, tvrdí, že „[je] odpovědností lidí za to, zda jsou etické, morální a legální v tom, jak tuto technologii provozují“. +more a že uvedení schopností Stable Diffusion do rukou veřejnosti by vedlo k tomu, že technologie bude poskytovat čistý přínos, a to i přes potenciální negativní důsledky. Mostaque navíc tvrdí, že záměrem otevřené dostupnosti Stable Diffusion je ukončit podnikovou kontrolu a dominanci nad takovými technologiemi, které dříve vyvíjely pouze uzavřené systémy umělé inteligence pro syntézu obrazu. To se odráží ve skutečnosti, že jakákoli omezení Stability AI na obsah, který mohou uživatelé generovat, lze snadno obejít díky dostupnosti zdrojového kódu.

Kontroverze kolem fotorealistických sexualizovaných zobrazení nezletilých postav byla vychována kvůli tomu, že takové obrázky vytvořené Stable Diffusion jsou sdíleny na webových stránkách, jako je Pixiv .

Soudní spory

V lednu 2023 podali umělci Sarah Andersen, Kelly McKernan a Karla Ortiz žalobu na porušení autorských práv proti Stability AI, Midjourney a DeviantArt s tvrzením, že tyto společnosti porušily práva milionů umělců tím, že vycvičily nástroje AI na pěti miliardách obrázků stažených z webu bez souhlasu původních umělců. Ve stejném měsíci byla Stability AI také žalována společností Getty Images za použití jejích obrázků v tréninkových datech.

V červenci 2023 americký okresní soudce William Orrick rozhodl ve prospěch zamítnutí většiny žalob podaných Andersenovou, McKernanovou a Ortizovou. Nicméně, soudce umožnil těmto stranám podat novou stížnost.

Licence

Na rozdíl od některých modelů, jako například DALL-E, Stable Diffusion nabízí transparentnost a otevřenost tím, že poskytuje svůj zdrojový kód spolu s předtrénovanými váhami modelu.

Pro regulaci užívání modelu M je však zavedena licence Creative ML OpenRAIL-M, která představuje formu Responsible AI License (RAIL).

Licence podle RAIL explicitně zakazuje některé konkrétní případy použití, včetně zločinu, urážky na cti, obtěžování, doxingu, vykořisťování nezletilých, poskytování lékařských rad, automatické vytváření právních povinností, předkládání právních důkazů a diskriminace nebo poškozování jednotlivců nebo skupin na základě sociálního chování nebo osobních charakteristik, a to včetně zákonem chráněných vlastností nebo kategorií.

Odkazy

Reference

Externí odkazy

[url=https://huggingface. co/spaces/stabilityai/stable-diffusion]Demo Stable Diffusion[/url] * [url=https://poloclub. +moregithub. io/diffusion-explainer/]Interaktivní vysvětlení Stable Diffusion[/url] * [url=https://interaktiv. br. de/ki-trainingsdaten/en/index. html]„Všichni jsme surovinou pro umělou inteligenci“[/url] : Vyšetřování citlivých a soukromých dat v tréninkových datech Stable Diffusions * [url=https://talkdigital. com. au/ai/stable-diffusion-negative-prompt-list/]Negativní výzvy ve Stable Diffusion[/url].

Kategorie:Generování obrazů z textu Kategorie:Údržba:Články s nekontrolovanými překlady

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top