Novaĵoj - OpenAI Point E: Kreu 3D punktonubon el kompleksaj ondformoj en minutoj sur ununura GPU

En nova artikolo Point-E: Sistemo por generado de 3D punktonuboj de kompleksaj signaloj, la OpenAI-esplorteamo enkondukas Point E, 3D punktnuba teksto kondiĉa sintezosistemo kiu uzas disvastigmodelojn por krei diversajn kaj kompleksajn 3D formojn pelitajn de kompleksa teksto. signalvortoj.en minutoj sur ununura GPU.
La mirinda agado de la hodiaŭaj pintnivelaj bildgeneradmodeloj stimulis esploradon en la generacio de 3D tekstaj objektoj.Tamen, male al 2D-modeloj, kiuj povas generi produktaĵon en minutoj aŭ eĉ sekundoj, objektaj generaj modeloj tipe postulas plurajn horojn da GPU-laboro por generi ununuran provaĵon.
En nova artikolo Point-E: Sistemo por generi 3D punktonubojn el kompleksaj signaloj, la OpenAI-esplorteamo prezentas Point·E, tekstan kondiĉan sintezan sistemon por 3D punktonuboj.Ĉi tiu nova aliro uzas disvastigmodelon por krei diversajn kaj kompleksajn 3D formojn el kompleksaj tekstaj signaloj en nur unu aŭ du minutoj sur ununura GPU.
La teamo koncentriĝas pri la defio konverti tekston al 3D, kio estas kritika por demokratiigi 3D-enhavkreadon por realaj mondaj aplikoj, kiuj iras de virtuala realeco kaj videoludado ĝis industria dezajno.Ekzistantaj metodoj por konverti tekston al 3D falas en du kategoriojn, ĉiu el kiuj havas siajn malavantaĝojn: 1) generativaj modeloj povas esti utiligitaj por generi provaĵojn efike, sed ne povas skali efike por diversaj kaj kompleksaj tekstsignaloj;2) antaŭtrejnita tekstbilda modelo por pritrakti kompleksajn kaj multfacetajn tekstindikojn, sed tiu aliro estas komputile intensa kaj la modelo povas facile resti blokita en lokaj minimumoj kiuj ne egalrilatas al signifaj aŭ koheraj 3D objektoj.
Tial, la teamo esploris alternativan aliron kiu celas kombini la fortojn de ĉi-supraj du aliroj, uzante tekst-al-bildan difuzmodelon trejnitan sur granda aro de teksto-bildaj paroj (permesante al ĝi pritrakti diversajn kaj kompleksajn signalojn) kaj 3D bilda difuzmodelo trejnita sur pli malgranda aro de teksto-bildaj paroj.bildo-3D-par-datumserio.La tekst-al-bilda modelo unue provas la enigbildon por krei ununuran sintezan reprezentadon, kaj la bild-al-3D-modelo kreas 3D punktonubon bazitan sur la elektita bildo.
La genera stako de la komando baziĝas sur lastatempe proponitaj generaj kadroj por kondiĉe generi bildojn el teksto (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Ili utiligas GLIDE-modelon kun 3 miliardoj da GLIDE-parametroj (Nichol et al., 2021), fajnagordis sur igitaj 3D-modeloj, kiel sian tekst-al-bildan transformmodelon, kaj aron de disvastigmodeloj kiuj generas RGB-punktonubojn kiel ilia. transforma modelo.bildoj al bildo.3D modeloj.
Dum antaŭa laboro uzis 3D-arkitekturojn por prilabori punktonubojn, la esploristoj uzis simplan transduktilan modelon (Vaswani et al., 2017) por plibonigi efikecon.En ilia difuza modelarkitekturo, punktonubbildoj unue estas provizitaj en antaŭ-trejnitan ViT-L/14 CLIP-modelon kaj tiam la produktaĵmaŝoj estas provizitaj en la transformilon kiel markiloj.
En ilia empiria studo, la teamo komparis la proponitan Point·E-metodon kun aliaj generaj 3D-modeloj pri poentado de signaloj de COCO-objekta detekto, segmentado kaj subskribaj datumaroj.La rezultoj konfirmas, ke Point·E kapablas generi diversajn kaj kompleksajn 3D-formojn el kompleksaj tekstaj signaloj kaj akceli infertempon je unu ĝis du grandordoj.La teamo esperas, ke ilia laboro inspiros plian esploradon pri 3D-teksta sintezo.
Antaŭtrejnita modelo de disvastigo de punktonubo kaj taksa kodo estas haveblaj en la GitHub de la projekto.Document Point-E: Sistemo por krei 3D punktonubojn de kompleksaj indicoj estas sur arXiv.
Ni scias, ke vi ne volas maltrafi iun ajn novaĵon aŭ sciencan malkovron.Abonu nian popularan bultenon Synced Global AI Weekly por ricevi semajnajn ĝisdatigojn pri AI.

Afiŝtempo: Dec-28-2022