Gjithçka që dëshironi të dini për VALL-E të Microsoft

Gjithçka që dëshironi të dini për VALL-E të Microsoft

Microsoft ka zhvilluar VALL-E – një model inteligjence artificiale me tekst në të folur që imiton çdo zë vetëm duke dëgjuar një mostër audio prej 3 sekondash.

Përpara se të lexoni më tej, do të doja ta bëja të qartë se VALL-E është i ndryshëm nga WALL-E. Edhe pse disa prej nesh do t'i shqiptonin të dyja fjalët saktësisht njësoj, ka shumë ndryshim midis të dyve. WALL-E është një animacion i Disney-Pixar i lëshuar në vitin 2008, i cili përfshinte një robot të lezetshëm dhe miqësor me AI.

Faktori i AI është me të vërtetë një ngjashmëri midis VALL-E dhe WALL- E.

Çfarë dimë ne rreth VALL-E?

Në terma teknikë, Microsoft e quan VALL-E një "Modeli i Gjuhës së Kodikut Neural". Në një gjuhë më të thjeshtë, VALL-E është një model i AI që mund të gjenerojë audio nga futja e tekstit si dhe të imitojë zërin e çdo mostre audio të ofruar. Duke dëgjuar një kampion vokal të shkurtër sa tre sekonda, ai mund të imitojë çdo zë. VALL-E nuk është ende përgjithësisht i aksesueshëm për publikun e gjerë. Mund të përshtatet jo vetëm me zërin, por edhe me disponimin dhe akustikën e hapësirës. Ka probleme morale me të, pavarësisht nga fakti se mund të zbatohet në shumë mënyra të dobishme.

Modelet e trajnimit –

>Studiuesit pretendojnë se kanë trajnuar VALL-E për 60,000 orë folës të gjuhës angleze, krahasuar me 7,000+ njerëz në bibliotekën audio LibriLight të Metës. Zëri i folësit të synuar duhet të ngjajë shumë me të dhënat e trajnimit në mënyrë që të imitohet. Në këtë mënyrë Al mund të përdorë 'stërvitjen' e tij për të tentuar dhe imituar zërin e folësit të synuar.

Imitoni emocionet –

Duhet theksuar se modeli Al mund të simulojë akustikën e dhomës, si dhe tonin emocional të folësit, përveç lartësisë, lëvores dhe strukturës. Prandaj, VALL-E do të imitojë zërin e synuar sikur të ketë një shqetësim nëse zëri i synuar ka një të tillë.

Sipas ekipit hulumtues të Microsoft, “Gjetjet e eksperimenteve tregojnë se VALL-E performon shumë më mirë. për sa i përket natyralitetit të të folurit dhe ngjashmërisë së altoparlantit sesa sistemi më i avancuar TTS me zero-shot. Për më tepër, ne zbulojmë se VALL-E mund të ruajë emocionet e folësit dhe kontekstin akustik të nxitjes akustike gjatë sintezës ".

Kërcënimet –

Al. Modeli mund të aplikohet në robotikë, prodhimin e mediave dhe aplikacionet e personalizuara të tekstit në të folur. Megjithatë, nëse përdoret në mënyrë jo të duhur, mund të përbëjë një kërcënim. Biznesi paralajmëroi se modeli mund të keqpërdoret për të imituar ose për të mashtruar identifikimin e zërit, sepse VALL-E mund të sintetizojë fjalimin duke ruajtur identitetin e folësit.

VALL-E mund të përdoret, për shembull, për të gjeneruar thirrje të padëshiruara që duken të ligjshme. për të mashtruar njerëzit. Politikanët ose kushdo me një prani të respektueshme shoqërore janë gjithashtu të ndjeshëm ndaj imitimit, siç tregohet nga mashtrimet. Kërcënimet mund të vijnë për përdoruesit që përdorin aplikacione që kanë nevojë për komanda të të folurit ose fjalëkalime zanore. Për më tepër, punët e aktorëve zanorë mund të eliminohen nga VALL-E.

Pozicioni etik –

Përveç kësaj, biznesi. përfshin një deklaratë mbi etikën që thotë: "Sprovat në këtë punë u kryen nën supozimin se përdoruesi i modelit është folësi i synuar dhe është pranuar nga folësi". Protokolli për të siguruar që folësi pranon të ekzekutojë ndryshimin dhe sistemi për të zbuluar fjalimin e modifikuar duhet të përfshihet me modelet e redaktimit të zërit, tha ai, kur modeli përgjithësohet për të gjithë folësit.

Si është VALL. -E Ndryshe nga DALL-E?

DALL-E është një model i mësimit të makinerive i krijuar nga OpenAI që gjeneron grafikë nga përshkrimet e tekstit. Prompts përdoren për të përshkruar këto përshkrime tekst-në-imazh. Mjafton vetëm një përshkrim i skenës që algoritmi të prodhojë pamje realiste. DALL-E është një teknikë e rrjetit nervor që ndërton imazhe të sakta nga fjalë të shkurtra të ofruara nga përdoruesi. Ai mëson gjuhën duke përdorur përshkrime tekstuale dhe nga të dhënat "të mësuarit" që përdoruesit dhe zhvilluesit kanë kontribuar në grupet e të dhënave të tij.

Çfarë mendoni për VALL-E?

Shpresojmë që tani të dini gjithçka për VALL-E (tekst në tingull) në krahasim me DALL-E (tekst në imazh). Nuk ka një datë të caktuar se kur VALL-E do të jetë në dispozicion për t'u aksesuar dhe vënë në përdorim nga publiku i gjerë. Për sa i përket DALL-E, ai tashmë është vënë në dispozicion për të gjithë.

Ju lutemi, na tregoni në komentet më poshtë nëse keni ndonjë pyetje ose rekomandim. Ne do të ishim të kënaqur t'ju ofrojmë një zgjidhje. Ne publikojmë shpesh këshilla, truke dhe zgjidhje për problemet e zakonshme që lidhen me teknologjinë. Mund të na gjeni gjithashtu në Facebook, Twitter, YouTube, Instagram, Flipboard dhe Pinterest.

Lexo: 0

yodax