Deep Learning Machine išsprendžia kokteilių vakarėlio problemą

Kokteilių vakarėlio efektas – tai galimybė sutelkti dėmesį į konkretų žmogaus balsą, tuo pačiu išfiltruojant kitus balsus ar foninį triukšmą. Tai, kaip lengvai žmonės atlieka šį triuką, paneigia mokslininkų ir inžinierių iššūkį, su kuriuo susidūrė atgaminti jį sintetiniu būdu. Apskritai žmonės lengvai pranoksta geriausius automatizuotus balsų išskyrimo metodus.

Ypač sudėtinga kokteilių vakarėlio problema yra muzikos srityje, kur žmonės gali lengvai susikoncentruoti ties dainuojančiu balsu, uždėtu ant muzikinio fono, apimančio daugybę instrumentų. Palyginimui, mašinos prastai atlieka šią užduotį.

Šiandien atrodo, kad tai keičiasi dėl Andrew Simpsono ir jo draugų iš Surėjaus universiteto Jungtinėje Karalystėje. Šie vaikinai panaudojo kai kuriuos naujausius pasiekimus, susijusius su giliais neuroniniais tinklais, kad atskirtų žmonių balsus nuo fono. dainų.



Jų požiūris parodo didžiulę pažangą, kuri pastaraisiais metais buvo padaryta mašininio mokymosi ir neuroninių tinklų srityse. Ir tai atveria kelią bendresniam garsiosios kokteilių vakarėlio problemos sprendimui, kuris, be kita ko, turėtų leisti vokalą lengvai atskirti nuo muzikos, kurią jie akomponuoja.

Metodas, kurį šie vaikinai naudoja, yra gana paprastas. Pradedama nuo 63 dainų duomenų bazės, kurią galima įsigyti kaip atskirų takelių rinkinį, kurių kiekviename yra skirtingas instrumentas arba balsas, taip pat visiškai sumaišyta dainos versija.

Simpsonas ir bendradarbis padalija kiekvieną takelį į 20 sekundžių segmentus ir kiekvienam sukuria spektrogramą, rodančią, kaip laikui bėgant kinta garso dažniai. Rezultatas yra unikalus piršto atspaudas, identifikuojantis instrumentą ar balsą.

Jie taip pat sukuria visiškai sumaišytos dainos versijos spektrogramą. Tai iš esmės visos sudedamosios spektrogramos, sudėtos kartu.

Užduotis išskirti balsą iš šio mišinio iš esmės yra užduotis atskirti unikalią balso spektrogramą nuo kitų esamų spektrogramų.

Simpsonas ir bendradarbiai išmokė savo gilų konvoliucinį neuroninį tinklą tai padaryti. Jie panaudojo 50 iš šių dainų, kad apmokytų tinklą, o likusias 13 paliko jį išbandyti. Iš viso mokymo tikslais buvo sukurta daugiau nei 20 000 spektrogramų.

Neuroninio tinklo užduotis buvo paprasta. Kaip įvestį jie suteikė visiškai mišrią spektrogramą ir tikėjosi, kad ji iš esmės sukurs balso spektrogramą.

Tokio tipo mašininio mokymosi užduotis yra parametrų optimizavimas. Jų gilus neuroninis tinklas turi milijardą parametrų, kuriuos reikia suderinti taip, kad būtų gauta norima išvestis.

Šis optimizavimo arba mokymosi procesas vyksta iteracijos būdu. Taigi tinklas pradeda nuo šių parametrų, nustatytų atsitiktinai, o vėliau palaipsniui tobulina nustatymus kiekvieną kartą, kai nuskaito duomenų bazę, o tai atliko daugiau nei šimtą iteracijų.

Radę gerą tinklo sąranką, Simpsonas ir bendradarbiai davė jam 13 dainų, kurių anksčiau nematė, kad patikrintų, kaip gerai jis gali atskirti vokalą nuo mišinio.

Rezultatai pasirodė įspūdingi. Šie rezultatai rodo, kad konvoliucinis giluminio neuroninio tinklo metodas gali apibendrinti balso atskyrimą, išmoktą muzikiniame kontekste, į naujus muzikinius kontekstus, teigia komanda.

Simpsonas ir kolegos netgi palygino savo rezultatus su įprasto kokteilių vakarėlio algoritmo, taikomo tiems patiems duomenims, rezultatais. Atrodo, kad pagrindinis giliojo neuroninio tinklo pranašumas yra bendras mokymasis, kas yra „vokaliniai“ garsai.

Kitaip tariant, sužinojęs, kaip skamba balsas, gilus neuroninis tinklas gali panaudoti šią informaciją, kad atrinktų kitus balsus iš mišinio. Tačiau jie nesako, koks geras šis požiūris, palyginti su žmogaus veikla.

Viena iš neatidėliotinų programų yra muzikos takelių, atėmus vokalą, kūrimas karaokės aparatams. Tai neabejotinai… klysta… svarbus tikslas, tačiau yra ir platesnių pasekmių.

universaliųjų bazinių pajamų JAV

Gilieji neuroniniai tinklai iš esmės keičia mašininį mokymąsi įvairiose srityse. Dar visai neseniai žmonės aiškiai dominavo modelių atpažinimo užduotyse, tokiose kaip veido ir objektų atpažinimas. Šis pranašumas buvo žymiai sumažintas ir kai kuriais atvejais visai prarastas.

Dabar mašinos žaidžia kokteilių vakarėlių problemų srityje ir tik kvailys lažintųsi, kad jie triumfuos netolimoje ateityje.

Nuoroda: arxiv.org/abs/1504.04658 : Gilus karaoke: vokalo ištraukimas iš muzikinių mišinių naudojant konvoliucinį gilų neuronų tinklą

paslėpti

Faktinės Technologijos

Kategorija

Neįtraukta Į Kategorijas

Technologijos

Biotechnologija

Technikos Politika

Klimato Kaita

Žmonės Ir Technologijos

Silicio Slėnis

Kompiuterija

Mit Naujienų Žurnalas

Dirbtinis Intelektas

Erdvė

Išmanieji Miestai

Blockchain

Funkcijų Istorija

Alumni Profilis

Alumnų Ryšys

Mit Naujienų Funkcija

1865 M

Mano Vaizdas

77 Mass Ave

Susipažink Su Autoriumi

Dosnumo Profiliai

Matytas Miestelyje

Alumnų Laiškai

Pamatyta Miestelyje

Žinios

2020 M. Rinkimai

Su Indeksu

Po Kupolu

Priešgaisrinės Žarnos

Begalinės Istorijos

Pandemijos Technologijų Projektas

Iš Prezidento

Viršelio Istorija

Nuotraukų Galerija

Rekomenduojama