Princeton Undergrad skaper Google Deep Dream-Inspired Deepjazz A.I. Musikk Maker

Creativity Beyond Human Creativity - Kenric McDowell (Google Artists and Machine Intelligence)

Creativity Beyond Human Creativity - Kenric McDowell (Google Artists and Machine Intelligence)
Anonim

Ji-Sung Kim tilbrakte morgentimene på den første helgen i april som var koblet på koffein og kodet på datamaskinen da han utviklet deepjazz, en dyp læring musikkgenerator. Den 20 år gamle Princeton datavitenskapssamfunnet hadde bare 36 timer å fullføre deepjazz under sin første hackathon, HackPrinceton, som ble avholdt den 1-3 april på universitetet. Etter å ha fullført et marathon med koding, opprettet han et nettsted for deepjazz, og sendte kildekoden på GitHub.

Men mye til Kims overraskelse, tok programmet av. Deepjazz fortsetter jevnt på Python og GitHub - nå så høyt som det øverste syvende programmet på GitHub generelt. Det ble til og med omtalt på forsiden av HackerNews og fremmer fortsatt en livlig diskusjon.

"Jeg har aldri forventet mitt første sideprosjekt å være dette eksplosive når det gjelder popularitet," forteller Kim Omvendt. "Det har vært ganske gal og morsomt."

deepjazz - Dyp læring drevet jazz generasjon ved hjelp av Keras & Theano! http://t.co/G5wscglzO7 #python

- Python Trending (@pythontrending) 11. april 2016

Mellom å spise, sove og fullføre andre kursoppgaver, begrunnet Kim at det tok ham ca 12 timer å utvikle kildekoden for deepjazz. Men han kom opp med ideen om en kunstig intelligens musikkgenerator lenge før HackPrinceton. Under en sommertidsplass ved University of Chicago kom han over Googles Deep Dream, en fotomaskin som tolker mønstrene i et bilde og forvandler dem til andre objekter som de vet. Resultatet er wonky bilder som ser ut som de kom ut en vill drøm.

"Ideen om å bruke dyp læring for å tolke kunst var veldig interessant for meg," sier Kim. "Denne typen Deep Dream-rammeverk som Google presenterte og publiserte, var veldig fascinerende fordi du lager nye kunstverk fra eksisterende kunstverk."

Deepjazz bruker maskinlæring for å generere jazzmusikk - "en A.I. bygget for å lage jazz "som sin SoundCloud profilstatus. Kim, som ikke har tatt musikkteoriklasser, men har spilt klarinet i syv år, valgte jazzmusikk på grunn av sin ukonvensjonelle melodier. En A.I. systemets musikk, "kan ha noen uvanlige utganger, så jeg tror at jazz var spesielt godt egnet til ideen om å generere musikk på fluen," sier han.

Han repurposed en eksisterende musikkgenerator optimalisert for jazzmusikk som hans venn Evan Chow utviklet kalt JazzML, ved hjelp av koden for å få relevante data, men omforme den til en binær matrise som er kompatibel med de to dype læringsbibliotene Keras og Theano.

Deepjazz-rammen selv er en to-lags LSTM, som er en slags kunstig nevralnettarkitektur, beskriver Kim. Etter at den lærer en innledende baseline frø sekvens av musikalske notater (Kim brukte deler av Pat Methenys "Og så jeg visste"), tildeler det sannsynligheter til notater og genererer neste notat basert på disse sannsynlighetene. Hvis du for eksempel matretter programmet skalaen A, B, C, er det stor sannsynlighet for at neste notat deepjazz genererer kommer til å være D, forklarer Kim.

Historisk har kritikere sagt at kunstig intelligens musikkgeneratorer plager seg ved å produsere sanger som høres for robot og steril - mangler fargen hørt i musikk komponert av mennesker. Jeffrey Bilmes, en tidligere MIT-student som skrev en avhandling på datamaskiner som reproduserer musikalske rytmer i 1993, fortalte Omvendt i november:

"Når du lærer å spille musikk og du lærer å spille jazz, er det et verktøy for intuitivt å forstå hva det handler om musikk som gjør det menneskelig," sa Bilmes. "Mennesker er intuitive vesener, og mennesker kan ofte ikke beskrive hvordan de kan gjøre menneskelige ting. Jeg følte på det tidspunktet at kanskje jeg brøt en hellig ed ved å definere disse tingene for dataprogrammer."

Da Kim gjorde forskning for deepjazz, kom han over mange systemer som genererte musikk som hørte på robot.

"Musikk og kunst er ting vi ser dypt menneskelig på," sier Kim. "For å få det til å lyde mer menneskelig og mer livlig, er det veldig vanskelig å kategorisere." Kim foreslår at generatorer kan lage sanger som høres mer menneskelig ved å programmere dem til å høres mindre lik det opprinnelige sporet.

Andre utviklere har kontaktet Kim og er interessert i å utvide deepjazz slik at flere mennesker kan samhandle med den. Kim kan se deepjazz en dag å utvikle seg til en improvisasjonspartner som kunstig kan generere et backtrack for en musiker å riffe fra. Enda videre i fremtiden kan han se applikasjoner som skaper ny, lignende lydende musikk til favorittsporene dine, eller som kan foreslå nye akkorder og progresjoner for musikere.

Kim innrømmer at han fortsatt er langt fra å være ekspert i dyp læring, men hans erfaring med å utvikle deepjazz og trening på internships og Princeton har gitt ham litt verdifull innsikt i feltet.

“A. I. er ikke lenger en sci-fi-drøm lenger. Det er noe som er veldig ekte, og det er noe som nærmer seg i et veldig raskt tempo, sier Kim. "Forhåpentligvis å se at denne universitetsstudenten, som ikke engang er en opperclassman ennå, var i stand til å gjøre noe i en hackathon, er oppmuntrende til andre studenter som sliter med å komme inn i datavitenskap."