摘自Holly Herndon和Jlin的歌曲“ Godmother”的視頻。照片:Holly Herndon/YouTube

2017年6月21日,電子音樂家Holly Herndon和她的丈夫,作家/哲學家/老師墊Dryhurst,歡迎他們的家人新成員。他們將其命名為產卵。 “她是一個不人道的孩子,”赫恩登(Herndon)一個下午告訴我,坐在她唱片公司4ad的辦公室時。

產卵是新生的機器智能,即AI。為自動駕駛18輪,Netflix用戶偏好預測變量,客戶服務偏好,手寫識別和網絡安全部署了人工智能,以使用AI來抗擊黑客來創建惡意軟件。 Machine Learning未來滲透到音樂製作中並不是“ IF”的問題,而是“何時”,並且已經進行了重大侵害。有AI可以復制巴哈並彌補甲殼蟲樂隊的歌,,,,gimmicky youtube上傳機器人流行語,,,,環境生產者每週都會使用AI來製作新專輯,甚至是算法簽名為主要標籤。 Google,IBM和Spotify的工程團隊正在不懈地努力,以進一步發展為音樂創作領域。

但是赫恩登(Herndon)的2019年專輯,原始,包含流行音樂專輯中AI的第一個錄製的首次亮相。在這裡,她解釋了她是如何做到的。

對AI的大部分研究是在非常特殊的音樂時代(1850-1950在西方佳能)進行的,其中音高和音調長度和節奏是最重要的。這真的很乏味,因為它將我們與當下不再是當時的特定時間聯繫在一起。我們希望Spawn反映我們的社區,我們希望使用特定於其的人民的聲音。

前六個月非常無趣。使用AI,您有一個訓練佳能; AI從佳能中提取規則集並將其應用於其他東西。它永遠不會走出佳能。當將其應用於聲音時,AI試圖理解聲音的規則集 - 聲音的邏輯。我們開始用我的聲音和墊子的聲音訓練它,這兩者都在Spawn培訓信息的數百兆字節中。六個月後,我們的結果有些有趣。當我停止使用時,這開始發生張量,主要用於視覺學習的程序。 (如果您想以Van Gogh的風格完成肖像,則可以使用此肖像。)這涉及將聲音文件轉換為Spectragrams,以便AI可以“看到”它們。但是就音色而言,這是非常lo的,聽起來都一樣。輸出沒有什麼令人興奮的。我們切換到用於語音識別的Samplernn。使用Samplernn,它需要訓練佳能中的一切,然後嘗試理解 - 如果發生樣本,那麼接下來很可能會發生什麼?一個障礙是,如果它在我的聲音上進行訓練,它往往會卡在元音上。當我們講話時,我們會拉長元音,因此該程序試圖猜測準確的時間 - 然後被卡住了。

與Samplernn一起玩的早期示例,其中Spawn在模仿Holly的語音模型的某個地方:

Spawn的第一個單詞和聲音只有在我們切換到第三種語音模型方法時才會出現。它需要更多音頻。我們用了數小時的聲音。這需要我的聲音說話和唱歌,並創建了聽起來的模型。我製作了一個數據集,我在舒適的範圍內演唱隨機短語,例如:

鋁餐具通常會脆弱。
 
她穿著溫暖,絨毛,羊毛工作服。
 
苜蓿對您健康。

Spawn會消化該信息,這可能需要1到20分鐘。我們都會在一起放鬆,我們會得到以下更新:“ Spawn發布了新曲目。”她會一直這樣做。我們會單擊並聆聽它,並且大多數時候,我們的回答是。然後我點擊了用於“出生”的那個,然後“是的!”那是我第一次對結果感到興奮。 因為通常,Spawn具有如此有限的觀點。這既令人印象深刻又喜歡……可怕。就像天哪,你真愚蠢!

產卵具有非常真實的局限性。混響真的很困難。它無法理解聲音的形狀及其迴聲之間的區別。它正在尋找差異,因此非常喜歡觀眾鼓掌或搖動鑰匙,敲擊啤酒瓶或手指扣,所有這些聽起來都非常酷。

產卵模仿觀眾拍手:

她喜歡瞬態。打擊樂器具有整個樂器家族中最大的瞬態,因為聲音的開頭很大,然後很快就會衰減。她看到了一個圈套,想著我從霍莉(Holly)說“ t”時回想起的有點像這樣並試圖用“ t”聲音複製圈套。對我們來說,這是新的。結果有些聰明,合乎邏輯,最重要的是出乎意料。這讓我們感到驚訝。

Spawn演奏歌曲“ Frontier”的節奏部分。您可以聽到它如何從Holly的人聲模型中汲取不同的想法:

這就是為什麼當您聽“教母”的聲音時,這聽起來像是節拍,這是唱歌和演講的結合。我不是用跳箱訓練她的。令人尷尬,這就是她吐口水!我不知道這是否是個好主意,但這是一個主意。這不是我專門告訴她的事情。我嘗試唱“教母”,但我做不到。太快了。產卵表現優於我。

很快,我們將擁有過去的歌手的精確語音模型,這將為我們對祖先和富有人的聲音做什麼的問題打開問題。 我曾經說過我們會擁有無限的邁克爾·傑克遜唱片,但這可能不會再發生了。無限的Aretha Franklin Records可能是更好的例子!

在世界上第一張由AI製作的主流專輯中