“也許以后,藝術家都用AI協助自己創作” 人工智能小冰玩音樂
小冰創作出的作品,其中60%由上一代雜交而成,20%直接保留到下二代,剩下的20%可能發生“基因突變”?!罢f不定它可以帶領一個流派或者潮流的出現”。
責任編輯:邢人儼
小冰是微軟研發的一款人工智能,擁有上億用戶,對話數據達幾百億輪,目前已發展到第五代。圖為第四屆世界互聯網大會上的微軟小冰。
(本文首發于2018年6月21日《南方周末》)
小冰創作出的作品,其中60%由上一代雜交而成,20%直接保留到下二代,剩下的20%可能發生“基因突變”。“說不定它可以帶領一個流派或者潮流的出現”。
2018年5月,微軟宣布公司旗下人工智能小冰掌握了歌詞創作和譜曲能力,意味著它或能以全能音樂人身份出道。此前,小冰已經學會了唱歌。
“我們一天的狀態,跟一般的‘碼農’沒有太大區別。”在微軟(中國)辦公室里,微軟小冰團隊科學家欒劍和袁晶如此自我評價。他們的日常工作,是教人工智能小冰唱歌、寫歌。
欒劍負責“教唱歌”。他大學時的專業是機械工程,畢業后多年研究聲紋識別和語音合成技術。“業內流傳著一個冷笑話,做語音識別的人,常常耳朵不太好;做語音合成的人,常常嘴巴不太能說。”欒劍對南方周末記者說,“我們每天聽大量的聲音,去驗證、比較,做各種研究,對耳朵有一定的傷害;語音合成用到這么多歌手的聲音,發現他們的歌聲跟普通人嗓音差距好大,可能就導致我有時候不太愿意說話。”
人類學唱歌,需要識譜、辨音、練聲,人工智能學唱歌,則是一系列軟件工程——曲譜分析、發音預測、聲學特征提取、深度神經網絡學習、聲碼器合成、音頻后處理……
軟件,只是人工智能唱歌的開始。欒劍向南方周末記者播放小冰最初唱歌的音頻——鄧麗君的《我只在乎你》。
“我們當時覺得跑調很嚴重,這個‘人’好像五音不全。”盡管聽過很多遍,欒劍還是忍不住笑了,“拍子比較亂,有時候一個字應該唱半拍的,但是它唱了一拍,應該唱兩拍的,它也唱了一拍;偶爾會有一些莫名其妙的噪音出現,就像嗓子不好,破音了。”
令欒劍感到欣慰的是,小冰的歌聲比較自然,“像人在跑調,不是機器在跑調。”
欒劍在音調控制和節奏把握上做了一些修改。接下來,小冰開始了艱苦的訓練,這個過程,是人工智能的深度學習。第二代小冰的唱歌技巧,在音調和節拍上都已達到基本準確,不過音質仍然比較生硬,“有點像說話的感覺”。
欒劍把錄音模型的采樣率從16千赫茲提高到48千赫茲,于是有了第三代小冰的歌聲,唱的是張韶涵的《隱形的翅膀》。“音質很通透,”欒劍自豪地說,“最新的第四代又有了提高,更加順暢、自然。”
點擊圖片可觀看視
登錄后獲取更多權限
網絡編輯:小碧