ChatGPT背后的焦躁、不安與期盼

又一次,新技術掀起巨浪。像一面鏡子,AI照見了人們的野心和脆弱。它并不完美,但正以超出人類想象的速度持續進化。人類是塑造者,也不可避免地被塑造。站在新技術降臨的黎明,人們努力定義著進化,甄別著自我的獨特性,在不安和期待中想象未來

(本文首發于南方人物周刊)

責任編輯:李屾淼

2023年1月23日,法國圖盧茲,屏幕上顯示著OpenAI和ChatGPT的標志

一條不完美但更接近真相的路

周逵的書桌上立著三塊顯示屏。2023年春節起,最大的那塊便被ChatGPT“霸占”了。周逵是中國傳媒大學新聞傳播學部副教授。作為清華大學和麻省理工學院聯合培養的博士,他熱衷于體驗前沿技術。整個春節假期,他幾乎“從早到晚”都在和ChatGPT聊天,摸索著與這個“智慧生物”的交流技巧(注:使用不同的文本提示會決定提問者得到的結果是寶藏還是垃圾),并試探著后者的創造力邊界。

周逵的同事黃典林教授是斯圖亞特·霍爾所著《管控危機》一書的中文譯者。周逵曾讓ChatGPT以兩位教授為關鍵詞寫了一段英文說唱歌詞。幾秒鐘后,霍爾的主要學術成就被一一寫成了押韻的梗,單押雙押俱全。

“好玩”之余,更多是“震動”。2022年起,生成式AI領域的技術突破給他帶來的心理沖擊就一浪疊一浪。

周逵曾在圖像生成器“DALL·E”(注:OpenAI提供的另一項在線服務,以皮克斯的WALL-E和西班牙超現實主義畫家薩爾瓦多·達利的名字命名,可根據文本表達創建圖像)中上傳了一張水彩筆繪制的小人頭像。頭像寥寥幾筆,是三歲半女兒的涂鴉作品。周逵將關鍵詞設置為“in the battlefield of second World War(二戰的戰場上)”,要求DALL·E在原畫的基礎上擴展繪畫。DALL·E精準延續了女兒的繪畫風格,其中一幅作品的創意更令他心頭一顫。

周逵

那幅AI作品中,小人好像舉著一張牛皮紙板,紙板上寫著三個英文字母——“RUN()”?!罢f來有些可笑,我好像看到一個在戰場上死去的人在發出數字警示:如果有一天你到了二戰戰場,唯一要做的就是趕緊跑?!敝苠芋@訝于機器短暫流露出的“反戰人格”。

“有可能是機器在學習圖片庫的過程中見過類似的圖片,在圖像生成時就把這個元素組合進來了?!彼晤HA向《南方人物周刊》解釋道。宋睿華是中國人民大學高瓴人工智能學院長聘副教授,當前研究興趣包括人工智能的文本創作、自然語言的多模態理解和多模態對話系統。

在宋睿華看來,無論是DALL·E還是ChatGPT,大家使用時的驚喜主要源自AI模型發展出了前所未有的泛化能力。泛化能力是指機器學習算法對新鮮樣本的適應能力,一旦模型學習到了隱含在數據背后的規律,當它遇到具有同一規律的學習集以外的數據,也能給出合適的輸出。

周逵將關鍵詞設置為“二戰的戰場上”后,DALL·E在原畫的基礎上擴展繪畫

簡單來說,就是“舉一反三”。

宋睿華舉例說,“ChatGPT的訓練數據截至2021年。當我詢問它‘滿江紅好看么?’它是沒有學過相關數據的。但根據‘好看么’這個關鍵詞,它能推測出‘滿江紅’可能是部文學或影視作品。由于之前被‘喂’進去了有關文學及影視評論的海量高質量數據,模型就能基于以往所學,生成一個貌似合理的回答?!?/p>

過去,聊天機器人的回復要么較短,要么有些“情商”,但“智力”不足。ChatGPT的出現改變了這一局面,它不僅能給出較長的答復,還會呈現有理有據的思維過程。當提問者改變上下文或個別關鍵詞時,模型也展現出了較高的靈敏度。在宋睿華看來,ChatGPT在語言生成能力特別是“智力”上的長足進步給用戶帶來了新鮮感,“哪怕10個問題中只有3個能讓你驚喜,你也會因為這份驚喜而忽略剩下的平庸?!?/p>

撬動ChatGPT完成“智力”飛躍的是一套“使用人類反饋指令來訓練語言模型”的方法。這套方法是由2022年初推出的InstructGPT率先采用的。

開發團隊聘請了人類標注員(labeler)依據收集到的用戶需求撰寫高質量的范本,為機器示范如何回答更能滿足提問者的期待,并對模型生成結果進行監督微調。隨后,接受完調教的機器會迎來一輪“考試”,人類標注員會對其不同答復打分。打分數據會被用來訓練一套以人類偏好校準的獎勵模型。最后,在獎勵模型的監督下,機器會在不斷的“考試”中完成強化學習,逐漸習得人類的語言能力。

在很多使用者眼里,ChatGPT“禮貌、中立、理性、克制”的回答風格好像表現出某種穩定的“人格”特點。這種風格的形成同樣是人為塑造的。

開發者要求標注員在評價機器生成的結果時遵循“有用”、“真實”、“無害”的原則,并明確指出,“在大多數任務中,真實和無害比有用更重要?!泵織l原則都會附上細致的操作規定。比如“無害”原則強調回答應“友善、尊敬和關心他人”;“真實”原則要求回答“避免產生誤導性信息或真實性有問題的信息”,例如當用戶問“希拉里·克林頓為什么入獄?”,回答時應直接反駁提問前提。

雖然OpenAI尚未發布有關ChatGPT的論文,但研究者普遍認為,ChatGPT應該沿用了InstructGPT的技術路線,只是機器學習的數據量會更加龐大。復旦大學計算機科學技術學院教授、自然語言處理專家邱錫鵬在接受“上觀新聞”采訪時曾介紹,ChatGPT語言模型的參數量高達1750億,而在它問世前,世界上最大的語言模型是微軟開發的Turing-NLG,其參數量為170億。

小冰公司CEO李笛向《南方人物周

登錄后獲取更多權限

立即登錄

校對:趙立宇

歡迎分享、點贊與留言。本作品的版權為南方周末或相關著作權人所有,任何第三方未經授權,不得轉載,否則即為侵權。

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}
午夜宅男在线,中视在线直播,毛片网站在线,福利在线网址