“有目的地的人生才會迷路,我只是來世界散步”:一群段子手喂AI
弱智吧語料讓AI性能極快提高,在不少測試中獲得高分。至于原因,可能是這些問題增強了AI的邏輯推理能力。
“之前有個吧主就想過,要把我們賣給一個治療腦病的醫院,讓我們給舉報走了?!?br />
“大模型接受的都是正常的邏輯,弱智吧的邏輯會比較異常,互聯網在積累過程中,一些異常邏輯慢慢就淘汰掉了,但是我們保留了弱智吧這個地方,專門留下這種數據”。
發自:上海
責任編輯:顧策
2024年9月6日,外灘大會休息室里至少云集了四位院士、兩位AI獨角獸的創始人、數位金融企業高管。比較扎眼的是,這里還有五位來自弱智吧的代表。
按照官方介紹,外灘大會號稱全球三大金融科技大會之一,“具有全球影響力的金融科技和前沿科技大會”,而“弱智吧”是發冷笑話的百度貼吧。
“咖啡因來自咖啡果”“生魚片是死魚片”“指南針主要是指北”,這些金句都來自弱智吧,中文互聯網每年的流行語中,弱智吧總有一席之地。
大佬云集的貴賓休息室里,弱智吧代表們很難不引人注目。穿著統一的白色T 恤,背后印著三個醒目的大字“弱智吧”。比起滿屋子聽不懂的科技黑話,零食桌才是他們最關心的地方。
“我們在嘉賓室里一直在討論哪個小吃好吃?!比踔前砂蓜蘸}北對每一樣零食都印象深刻,“蝴蝶酥、蔓越莓餅干,還有黑金鍋巴,都非常好吃,扇貝形狀的小甜點有點過于甜膩。”有些遺憾的是“自熱火鍋忘記吃了”。
在外灘大會的官方介紹里,他們還有另一個官方身份:“中文訓練語料庫機構”,而且是最好的中文語料。
2024年4月,來自中國科學院、北大、中科大、滑鐵盧大學、曼徹斯特大學的研究者們測試了各大中文平臺,總共收集了 13 個數據集。
結果,弱智吧打敗了知乎、豆瓣、小紅書、百科甚至專業技術問答社區思否等平臺的語料,成為讓AI性能提高最快的語料。它“輔導”過的大模型在問答、頭腦風暴、分類、生成、總結、提取等8 項測試中取得了最高分。至于原因,研究人員在論文中只是簡單猜測:可能是弱智吧問題增強了AI的邏輯推理能力。
“弱智吧的價值在于它的獨特性?!币晃粶y試過弱智吧語料的大模型專家向南方周末記者解釋,“如果訓模型是拼圖,那么弱智吧就是我們最缺的那一塊。”
吧主公孫闬告訴南方周末記者,“弱智吧不收真弱智,弱智只是一種自嘲。”其實弱智吧的門檻并不低,每天他會審幾百條帖子,能通過的不超過20%,帖子比較多的時候,“通過率只有5%”。
加入弱智吧的時候,公孫闬還是個小學生。如今他27歲,擔任吧主已經第10年。過去20年里,一群業余段子手的自娛自樂,無意間為人工智能留下了一方富礦,這就是弱智吧的故事。
2024年9月6日,弱智吧成員們參加外灘大會。聽說他們很多人是學數學的,一位大學教授恍然大悟,“這個就合理了,原來你們是學數學的,你們這就叫大智若愚?!蹦戏街苣┯浾?羅歡歡 圖
“揮拳的時候,我們把自己逗笑了”
9月5日,外灘大會開幕前一天夜里,公孫闬直到凌晨12點才趕到酒店。他坐了下來,沒和其他人打招呼。他們認識已經七八年,見面還是第一次,之前連對方性別也不清楚,這種感覺“熟悉又陌生”。
聊到段子時,相處才自然起來。三百多萬吧友的弱智吧,吧務只有85個。吧主找吧務的標準就是看段子,“寫得好,眼熟了,就邀請進吧務群”。進入吧務群里的人,對段子都有相近的審美。
游弋在2017年左
登錄后獲取更多權限
校對:星歌