作家們最愛用的詞 是“后座”! | 劉錚
無論如何,班·布萊特的書還是向普通的文學愛好者展現了數據研究的魅力,哪怕只是知道了納博科夫的“肉桂詞”是“藕荷色”也不錯。
1
利用數據來考察文學文本,并不是互聯網興起之后才有的事。太遠的例子我一時想不起來,唐代的孔穎達(574年—648年)等撰《毛詩正義》,倒確實統計過《詩經》的一些文字數據。比如,《詩經》中最短的句子是兩個字的,“即‘祈父’、‘肇禋’之類也。三字者,‘綏萬邦,婁豐年’之類也……七字者,‘如彼筑室于道謀’、‘尚之以瓊華乎而’之類也。八字者,‘十月蟋蟀入我床下’、‘我不敢效我友自逸’是也。其外更不見九字、十字者”?!墩x》還指出,《詩經》中一章最少有兩個句子,而“其多者,《載芟》三十一句,《閟宮》之三章三十八句”(按,《閟宮》之分章存爭議,茲不贅;成伯玙《毛詩指說》有類似考論,但有個別錯誤,故不及《正義》)。
從《毛詩正義》這個例子,我們或許可以試著推定早期文學文本數據研究的一些特征:首先,研究對象幾乎必然是經典,否則就不值得花那么大功夫進行人工統計;第二,文本須有相對可控的固定邊界,比如某一經典或某種經典組合(如十三經),通常說來,過大的文字量會使人工統計變得不現實;第三,處理數據的手法是相對原始、機械的,比如只是數一數一句里有幾個字、一章里有幾個句子,無法再進一步加以綜合、提煉、分析。
事實上,西方的文學數據研究,一直到上世紀八十年代初,也還沒有超出《毛詩正義》這個水平多少。1987年,約翰·巴羅斯(John Burrows)對簡·奧斯丁小說進行全面數據考察的專著《計算進入文學批評》(Computation in Criticism: A Study of Jane Austen's Novels and an Experiment in Method)出版,才算正式拉開了文學研究的精確數據時代的帷幕。但我們看巴羅斯的進路,也依然是“經典、小樣本、手法簡單”的,只不過,樣本的文字量略有增加,手法更精細了些而已。
2017年,并非專業文學學者的班·布萊特(Ben Blatt)在美國出版了《納博科夫最愛用的詞是藕荷色:數字揭示的經典、暢銷書和我們自己寫作的真相》(Nabokov's Favorite Word Is Mauve: What the Numbers Reveal about the Classics, Bestsellers, and Our Own Writing)一書,2018年,臺灣推出了該書的譯本,改題《文學大數據》,大概想搭“大數據”的車?!段膶W大數據》號稱處理的文本有1500部之多,這個數字自然遠遠超過人工統計所能達到的極限:比如,班·布萊特統計了100部英文經典小說中“他”(He)、“她”(She)的使用量,其中僅托爾金的《霍比特人》一書就使用“他”將近1900次,試想讓一個人一頁一頁地去數小說里有多少個“他”,他可能要瘋掉的,更別提100部了(當然,要讓他去統計《霍比特人》里的“她”字使用量,或許就容易得多了:作者只在全書開頭部分使用過一次“她”,后來這個字再也沒有在小說里出現過)。
納博科夫和他的蝴蝶標本。 資料圖片
2
挺多時候,班·布萊特處理數據的手法顯得有點“簡單粗暴”,比如分別統計作品中第三人稱代詞的陰陽性數量,從這個數據出發,就得出結論說,某位作家對男性的關注更多或較少,這個方法正確嗎?精確嗎?精確肯定談不上,但假如你只要求得到一個定性的、含糊的結論,那這個方法就不能說一無是處。就像上面談到的,《霍比特人》使用了近1900次“他”而只用了一次“她”,于是,我們認為托爾金是個對男性關注比對女性關注更多的作家,這個結論有問題嗎?似乎沒什么問題。但這一模型設計的缺陷也的確明顯,讓我們假設有一位男作家寫了一部以女性為主角的小說,采用的是人物自述的敘事方式,通篇出現的代詞都是“我”,那么班·布萊特設計的統計模型對它就完全失效了。假如有哪個小說家愛直呼角色的名字,不愛用代詞,那班·布萊特的模型也須加矯正。不過,班·布萊特自己未嘗不明白這一點,所以他下的結論通常并不絕對,也很少跟我們的直覺判斷沖突,比如,他說,男性撰寫的經典文學作品都與男性有關,且偏重明顯(50部中有44部用“他”多過“她”),而女性撰寫的經典文學作品關注女性略多于男性,但差距甚微(50部中有29部用“她”多過“他”)。這個結論,就算我們沒去實打實地統計,感覺上也是如此吧。
《文學大數據》帶給我們新鮮刺激感受的,肯定不在作者的性別、地域這些方面,而在作家們對詞匯的具體使用方面。例如,該書的英文書名“納博科夫最愛用的詞是藕荷色”,就揭示了一個我們意想不到的事實。小說《華氏451》的作者雷·布拉德伯里說,他最偏愛的詞是“肉桂”(cinnamon),于是,班·布萊特就把作家們個人鐘愛而一般人少用的詞稱為“肉桂詞”。根據班·布萊特的數據統計,納博科夫的“肉桂詞”前三名(數據來自納博科夫的8部小說)分別是“藕荷色”(mauve)“平庸”(banal)“雙關語”(pun)。像這樣的結果,你是很難依憑個人的閱讀經驗總結出來的,哪怕你是個納博科夫迷——甚至納博科夫本人,也難排出這前三名的順序,畢竟數據才是最客觀的。雷·布拉德伯里以為自己偏愛“肉桂”,但事實上他用的“綠薄荷”(spear-mint)比“肉桂”要多。那么,我問問你,丹·布朗四本“蘭登教授”小說的“肉桂詞”前三名是什么呢?答案是:圣杯(grail)、共濟會的(masonic)、金字塔(pyramid)。哈哈,跟我想得差不多嘛——我猜你多半會這么說。
還有一些詞,是作家們不知不覺用了很多的。暢銷小說家邁克爾·康奈利就說,自己的小說里有許多“點頭”(nod)。據班·布萊特統計,康奈利的小說里每10萬個詞里會出現109個“點頭”(每三四頁就有一個),是美國近當代英語語料庫該詞出現頻率的15倍。班·布萊特把這類作家不自覺反復使用的詞稱為“點頭詞”,那么,你猜猜看,簡·奧斯丁的“點頭詞”前三名會是什么?答案:她自己(herself)、親愛的(dear)、女士(lady)。那么托爾金的呢?答案:戒指(ring)、黑暗(darkness)、路(road)。哈!我說什么來著——我猜你多半會這么說。
班·布萊特列出了整整50位作家(其中既有詹姆斯·喬伊斯這樣的文學巨匠,也包括《暮光之城》這樣的通俗小說作者)的“肉桂詞”和“點頭詞”,我仔仔細細、來來回回地看,你猜我發現了什么?我發現這50位作家“共同”的“肉桂詞”居然是——后座(backseat),有4位作家的“肉桂詞”前三名里都有它:杰弗里·尤金尼德斯、珍妮·伊凡諾維奇、卡勒德·胡塞尼、恰克·帕拉尼克。原來當代作家們最愛用的詞是“后座”!這個事實就像一輛橫沖直撞的汽車,把我的文學認知撞翻了。
喬伊斯在巴黎街頭。 資料圖片
再看看各位作家的“肉桂詞”,我發現,有兩個作家的“詞匯氣質”居然異常接近:斯蒂芬·金與湯姆·沃爾夫。斯蒂芬·金的“肉桂詞”:見鬼(goddam)、廢話(blah)、該死(fucking);湯姆·沃爾夫的“肉桂詞”:該死(fucking)、呃(haw)、見鬼(goddamned)。不知這一相似有沒有得到當代美國文學研究者的充分注意,要是有人寫出一篇論文,論證斯蒂芬·金和湯姆·沃爾夫的作品事實上是同一個人寫出來的,我是不會覺得意外的。
3
班·布萊特在書中還檢驗了一些文體學研究者以及寫作輔導書作者提出的所謂“金規玉律”,比如,“別用副詞”,尤其是別用以“地”(-ly)結尾的副詞,還有“別用驚嘆號”。那么,這種“金科玉律”真的不容觸犯嗎?班·布萊特的統計數據顯示,經典作家用的副詞的確比普通寫手要少,經典名作中出現的副詞通常也比同一作家寫的不那么受好評的作品中的少。不過,我對此類判斷總是心存疑惑,比如我從詹姆斯·喬伊斯的小說《一個青年藝術家的畫像》引一節:
Cranly pointed his long forefinger at him.
“Look at him!” he said with scorn to the others. “Look at Ireland's hope!”
They laughed at his words and gesture. Temple turned on him bravely, saying:
“Cranly, you're always sneering at me. I can see that. But I am as good as you any day. Do you know what I think about you now as compared with myself?”
“My dear man,” said Cranly urbanely, “you are incapable, do you know, absolutely incapable of thinking.”
這里面,光帶“-ly”的副詞就有三個:bravely、urbanely、absolutely,還不用提事實上起到副詞作用的with scorn。這一節,“-ly”結尾的副詞出現率為3.6%,比《格雷的五十道陰影》的作者寫的小說的副詞出現率1.55%還高出一倍多呢。這么說,喬伊斯的寫作水平還不如一位情色小說家嗎?
再看“別用驚嘆號”這一條,數據就更令人吃驚了:在班·布萊特統計的作家中,最不愛用驚嘆號的是通俗小說家埃爾默·萊昂納德,每一萬詞只用4.9個驚嘆號,而在用驚嘆號最多的作家那一端,你又會遇到一個熟悉的名字,沒錯,就是他——詹姆斯·喬伊斯!每一萬詞他會用110個驚嘆號!假若愛用驚嘆號是不懂寫作藝術的標志,那么詹姆斯·喬伊斯就是名作家里最不懂寫作的!這個結論,你同意不同意?
盡管班·布萊特在書中處理的文本數據是遠超人們以往所能想像的數量的,但從總量上看,這些數據并沒有超出一臺PC機的處理能力。因此,我還是傾向于將班·布萊特這本書視為約翰·巴羅斯著作延長線上的產物,他使用數據進行的是傳統文體學所作的工作,同時,樣本量雖然有所提升,但提升幅度仍有限,而處理手法之粗放,顯然還達不到對文學批評、文學史專業研究者的要求。文學史家莫萊蒂(Franco Moretti)曾提出,19世紀的英國小說總數有兩三萬部左右,一個學者勤勤懇懇地攻讀兩百部經典小說已經很了不起,但比起總量來終是九牛一毫(見Graphs, Maps, Trees, p.3-4)。如果真的以《文學大數據》這個書名來衡量班·布萊特的書,那好像應該叫《文學小數據》才準確——假若不是《文學微數據》的話。在真正的大數據文學研究方面,建議大家去讀喬克斯(Matthew L. Jockers)寫的《宏觀分析:數字方法與文學史》(Macroanalysis: Digital Methods and Literary History),那種波瀾壯闊,不是幾百本書的統計者所能想像的。
《文學大數據》,(美)班·布萊特著,林凱雄譯,創意市集2018年4月第一版。 作者供圖
不過,無論如何,班·布萊特的書還是向普通的文學愛好者展現了數據研究的魅力,哪怕只是知道了納博科夫的“肉桂詞”是“藕荷色”也不錯。順便問一句,你知道我的“肉桂詞”是什么嗎?答案:事實上。在文中出現過四次,找找看吧。至于驚嘆號,則在文中出現了五次,你指責我像喬伊斯一樣不懂寫作藝術,我也只能認了。
(作者劉錚,筆名喬納森,編輯、書評人。畢業于清華大學,現任職于《南方都市報》。著有《始有集》,編有《日本讀書論》。)
(來源:《289藝術風尚》2018/9-10月合刊)
網絡編輯:溫翠玲