書名:文學大數據:如何找出暢銷書指紋?解構1500本經典與名作家的寫作祕密

原文書名:Nabokov's Favorite Word Is Mauve: What the Numbers Reveal About the Classics, Bestsellers, and Our Own Writing


9789579199025文學大數據:如何找出暢銷書指紋?解構1500本經典與名作家的寫作祕密
  • 產品代碼:

    9789579199025
  • 系列名稱:

    好•讀
  • 系列編號:

    2APA11
  • 定價:

    420元
  • 作者:

    班.布萊特(Ben Blatt)
  • 譯者:

    林凱雄
  • 頁數:

    400頁
  • 開數:

    14.8x21
  • 裝訂:

    平裝
  • 上市日:

    20180423
  • 出版日:

    20180423
  • 出版社:

    創意市集(城邦)
  • CIP:

  • 市場分類:

    西洋文學
  • 產品分類:

    書籍免稅
  • 聯合分類:

    文學類
  •  

    ※缺書中
商品簡介


《華爾街日報》、《歐普拉雜誌》、《泰晤士報》、《富比士》、《出版人週刊》、《柯克斯評論》、《週六評論》、哈佛大學統計學榮譽教授、美國國家公共廣播電台NPR、文學網站Literary Hub推薦好書


經典是怎麼誕生的?
海明威、史蒂芬金是否有特別鍾愛的字?
隨著時間的推移,暢銷書「變笨」了嗎?
寫作方式會因性別及年代而異嗎?
暢銷書榜單隱藏了什麼祕密?
海明威提出的寫作建議值得遵守嗎? 
英國作家與美國作家下筆時,有何差異?
我們如何用書封來評斷一本書? 
名作家在文章的開頭與結尾,常用什麼手法吊讀者胃口?
你所閱讀的書,又說明了關於你這個人的什麼?
透過數據,我們發現了隱藏於文字中驚人的秘密……

為了找出答案,統計學家&記者布萊特設計一個超過1500本書、容納數百萬字的資料庫,並以文本分析的方式,仔細檢視大數據下的文字,探索經典與暢銷作品中鮮為人知的趣味。在此書中,作者證明了一件事:向名作家學寫作除了仔細詳讀文本外,也可以用統計分析法,找出暢銷、經典不敗的模式!

布萊特以易懂、詼諧的語言,搭配有力的圖像呈現其研究發現──他將透過九個文學實驗,採集數據間的風格指紋、分析文學結構、找出作家的愛用字,引領讀者一同以全新的方式理解文學,並以不同的角度欣賞鍾愛的作家。

數據能透漏的訊息比我們想像的還多,透過數據分析,我們能從喜愛的書籍、崇敬的作家身上知道很多事。那些看似不明顯的資訊,其實早就在那裡,明明白白地藏在眼前,就看我們怎麼解讀了。


【國際好評】
「既富啟發性又具娛樂效果……用數字寫成的文學批評。」──《柯克斯評論》

「太有趣了!班•布萊特這本書用數據知識來解析文學風格,讓人對懸念式結局、副詞,以及美國人下筆是否比英國人『吵』等等問題,有一番新領會。(小心有雷:本書真的很開腦洞!)」──艾倫伯格(Jordan Ellenberg),《數學教你不犯錯》作者。

「班•布萊特剖析文學經典,帶來出人意料的發現與洞見。他的調查結果是一則文學偵探故事:情節緊湊、發人省思、引人入勝。」──布萊恩•克里斯汀(Brian Christian),《決斷的演算》(Algorithms to Live By)共同作者

「這本書讀來趣味十足,讓我們能用原創的大數據觀點來審視傑出作家的作品。本書的幽默感、洞見與統計呈現不僅令人著迷,也能幫助我們培養個人的文筆。」──卡爾•莫里斯(Carl N. Morris),哈佛大學統計學榮譽教授


【作者誠摯推薦】
「如果你是一個生在一九○○年、有抱負的畫家,應該會想了解莫內正在採用哪些特定的顏料與技巧。如果你在一九六○年代組了一個樂團,應該會想知道披頭四錄製歌曲的方法。不論是什麼,在創作出個人的傑作之前,你應該都會想在細節與技術層面對那門技藝有所了解。想知道小說是如何寫成的,閱讀是最簡單的方式。檢視數千本書的寫作模式能回答的與閱讀不一樣,但要了解書究竟是如何寫成的,這也是可行之道。 

成功的作家在一生中會寫數十萬字,而對文學以外的任何領域來說,從數十萬筆資料中,顯然可以挖出能拿來檢視人類行為與心理的資訊。我相信,檢視文字也同樣可行。文字與數字的世界不該涇渭分明。我們可以兩者都愛。透過文學與數學的結合,我們可以從喜愛的書、崇敬的作家中知道好多事。檢視其中的模式,也讓我們在這些模式被打破時,得以欣賞到妙思新生的美麗瞬間。」

內文試閱
寫作金律第一條:「不用副詞」?
通往地獄的道路,是由副詞鋪成的。—史蒂芬.金

藝文界有個傳說,史上最好的故事之一,僅用六個〔英文〕字寫成:「售:嬰兒鞋。從未穿過。」(For sale: baby shoes, never worn.)。這就是少即是多的極端案例。你也會發現,很多人認為此句出自海明威。

那篇小說是否真的出自海明威,我們並不清楚—直到一九九一年,才有人開始提及它的起源—不過,作家與讀者想將它歸功於這位諾貝爾獎得主也很正常。海明威以用字精簡聞名。那則極短篇中的極短篇,至少很有他的風格。

海明威下筆簡單扼要,是刻意而為的。他曾在給編輯的信裡寫道:「《蓋茲堡演說》如此言簡意賅,並非偶然。寫作定律就如同飛行、數學、物理定律一般,無動搖的餘地。」他認為,寫作就該刪修到只剩文眼要義,多餘字詞只會壞了最終成果。

與海明威有志一同者,所在多有。不論是在中學課堂上或五花八門的寫作指南中,都有人提到這個主張。此外,曾經在英文課遭逢嚴師的人也都知道,眾多詞類中最惹人嫌的,就是副詞了。

聽多了專家與書迷的說法後,很容易讓人以為海明威就是簡練楷模了。然而,他真的比旁人更善於化繁為簡,抑或只是虛名?就拿人人避之唯恐不及的副詞來說吧,與同行相較,海明威不用副詞的功夫有多高?

我想知道海明威是否名符其實。若事實不然,是誰用了最少的副詞?哪位作者又用得最多?進一步宏觀來看,我們是否能證明,優秀的文學作品確實都堅守了收效宏大的「寫作定律」?最好的書,用的副詞就比較少嗎?

放眼四顧,我發現從未有人去找出這些問題背後的數據。所以,我想一探究竟—我從海明威出版的十部小說,總計近一百萬字開始著手。要是海明威認為,「寫作定律就如同飛行、數學、物理定律一般,無動搖的餘地」,那麼,我相信他應該會覺得我的數學分析既有啟發性又詭異吧。

這種分析手法乍看詭異,是因為我們通常不這麼研究寫作。許多人都曾在國高中與大學英文課堂上花費大把時間,分析海明威小說中某一特別出色的段落。想要研究名家作品,他們最深植人心的片段通常是最好的起點。反之,考察副詞頻率列表恐怕不會讓你對海明威之輩的寫作手法有多少了解。

然而,在統計學家眼中,研究時若只把焦點放在一小撮樣本之上,卻從不檢視作品的整體也很奇怪。你在研究美國人口組成的時候,不會為了瞭解全國狀況,卻只研究新罕布夏州某小鎮的居民吧?不論該鎮看起來多代表了美國精神。想了解海明威如何寫作,你也需要認識他選用的字句裡那些尚未被細究的部分。藉由探討他整體作品的副詞使用率,我們可以對他的用字遣詞更了然於心。

我沒有去深究海明威的隻字片語,也沒有拿他用或不用副詞的特定段落來推敲,而是用了「自然語言工具組」(Natural Language Toolkit)的一套函式,來計算海明威在所有小說裡用的副詞數量。這套統計工具會根據特定字詞及字與字之間的關係,來標記這些字的詞性。

自然語言工具組並非百分百完美—我們在看以下所有數據時,都該把這點放在心上—不過,我們已經拿前人預先分析過的數百萬個文本來訓練它,它的表現也和任何人能達到的程度一樣好。想要查出一個字是形容詞、副詞、人稱代詞或其他任何詞類,「自然語言工具組」是極佳的判斷標準。

所以,拿這套工具來分析海明威全部作品,會有什麼發現呢?海明威多常用副詞?海明威的所有小說,總計字數略高於865,000 字,其中有50,200 個副詞,使用率約達5.8%。平均來說,海明威每寫十七個字,其中就有一個是副詞。

光看數字不比較背景,沒有意義。

5.8% 算多還是少?史蒂芬金對副詞直批不諱,他的副詞使用率是5.5%。用副詞使用率當衡量標準,我們會發現史蒂芬金與海明威並未遠勝同行。要是拿大家覺得(純粹根據刻板印象)會用很多副詞的一大票當代作家來比較,史蒂芬金與海明威也沒有鶴立雞群。EL.詹姆絲,情色小說《格雷的五十道陰影》(Fifty Shades of Grey)的作者,副詞使用率為4.8%。史蒂芬妮.梅爾(Stephenie Meyer)曾被史蒂芬金評為「不怎麼樣」,她在《暮光之城》(Twilight)系列裡的副詞使用率是5.7%,恰好使她躋身於驚悚大師與傳奇海明威之間。

再擴大調查範圍, 海明威用的副詞比約翰. 史坦貝克(John Steinbeck)與馮內果(Kurt Vonnegut)多;他也比童書作家羅德.達爾(Roald Dahl)與RL.史坦恩(R. L. Stine)多。而且,你沒看錯,這位一代簡練宗師的副詞使用率高於梅爾與詹姆絲。

以上說的都是真的—只不過,旁邊要加上一個很大的星號與完整的解釋,因為答案不如數據乍看下那麼簡單。這些數據是所有副詞的總計。任何用來修飾動詞、形容詞或另一個副詞的都是副詞—統計時無一被排除,也沒有例外。不過,當史蒂芬金說「副詞不是你的朋友」(The adverb is not your friend),他指的不是那種隨便用來修飾動詞、形容詞或另一個副詞的副詞。在「副詞不是你的朋友」這句話裡,「不」(not)就是副詞,但這不是史蒂芬金的意思。沒有人在讀「售:嬰兒鞋。從未穿過」時,會覺得「從未」(never)是個副詞、應該刪掉。當史蒂芬金在《史蒂芬金談寫作》(On Writing)裡對副詞滿腔怨言時,他說的是那些「通常是ly 後綴」的副詞。就統計觀點而言,他說「通常」其實不太對(每個作家不同,但他們用的副詞只有約10% ∼ 30% 以ly 後綴),不過,ly 後綴副詞確實較為顯眼。

恰克.帕拉尼克(Chuck Palahniuk)最為人知的作品是《鬥陣俱樂部》(Fight Club),他也曾撰文批評過ly 後綴副詞。當他在探討極簡風格對他的作品《口白人生》(Stranger than Fiction)來說有多重要時,這麼寫道:「拜託,不要用『想睡地』(sleepily)、『易怒地』(irritably)、『難過地』(sadly)這些蠢副詞。」他的基本看法是,作者應該提供更多線索讓讀者意會到某個角色想睡、易怒或悲傷,而不是光用一個字搞定而已。使用ly 後綴副詞會過度干擾,因為這等於在告訴讀者該怎麼想,而不是在描述背景的同時讓意義藉由敘事脈絡浮現。

把我們的研究範圍縮小到只有ly 後綴的副詞上,就能直指問題核心,情況也會大為改觀。平均每寫10,000 字,詹姆絲會用155 個ly 後綴副詞;梅爾134 個;史蒂芬金則是105 個。至於海明威呢?他不負美名,僅有80 個。


以這嚴格的「壞副詞」標準來衡量,海明威確實領先群倫。在本章
繼續深入探討的同時,我在之後所謂的副詞指的都是這種「壞副詞」,
即ly 後綴副詞。

海明威是否言之有理?
上一個名單涵蓋了各類型作家,從諾貝爾獎得主到超級暢銷書作者都有。海明威在下筆樸素不矯飾這方面十分突出,也很符合一般人對他的印象。只不過,範圍放大來看就沒這麼明顯了。詹姆絲的ly 後綴副詞使用率在上表中高居第一,但諸如梅爾維爾與奧斯汀等名家所用的ly後綴副詞也偏多。如果加入更多資料,我們是否更能抓準作家使用副詞的模式?

我想知道,作家使用副詞的方式除了能用來衡量個人風格與偏好,是否還有更多意義?我好奇的是:海明威所謂的「寫作定律」真有道理嗎?一本書的好壞與其副詞的使用頻率,其間的關聯是否真有意義?

想著手回答這些問題,要注意一個重點:不同作者使用副詞的方式不同,而在同一位作者的不同作品中,副詞的使用方式也不同。ly 後綴副詞的使用比例其實很低—低於2%—就算是那些副詞用得比同行多的作家也一樣。一位作家在生涯不同時期所寫的書,也常有很大的差別。

比方說,海明威自己的小說就有很大不同。他有好幾本小說的副詞使用率比那些在伯仲之間的大部分作家都低得多,但他其他小說的副詞使用率就和別人的平均值差不多光憑副詞使用率來判斷一本書的好壞,當然是很差勁的標準,但若我們綜觀海明威全部作品,可以發現他大部分的經典作品中,副詞用得也最少。《太陽依舊升起》、《戰地春夢》、《戰地鐘聲》的副詞率之低名列前茅,也被公認是他最出色的幾部作品。《老人與海》為海明威贏得普立茲獎,也常獲評為他的巔峰之作,但此書在副詞量方面卻是例外。

海明威贏得諾貝爾獎其後十年間,另有威廉.福克納(William Faulkner)、史坦貝克兩位美國作家獲此殊榮。我們也把這兩人的數據挑出來看看。就史坦貝克而言,其副詞使用率也實至名歸。《憤怒的葡萄》(The Grapes of Wrath)或可說是他最出名的作品,副詞使用率排名第三低。《人鼠之間》(Of Mice and Men)與《伊甸園東》(East of Eden)的副詞也很少。

福克納的作品也看得出這種模式。他最著名的《聲音與憤怒》,每 10,000 字只有42 個副詞,名列第二低。《出殯現形記》與《八月之光》的副詞之少也名列前茅,《Absalom, Absalom!》僅稍高於平均。

不過,我們只討論了三位作家。這個用字模式究竟有多普遍?要是擴大範圍來看,各個作家最出色的作品,平均副詞量都比較少嗎?


作者簡介


姓名:班•布萊特(Ben Blatt)
曾任自由派《Slate雜誌》與《哈佛諷刺雜誌》(Harvard Lampoon)作家,也曾經運用資料新聞學的方法,針對披頭四樂團、地圖繪製、智力競賽節目《危險邊緣》(Jeopardy !)、喜劇片《歡樂單身派對》(Seinfeld)等各種主題做出有趣的分析。另與艾力克•布魯斯特(Eric Brewster)合著《回不去也無所謂》(I Don’t Care If We Never Get Back)──這對搭檔走了一趟用數學公式算出的「最快捷棒球公路之旅」,在不搭飛機的前提下,花三十天拜訪三十座大型棒球場,並且在每個球場觀看一場賽事,總里程達兩萬哩。布萊特的文章散見於《華爾街日報》、《波士頓環球報》及線上運動雜誌《Deadspin》。

譯者
姓名:林凱雄

三腳渡人。英文、法文翻譯,自由撰稿人。譯有......歡迎讀者使用本書作者提到的統計法把我其他的譯作揪出來。
各方賜教、工作聯絡信箱:linsulaire.ft@gmail.com。