複製鏈接
請複製以下鏈接發送給好友

計算風格學

鎖定
計算機設計語體風格 是人們在語言表達活動中的個人言語特徵,是人格在語言活動中的某種體現。這種風格可在一定程度上通過數量特徵來刻畫。 能夠區別文學作品的特徵主要有 用詞、句式、修辭手法、中心意象、主題等等 能利用的特徵有 語音、字、詞、句子、段落等等語篇結構的信息。 計算風格學可被應用來解決“作者考證”這種問題。當然要十分謹慎。 如:捷澤等學者關於《靜靜的頓河》的作者考證。
中文名
計算風格學
外文名
[名]computational stylistics

計算風格學基本介紹

語體風格是人們在語言表達活動中的個人言語特徵,是人格在語言活動中的某種體現。這種風格可在一定程度上通過數量特徵來刻畫。計算風格學就是通過量化的方法反映語體或作家風格的研究。
能夠區別文學作品的特徵主要有 用詞、句式、修辭手法、中心意象、主題等等。但是能用於統計的特徵有語音、字、詞、句子、段落,語篇結構等等可以量化考察的信息。因此它反映的不是作者想表現的內容,而是作者行文中不經意間體現出的用詞造句習慣。
最常用的方法是字、詞頻率統計。
除了使用詞語頻率的方法以外,許多文本信息都可供使用。例如句長和詞長可以代表人們造詞句的風格。
句長是句子中的單詞數,詞長是詞中的音節數,反映作者風格的不是單個詞的詞長和單個句子的句長,而是以一定數量的語料為基礎的平均句長和平均詞長。
平均詞長M=語料中音節總數L/單詞總數N
平均句長=語料中音節總數L/句子總數N
此外還有作者在同義詞使用中的傾向性。是值得利用但較困難的。
計算風格學可用來解決“作者考證”的問題。當然,由於沒有嚴格的可行性,操作要十分謹慎。

計算風格學舉例説明

我們知道,學界的主流觀點是,《紅樓夢》後四十回並非出自原作者曹雪芹之手。下面讓我們通過一系列的研究來看計算風格學是如何考證《紅樓夢》作者的統一性的。
1970年,趙岡提出了使用“的”、“了”、“在”、“幾”、“着”5個字的出現頻率來研究《紅樓夢》的作者問題,得出了前80回和後40回出自不同人之手的結論。1980年,在威斯康辛大學舉辦的首屆國際《紅樓夢》研討會上 ,陳炳藻發表《從詞彙上的統計論〈紅樓夢〉的作者問題》一文。
陳炳藻教授的研究結果
1986年,陳炳藻教授公開發表了《電腦在文學上的應用:〈紅樓夢〉與〈兒女英雄傳〉兩書作者用詞的比較》一文;之後又出版了《電腦紅學:論〈紅樓夢〉作者》的專著。
陳炳藻將《紅樓夢》一百二十回本按順序編成三組,每組四十回。並將《兒女英雄傳》作為第四組進行比較研究。
從每組中任取八萬字,分別挑出名詞、動詞、形容詞、副詞、虛詞這五種詞,通過計算機程序對這些詞進行編排、統計、比較和處理,進而找出各組相關程度。
結果發現《紅樓夢》前八十回與後四十回所用的詞彙正相關程度達78.57%,而《紅樓夢》與《兒女英雄傳》所用詞的正相關程度是32.14%。由此推斷得出前八十回與後四十回的作者均為曹雪芹一人的結論。
張衞東劉麗川的觀點
深圳大學學報(人文社會科學版)1986年 01期 發表了《〈紅樓夢〉前八十回與後四十回語言風格差異初探》一文。利用某些用字、用詞及回尾處理等差異做了比較研究。
一、在錄入文本時使用了GB2312漢字編碼體系。在GB2312的6763個漢字以外,還有240個漢字,這其中只有10個字同時出現在前後兩部分。其中210字只出現在前80回,20字只出現在後40回。而重要的是,有些字並非只出現了一次。
1、有些髒字在前80回多次出現,且為日常罵人話,然而在後40回根本沒有出現。
2、㢑、嗐、搳
“㢑”通“嘻”,前80回混用,後四十回統一為“嘻”
“嗐”與“咳”,前80回混用,後40回只用“噯”
“搳”是“劃(拳)”的異體字,前80回用“劃”,後40回用“搳”
二、每一回結尾的格式
前八十回大致有五種
1.要知端的(端詳),(且聽)下回分解。
2.正是—— (或者後跟一聯韻文)
3.自然終止行文
4.不知……,((且聽)下回分解。)
(……),(且聽)下回分解。
5.後(下)回再(便)見
後四十回基本都是“未知(不知、要知、欲知)……(如何),(且聽)下回分解。”
因此前後兩部分並非一人所作。
李賢平的分析論點
1987李賢平發表了《〈紅樓夢〉成書新説》作者選擇了四十七個虛字的出現頻率,有時還用到句長分佈。
(1)十三個文言虛字:之、其、或、亦、方、於、即、皆、因、仍、故、尚、乃
(2)九個句尾虛字:呀、嗎、咧、罷咧、啊、罷、罷了、麼、呢。
(3)十三個常用的白話虛字:了、的、着、一、不、把、讓、向、往、是、在、別、好。 (4)十個表示轉折、程度、比較等意的虛字:可、便、就、但、越、再、更、比、很、偏。
(5)後綴於名詞的“兒”字和後綴於副詞、形容詞和動詞的“兒”字。
採用了各種統計分析方法(主要有主成份分析,典型相關分析,多維尺度法,廣義線性模型,類卡方距離與相關係數等等)
利用以上信息,作者推斷出結論:
紅樓夢》前八十回是曹雪芹據《石頭記》增刪而成,其中插入他早年著的《金瓶梅》式小説《風月寶鑑》,並增寫了具有深刻內涵的許多內容。
紅樓夢》後四十回是曹家親友在曹雪芹全書尚未完成就突然去世之後,蒐集整理原稿並加工補寫而成。程偉元將全稿以活字版印刷刊行。高鶚校勘異文補遺訂訛。
在上述的例子中,研究者的主要方法都是選取關鍵詞,通過統計關鍵詞的頻率,分析文本的特徵。我們看到,選取的關鍵詞不同,分析結果就可能有較大的差距。這反映了計算風格學缺乏堅實的理論基礎和方法論,因而這種分析方法必須謹慎使用。

計算風格學思考

謹慎對待計算風格學
張首映指出,單個作家的“語言風格”是不可求證的,(文學自由談,1988(4))
單個作家的“語言風格”,無論在時間之軸上,還是在空間之維中,都必定不可能產生。林語堂式的幽默,沈從文式的淡雅,都是不同的言語風格,而不是語言風格。因此計算起來可能很難。
這一論斷表明,我們不可能以量化的數值來表示絕對的作家風格。計算風格學的量化指標都只能作相對參考。
現有研究方法
研究中利用到的特徵主要分為以下幾類:
常用字——優點是能夠反映作者的寫作傾向,但是必須要考慮是否應去掉文中專有名詞,使結果不受單部作品的影響。
虛詞——能獨立於文本的內容。
罕用字——只有當頻次較高的時候才比較有説服力,否則只能看作偶然出現。
句型——優點是直接關係到作者與文體的風格;缺點是自動識別容易出錯,影響結論。