複製鏈接
請複製以下鏈接發送給好友

統計語言學

鎖定
《統計語言學》是清華大學出版社2014年出版的,作者是劉穎
中文名
統計語言學
別    名
statistical linguistics
作    者
劉穎
出版社
清華大學出版社
出版時間
2014年09月01日
定    價
56 元
裝    幀
平裝
ISBN
9787302378150
定    義
數理語言學的一個分支
研究領域
統計語言單位的出現頻率

統計語言學編輯推薦

統計語言學研究領域

統計語言學的研究領域目前主要包括以下幾個方面:
①統計語言單位的出現頻率,如對詞彙和音位語素出現的頻率進行統計研究。
②統計作家的用詞頻率、詞長分佈和句長分佈,以瞭解作家運用語言的風格;用這種方法還可判定匿名文章的作者。
③計算語言存在的絕對年代以及親屬語言從共同原始語分化出來的年代,這方面的研究叫做語言年代學,又稱為詞源統計分析法。此外,還可對親屬語言的語法、語音體系進行統計、比較。
④採用信息論方法研究語言的熵和羨餘度。語言的熵就是在交際過程中語言符號出現的不定度。不定度的大小與語言的熵的高低一致。當語言的接收者接收到語言符號之後,不定度被消除,熵等於零,因而在交際過程中,語言接收者所得到的信息量恰恰等於被消除的熵。語言的羨餘度是指語言中超過傳遞最少需要量的信息量的比例,在一般情況下,人們為了保證對方能夠理解,總是提供比實際需要多得多的信息量,因此,不論在書面語還是口語中,語言都有羨餘度。
⑤探討語言的一般統計規律。例如,在按頻率遞減順序排列的頻率詞典中,詞的序號越大,詞的頻率越小,序號與頻率之間的關係可以用數學公式描述為一定的統計規律,這個統計規律叫做齊夫定律,因其研究者之一、美國語文學家G.K.齊夫而得名。  ⑥運用隨機過程論來研究語言,把語言看成彼此聯繫的字母序列,前一個字母決定後一個字母的出現,於是形成一條字母鏈,叫做馬爾科夫鏈,因其最早的研究者俄國數學家A.A.馬爾科夫而得名。
⑦研究文章中兩個詞之間、兩個語法範疇之間、兩個語義類之間或兩個句法類型之間的間距,以揭示文章在句法或語義上的特徵。
⑧研究語言的詞彙與文章長度的關係,以揭示文章中詞彙的豐富程度和差異程度。

統計語言學發展歷史

統計語言學在數理語言學中有比較悠久的歷史。古印度語法學家在研究《吠陀》時,就進行過單詞和音節數目的統計。1851年,英國數學家A.德·摩爾根 (1806~1871) 曾把詞長作為文章風格的一個特徵加以統計研究。蘇格蘭學者L.坎貝爾於1867年、德國學者W.迪丁貝爾格於1881年都曾採用統計方法確定柏拉圖著作的寫作時期。1887年,美國學者T.C.門登霍爾對英國文學作品、特別是莎士比亞的作品進行過統計分析。1913年,馬爾科夫研究了俄語中字母序列的生成問題,提出了馬爾科夫隨機過程論。1935年,齊夫發表了齊夫定律。1944年,英國數學家G.U.尤勒在《文學詞語的統計分析》一書中廣泛使用概率和統計方法來研究語言。1950年,美國學者M.斯瓦德士進行了語言年代學的研究。1951年,美國數學家C.申農採用信息論的方法研究書面英語中的熵和羨餘度; 美國學者 V.英格韋對句法現象進行了間距分析。1954年,法國學者P.基羅根據文章中詞的頻率分佈提出了詞彙豐富度的概念。1956年,英國學者G.赫爾丹出版了《語言是選擇和機遇》一書,系統總結了統計語言學的研究成果。近30年來,在語言統計中日益廣泛地使用計算機,逐漸改變了傳統的手工查頻、統計的辦法,提高了統計的效率和精度。

統計語言學主要研究價值

統計語言學主要研究
語言單位的出現頻率
作家的用詞頻率、詞長分佈和句長分佈,以確定作家的寫作風格
計算語言存在的絕對年代以及親屬語言從共同原始語分化出來的年代

統計語言學圖書簡介

統計語言學是一門涉及語言學、計算機科學和數學等多門學科的交叉學科,覆蓋面廣。本書詳細闡述語言統計知識、語言統計的R語言實現、統計結果的直觀展示和統計結果的語言分析。主要介紹語言學的基本統計、參數假設檢驗、非參數假設檢驗方差分析文本聚類文本分類和綜合運用這些統計知識的計量風格學研究。
本書結構完整,層次分明,條理清楚。既便於教學,又便於自學。可作為中文、外語、計算機等專業高年級本科生和研究生教材,也可供從事語言統計和計量分析的研究者參考。
前言
統計語言學,研究如何利用概率論、數理統計、信息論等統計的、非離散數學的方法和計算機來對自然語言進行統計和分析。自然語言是其統計和分析的對象,概率論和數理統計等統計知識是其統計的理論基礎,計算機是其可以實現統計的工具。因此,對語言進行統計不僅要有語言學方面的知識,而且還要有數學和計算機科學方面的知識。
本書分9章,詳細闡述如何把語言學知識、數學知識和計算機知識結合起來對語言進行統計和分析。
第1章主要介紹統計語言學的基本概念,釐清了統計語言學、語料庫語言學、計量語言學和計算語言學的區別、研究內容和應用領域,給出了統計語言學的研究步驟以及本書較為詳細的研究內容。這是後面章節內容的總括。
第2章主要介紹了語料庫的相關內容。闡述了語料庫的定義、特點,根據不同標準的分類,並對國內外具有重要意義的語料庫、其加工標註和應用進行了詳細介紹。
第3章主要介紹了語言研究中的基本統計量:包括概率論和統計學的一些基本知識,方差、標準差、平均數、頻率、概率,以及互信息Dice係數對數似然比、N元模型、漢字熵、Zipf法則、Z評分、Yule圖、Fuchs公式以及詞語的使用度和通用度等等。
第4章主要介紹了在語言研究中廣泛使用的假設檢驗,根據語言研究中的總體是否為正態分佈,分為參數假設檢驗與非參數假設檢驗。討論了參數假設檢驗中的U檢驗t檢驗F檢驗以及χ2檢驗;非參數假設檢驗中的χ2檢驗以及秩和檢驗。詳細地比較了不同檢驗使用的條件、公式和應用領域。
第5章主要介紹了方差分析,其主要應用於三個或三個總體以上的差異比較。討論了單因素方差分析、無重複雙因素方差分析、可重複雙因素方差分析以及單因素的多重比較。
第6章主要介紹在語言研究中常用的一種機器學習方法——文本聚類。詳細介紹了文本聚類的流程和主要算法,重點介紹了層次聚類和kmeans聚類
第7章主要介紹了語言研究中常用的另一種機器學習方法——文本分類,並且詳細介紹了文本分類的過程和主要的分類模型,包括樸素貝葉斯模型、KNN以及支持向量機等。
第8章介紹了在語言研究中經常使用到的一種程序語言——R語言,其具有強大的統計分析功能和繪圖功能。重點介紹了R的基本操作、主要繪圖功能,以及本書中用於語言研究的統計方法的R語言實現。
第9章討論了計算風格學。從字符、詞彙、句子、詞類、短語和段落方面全面闡述計算風格學研究使用的語言特徵。以莫言和餘華各自六部小説為例,從字符、詞彙、句子、詞類、短語和段落方面,分別運用基本統計、假設檢驗、文本聚類文本分類等來對兩位作者的寫作風格進行系統地研究。這些特徵的統計主要利用R語言來實現。因此,可以説,第9章是把全書各章節內容結合的一個範例。
本書可作為中文、外語、計算機等專業高年級的本科教材,教授時間可為32~64學時。如果學生掌握了語言學知識和基本的統計理論,並能用R語言實現本書介紹的統計模型,則對學生掌握計算機統計自然語言和分析語言打下堅實基礎。
本書在寫作時儘量做到通俗易懂,所有的統計都利用真實的小説語料進行了示例和分析。本書的讀者如果具有一定的概率和統計知識和R語言編程,則能自如地利用本書的統計知識進行語言處理。若在此基礎上還掌握計算機編程知識(數據庫、Java編程或C語言編程),則可容易地擴展本書的現有內容並進行更廣泛的語言統計和分析。
本書的寫作參考了許多學者的論文和著作,本書能夠出版與他們所作的工作緊密相關,謹向他們表示衷心感謝。
由於本人水平和時間限制,本書難免存在疏漏和不足之處。歡迎各位讀者批評指正。 [1] 
劉穎
2014年7月15日

統計語言學圖書目錄

第1章概論
1.1統計語言學
1.2統計語言學與其他學科
1.2.1計量語言學
1.2.4與三個學科的聯繫與區別
1.3使用統計方法研究的語言特徵
1.4統計語言學基本研究方法
1.5統計語言學研究的步驟
1.6統計的語言學應用
第2章語料庫
2.1語料庫的定義
2.2語料庫的類型
2.2.1口語語料庫與書面語語料庫
2.2.2單語語料庫、雙語語料庫與多語語料庫
2.2.3通用語料庫與專用語料庫
2.2.4共時語料庫與歷時語料庫
2.2.5動態語料庫與靜態語料庫
2.2.6同質語料庫與異質語料庫
2.2.7生語料庫與標註語料庫
2.3國內外主要語料庫
2.3.1國外的語料庫
2.3.2國內的語料庫
2.4本章小結
第3章統計在語言研究中的基本應用
3.1統計學的基本概念
3.1.1總體、個體、樣本
3.1.2參數與統計量
3.1.3常量、變量
3.1.4實際值與觀測值
3.2平均數
3.2.1簡單算術平均數
3.2.2加權算術平均數
3.3方差與標準差
3.3.1未分組數據的方差與標準差
3.3.2分組數據的方差與標準差
3.4頻度、頻率、概率、條件概率貝葉斯定理
3.4.1概率論中的常用概念
3.4.2概率
3.4.3獨立性
3.4.4貝葉斯定理
3.4.5頻度與頻率
3.6 Z評分
3.7Dice係數
3.8Phi平方係數(Φ2)
3.10.1N元語法
3.10.2N元語法模型
3.11語言學三大統計規律
3.11.1Zipf法則
3.11.2MenzerathAltmann定律
3.11.3PiotrowskiAltmann定律
3.12熵
3.12.1靜態平均信息熵
3.12.2極限熵
3.13Yule 圖
3.14Fuchs公式
3.15使用度與通用度
3.15.1使用度
3.15.2通用度
3.16本章小結
第4章假設檢驗
4.1假設檢驗的相關概念
4.1.1假設檢驗的基本原理
4.1.2假設的分類
4.1.4雙尾檢驗與單尾檢驗
4.1.5假設檢驗的一般步驟
4.2參數假設檢驗
4.2.2U檢驗
4.2.3t檢驗
4.2.5F檢驗
4.2.6參數假設檢驗比較
4.3非參數假設檢驗
4.3.1χ2檢驗
4.3.3非參數假設檢驗比較
4.4本章小結
5.1方差分析的定義及基本思想
5.1.1方差分析的定義
5.1.2方差分析的基本思想
5.2方差分析的基本概念和使用條件
5.2.1方差分析中的基本概念
5.2.2使用方差分析的條件
5.3方差分析的類型和一般步驟
5.3.1方差分析的類型
5.3.2方差分析的一般步驟
5.4.1各個因素水平間的樣本容量相同
5.4.2各個因素水平間的樣本容量不完全相同
5.4.3方差分析中的多重比較
5.5.1無重複雙因素方差分析
5.5.2可重複雙因素方差分析
5.6本章小結
6.1文本聚類概述
6.1.1文本聚類定義
6.1.2文本聚類的流程
6.2文本聚類中的數據
6.2.1聚類分析中使用的數據結構
6.2.2數據歸一化處理
6.3相似度計算
6.3.1文本相似度的計算
6.3.2特徵相似度的計算
6.4聚類算法
6.4.2劃分聚類
6.4.3劃分聚類與層次聚類的聯繫和區別
6.5文本聚類性能評價
6.5.1純度
6.5.2歸一化互信息
6.5.4F值
6.6本章小結
7.1文本分類的定義
7.2分類方法
7.2.1基於知識工程的方法
7.2.2基於機器學習的方法
7.3分類步驟與流程
7.4文本表示與特徵選擇
7.4.1特徵項選擇
7.4.2詞袋模型
7.4.4特徵篩選與權重
7.5向量相似度測量
7.6分類模型
7.6.1樸素貝葉斯(Nave Bayes)
7.6.2k最近鄰(kNearest Neighbor)
7.6.3支持向量機(Support Vector Machines)
7.7文本分類的評價
7.7.1準確率、召回率
7.7.2正確率、錯誤率
7.7.3F值
7.7.4微平均和宏平均
7.8本章小結
第8章R語言簡介
8.1R語言的幫助文件
8.1.1R的基本知識在線幫助
8.1.2R程序中的關鍵字符及函數的在線幫助
8.2R程序包
8.2.1程序包的安裝
8.2.2程序包的載入
8.3R語言的數據結構及基本函數
8.3.1R語言的對象類型
8.3.2R語言的對象的建立
8.3.3數值型向量的常用統計函數
8.4數據的讀取和存儲
8.4.1數據的讀取
8.4.2數據的存儲
8.5R的基本繪圖
8.5.1餅圖(Pie Plot)
8.5.2條形圖(Barplot)
8.5.3直方圖(Hist)
8.5.4折線圖(Matplot)
8.5.5箱線圖(Boxplot)
8.5.6散點圖(Scatter Diagram)
8.5.7散點圖矩陣(Scatterplot Matrices)
8.6假設檢驗
8.6.1參數假設檢驗
8.6.2非參數假設檢驗
8.7.1方差齊性檢驗
8.8本章小結
第9章計算風格學研究
9.1計算風格學研究使用的語言特徵
9.1.1字符方面
9.1.2詞彙方面
9.1.3句子方面
9.1.4詞類方面
9.1.5短語和語法結構方面
9.1.6段落方面
9.2計算風格學研究中常使用的方法
9.3莫言與餘華小説計算風格學研究
9.3.1基於頻率的風格分析
9.3.2假設檢驗的文本風格分析
9.3.3基於文本聚類的風格分析
9.3.4基於文本分類的風格分析
9.3.5小結
9.4本章小結
附錄常用的統計數表
附表1標準正態分佈函數數值表
附表2正態性檢驗統計量W的係數ai(n)的值
附表3正態性檢驗統計量W的 α分位數Wα表
附表4正態性檢驗統計量Y的α 分位數Yα表
附表5t檢驗臨界值表
附表6χ2檢驗臨界值表
附表7F檢驗臨界值表
附表8Wilcoxon秩和檢驗臨界值
附表9統計量H的分位數H1-α(r,f)表
附表10多重比較q1-α(r,f)表
參考文獻
參考資料