複製鏈接
請複製以下鏈接發送給好友

LIBSVM

鎖定
LIBSVM是台灣大學林智仁(Lin Chih-Jen)教授等開發設計的一個簡單、易於使用和快速有效的SVM模式識別與迴歸的軟件包,他不但提供了編譯好的可在Windows系列系統的執行文件,還提供了源代碼,方便改進、修改以及在其它操作系統上應用;該軟件對SVM所涉及的參數調節相對比較少,提供了很多的默認參數,利用這些默認參數可以解決很多問題;並提供了交互檢驗(Cross Validation)的功能。該軟件可以解決C-SVM、ν-SVM、ε-SVR和ν-SVR等問題,包括基於一對一算法的多類模式識別問題
中文名
LIBSVM
Options
可用的選項即表示的涵義如下
類    型
SVM設置類型(默認0)
多項式
(r*u'v+coef0)^degree

LIBSVM概述補充

SVM用於模式識別或迴歸時,SVM方法及其參數、核函數及其參數的選擇,也就是説最優SVM算法參數選擇還只能是憑藉經驗、實驗對比、大範圍的搜尋或者利用軟件包提供的交互檢驗功能進行尋優。
LIBSVM擁有C、Java、Matlab、C#、Ruby、Python、R、Perl、Common LISP、Labview、php等數十種語言版本。最常使用的是C、Matlab、Java和命令行(c語言編譯的工具)的版本。
以上各版本在林智仁(Lin Chih-Jen)主頁上均有鏈接。

LIBSVM使用手冊

LibSVM是以源代碼和可執行文件兩種方式給出的。如果是Windows系列操作系統,可以直接使用軟件包提供的程序,也可以進行修改編譯;如果是Unix類系統,必須自己編譯,軟件包中提供了編譯格式文件,我們在SGI工作站(操作系統IRⅨ6.5)上,使用免費編譯器GNU C++3.3編譯通過。
使用步驟
LIBSVM 使用的一般步驟是:
(1)按照LIBSVM軟件包所要求的格式準備數據集;
(2)對數據進行簡單的縮放操作;
(3)考慮選用RBF 核函數;
(4)採用交叉驗證選擇最佳參數C與g ;
(5)採用最佳參數C與g 對整個訓練集進行訓練獲取支持向量機模型;
(6)利用獲取的模型進行測試與預測。
數據格式
LIBSVM使用的數據格式
該軟件使用的訓練數據和檢驗數據文件格式如下:
<label> <index1>:<value1> <index2>:<value2> ...
其中<label> 是訓練數據集的目標值,對於分類,它是標識某類的整數(支持多個類);對於迴歸,是任意實數。<index> 是以1開始的整數,可以是不連續的;<value>;為實數,也就是我們常説的自變量。檢驗數據文件中的label只用於計算準確度或誤差,如果它是未知的,只需用一個數填寫這一欄,也可以空着不填。在程序包中,還包括有一個訓練數據實例:heart_scale,方便參考數據文件格式以及練習使用軟件。
可以編寫小程序,將自己常用的數據格式轉換成這種格式。其中formatdatalibsvm.xls文件可以方便的將excel數據轉化為符合LIBSVM要求的數據格式。
Svmtrain使用方法
Svmtrain(訓練建模)的用法:svmtrain [options] training_set_file [model_file]
Options:可用的選項即表示的涵義如下
-s svm類型:SVM設置類型(默認0)
0 -- C-SVC
1 --v-SVC
2 – 一類SVM
3 -- e -SVR
4 -- v-SVR
-t 核函數類型:核函數設置類型(默認2)
0 – 線性:u'v
1 – 多項式:(r*u'v + coef0)^degree
2 – RBF函數:exp(-r|u-v|^2)
3 –sigmoid:tanh(r*u'v + coef0)
-d degree:核函數中的degree設置(針對多項式核函數)(默認3)
-g r(gama):核函數中的gamma函數設置(針對多項式/rbf/sigmoid核函數)(默認1/ k)
-r coef0:核函數中的coef0設置(針對多項式/sigmoid核函數)(默認0)
-c cost:設置C-SVC,e -SVR和v-SVR的參數(損失函數)(默認1)
-n nu:設置v-SVC,一類SVM和v- SVR的參數(默認0.5)
-p p:設置e -SVR 中損失函數p的值(默認0.1)
-m cachesize:設置cache內存大小,以MB為單位(默認40)
-e eps:設置允許的終止判據(默認0.001)
-h shrinking:是否使用啓發式,0或1(默認1)
-wi weight:設置第幾類的參數C為weight*C (C-SVC中的C) (默認1)
-v n: n-fold交互檢驗模式,n為fold的個數,必須大於等於2
其中-g選項中的k是指輸入數據中的屬性數。option -v 隨機地將數據剖分為n部分並計算交互檢驗準確度和均方根誤差。以上這些參數設置可以按照SVM的類型和核函數所支持的參數進行任意組合,如果設置的參數在函數或SVM類型中沒有也不會產生影響,程序不會接受該參數;如果應有的參數設置不正確,參數將採用默認值。
training_set_file是要進行訓練的數據集;model_file是訓練結束後產生的模型文件,文件中包括支持向量樣本數、支持向量樣本以及lagrange係數等必須的參數;該參數如果不設置將採用默認的文件名,也可以設置成自己慣用的文件名。
Svmpredict使用方法
[predict_label, accuracy, decision_values/prob_estimates] = svmpredict(test_label, test_matrix, model, ['libsvm_options']);
-test_label:
測試標籤
-testmatrix:
測試數據
-model:
訓練的模型
用法如下:
modle=svmtrain(test_label,testmatrix,'libsvm_options');
[PredictLabel,accurac1] = svmpredict(test_label,testmatrix,model);
Svmpredict(使用已有的模型進行預測)的用法:svmpredict test_file model_file output_file
model_file是由svmtrain產生的模型文件;
test_file是要進行預測的數據文件;
Output_file是svmpredict的輸出文件。
svm-predict沒有其它的選項。
SVMSCALE 的用法
對數據集進行縮放的目的在於:1、避免一些特徵值範圍過大而另一些特徵值範圍過小;
2、避免在訓練時為了計算核函數而計算內積的時候引起數值計算的困難。因此,通常將數據縮放到[ -1,1]或者是[0,1]之間。
用法:svmscale [-l lower] [-u upper] [-y y_lower y_upper]
[-s save_filename] [-r restore_filename] filename
(缺省值:lower = -1,upper = 1,沒有對y進行縮放)
其中,
-l:數據下限標記;lower:縮放後數據下限;
-u:數據上限標記;upper:縮放後數據上限;
-y:是否對目標值同時進行縮放;y_lower為下限值,y_upper為上限值;
-s save_filename:表示將縮放的規則保存為文件save_filename;
-r restore_filename:表示將縮放規則文件restore_filename載入後按此縮放;
filename:待縮放的數據文件(要求滿足前面所述的格式)。
縮放規則文件可以用文本瀏覽器打開,看到其格式為:
lower upper
lval1 uval1
lval2 uval2
其中的lower 與upper 與使用時所設置的lower 與upper 含義相同;index 表
示特徵序號;lval 為該特徵對應轉換後下限lower 的特徵值;uval 為對應於轉換後上限upper 的特徵值。
數據集的縮放結果在此情況下通過DOS窗口輸出,當然也可以通過DOS的
文件重定向符號“>;”將結果另存為指定的文件。
使用實例:
1、 svmscale –s train3.rangetrain3>train3.scale
表示採用缺省值(即對屬性值縮放到[ -1,1]的範圍,對目標值不進行縮放)
對數據集train3 進行縮放操作,其結果縮放規則文件保存為train3.range,縮放集的縮放結果保存為train3.scale。
2、svmscale –r train3.rangetest3>test3.scale
表示載入縮放規則train3.range 後按照其上下限對應的特徵值和上下限值線
性的地對數據集test3 進行縮放,結果保存為test3.scale。
舉例説明
svmtrain -s 0 -c 1000 -t 1 -g 1 -r 1 -d 3 data_file
訓練一個由多項式核(u'v+1)^3和C=1000組成的分類器。
svmtrain -s 1 -n 0.1 -t 2 -g 0.5 -e 0.00001 data_file
在RBF核函數exp(-0.5|u-v|^2)和終止允許限0.00001的條件下,訓練一個?-SVM (?= 0.1)分類器。
svmtrain -s 3 -p 0.1 -t 0 -c 10 data_file
以線性核函數u'v和C=10及損失函數?= 0.1求解SVM迴歸。
輸出如下:
optimization finished,#iter
迭代次數
epsilon =
二次規劃的終止條件
obj =,
obj,就是那個二次規劃的最小值吧
rho =
判決函數的常數向
nSV =,
支持向量的個數

LIBSVM重要論文

本部分列出幾篇關於LIBSVM的重要論文。
libsvm:a library for Support Vector Machines
A practical guide to SVM classification
Training and Testing Low-degree Polynomial Data Mappings via Linear SVM
Working Set Selection Using Second Order Information for Training Support Vector Machines