OpenCV 2.4+ C++ SVM介绍

  • 时间:
  • 浏览:0

分类器

分类器是本身计算机程序运行运行。

他的设计目标是在通过学习后,可自动将数据分到已知类别。

平面线性分类器

一两个 简单的分类问題,如图有因此 圆圈和因此 正方形,如可找每根最优的直线将亲们 分开?

亲们 能能找到什么都有有种土办法画出这条直线,但如可的直线才是最优的呢?

距离样本太近的直线能能 最优的,是因为着另一两个 的直线对噪声敏感度高,泛化性较差。 因此 亲们 的目标是找到每根直线,离最近的点距离最远。

为什么会么会寻找距离最远的直线?枚举所有直线,因此 计算其样本最小距离?另一两个 显然能能 一两个 好土办法,这将产生血块的计算开销。

亲们 利用另本身土办法,对直线的正负偏移量1,另一两个 就产生了一两个 区域(下图的Maximum margin覆盖的区域),区域边界上的点到直线的距离是固定的,现在的问題是最近的点算不算刚好在边界上是因为着在边界外。

还记得点到线的公式么?

对于直线Ax+By+C=0,点(x0, y0)到直线的距离:

  distance = |Ax0+By0+C| / (A2 + B2)1/2

如此区域边缘到直线的距离:

  distance = (|Ax+By+C| + 1)/ (A2 + B2)1/2 = 1/ (A2 + B2)1/2

并能能满足对于所有样本类别y满足:yi (Ax+By+C) > = 1,也就说 所有样本能能 在该区域以内。

于是亲们 能能找到适当的A、B、C,从而得到:

  Maximum margin = 2/ (A2 + B2)1/2

超平面推广

同理,亲们 将本身定理推广到任意维度。其超平面表达式为:

    

一维是线、二维是面、三维是体……四维呢?五维呢?好吧统称超平面吧……

其中  叫做 权重向量 ,   叫做 偏置向量。

用本身表达式来表达线Ax+By+C = 0语录,能能如此表示:

    f(x) = (C, 0) + (A, B)T (x, y);

其中(C, 0) 是偏置向量 ,(A, B)是权重向量 

是因为着最优超平面能能有什么都有有种表达土办法,亲们 定义:

    ββTx = 0,

为最优超平面表达式。于是亲们 能能得到他的Maximum margin区域边界表达式应该为:

    

亲们 称在这边界上的点为:支持向量(Supper Vector)。

是因为着点到超平面距离公式为:

    

在边界上,即支持向量到超平面距离:

    

什么都有有Maximum margin为两倍距离,即:

    

M求倒数1/M 则可将求最大转加进求最小。于是有:

    

其中  表示样本的类别标记。

这是一两个 拉格朗日优化问題,能能通过拉格朗日乘数法得到最优超平面的权重向量  和偏置  。

什么是SVM

支持向量机 (SVM) 是一两个 类分类器,正式的定义是一两个 都都能能将不这类样本在样本空间分隔的超平面。 换句话说,给定因此 标记好的训练样本 (监督式学习),SVM算法输出一两个 最优化的分隔超平面。

1995年Cortes和Vapnik于首先提出SVM,它在外理小样本、非线性及高维模式识别中表现出因此 特有的优势,并都都能能推广应用到函数拟合等因此 机器学习问題中。

使用SVM

#include <opencv2/core/core.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <opencv2/ml/ml.hpp>

using namespace cv;

int main()
{
    // 用于保存可视化数据的矩阵
    int width = 512, height = 512;
    Mat image = Mat::zeros(height, width, CV_8UC3);

    // 创建因此

训练样本
    float labels[4] = {1.0, -1.0, -1.0, -1.0};
    Mat labelsMat(3, 1, CV_32FC1, labels);

    float trainingData[4][2] = { {4001, 10}, {255, 10}, {4001, 255}, {10, 4001} };
    Mat trainingDataMat(3, 2, CV_32FC1, trainingData);

    // 设置SVM参数
    CvSVMParams params;
    params.svm_type    = CvSVM::C_SVC;
    params.kernel_type = CvSVM::LINEAR;
    params.term_crit   = cvTermCriteria(CV_TERMCRIT_ITER, 400, 1e-6);

    // 对SVM进行训练
    CvSVM SVM;
    SVM.train(trainingDataMat, labelsMat, Mat(), Mat(), params);
    
    Vec3b green(0,255,0), blue (255,0,0);
    // 将SVM断定的分划区域绘制出来
    for (int i = 0; i < image.rows; ++i)
        for (int j = 0; j < image.cols; ++j)
        {
            Mat sampleMat = (Mat_<float>(1,2) << i,j);
            float response = SVM.predict(sampleMat);

            if (response == 1)
                image.at<Vec3b>(j, i)  = green;
            else if (response == -1) 
                image.at<Vec3b>(j, i)  = blue;
        }

    // 绘制训练数据点
    int thickness = -1;
    int lineType = 8;
    circle( image, Point(4001,  10), 5, Scalar(  0,   0,   0), thickness, lineType);
    circle( image, Point(255,  10), 5, Scalar(255, 255, 255), thickness, lineType);
    circle( image, Point(4001, 255), 5, Scalar(255, 255, 255), thickness, lineType);
    circle( image, Point( 10, 4001), 5, Scalar(255, 255, 255), thickness, lineType);

    // 绘制支持向量
    thickness = 2;
    lineType  = 8;
    int c     = SVM.get_support_vector_count();

    for (int i = 0; i < c; ++i)
    {
        const float* v = SVM.get_support_vector(i);
        circle( image,  Point( (int) v[0], (int) v[1]),   6,  Scalar(128, 128, 128), thickness, lineType);
    }

    imwrite("result.png", image);       

    imshow("简单SVM分类", image); 
    waitKey(0);

}

建立训练样本

这里通过Mat构造函数,建立了一两个 简单的训练样本。

//建立一两个

标签矩阵
float labels[4] = {1.0, -1.0, -1.0, -1.0};
Mat labelsMat(3, 1, CV_32FC1, labels);

//建立一两个

训练样本矩阵
float trainingData[4][2] = { {4001, 10}, {255, 10}, {4001, 255}, {10, 4001} };
Mat trainingDataMat(3, 2, CV_32FC1, trainingData);

是因为着CvSVM::train 要求样本数据存储在float 类型的Mat中,什么都有有建立了float类型的Mat样本。

设置SVM参数

struct CvSVMParams

SVM 训练参数社会形态。

该社会形态能能被初始化后,传给CvSVM。

CvSVMParams::CvSVMParams

构造函数

C++: CvSVMParams::CvSVMParams()
C++: CvSVMParams::CvSVMParams(int svm_type, int kernel_type, double degree, double gamma, double coef0, double Cvalue, double nu, double p, CvMat* class_weights, CvTermCriteria term_crit)

默认的构造函数初始化有以下值:

CvSVMParams::CvSVMParams() :
    svm_type(CvSVM::C_SVC), kernel_type(CvSVM::RBF), degree(0),
    gamma(1), coef0(0), C(1), nu(0), p(0), class_weights(0)
{
    term_crit = cvTermCriteria( CV_TERMCRIT_ITER+CV_TERMCRIT_EPS, 4000, FLT_EPSILON );
}

OpenCV的SVM 

class CvSVM

向量支持机

CvSVM::CvSVM

训练构造函数。

C++: CvSVM::CvSVM()
C++: CvSVM::CvSVM(const Mat& trainData, const Mat& responses, const Mat& varIdx=Mat(), const Mat& sampleIdx=Mat(), CvSVMParamsparams=CvSVMParams() )
C++: CvSVM::CvSVM(const CvMat* trainData, const CvMat* responses, const CvMat* varIdx=0, const CvMat* sampleIdx=0, CvSVMParamsparams=CvSVMParams() )
参数
  • trainData — 训练数据,能能是CV_32FC1 (32位浮点类型,单通道)。数据能能是CV_ROW_SAMPLE的,即社会形态向量以行来存储。
  • responses — 响应数据,通常是1D向量存储在CV_32SC1 (仅仅用在分类问題上)是因为着CV_32FC1格式
  • varIdx — 指定感兴趣的社会形态。能能是整数(32sC1)向量,这类以0为现在开使的索引,是因为着8位(8uC1)的使用的社会形态是因为着样本的掩码。用户也能能传入NULL指针,用来表示训练中使用所有变量/样本。
  • sampleIdx — 指定感兴趣的样本。描述同上。
  • params — SVM参数。

CvSVM::train

训练一两个 SVM。

C++: bool CvSVM::train(const Mat& trainData, const Mat& responses, const Mat& varIdx=Mat(), const Mat& sampleIdx=Mat(), CvSVMParamsparams=CvSVMParams() )
C++: bool CvSVM::train(const CvMat* trainData, const CvMat* responses, const CvMat* varIdx=0, const CvMat* sampleIdx=0, CvSVMParamsparams=CvSVMParams() )

参数参考构造函数。

CvSVM::train_auto

根据可选参数训练一两个 SVM。

C++: bool CvSVM::train_auto(const Mat& trainData, const Mat& responses, const Mat& varIdx, const Mat& sampleIdx, CvSVMParamsparams, int k_fold=10, CvParamGrid Cgrid=CvSVM::get_default_grid(CvSVM::C), CvParamGridgammaGrid=CvSVM::get_default_grid(CvSVM::GAMMA), CvParamGrid pGrid=CvSVM::get_default_grid(CvSVM::P), CvParamGridnuGrid=CvSVM::get_default_grid(CvSVM::NU), CvParamGrid coeffGrid=CvSVM::get_default_grid(CvSVM::COEF), CvParamGriddegreeGrid=CvSVM::get_default_grid(CvSVM::DEGREE), bool balanced=false)
C++: bool CvSVM::train_auto(const CvMat* trainData, const CvMat* responses, const CvMat* varIdx, const CvMat* sampleIdx, CvSVMParams params, int kfold=10, CvParamGrid Cgrid=get_default_grid(CvSVM::C), CvParamGrid gammaGrid=get_default_grid(CvSVM::GAMMA), CvParamGrid pGrid=get_default_grid(CvSVM::P), CvParamGrid nuGrid=get_default_grid(CvSVM::NU), CvParamGridcoeffGrid=get_default_grid(CvSVM::COEF), CvParamGrid degreeGrid=get_default_grid(CvSVM::DEGREE), bool balanced=false )
参数
  • k_fold – 交叉验证参数。训练集被分成k_fold的自子集。其中一两个 子集是用来测试模型,因此 子集则成为训练集。什么都有有,SVM算法多样化度是执行k_fold的次数。
  • *Grid – 对应的SVM迭代网格参数。
  • balanced – 是因为着是true则这是一两个 2类分类问題。这是因为着创建更多的平衡交叉验证子集。

本身土办法根据CvSVMParams中的最佳参数Cgammapnucoef0degree自动训练SVM模型。参数被认为是最佳的交叉验证,其测试集预估错误最小。

是因为着如此能能优化的参数,相应的网格步骤应该被设置为小于或等于1的值。这类,为了外理gamma的优化,设置gamma_grid.step = 0,gamma_grid.min_val, gamma_grid.max_val 为任意数值。什么都有有params.gamma 由gamma得出

最后,是因为着参数优化是必需的,因此 相应的网格却不取舍,你是因为着能能调用函数CvSVM::get_default_grid(),创建一两个 网格。这类,对于gamma,调用CvSVM::get_default_grid(CvSVM::GAMMA)。

该函数为分类运行 (params.svm_type=CvSVM::C_SVC 是因为着 params.svm_type=CvSVM::NU_SVC) 和为回归运行 (params.svm_type=CvSVM::EPS_SVR 是因为着 params.svm_type=CvSVM::NU_SVR)效果一样好。是因为着params.svm_type=CvSVM::ONE_CLASS,如此优化,并指定执行一般的SVM。

CvSVM::predict

预测样本的相应数据。

C++: float CvSVM::predict(const Mat& sample, bool returnDFVal=false ) const

C++: float CvSVM::predict(const CvMat* sample, bool returnDFVal=false ) const
C++: float CvSVM::predict(const CvMat* samples, CvMat* results) const
参数
  • sample – 能能预测的输入样本。
  • samples – 能能预测的输入样本们。
  • returnDFVal – 指定返回值类型。是因为着值是true,则是一两个 2类分类问題,该土办法返回的决策函数值是边缘的符号距离。
  • results – 相应的样本输出预测的响应。

本身函数用来预测一两个 新样本的响应数据(response)。在分类问題中,本身函数返回类别编号;在回归问題中,返回函数值。输入的样本能能与传给trainData的训练样本同样大小。是因为着训练中使用了varIdx参数,一定记住在predict函数中使用跟训练社会形态一致的社会形态。

后缀const是说预测不用影响模型的组织组织结构具体情况,什么都有有本身函数能能很安全地不用同的程序运行运行调用。

CvSVM::get_default_grid

生成一两个 SVM网格参数。

C++: CvParamGrid CvSVM::get_default_grid(int param_id)
参数
  • param_id –

    SVM参数的IDs能能是下列中的一两个 :

    • CvSVM::C
    • CvSVM::GAMMA
    • CvSVM::P
    • CvSVM::NU
    • CvSVM::COEF
    • CvSVM::DEGREE

    网格参数将根据本身ID生成。

CvSVM::get_params

返回当前SVM的参数。

C++: CvSVMParams CvSVM::get_params() const

本身函数主就说 在使用CvSVM::train_auto()时去获得最佳参数。

CvSVM::get_support_vector

检索一定数量的支持向量和特定的向量。

C++: int CvSVM::get_support_vector_count() const
C++: const float* CvSVM::get_support_vector(int i) const

该土办法能能用于检索一组支持向量。

CvSVM::get_var_count

返回变量的个数。

C++: int CvSVM::get_var_count() const

分割结果

  • 程序运行运行创建了一张图像,在其中显示了训练样本,其中一两个 类显示为白色圆圈,另一两个 类显示为黑色圆圈。
  • 训练得到SVM,并将图像的每一两个 像素分类。 分类的结果将图像分为蓝绿两部分,上面线就说 最优分割超平面。
  • 最后支持向量通过灰色边框加重显示。

OpenCV的SVM是基于台湾大学林智仁开发的LIBSVM开发包的。是因为着你还不过瘾能能看看下面林智仁的演示程序运行运行(能能JAVA支持):

   http://www.csie.ntu.edu.tw/~cjlin/libsvm/

在本身实验中,亲们 成功让机器找到了区分样品的线性划分,并将其支持向量显示出来。

被山寨的原文

Introduction to Support Vector Machines . OpenCV.org

Support Vector Machines API . OpenCV.org