一种统计分类方法的学习

2017-06-12 01:05辛夷
高中生学习·高三版 2017年6期
关键词:分类器权重样本

辛夷

1. 基于统计学习理论的机器学习方法

数据序列是一组按照某种顺序排列的随机数据,采用统计的方法可以有效分析数据的统计特征。机器学习方法的重要理论基础是统计学,现代人工智能是基于大量数据的机器学习理论,机器学习的主要目的是对新的样本尽可能给出精确的估计。

2.提升方法

随机猜测一个是或否的问题,将会有50%的正确率。如果一个假设能够稍微地提高猜测正确的概率,那么这个假设就是弱学习算法,如果一个假设能够显著地提高猜测正确的概率,那么这个假设就称为强学习算法。提升方法是统计学习方法中常用的一种。提升方法就是从弱学习算法出发,改变训练数据的权值分布,反复学习,得到一系列弱分类器,然后组合这些分类器,构成一个强分类器。

提升方法的基本思路:

(1)刚开始训练数据中的每个样本被赋予一个相等的权重,这些权重构成分类样本[D];

(2)在训练集上训练出一个弱分类器并计算该分类器的错误率[ε],根据分类器的错误率可以计算出该分类器的权重[α=1/2ln(1-εε)];

(3)根據上一次分类器的权重调整每个训练样本的权重,分对的样本权重降低,分错的样本权重升高,然后在同一训练集上再次训练弱分类器;反复训练,直到错误率达到要求为止。

3.实例解析

假设现有“+”与“-”两种类别的数据,共10个数据点构成的数据集,我们用水平或垂直线作为分类器进行分类。初始情况下,每个样本的权重[D1](如图1)是相等的,为0.1。

<img src="http://img1.qikan.com.cn/qkimages/gzss/gzss201706/gzss20170633-1-l.jpg" alt="" />

猜你喜欢
分类器权重样本
学贯中西(6):阐述ML分类器的工作流程
权重涨个股跌 持有白马蓝筹
基于AdaBoost算法的在线连续极限学习机集成算法
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
企业财务危机预警集成预测模型比较分析研究
各省舆情热度榜
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
基于支持向量机的蛋白质交互界面热点的预测的研究与改进
七年级数学下册期末检测题(B)