常用机器学习算法的基本概念和特点-德赢Vwin官网网

没有哪一种算法能够适用所有情况，只有针对某一种问题更有用的算法。

机器学习算法不会要求一个问题被 100%求解，取而代之的是把问题转化为最优化的问题，用不同的算法优化问题，从而比较得到尽量好的结果。因此对于数据科学家来说，理解算法显得格外重要，理解不同算法的思想可以帮助数据科学家更从容地面对不同的应用场景。

本文列出了常用的机器学习算法的基本概念、主要特点和适用场景，希望可以在大家选择合适的机器学习算法解决实际问题时起到一点参考作用。

本文主要提及的机器学习算法包括：

K近邻（KNN）算法

朴素贝叶斯算法

决策树算法

SVM算法

adaboost算法

EM算法(期望最大化算法)

下面我们将具体展开介绍。

1.K近邻（KNN）算法

KNN算法的基本介绍:假若一个特征空间中大多数的样本属于某一个类别,则在这个特征空间中，k个最相似的样本也属于这个类别。

该算法由两个步骤组成:(1)对于一个给定的搜索训练集按一定距离度量,来找到一个的值。(2)在这个KNN当中,根据大多数分为一致的类来进行分类。

用以下这幅图可以很好的解释KNN算法：

不同形状的点，为不同标签的点。其中绿色点为未知标签的数据点。现在要对绿色点进行预测。由图不难得出：

如果k=3，那么离绿色点最近的有2个红色三角形和1个蓝色的正方形，这3个点投票，于是绿色的这个待分类点属于红色的三角形。

如果k=5，那么离绿色点最近的有2个红色三角形和3个蓝色的正方形，这5个点投票，于是绿色的这个待分类点属于蓝色的正方形。

K近邻（KNN）算法优点：

·算法原理简单，容易理解，也较容易实现。

·不需要进行训练，只需要保存训练样本和标签。

·不易受小错误概率的影响。经理论证明，最近邻的渐进错误率最坏时不超过两倍的贝叶斯错误率，最好时接近或达到贝叶斯错误率。

K近邻（KNN）算法缺点：

·K的选择不固定。

·预测结果容易受到噪声数据的影响。

·当样本不平衡时，新样本的类别偏向训练样本中数量占优的类别，容易导致预测错误。

·当数据量较大时，具有较高的计算复杂度和内存消耗，因为对每一个待分类的文本，都要计算它到全体已知样本的距离，才能求得它的K个最近邻。

适用场景及主要应用领域：

由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。在实际应用当中，KNN算法在人脸识别、文字识别、医学图像处理等领域可以取得良好的分类效果。

K近邻（KNN）算法需要注意的问题：

·数据特征之间量纲不统一时，需要对数据进行归一化处理，否则会出现大数吃小数的问题；

·数据之间的距离计算通常采用欧式距离；

·kNN算法中K值的选取会对结果产生较大的影响，一般k值要小于训练样本数据的平方根；

·通常采用交叉验证法来选择最优的K值。

2.朴素贝叶斯算法

朴素贝叶斯分类是一种十分简单的分类算法，即对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

以判定外国友人为例做一个形象的比喻。

若我们走在街上看到一个黑皮肤的外国友人，让你来猜这位外国友人来自哪里。十有八九你会猜是从非洲来的，因为黑皮肤人种中非洲人的占比最多，虽然黑皮肤的外国人也有可能是美洲人或者是亚洲人。但是在没有其它可用信息帮助我们判断的情况下，我们会选择可能出现的概率最高的类别，这就是朴素贝叶斯的基本思想。

下图为朴素贝叶斯算法的流程：

朴素贝叶斯算法注意点：

·当特征属性值的值类型不是离散值而是连续值的时候，需要通过高斯分布做概率的计算；

·为了避免统计概率中出现概率为0的情况，可以引入Laplace校准，它的思想非常简单，就是对没类别下所有划分的计数加1。

适用场景及主要应用领域：

1. 朴素贝叶斯算法对待预测样本进行预测，过程简单速度快；

2. 对于多分类问题也同样很有效，复杂度也不会有大程度上升；

3.在分布独立这个假设成立的情况下，贝叶斯分类器效果奇好，会略胜于逻辑回归，同时需要的样本量也更少一点。

4.对于类别类的输入特征变量，效果非常好。对于数值型变量特征，我们是默认它符合正态分布的。

主要应用领域

·文本分类/垃圾文本过滤/情感判别：多分类较为简单，同时在文本数据中，分布独立这个假设基本是成立的。垃圾文本过滤(比如垃圾邮件识别)和情感分析(微博上的褒贬情绪)用朴素贝叶斯也通常能取得很好的效果。

·多分类实时预测：对于文本相关的多分类实时预测，朴素贝叶斯算法被广泛应用，简单又高效。

·推荐系统：朴素贝叶斯和协同过滤(Collaborative Filtering)是一对好搭档，协同过滤是强相关性，但是泛化能力略弱，朴素贝叶斯和协同过滤一起，能增强推荐的覆盖度和效果。

3. 决策树算法

决策树是一个树结构（可以是二叉树或非二叉树），其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个输出类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

决策树学习通常包含这几个方面：特征选择、决策树生成、决策树剪枝、缺失值/异常值处理、决策树集成学习。

决策树算法注意点：

·决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。

·决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。

·寻找最优的决策树是一个NP难的问题，一般通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。

·有些比较复杂的关系，决策树很难学习，比如异或，一般这种关系可以换神经网络分类方法来解决。

·如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善（特别注意，在模型训练过程中，某些特征的权重排序很大，需要手动调节样本的权重来影响特征的权重，主要有样本的均衡，样本的过滤，样本权重的调节）。

适用场景及主要应用领域：

相比其他算法，决策树有一个非常明显的优势，就是可以很直观地进行可视化，分类规则好理解，让非专业的人也容易看明白，既可以解决分类问题（对应的目标值是类别型的数据），也能解决回归问题（输出结果也可以是连续的数值），目前广泛应用于语音识别、人脸识别、医疗诊断、模式识别等领域。

4. SVM算法

支持向量机，support vector machine，简称SVM，是经典机器学习的一个重要分类算法，用于完成数据分类。svm算法通过找出一个决策超平面（二维空间指直线，三维空间指平面，超过三维的就是超平面了），将已有训练数据集划分开，然后对于新数据，根据数据是位于超平面的哪一侧完成判断，得到新数据的分类。

因此基础的svm算法是一个二分类算法，至于多分类任务，多次使用svm即可解决。

下图是一组支持向量机实现分类的示例。

SVM算法注意点：

·SVM可以执行线性非线性的分类、回归、异常值检测。适用于中小型复杂数据集；

·SVM对特征缩放很敏感，可以在输入之前采用StandardScaler处理；

·如果SVM模型过拟合，可以通过降低C来进行正则化；

·LinearSVC灰度偏执正则化，需要减去平均值，StandardScaler会自动处理；

·处理非线性数据集的方法之一是添加更多的特征，比如多项式特征。

适用场景及主要应用领域：

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，但它具有以下缺点：

·无法应对大规模训练样本；

·难以解决多分类问题；

·对参数及核函数选择非常敏感。

支持向量机的常见适用范围如下：

·网络完全

传统的网络入侵检测方法大多采用密码签名的方法。在进行入侵检测方面，机器学习技术可以帮助我们进行网络流量的分析，在这里支持向量机具有检测速度快，分类精度高等特点，可以帮助安全人员识别不同类别的网络攻击，例如扫描和欺诈网络。

·人脸识别

SVM可以将图像部分分为人脸和非人脸。它包含nxn像素的训练数据，具有两类人脸（+1）和非人脸（-1），然后从每个像素中提取特征作为人脸和非人脸。根据像素亮度在人脸周围创建边界，并使用相同的过程对每个图像进行分类。

·文本和超文本分类

SVM可以实现对两种类型的模型进行文本和超文本分类，它主要通过使用训练数据将文档分类为不同的类别，如新闻文章、电子邮件和网页。

对于每个文档，计算一个分数并将其与预定义的阈值进行比较。当文档的分数超过阈值时，则将文档分类为确定的类别。如果它不超过阈值，则将其视为一般文档。

通过计算每个文档的分数并将其与学习的阈值进行比较来对新实例进行分类。

·蛋白质折叠和远程同源检测

蛋白质远程同源性检测是计算生物学中的一个关键问题。SVM算法是远程同源检测最有效的方法之一。这些方法的性能取决于蛋白质序列的建模方式。

5. adaboost算法

在了解adaboost算法之前，我们先来重温一下三个臭皮匠顶个诸葛亮的故事：诸葛亮带兵过江，江水湍急，而且里面多是突出水面的礁石。普通竹筏和船只很难过去,打头阵的船只都被水冲走触礁沉没，诸葛亮一筹莫展，也想不出好办法，入夜来了3个做牛皮活的皮匠献策。告诉诸葛亮买牛，然后把牛从肚皮下整张剥下来，封好切口后让士兵往里吹气，做成牛皮筏子，这样的筏子不怕撞，诸葛亮按此方法尝试并顺利过江。

Adaboost就是这样一种“三个臭皮匠顶个诸葛亮”的迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

adaboost算法注意点：

·AdaBoost迭代次数也就是弱分类器数目不太好设定，可以使用交叉验证来进行确定；

·数据不平衡导致分类精度下降；

·训练比较耗时，每次重新选择当前分类器最好切分点；

·对异常样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性。

适用场景及主要应用领域：

在机器学习的算法中，Adaboost 算法是一种比较重要且通用的用于特征分类的算法，在图像检索和人脸表情识别等问题中都有普遍应用。从现状看，人们对Adaboost 算法的研究及应用主要集中用于分类问题上，另外在某些回归问题上也有所涉及，比如两类问题、多类单标签问题、多类多标签问题和回归问题。

Adaboost 在机器学习领域中十分重要，它是一种提高任意给定学习算法准确度的方法。也就是说，Adaboost 算法为其他算法提供了一种框架结构，而其他算法只在其中作为子分类器，因此 Adaboost 算法可以运用在许多方面的实践上。

通过 Adaboost 算法

·可以实现手写体字符识别，运用到了许多输入设备上，如流行的触屏手机上的手写输入、笔记本电脑的手写输入、扫描仪扫面文字转化为电子文档。

·图像识别，如人脸识别、google 上的图片检索功能(很方便地找到想要的清晰度更高的图片)。我们实现了语音识别，现在的WIN7上都有了一个语音识别的功能，我们能够让计算机知道我们说了什么话,并通过机器自动学习提高语音识别的精度，声音输入和声控很可能在未来普及。

·Adaboost 算法还能做文本分类和医疗诊断等等。

6. EM算法(期望最大化算法)

最大期望算法（Expectation-maximization algorithm，又译为期望最大化算法），是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量。

以打猎为例做一个形象的比喻：

比如你一位同学和一位猎人一起外出打猎，一只野兔从前方窜过。只听一声枪响，野兔应声到下，如果要你推测，这一发命中的子弹是谁打的？你就会想，只发一枪便打中，由于猎人命中的概率一般大于你那位同学命中的概率，从而推断出这一枪应该是猎人射中的。

这个例子所作的推断就体现了最大似然法的基本思想。

多数情况下我们是根据已知条件来推算结果，而最大似然估计是已经知道了结果，然后寻求使该结果出现的可能性最大的条件，以此作为估计值。

EM算法注意点：

·对初始化数据敏感。

·EM算法计算复杂，收敛较慢，不适于大规模数据集和高维数据。

·当所要优化的函数不是凸函数时，EM算法容易给出局部最优解，而不是全局最优解。

适用场景及主要应用领域：

·K-Means聚类

K-Means是EM算法的一个特列。在K-Means聚类时，每个聚类簇的质心是隐含数据。我们会假设K个初始化质心，即EM算法的E步；然后计算得到每个样本最近的质心，并把样本聚类到最近的这个质心，即EM算法的M步。重复这个E步和M步，直到质心不再变化为止，这样就完成了K-Means聚类。

·高斯混合模型

高斯混合模型（Gaussian Misture Model）的参数估计是EM算法的一个重要应用。高斯混合模型应用广泛，在许多情况下， EM算法是学习高斯混合模型的有效方法。

·隐马尔科夫模型

EM算法的另一个重要应用是隐马尔科夫模型。

算法的选择取决于许多因素，比如问题陈述、预期的输出类型、数据的类型和大小、可用的计算时间、特征数量以及数据中的观测点等，以上内容仅供大家在选择算法时作为参考，实践和运行才是评估算法的最佳标准。

编辑：何安

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1787

文章
45804

浏览量
234046
机器学习

机器学习

+关注

关注
66

文章
8293

浏览量
131649

原文标题：一文读懂机器学习常用算法的基本概念和适用场景

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

【阿里云大学免费精品课】机器学习入门：概念原理及常用算法

摘要：阿里云大学联合蚂蚁金服高级算法专家推出了免费的机器学习入门课程：机器学习入门：概念原理

发表于06-23 13:51

智能天线的基本概念

1智能天线的 基本概念智能天线综合了自适应天线和阵列天线的优点,以自适应信号处理算法为基础,并引入了人工智能的处理方法。智能天线不再是一个简单的单元,它已成为一个具有智能的系统。其具体定义为:智能

发表于08-05 08:30

人工智能基本概念机器学习算法

目录人工智能 基本概念 机器学习算法1. 决策树2. KNN3. KMEANS4. SVM5. 线性回归深度学习

发表于09-06 08:21

振动的基本概念

一、振动的 基本概念1、振动的定义振动是有由于外力作用而引起的往返（周期）运动。振动特性：周期，频率，幅值和振动波形，可用来描述振动信号的基本特征。物理参数：位移，速度和加速度是用来描述机器振动的三个

发表于09-16 06:16

嵌入式系统的基本概念及特点

嵌入式系统概述 基本概念由来发展历史分类及特点 基本概念由来发展历史分类及特点

发表于11-08 09:13

什么是机器学习_十张图带你解析机器学习的基本概念

在解释机器学习的 基本概念的时候，我发现自己总是回到有限的几幅图中。以下是我认为最有启发性的条目列表。

发表于06-30 05:26 • 3585次阅读

什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>_十张图带你解析<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的<b class='flag-5'>基本概念</b>

机器学习算法基本概念及选用指南

本文对机器学习的一些 基本概念给出了简要的介绍，并对不同任务中使用不同类型的机器学习算法给出一点建

发表于01-15 15:55 • 2554次阅读

<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>算法</b><b class='flag-5'>基本概念</b>及选用指南

机器学习算法常用指标汇总

机器学习性能评价标准是模型优化的前提，在设计机器学习算法过程中，不同的问题需要用到不同的评价标准，本文对

发表于02-13 15:09 • 4076次阅读

10大常用机器学习算法汇总

本文介绍了10大常用机器学习算法，包括线性回归、Logistic回归、线性判别分析、朴素贝叶斯、KNN、随机森林等。

发表于11-20 11:10 • 2608次阅读

决策树的基本概念/学习步骤/算法/优缺点

本文将介绍决策树的 基本概念、决策树学习的3个步骤、3种典型的决策树算法、决策树的10个优缺点。

发表于01-27 10:03 • 2414次阅读

Python列表的基本概念、常用操作及实际应用

于各种编程场景，从简单的数据处理到复杂的数据结构和算法。本文将介绍Python列表的 基本概念、常用操作以及一些实际应用。

发表于04-16 10:42 • 1421次阅读

深度学习基本概念

深度学习 基本概念深度学习是人工智能（AI）领域的一个重要分支，它模仿人类神经系统的工作方式，使用大量数据训练神经网络，从而实现自动化的模式识别和决策。在科技发展的今天，深度学习已经

发表于08-17 16:02 • 1564次阅读

机器学习算法汇总机器学习算法分类机器学习算法模型

是解决具体问题的一系列步骤，机器学习的算法被设计用于从大量的数据中自动学习并不断改进自身的性能。本文将为大家介绍机器

发表于08-17 16:11 • 912次阅读

机器学习算法入门机器学习算法介绍机器学习算法对比

机器学习算法入门机器学习算法介绍机器

发表于08-17 16:27 • 794次阅读

卷积神经网络的基本概念、原理及特点

的 基本概念、原理、特点以及在不同领域的应用情况。一、卷积神经网络的 基本概念卷积神经网络是一种深度学习算法，它由多层卷积层和池化层堆叠而成

发表于07-11 14:38 • 283次阅读

搜索历史

常用机器学习算法的基本概念和特点

评论

【阿里云大学免费精品课】机器学习入门：概念原理及常用算法

智能天线的基本概念

人工智能基本概念机器学习算法

振动的基本概念

嵌入式系统的基本概念及特点

什么是机器学习_十张图带你解析机器学习的基本概念

机器学习算法基本概念及选用指南

机器学习算法常用指标汇总

10大常用机器学习算法汇总

决策树的基本概念/学习步骤/算法/优缺点

Python列表的基本概念、常用操作及实际应用

深度学习基本概念

机器学习算法汇总机器学习算法分类机器学习算法模型

机器学习算法入门机器学习算法介绍机器学习算法对比

卷积神经网络的基本概念、原理及特点