数据挖掘常用的十大算法

数据挖掘简介

数据挖掘（英语：Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD）中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘经典算法

1. C4.5：是机器学习算法中的一种分类决策树算法，其核心算法是ID3算法。

解析

C4.5算法是机器学习算法中的一种分类决策树算法，其核心算法是ID3 算法。 C4.5算法继承了ID3算法的长处。并在下面几方面对ID3算法进行了改进：

1）用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足。

2）在树构造过程中进行剪枝；

3）可以完毕对连续属性的离散化处理；

4）可以对不完整数据进行处理。

C4.5算法有例如以下长处：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，须要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

1、机器学习中。决策树是一个预測模型。他代表的是对象属性与对象值之间的一种映射关系。树中每一个节点表示某个对象，而每一个分叉路径则代表的某个可能的属性值，而每一个叶结点则

相应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出。若欲有复数输出，能够建立独立的决策树以处理不同输出。

2、从数据产生决策树的机器学习技术叫做决策树学习，通俗说就是决策树。

3、决策树学习也是数据挖掘中一个普通的方法。在这里，每一个决策树都表述了一种树型结构，他由他的分支来对该类型的对象依靠属性进行分类。每一个决策树能够依靠对源数据库的切割

进行数据測试。

这个过程能够递归式的对树进行修剪。

当不能再进行切割或一个单独的类能够被应用于某一分支时。递归过程就完毕了。

另外。随机森林分类器将很多决策树结合起来

以提升分类的正确率。

2. K-means算法：是一种聚类算法。

术语“k-means”最早是由James MacQueen在1967年提出的。这一观点能够追溯到1957年 Hugo Steinhaus所提出的想法。1957年。斯图亚特·劳埃德最先提出这一标准算法，当初是作为一门应用于脉码调制的技术，直到1982年，这一算法才在贝尔实验室被正式提出。1965年。 E.W.Forgy发表了一个本质上是同样的方法。1975年和1979年。Hartigan和Wong分别提出了一个更高效的版本号。

算法描写叙述

输入：簇的数目k；包括n个对象的数据集D。

输出：k个簇的集合。

方法：

从D中随意选择k个对象作为初始簇中心；

repeat;

依据簇中对象的均值。将每一个对象指派到最相似的簇；

更新簇均值。即计算每一个簇中对象的均值；

计算准则函数；

until准则函数不再发生变化。

3. SVM：一种监督式学习的方法

广泛运用于统计分类以及回归分析中支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一

种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。

支持向量机属于一般化线性分类器。他们也可以觉得是提克洛夫规范化（Tikhonov Regularization）方法的一个特例。这族分类器的特点是他们可以同一时候最小化经验误差与最大化

几何边缘区。因此支持向量机也被称为最大边缘区分类器。在统计计算中，最大期望（EM）算法是在概率（probabilistic）模型中寻找參数最大似然预计的算法。当中概率模型依赖于无

法观測的隐藏变量（Latent Variabl）。

最大期望经经常使用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。

最大期望算法经过两个步骤交替进行计算：

第一步是计算期望（E），也就是将隐藏变量象可以观測到的一样包括在内从而计算最大似然的期望值；

另外一步是最大化（M），也就是最大化在 E 步上找到的最大似然的期望值从而计算參数的最大似然预计。

M 步上找到的參数然后用于另外一个 E 步计算，这个过程不断交替进行。

Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了还有一种设计最佳准则。其原理也从线性可分说起，然后扩展到线性不可分的情况。

甚至扩展到使用非线性函数中去，这

种分类器被称为支持向量机（Support Vector Machine，简称SVM）。支持向量机的提出有非常深的理论背景。支持向量机方法是在近年来提出的一种新方法。

SVM 的主要思想能够概括为两点：

（1）它是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使

其线性可分，从而使得高维特征空间採用线性算法对样本的非线性特征进行线性分析成为可能；

（2）它基于结构风险最小化理论之上在特征空间中建构最优切割超平面，使得学习器得到全局最优化，而且在整个样本空间的期望风险以某个概率满足一定上界。

在学习这样的方法时，首先要弄清楚这样的方法考虑问题的特点，这就要从线性可分的最简单情况讨论起，在没有弄懂其原理之前，不要急于学习线性不可分等较复杂的情况，支持向量机

在设计时。须要用到条件极值问题的求解。因此需用拉格朗日乘子理论。但对多数人来说。曾经学到的或经常使用的是约束条件为等式表示的方式。但在此要用到以不等式作为必须满足的条件，此时仅仅要了解拉格朗日理论的有关结论即可。

4. Apriori ：是一种最有影响的挖掘布尔关联规则频繁项集的算法。

Apriori算法是种最有影响的挖掘布尔关联规则频繁项集的算法。它的核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。

在这里，全部支持度大于最小支持度的项集称为频繁项集（简称频集），也常称为最大项目集。

在Apriori算法中，寻找最大项目集（频繁项集）的基本思想是：算法须要对数据集进行多步处理。第一步，简单统计全部含一个元素项目集出现的频数，并找出那些不小于最小支持度的项目集，即一维最大项目集。从第二步開始循环处理直到再没有最大项目集生成。循环过程是：第k步中，依据第k-1步生成的（k-1）维最大项目集产生k维侯选项目集。然后对数据库进行搜索，得到侯选项目集的项集支持度。与最小支持度进行比較，从而找到k维最大项目集。

从算法的执行过程。我们能够看出该Apriori算法的长处：简单、易理解、数据要求低。然而我们也能够看到Apriori算法的缺点：

（1）在每一步产生侯选项目集时循环产生的组合过多，没有排除不应该參与组合的元素;

（2）每次计算项集的支持度时，都对数据库D中的所有记录进行了一遍扫描比較。假设是一个大型的数据库的话，这样的扫描比較会大大添加计算机系统的I/O开销。而这样的代价是随着数据库的记录的添加呈现出几何级数的添加。

因此人们開始寻求更好性能的算法。如F-P算法。

5. EM：最大期望值法。

最大期望算法（Expectation-maximization algorithm。又译期望最大化算法）在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，參数的最大似然预计。

在统计计算中，最大期望（EM）算法是在概率模型中寻找參数最大似然预计或者最大后验预计的算法。当中概率模型依赖于无法观測的隐藏变量（Latent Variable）。最大期望经经常使用在机器学习和计算机视觉的数据聚类（Data Clustering）领域。

最大期望算法经过两个步骤交替进行计算，第一步是计算期望（E），利用对隐藏变量的现有预计值，计算其最大似然预计值；第二步是最大化（M）。最大化在 E 步上求得的最大似然值来计算參数的值。M 步上找到的參数预计值被用于下一个 E 步计算中，这个过程不断交替进行。

M是一个在已知部分相关变量的情况下，预计未知变量的迭代技术。EM的算法流程例如以下：

1. 初始化分布參数

2. 反复直到收敛：

E步骤：预计未知參数的期望值，给出当前的參数预计。

M步骤：又一次预计分布參数，以使得数据的似然性最大，给出未知变量的期望预计。

应用于缺失值

最大期望过程说明

我们用表示可以观察到的不完整的变量值，用表示无法观察到的变量值，这样和一起组成了完整的数据。

可能是实际測量丢失的数据，也可能是可以简化问题的隐藏变量，假设它的值可以知道的话。比如，在混合模型（Mixture Model）中，假设“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利（參见以下的样例）。

6.pagerank：是google算法的重要内容。

PageRank。网页排名，又称网页级别、Google左側排名或佩奇排名，是一种由搜索引擎依据网页之间相互的超链接计算的技术，而作为网页排名的要素之中的一个，以Google公司创办人拉里·佩奇（Larry Page）之姓来命名。Google用它来体现网页的相关性和重要性，在搜索引擎优化操作中是常常被用来评估网页优化的成效因素之中的一个。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。

PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。

Google把从A页面到B页面的链接解释为A页面给B页面投票。Google依据投票来源（甚至来源的来源，即链接到A页面的页面）和投票目标的等级来决定新的等级。

简单的说，一个高等级的页面能够使其它低等级页面的等级提升。

7、Adaboost：是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来，构成一个更强的最终分类器。

AdaBoost。是英文“Adaptive Boosting”（自适应增强）的缩写，是一种机器学习方法。由Yoav Freund和Robert Schapire提出。

AdaBoost方法的自适应在于：前一个分类器分错的样本会被用来训练下一个分类器。AdaBoost方法对于噪声数据和异常数据非常敏感。但在一些问题中。AdaBoost方法相对于大多数其他学习算法而言。不会非常easy出现过拟合现象。

AdaBoost方法中使用的分类器可能非常弱（比方出现非常大错误率），但仅仅要它的分类效果比随机好一点（比方两类问题分类错误率略小于0.5），就行改善终于得到的模型。而错误率高于随机分类器的弱分类器也是实用的，由于在终于得到的多个分类器的线性组合中，可以给它们赋予负系数，相同也能提升分类效果。

AdaBoost方法是一种迭代算法。在每一轮中增加一个新的弱分类器，直到达到某个预定的足够小的错误率。每个训练样本都被赋予一个权重。表明它被某个分类器选入训练集的概率。

假设某个样本点已经被准确地分类，那么在构造下一个训练集中，它被选中的概率就被减少；

相反。假设某个样本点没有被准确地分类，那么它的权重就得到提高。通过这种方式，AdaBoost方法能“聚焦于”那些较难分（更富信息）的样本上。

在详细实现上，最初令每一个样本的权重都相等，对于第k次迭代操作。我们就依据这些权重来选取样本点，进而训练分类器Ck。然后就依据这个分类器，来提高被它分错的的样本的权重，并减少被正确分类的样本权重。

然后，权重更新过的样本集被用于训练下一个分类器Ck［2］。整个训练过程如此迭代地进行下去。

8、KNN：是一个理论上比较成熟的的方法，也是最简单的机器学习方法之一。

1、K近期邻（k-Nearest Neighbor。KNN）分类算法。是一个理论上比較成熟的方法。也是最简单的机器学习算法之中的一个。该方法的思路是：假设一个样本在特征空间中的k个最相似（即特征空

间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

2、KNN算法中，所选择的邻居都是已经正确分类的对象。

该方法在定类决策上仅仅根据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN方法尽管从原理上也依赖于极限定理。但在类别决策时，仅仅与极少量的相邻样本有关。因为KNN方法主要靠周围有限的邻近的样本。

而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其它方法更为适合。

3、KNN算法不仅能够用于分类，还能够用于回归。通过找出一个样本的k个近期邻居，将这些邻居的属性的平均值赋给该样本，就能够得到该样本的属性。

更实用的方法是将不同距离的

邻居对该样本产生的影响给予不同的权值（weight），如权值与距离成正比。

4、该算法在分类时有个基本的不足是，当样本不平衡时，如一个类的样本容量非常大，而其它类样本容量非常小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。因此能够採用权值的方法（和该样本距离小的邻居权值大）来改进。

该方法不足之处是计算量较大，由于对每个待分类的文本都要计算它到全体已知样本的距离。才干求得它的K个近期邻点。

眼下经常使用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比較适用于样本容量比較大的类域的自己主动分类，而那些样本容量较小的类域採用这样的算法比較easy产生误分。

算法分类步骤例如以下：

1 首先我们事先定下k值（就是指k近邻方法的k的大小。代表对于一个待分类的数据点，我们要寻找几个它的邻居）。这边为了说明问题，我们取两个k值。分别为3和9；

2 依据事先确定的距离度量公式（如：欧氏距离）。得出待分类数据点和全部已知类别的样本点中。距离近期的k个样本。

3 统计这k个样本点中。各个类别的数量。依据k个样本中，数量最多的样本是什么类别，我们就把这个数据点定为什么类别。

9、Naive Bayes：在众多分类方法中，应用最广泛的有决策树模型和朴素贝叶斯（Naive Bayes）

贝叶斯分类的基础是概率推理。就是在各种条件的存在不确定。仅知其出现概率的情况下，怎样完毕推理和决策任务。概率推理是与确定性推理相相应的。

而朴素贝叶斯分类器是基于独立如果的，即如果样本每一个特征与其它特征都不相关。举个样例，如果一种水果其具有红。圆，直径大概4英寸等特征。该水果能够被判定为是苹果。

虽然这些特征相互依赖或者有些特征由其它特征决定。然而朴素贝叶斯分类器觉得这些属性在判定该水果是否为苹果的概率分布上独立的。朴素贝叶斯分类器依靠精确的自然概率模型，在有监督学习的样本集中能获取得很好的分类效果。在很多实际应用中。朴素贝叶斯模型參数预计使用最大似然预计方法。换而言之朴素贝叶斯模型能工作并没实用到贝叶斯概率或者不论什么贝叶斯模型。

虽然是带着这些朴素思想和过于简单化的如果，但朴素贝叶斯分类器在非常多复杂的现实情形中仍可以取得相当好的效果。2004年。一篇分析贝叶斯分类器问题的文章揭示了朴素贝叶斯分类器取得看上去不可思议的分类效果的若干理论上的原因。

虽然如此，2006年有一篇文章具体比較了各种分类方法，发现更新的方法（如boosted trees和随机森林）的性能超过了贝叶斯分类器。

朴素贝叶斯分类器的一个优势在于仅仅须要依据少量的训练数据预计出必要的參数（变量的均值和方差）。因为变量独立如果，仅仅须要预计各个变量的方法。而不须要确定整个协方差矩阵。

10、Cart：分类与回归树，在分类树下面有两个关键的思想，第一个是关于递归地划分自变量空间的想法，第二个是用验证数据进行减枝。

决策树生长的核心是确定决策树的分枝准则。

1、怎样从众多的属性变量中选择一个当前的最佳分支变量。

也就是选择能使异质性下降最快的变量。

异质性的度量：GINI、TWOING、least squared deviation。

前两种主要针对分类型变量，LSD针对连续性变量。

代理划分、加权划分、先验概率

2、怎样从分支变量的众多取值中找到一个当前的最佳切割点（切割阈值）。

（1）切割阈值：

A、数值型变量——对记录的值从小到大排序，计算每一个值作为临界点产生的子节点的异质性统计量。

可以使异质性减小程度最大的临界值便是最佳的划分点。

B、分类型变量——列出划分为两个子集的全部可能组合。计算每种组合下生成子节点的异质性。相同。找到使异质性减小程度最大的组合作为最佳划分点。

在决策树的每个节点上我们能够按任一个属性的任一个值进行划分。按哪种划分最好呢？有3个标准能够用来衡量划分的好坏：GINI指数、双化指数、有序双化指数。

阅读全文

数据挖掘技术(6757) 数据挖掘技术(6757)

2013年最具吸引力的十大科技公司包括

2013年最具吸引力的十大科技公司包括：10、红帽（Red Hat）；9、英特尔；8、安捷伦科技公司；7、思杰系统（Citrix Systems）；6、Salesforce.com；5

2012-12-17 11:44:14

2017宝安产业发展博览会十大精品投票活动

``2017宝安产业发展博览会十大精品投票活动2017“宝博会”十大精品投票活动火热进行中你的一票将决定着2017“宝博会”十大精品最终花落谁家 2017宝安产业发展博览会将于7.27-7.29日

2017-07-19 11:39:46

2018全球十大突破性技术发布

3月25日，科技之巅·麻省理工科技评论全球十大突破性技术峰会在北京召开，该峰会是全球最为著名的技术榜单之一，峰会围绕十大突破性技术在中国落地性最强，并对目前最受关注的领域进行深入解读。2018年

2018-03-27 16:07:53

2020年全球十大突破技术

2020年全球十大突破技术，2018-12-28 08:11:39盘点这一年的核心技术：22纳米光刻机、450公斤人造蓝宝石、0.12毫米玻璃、大型航天器回收、盾构机“弃壳返回”、远距离虹膜识别

2021-07-28 09:17:55

2020科技前沿十大科技

2020科技前沿十大科技，但科技依然拥有瞬间点燃人们激情的魔力。1月2日，阿里巴巴达摩院发布了“2019十大科技趋势”，涵盖了智能城市、数字身份、自动驾驶、图神经网络系统、AI芯片、区块链、5G等

2021-07-28 06:27:02

十个数据可视化项目

2017年十大最佳数据可视化项目

2019-08-22 09:35:44

十大开发常用算法

最排序算法堆排序（Heapsort）是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构，并同时满足堆积的性质：即子结点的键值或索引总是小于（或者大于）它的父节点。堆排序的平均时间

2018-08-13 09:35:05

十大程序员接私活平台

十大程序员接私活平台，1、没有第三方担保的个人对个人的尽量不要接，双方都没保障，出了问题很大的可能撕破脸皮不了了之。2、一上来就直接说给我开发一...

2021-07-16 07:20:23

十大芯片突破成果

IBM具有开创性的工作开始于1997年在整个行业中采用铜线取代铝线进行布线，这一创新使电流阻抗立即下降了35%，同时芯片性能提高了15%。　　从此，IBM的科学家们一直沿着摩尔定律的轨道持续不断地推动性能的提升。以下是从IBM实验室过去十年间的几十项创新中抽取的十大芯片突破成果：

2019-05-24 07:10:23

十大重点旅游项目上马直飞***有望每周两班

十大重点旅游项目上马直飞***有望每周两班原文：（http://www.web-site-seo.cn）    据报道，17日下午，合肥市旅游

2010-03-25 16:36:20

常用的经典滤波算法有哪些？？

2012-07-01 15:15:23

数据挖掘十大算法详解

2019-03-07 20:35:30

数据挖掘十大经典算法，你都知道哪些！

的所有需求。而这三类里又包含许多经典算法。而今天，小编就给大家介绍下数据挖掘中最经典的十大算法，希望它对你有所帮助。一、分类决策树算法C4.5C4.5，是机器学习算法中的一种分类决策树算法，它是决策树

2018-11-06 17:02:30

数据挖掘算法有哪几种？

针对现有数据挖掘体系结构松散揭合、算法运行效率不高的问题，提出了嵌入式数据挖掘模型。该模型实现了算法的组件化管理，并将整个数据挖掘流程控制在数据库、数据仓库中，在简化数据挖掘过程的同时，大大提高了数据挖掘的效率。通过对几种典型数据挖掘算法在银行卡业务数据中的试验，证实了该模型的有效性和实用性。

2020-03-11 06:36:59

数据挖掘之基于关联挖掘的商品销售分析

数据挖掘：基于关联挖掘的商品销售分析

2020-06-09 08:32:36

C语言十大滤波算法

2012-08-15 18:41:58

Matlab数学建模常用的十大算法

2012-05-20 17:33:09

Python十大应用领域和就业方向

能干些什么？以下是Python十大应用领域！1. WEB开发Python拥有很多免费数据函数库、免费web网页模板系统、以及与web服务器进行交互的库，可以实现web开发，搭建web框架，目前比较

2018-11-21 14:54:29

【专辑精选】机器学习之算法教程与资料

德赢Vwin官网总结了以“算法”为主题的精选干货，今后每天一个主题为一期，希望对各位有所帮助！（点击标题即可进入页面下载相关资料）经典算法大全（51个C语言算法+单片机常用算法+机器学十大算法）11种常见

2019-05-09 17:06:40

世界十大科技进展新闻

世界十大科技进展新闻新闻摘要：（1）思科收购邀约被拒，结果Datadog牛气独立IPO了（2）微软继续坐在了全球科技公司市值的“铁王座”上（3）全球数据中心大PK，少不了谷歌的欧洲计划（4）致敬

2021-07-28 09:36:41

世界十大设计团队的经典设计策略

` 本帖最后由 gk320830 于 2015-3-4 14:11 编辑世界十大设计团队的经典设计策略`

2013-09-13 19:44:35

业界关于WiFi的十大常见误解是什么？

2021-05-24 06:46:59

云计算数据挖掘

想要自学云计算和数据挖掘想问下这些方面有哪些内容该从何开始求大神们指教谢谢

2016-04-19 00:07:25

传感器十大综合实验【基础实验的升级版】

2016-12-25 16:02:54

全球十大最值得期待的区块链钱包

钱包一个怎么够用，2018十大区块链钱包

2019-04-09 15:24:44

关于传感器十大基本实验

传感器十大基本实验

2016-12-20 22:31:26

单片机滤波算法

为什么别人的单片机算法不是百度里面的什么十大经典算法二十很复杂的算法，谁能提供一个算法应用在嵌入式里滤ad采样温度这些

2020-03-12 17:05:49

基于Iceberg概念格叠置半集成的全局闭频繁项集挖掘算法

【摘要】：研究专有的分布式数据挖掘算法是提高分布式数据库下数据分析和挖掘的有效方法.结合Iceberg概念格对于频繁项集精简表达的特性和其集成构造过程可并行化的特点,进而实现分布式全局闭频繁项集

2010-04-24 10:02:53

工业以太网十大须知

2012-08-15 20:11:59

数学建模十大算法介绍

算法是程序的灵魂，本资料详细介绍了数学建模当中的主要几个算法的应用分析，希望对大家在编程解决其他问题的时候有所帮助

2016-11-11 09:40:25

本年度国内十大主流芯片

作为工程师满地都是、遍布纵横的年代，我们还能做什么？~~熟知本年度国内十大主流芯片，不敢说你能在行业中傲视群雄，但可以肯定你不会落后现在电子工程师的潮流~~

2014-08-29 17:52:27

求助求助，中国十大做贴片工厂啊

求助求助，中国十大做贴片工厂啊，老板让我找的，搜的我是一头雾水。。。求各位高手现身帮帮忙啊:hug:

2011-04-15 18:07:25

物联网中的十大传感器类型

什么是传感器？物联网中的十大传感器类型是什么使传感器变得智能？

2021-01-27 06:41:43

电源常用技术与算法是什么？

2021-09-27 06:40:27

经典算法大全（51个C语言算法+单片机常用算法+机器学十大算法）

算法的描述：是对要解决一个问题或要完成一项任务所采取的方法和步骤的描述，包括需要什么数据（输入什么数据、输出什么结果）、采用什么结构、使用什么语句以及如何安排这些语句等。通常使用自然语言、结构化

2018-10-23 14:31:12

给年轻工程师的十大忠告

本帖最后由 gk320830 于 2015-3-4 11:42 编辑给年轻工程师的十大忠告。

2013-03-31 21:40:28

请问改进的Ferret算法和目前常用的测量算法有哪些不同？

数字图像处理原理是什么？简单Ferret算法原理是什么？改进的Ferret算法原理有哪些步骤？改进的Ferret算法和目前常用的测量算法有哪些不同？

2021-04-15 06:58:37

谁成就了智能家居“十大”品牌

“十大”这个词在中国有着非凡的魔力，凡事凡物只要跟它沾上边，必当“飞上枝头变凤凰”。即便恶人前面加“十大”也是“十大恶人”，也说明这十个恶人绝非等闲之辈，必定恶得牛气冲天，尔等当避而远之；若是个普通

2014-10-06 11:10:01

轻松看懂机器学习十大常用算法

`通过本篇文章可以对ML的常用算法有个常识性的认识，没有代码，没有复杂的理论推导，就是图解一下，知道这些算法是什么，它们是怎么应用的，例子主要是分类问题。每个算法都看了好几个视频，挑出讲的最清晰明了

2017-08-02 16:58:02

选择示波器的十大因素

选择示波器的十大因素本文介绍的概念旨在加快示波器选择过程，帮助您避免某些常见的问题。不管您正在考虑的示波器来自哪家制造商，认真分析每个示波器与本文讨论的10个问题的关系，都将有助于客观地评估这些仪器。[hide][/hide]

2009-12-15 09:35:11

数据挖掘浅析

摘要:主要介绍了数据挖掘的产生、发展、定义和任务，讨论了常用的挖掘方法和工具，最后举例介绍了数据挖掘的一些应用.关键词:数据挖掘;知识发现;决策树 Abstract:Th is

2009-01-08 21:23:12

分布式数据挖掘计算过程-DDCP算法研究

提出了一种关联规则挖掘大项集生成的并行和分布式处理的计算框架的算法，该算法以大规模事务数据库为基础，将数据有效地分片后作分布或者并行处理，通过节点之间的通信

2009-02-21 11:34:21

水平分布数据集的隐私保护关联挖掘算法

研究水平分布数据集的隐私保护关联规则挖掘算法。针对现有算法需要多次扫描数据集的缺点，提出一种只须对数据集进行2次扫描、基于分布式FP-tree的隐私保护挖掘算法。该算法可

2009-03-31 10:12:32

基于矩阵的关联规则挖掘算法

针对一些经典的关联规则算法进行分析，提出一种基于矩阵的高效关联规则挖掘算法。该算法把交易数据库转化为0-1矩阵形式，只需进行一次数据库搜索，使用逻辑运算方法发现频

2009-04-09 09:11:34

一种新的模糊加权关联规则挖掘算法

为了提高关联规则挖掘算法处理大数据集的性能，提出一种新的模糊加权关联规则挖掘算法——FWAR算法。通过建立模糊加权关联规则模型生成候选项目集，并进行剪枝，新建的模型

2009-04-13 09:56:38

基于灰色关联分析的孤立点挖掘算法

孤立点挖掘是数据挖掘的重要研究方向之一，其目标是发现数据集中不具备数据一般特性的数据对象。传统孤立点挖掘算法通常基于项集属性，不适用于多目标决策和综合评价。该

2009-04-14 09:12:24

高维大数据集中频繁闭合模式的挖掘

高维大数据集对现有的数据挖掘算法提出了挑战。该文把挖掘任务分解为挖掘频繁长模式与短模式2 个子问题，提出一种在高维大数据集中挖掘长项集的算法，即inter-transaction。该

2009-04-17 08:41:40

基于“新颖度”的关联挖掘算法An Association R

关联挖掘的目的是从大量数据中发现对用户有用、新颖、重要的关联规则。传统的关联挖掘算法会产生大量对用户而言显而易见的平凡规则，使那些真正对用户有用的新颖规则被

2009-05-25 14:24:34

基于用户兴趣导向的关联规则数据挖掘

本文在针对关联规则的Apriori 算法的基础上,为了提高用户数据挖掘的人机交互性能,解决关联规则挖掘产生冗余规则的问题,提出了基于用户导向的关联规则挖掘方法SQL-IIAR 算法

2009-08-26 11:41:39

数据挖掘与数据仓库技术及其在保险业中的应用

文章介绍了数据挖掘中常用技术和数据仓库结构，并且探讨了粗糙集方法，决策树方法以及关联规则方法等数据挖掘技术在保险风险规则挖掘中的应用。关键字：数据挖掘、数据

2009-09-04 08:16:30

基于最大模式的关联规则挖掘算法研究

提出了一种基于最大模式的关联规则挖掘算法，探讨了它的实现步骤，最后通过实例说明它是数据挖掘中一种有效的关联规则挖掘算法。

2009-09-16 10:44:31

分类规则挖掘算法综述

分类规则挖掘算法综述:分类规则挖掘是数据挖掘中一个重要的研究领域。通过介绍当前数据挖掘中具有代表性的分类算法，总结了各种算法的优缺点，给出了分类算法的应用以及

2009-10-10 14:24:29

XML快速关联规则挖掘算法的研究

本文研究如何快速有效地从XML 数据中挖掘频繁模式，提出了从XML 数据中挖掘频繁模式的增量式算法FreqtTree。该算法首先将XML 文档转化成DOM 树，然后从DOM树中挖掘所有频繁模

2009-12-25 14:18:01

一种基于Petri网的工作流挖掘算法

本文提出了一种新的基于Petri 网的工作流挖掘算法，不局限于顺序流程的挖掘，而且能够有效地对α 算法无法处理的短循环进行挖掘，不仅具有严密的数学理论支持，同时具有直

2010-01-27 14:07:26

基于决策树的数据挖掘算法应用研究

以决策树数据挖掘分类算法在金融客户关系管理（CRM）中的应用为例，进行了数据挖掘的尝试，从中发现企业产品的销售规律和客户群特征，从而提高CRM对市场活动和销售活动的分

2010-08-02 12:18:08

基于图的频繁子结构挖掘算法综述

随着对大量结构化数据分析需求的增长，从图集合中挖掘频繁子图模式已经成为数据挖掘领域的研究热点。通过对目前有代表性的频繁子图挖掘算法的分析和比较，全面总结了各算

2010-09-01 09:37:42

常用数据挖掘算法研究

为了给企业快速、低成本构建客户管理系统、CRM系统、数据挖掘应用系统提供参考与借鉴，研究了常用数据挖掘算法。通过研究数据挖掘算法基本原理、适用范围及优点，得出可以使

2011-06-08 16:06:23

嵌入式数据挖掘模型及其在银行卡业务中的应用

针对现有数据挖掘体系结构松散揭合、算法运行效率不高的问题，提出了嵌入式数据挖掘模型。该模型实现了算法的组件化管理，并将整个数据挖掘流程控制在数据库、数据仓库中，在

2012-08-13 17:39:48

数据挖掘Apriori算法的改进

为了解决数据挖掘中关联规则Apriori算法存在的缺陷，提出了一种全新的基于对候选项集处理的改进算法。该算法主要采用一次扫描数据库和对候选项集进行计数处理的方法，实现了减少

2013-08-19 17:44:36

数据挖掘实验指导书(算法编程部分)_叶志伟

数据挖掘实验指导书算法编程部分 yezhiwei

2015-12-23 14:17:54

大数据：互联网大规模数据挖掘与分布式处理_部分1

本书源自作者在斯坦福大学教授多年的“Web挖掘”课程材料，主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法，介绍了目前Web应用的许多重要话题。包括：分布式文件系统以及

2016-04-19 10:23:16

大数据：互联网大规模数据挖掘与分布式处理_部分2

2016-04-19 10:23:16

基于MapReduce和矩阵的频繁项集挖掘算法

基于MapReduce和矩阵的频繁项集挖掘算法_周国军

2017-01-07 18:39:17

混合云环境下数据流关联规则挖掘算法_李慧琴

混合云环境下数据流关联规则挖掘算法_李慧琴_王俊洁

2017-01-07 20:43:12

频繁项集高效挖掘算法研究刘芝怡

频繁项集高效挖掘算法研究_刘芝怡

2017-03-14 08:00:00

蚁群算法在数据挖掘分类中的研究_熊斌

2017-03-19 11:45:57

嵌入式数据挖掘模型应用实例

针对现有数据挖掘体系结构松散揭合、算法运行效率不高的问题，提出了嵌入式数据挖掘模型。该模型实现了算法的组件化管理，并将整个数据挖掘流程控制在数据库、数据仓库中，在简化数据挖掘过程的同时，大大提高

2017-10-17 16:21:39

基于Hadoop平台的大数据关联规则挖掘算法MRPREPOST

，但发展速度赶不上信息量的爆炸式增长，现有的算法在处理大数据时显得力不从心，如Apriori 算法需多次检索原数据库，容易造成I/O 开销，FPGrowth 算法在迭代挖掘频繁时，产生的子树结构太多，不利于大数据挖掘。因此根据大数据环境的特点，研究相应的数据

2017-10-31 15:19:50

基于三角矩阵和差集的垂直数据格式挖掘频繁项集的挖掘算法

针对现有的基于垂直格式挖掘频繁项集采用正交的方式两两进行比较耗费大量时间和产生的Tid集可能很大浪费存储空间的问题，提出了一种基于三角矩阵和差集的垂直数据格式挖掘频繁项集的挖掘算法。该算法利用差集解

2017-11-20 10:34:33

基于差分隐私的轨迹模式挖掘算法

长度，然后采用一种动态规划的策略对原始数据库进行截断处理，在此基础上，利用等价关系构建前缀序列格，并挖掘频繁轨迹模式。理论分析表明LTPM算法满足s一差分隐私；实验结果表明，LTPM算法的准确率（TPR）和平均相对误差（ARE）明显

2017-11-25 11:38:37

一种高效的基于MapReduce分布式蜂群模式挖掘算法

针对时空轨迹大数据的蜂群模式挖掘需求，提出了一种高效的基于MapReduce的分布式蜂群模式挖掘算法。首先，提出了基于最大移动目标集的对象集闭合蜂群模式概念，并利用最小时间支集优化了串行挖掘算法

2017-12-05 19:09:46

基于效用表的挖掘算法

高效用项集挖掘在数据挖掘领域中受到了广泛的关注，但是高效用项集挖掘并没有考虑项集长度对效用值的影响，所以高平均效用项集挖掘被提出；而目前的一些高平均效用项集挖掘算法需要耗费大量的时间才能挖掘

2017-12-09 10:44:22

改进的多数据流协同频繁项集挖掘算法

针对已有的多数据流协同频繁项集挖掘算法存在内存占用率高以及发现频繁项集效率低的问题，提出了改进的多数据流协同频繁项集挖掘（ MCMD-Stream）算法。首先，该算法利用单遍扫描数据库的字节序列滑动

2017-12-15 10:26:06

基于聚类算法的二分网络社区挖掘算法

针对二分网络中社区挖掘的准确性不高、对额外参数的依赖较大的问题，基于谱聚类算法的思想，从二分网络的拓扑结构展开，提出了一种改进的社区挖掘算法。该算法将二分网络映射到单一网络进行社区挖掘，采用资源分布

2017-12-27 10:06:40

数据挖掘方法有哪些_数据挖掘方法分类总结

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。　数据挖掘涉及的学科领域和技术很多，有多种分类法。浅析十三种常用的数据挖掘技术如下所述

2017-12-29 11:53:42

69469

Spark的并行数据挖掘的研究

本文研究了基于Spark的并行数据挖掘，并将其应用到了流程对象数据分析中。文章通过对串行的流程对象数据挖掘算法流的研究，提出了一种基于Spark并行计算框架的并行化算法流解决方案，并通过编程实现、并行效率测试、算法调优，最终得出一个并行效果良好的并行数据挖掘方案。该并行方案明显提高了计算效率。

2017-12-30 17:31:04

不确定数据频繁闭项集挖掘算法

由于不确定数据的向下封闭属性，挖掘全部频繁项集的方法会得到一个指数级的结果。为获得一个较小的合适的结果集，研究了在不确定数据上挖掘频繁闭项集，并提出了一种新的频繁闭项集挖掘算法-NA-PFCIM

2018-01-02 18:35:34

考虑价格的跨种类模糊序列模式挖掘算法

序列模式挖掘是一种从大规模序列数据中发现频繁子序列的数据挖掘技术，在用户行为研究、市场分析以及决策支持等领域具有广泛的应用。自从Agrawal等人提出并给出一种挖掘算法-Apriori以来，已经有

2018-01-10 14:05:10

数据挖掘Apriori算法报告

Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。

2018-02-04 09:30:33

5052

十大经典数据挖掘算法—Apriori

关联分析是一类非常有用的数据挖掘方法，能从数据中挖掘出潜在的关联关系。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属

2018-02-04 09:37:56

3450

基于贝叶斯网络的故事线挖掘算法

。将故事线看成日期、时间、机构、人物、地点、主题和关键词的联合概率分布，并考虑新闻时效性。在多个新闻数据集上进行的实验和评估结果表明，与K-means、LSA等算法相比，该算法模型具有较高的故事线挖掘能力。

2018-04-24 14:51:32

从五个方面让你了解人工智能算法中的Apriori

Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法，也是十大经典机器学习算法之一。 Agrawal和Srikant两位博士在1994年提出了Apriori算法，主要用于做快速的关联规则分析。

2018-07-05 14:25:00

2128

数据挖掘十大经典算法，你都知道哪些！

的所有需求。而这三类里又包含许多经典算法。而今天，小编就给大家介绍下数据挖掘中最经典的十大算法，希望它对你有所帮助。图1.jpg (1.89 MB, 下载次数: 0)下载附件保存到相册半小时前上传

2018-11-06 17:07:33

19803

数据挖掘分析方法

本文主要讲述数据挖掘分析领域中，最常用的四种数据分析方法：描述型分析、诊断型分析、预测型分析和指令型分析。

2018-12-19 16:42:12

4084

数据挖掘常用算法

本视频主要详细介绍了数据挖掘常用算法，分别是朴素贝叶斯、逻辑回归（logisticregression）、最近邻算法——KNN、决策树、Adaboosting。

2019-04-10 16:32:33

13064

从日志数据挖掘高质量数据的DTS算法

　　日志数据是互联网系统产生的过程性事件记录数据，从日志数据中挖掘岀高质量序列模式可帮助工程师髙效开展系统运维工作。针对传统模式挖掘算法结果冗余的问题，提岀一种从时序日志序列中挖掘序列模式（DTS

2021-03-10 17:11:28

数据挖掘原理与算法

数据挖掘原理与算法介绍。

2021-06-01 14:24:51

基于区块挖掘与重组的组合优化算法

2021-06-16 14:23:12

基于判断聚合模型的数据挖掘分类算法

的结果。文中主要处理的是分布式数据挖掘过程中的分类问题，针对一些特征的数据分别存储于不同的数据源上，提出了一种基于判断聚合模型的分类算法。该算法中每一个 agent要对一个案例属于某一个目标类的可能性进行判断，然后利用判断聚

2021-06-17 14:57:36

面向飞行器遥测数据的关联规则挖掘算法

2021-06-19 14:36:49

数据挖掘的流程数据挖掘分类算法

　　分类是用于识别什么样的事务属于哪一类的方法，可用于分类的算法有决策树、bayes分类、神经网络、支持向量机等等。　　数据挖掘的一般流程　　第一步，建立模型，确定数据表中哪些列是要用于输入

2023-07-18 17:00:02

python数据挖掘与机器学习

python数据挖掘与机器学习 Python是一个非常流行的编程语言，被广泛用于数据挖掘和机器学习领域。在本篇文章中，我们将探讨Python在数据挖掘和机器学习中的应用，并介绍一些Python中常用

2023-08-17 16:29:38

818

数据挖掘十大算法

数据挖掘十大算法数据挖掘是目前最热门的技术和概念之一。数据挖掘是一种利用现代数据分析技术发现、提取和分析数据中有价值信息的过程。数据挖掘可以帮助人们发现数据背后的规律和趋势，从而为业务决策和优化

2023-08-17 16:29:48

1599

一文弄懂数据挖掘的十大算法，数据挖掘算法原理讲解

数据挖掘主要分为三类：分类算法、聚类算法和相关规则，基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典算法。市面上很多关于数据挖掘算法的介绍都是深奥难懂的。今天我就用我的理解给大家介绍一下数据挖掘十大经典算法的原理，帮助大家快速理解。

2023-09-14 15:56:25

496

关于数据挖掘的十种算法原理讲解

2023-09-18 15:00:10

606

机器学习的基本流程和十大算法

为了进行机器学习和数据挖掘任务，数据科学家们提出了各种模型，在众多的数据挖掘模型中，国际权威的学术组织 ICDM（the IEEE International Conference on Data Mining）评选出了十大经典的算法。

2023-10-31 11:30:55

447

已全部加载完成

搜索历史