不平衡割点的大数据决策树,用于旋转森林算法,分布式决策树算法

大数据
后台-插件-广告管理-内容页头部广告(手机)
 

各位看官阅读之前,请您点击一下“关注”,既方便您讨论与分享,又能给您带来不一样的参与感,感谢您的支持。

文丨吐不满的痰娱

编辑丨吐不满的痰娱

前言

决策树是一种广泛使用的决策支持模型,可以基于数据集快速挖掘有效的决策规则。基于不平衡割点的连续值属性决策树归纳算法可高效挖掘决策规则,将其扩展到大数据仍然是一个悬而未决的问题。

 

实例子集和属性子集

解决该问题的第一种是基于划分实例子集,第二种是采用划分属性子集。这两种解决方案的关键是从局部最优割点集合中找到最优割点,对于第一种提出了计算节点之间割点的指数的计算以及通过计算节点之间的通信来选择全局最优割点。

利用属性子集将大数据划分为子集,使得属性的所有割点都在同一个地图节点上在该地图节点中可以找到局部最优割点,全局最优割点可以通过汇总节点中所有局部最优割点得到。

 

解决方案在两个大数据平台上实现,并在四个数据集上与三种相关算法进行比较。实算法不仅能够有效解决可扩展性问题而且在保持分类性能的前提下,运行时间最短、速度最快、效率最高

利用属性子集将大数据划分为子集,使得属性的所有割点都在同一个地图节点上,在该地图节点中找到局部最优割点,全局最优割点通过总结节点中的所有局部最优割点得到。所提出的解决方案在两个大数据平台上实现,并在四个数据集上与三种相关算法进行比较。

 

机器学习领域上大数据是指太大而无法使用传统机器学习算法处理的数据,大数据对传统机器学习算法提出了巨大的挑战。扩展机器学习算法来处理大数据具有重大的理论和应用意义在之前的研究中将一些机器学习算法扩展到大数据环境中。

广泛地研究了大数据场景下机器学习算法的可扩展性,并通过开发广泛使用的并行编程方法。该方法可以很容易地应用于多种学习算法,包括局部加权线性回归和逻辑回归的期望最大值算法和反向传播算法等。

 

学习机的大数据

基于几种分类算法的并行实现了并行最近邻的算法、并行朴素贝叶斯网络和并行决策树。算法扩展到大数据环境,解决参数的最优选择问题还可以提高算法的可扩展性和效率。极限学习机的大数据并行多分类算法,并通过大数据平台实现。

大数据背景下决策树算法的可扩展性的工作决策树算法的三种并行实现,戴和吉算法在平台上的优化和并行化进行了研究决策树算法。还研究了决策树算法的优化,但不同的是它不是在平台上。

 

决策树信用评估方法来解决大数据环境下的信用评估问题,从数据挖掘的角度研究了决策树算法在大数据环境下的扩展,以雨林树和自举乐观算法为例。大数据机器学习,包括大数据决策树学习,一些研究人员提出了深入而全面的评论。

大数据环境下的决策树算法已经有了一些扩展,基于不平衡割点的连续值决策树算法在大数据环境下的扩展问题仍然没有得到解决。两种基于分而治之策略的解决方案,将基于不平衡割点的连续值决策树算法扩展到大数据场景。

 

划分实例子集即大数据集划分为多个不相交的实例子集。第二种是基于属性子集划分即大数据集划分为多个不相交的属性子集。更直观的是第一种方案将大数据集沿水平方向划分为多个不相交的子集,将大数据集沿垂直方向划分为多个不相交的子集。

不平衡割点的连续值大数据决策树的归纳过程中,从多个局部最优割点中找到全局最优割点是一个关键问题。第二个贡献就是解决这个问题全局最优割点只有一个,相对于大数据集,局部最优割点有多个,相对于大数据集的子集。

 

旋转森林算法

两个大数据平台上进行了大量的实验、火花验证所提方法的可行性和有效性。在四个大数据集上与三种闭相关算法进行比较的实验,两个人工数据集上的实验来证明所提算法的可行性。

机器学习领域十大经典算法之一,决策树因其学习速度快、预测精度高而被广泛应用于分类和回归问题。在大数据环境下需要处理的数据量很大,决策树无法完全在内存中构建需要大量的运算时间。

 

决策树算法扩展到大数据环境中是有意义的,将决策树算法及其变体扩展到大数据环境的方法主要分为两类,分布式并行清晰决策树和分布式模糊决策树。前者主要基于等基线算法的分布式扩展,提高算法在大数据上的准确率和效率。

算法之前仍然需要考虑决策树算法本身的计算复杂度、常驻内存以及优化的其他特性。提出了两种并行化算法扩展了大数据分类的随机森林算法,大数据分类的旋转森林算法,一种基于属性划分的并行决策树。

 

整个数据集首先按照一定的规则分为用于构建决策树的训练集和用于测试决策树模型的测试集,对两个数据集的属性进行分区并根据每个分区在训练集上生成决策树。测试集和训练树的划分,生成测试树并在生成的测试树中采用加权投票方法,给出最终的预测分类结果。

解决算法相对于信息增益率计算耗时的问题,该算法使用公式来计算信息增益,以提高计算效率。通过在平台上将改进与传统进行比较,结果表明改进的算法具有更高的精度和效率。研究了分布式决策树的可扩展性。

 

分布式决策树算法

分布式决策树算法是基于分布式决策树实现的,它在基础上优化了并在分区和准确性之间做出了折衷。在不损失任何准确性的情况下提供尽可能多的并行性,一种针对大数据的并行随机森林算法,测试是在上进行的。

随机森林算法的泛化性能,基于数据并行和任务并行优化相结合的混合方法进行优化,提出了一种改进的算法将其用于大数据的分类。主要贡献包括三点使用信息增益特征选择器来降低高维数据的维数。

 

降维方面采用加权信息增益代替算法中的信息增益作为启发式诱导决策树,大数据编程框架实现了改进的算法。使用多加速算法的大规模数据挖掘分类树的全局归纳,用于大规模训练深度决策树的优化系统。

数据的特征进行分区以及一组优化的数据结构,减少训练时的占用和通信成本,设计了分布式决策树算法并在大数据平台上实现。决策树算法来选择最佳配置并增强大数据平台中的参数优化,分析内部元素来计算每个节点的任务数量,使用决策树来寻找最优配置。

 

大数据决策树的时间复杂度,设计了一种新颖的数据结构称为碰撞分区树,导致更加平衡的树结构,达到降低计算时间复杂度的目的。引入了有替换和无替换的采样方案,并设计了一种算法来提高分类规则在大数据环境下的适应和泛化能力。

决策树算法可以通过同时训练传入样本并提供推理结果来解决大数据学习问题,高性能且可扩展的在线决策树学习算法。决策树模型集合中选择代表性决策树的算法快速大数据分类。

 

分布式模糊决策树

分布式模糊决策树是大数据环境下模糊决策树的扩展,处理大规模数据学习。分布式清晰决策树相比分布式模糊决策树的研究相对有限。编程模型的分布式模糊决策树学习方案,学习方案可以从大数据中生成二元和多路模糊决策树。

学习方案的关键思想是它使用模糊信息熵来离散化每个连续值属性,基于并行模糊规则库的决策树,这项工作的主要贡献在于开发了一种基于并行融合模糊规则的分类系统,通过实现并行化并使用集成来评估获得的模糊规则库。

 

开发了一种基于高模糊效用模式挖掘算法,从大数据集中发现高模糊效用模式。给出了一种基于的解决方案用于发现与大数据相关的模糊关联规则。将基于不平衡割点的连续值决策树归纳算法扩展到大数据环境的问题尚未解决,主要目标就是解决这个问题。

不平衡割点的连续值决策树归纳算法扩展到大数据场景,介绍两种解决方案,一种基于实例子集划分,另一种基于属性子集划分。最优分割点时只需计算不平衡分割点的基尼指数,而无需计算平衡分割点的基尼指数。

 

大大降低计算复杂度提高计算效率,算法的效率对于每个属性的所有割点的集合。算法给出了基于不平衡割点的连续值决策树算法的伪代码,当连续值决策表是一个大数据集时,算法将变得不可行,那么算法如何扩展到大数据场景呢?

大数据处理的一般策略是分而治之,即将大数据集划分为若干子集,分布到不同的计算节点进行并行处理。大数据集可以在水平和垂直方向上划分为子集,水平方向的划分是将大数据集划分为实例子集,垂直方向的划分是将大数据集划分为属性子集。

 

结语

基于属性子集的划分就是利用属性子集将大数据集划分为若干个数据子集,就是将大数据集沿垂直方向划分为若干个数据子集。每个数据子集对应于数据库系统中投影操作的结果,但每个实例仅由属性子集中属性的值来表示,即实例向量的维数就是属性子集的势

 

文章描述过程、图片都来源于网络,此文章旨在倡导社会正能量,无低俗等不良引导。如涉及版权或者人物侵权问题,请及时联系我们,我们将第一时间删除内容!如有事件存疑部分,联系后即刻删除或作出更改。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。