基于数据降维与聚类的车联网数据分析应用

大数据
后台-插件-广告管理-内容页头部广告(手机)

智能网联背景下的车联网数据分析与应用对提升交通智能化有重要影响。为了加快交通智能化进程,文章对车联网数据应用过程中存在的数据冗余问题进行研究。以采集的车联网数据为研究对象,驾驶行为特点分类辨识为研究目标。采用相关分析与主成分分析方法对数据进行冗余筛选与降维,使用 k-means 聚类算法对驾驶行为特点进行分类辨识。研究结果表明,使用数据降维的方法可以降低车联网数据的相关冗余性,驾驶行为特点分类辨识结果表明其特点可分为三类驾驶行为。研究提升了车联网数据的应用价值,也为交通智能化提供了相关的支持。

随着人工智能、物联网、大数据、信息通信等技术的快速发展,汽车电子、信息通信、互联网等领域加快融合,智能网联汽车成为全球新一轮产业竞争制高点。而作为智能网联汽车的组成部分,车联网及车联网数据的应用与分析对智能网联汽车具有重要影响。

关于车联网数据的分析与应用,国内外学者展开了相关研究。贾硕利用车联网数据对驾驶员的异常驾驶行为进行检测。解决了常用的异常驾驶行为检测算法对商用车辆不适用的问题,提高车联网数据在商用车领域的异常驾驶行为检测的精确度和效率,提出了商用车辆异常驾驶行为检测算法。王晓惠为了合理评价驾驶员的驾驶行为以及更好地加强企业对车队的管理,从多目标(安全、油耗、维护、舒适)多维度出发,利用目前的车联网数据对相关因素的数据进行采集和相应地处理,并根据各维度特征采用不同方法进行评价模型的建立并构建了驾驶行为评价方法。

宋冬冬为了构建对车辆及周边环境的评价系统,对各车辆的行驶速度、进气量、瞬时油耗、发动机转速等运行数据进行汇总与清洗,利用 k-means 聚类算法对样本数据进行了分布计算,并通过最小二乘拟合获得发动机各数据间运行曲线,与理论模型相一致,实现对车、人、路况的客观评价。李卓轩为了提高运输安全管理水平和运输效率,对运输车辆安全性进行客观评价,基于车联网数据提出了一种结合多算法的行车安全评价模型。

郑恒杰运用数据挖掘的方法,使用 isolation forest 算法和 SOM 算法对车联网技术采集的交通数据进行预处理并提取特征值,再通过 k-mesns 聚类算法归类并添加标签,最后通过 BP 神经网络构建分类器,实现了对驾驶员驾驶行为的分类和评价。魏涛针对车联网环境下汽车的节能减排问题,从油耗预测和节能驾驶行为优化两方面开展深入研究,提出了两种油耗预测模型。

这些研究中采用了多种算法从各个角度去挖掘车联网数据中可能的价值,但对车联网数据的相关冗余情况却较少分析。由于车联网数据信息的采集源为智能网联汽车的各个关键部件,而各个部件之间往往存在着线性或非线性的关系,因此导致部分数据间也存在着相关性的冗余,而冗余性的存在将对车联网数据的应用与分析带来阻碍,不仅增加相关建模的复杂度,甚至导致相关模型的不准确,因此对于车联网数据的应用于分析需要考虑相关冗余

性的影响,需要采取对应算法对冗余性进行去除。综上所述,为了更好地挖掘车联网数据的价值,对数据冗余问题进行研究,并在具体的驾驶行为分类辨识上加以验证、应用。本文以采集的车联网数据为研究对象,以驾驶行为特点分类辨识为研究目标。采用相关分析与主成分分析对车联网数据进行筛选与降维,以此降低数据冗余性,并使用 k-means 聚类算法对驾驶行为特点进行分类辨识。以此提升车联网数据的应用价值,并为交通智能化提供相关的支持。

1

相关理论

1.1 相关分析

相关分析(Analysis of Correlation)是数据分析中经常使用的分析方法之一。通过对不同特征或数据间的关系进行分析,发现业务运营中的关键影响及驱动因素,并对业务的发展进行预测。

第一种常用相关分析方法是将数据进行可视化处理,简单地说就是绘制图表。单纯从数据的角度很难发现其中的趋势和联系,而将数据点绘制成图表后趋势和联系就会变得清晰起来。第二个常用相关分析方法是相关系数。相关系数(Correlation coef- ficient)是反映变量之间关系密切程度的统计指标, 相关系数的取值区间在 1 到-1 之间。1 表示两个变量完全线性相关,-1 表示两个变量完全负相关,0 表示两个变量不相关。数据越趋近于 0 表示相关关系越弱。常用的相关系数计算的方法有皮尔逊相关系数法与斯皮尔曼相关系数法,皮尔逊系数用于计算连续数据的相关系数,而斯皮尔曼系数对于连续数据与离散数据的相关系数均可计算。因此,本文采用斯皮尔曼相关系数进行计算。斯皮尔曼相关系数的计算公式如式(1),其中 X 和 Y 为需要计算相关性的两个指标,ρ 为相关系数。

 

1.2 主成分分析

降维算法中具有代表性的是主成分分析(PCA)。主成分分析是一种常用的统计学方法,对于数据降维、减少输入变量个数具有重要作用。基本原理为通过线性变换将原数据转化为一组主成分。这些主成分作为原始变量的线性组合,彼此之间并不相关。使用这些主成分对原数据进行替代能够反映出原始数据的大部分有效信息。假设进行主成分分析的变量 m 个 x1…xm,n 个评价指标,第 i 个评价指标的第 j 个指标取值为 xij,主成分分析的主要计算流程如下:

   

1.3 k-means聚类算法

k 均值聚类算法(k-means clustering algorithm) 是一种迭代求解的聚类分析算法,其步骤是,将数据分为 K 组,则随机选取 K 个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,计算距离的方法包括欧式距离、余弦相似度、曼哈顿距离。选取一般的距离计算方法欧式距离,具体计算公式如式(9)。

 

式中,p、q 表示任意两个样本点的空间坐标,pi、qi 表示样本点在各个维度的分量。

计算距离后,进一步把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类类别。每分配一个样本,聚类的聚类中心会根据聚类中现有的所用对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有对象被重新分配给不同的聚类或满足某一最小数目的条件,或聚类中心再发生变化或误差平方和局部最小。

 

算法步骤如下:

step1:选定要聚类的类别数目 k,随机选择 k 个中心点。

step2:针对每个样本点,找到距离其最近的中心点(寻找组织),距离同一中心点最近的点为一个类,这样完成了一次聚类。

step3:判断聚类前后的样本点的类别情况是否相同,如果相同,则算法终止,否则进入 step4。

step4:针对每个类别中的样本点,计算这些样本点的中心点,当做该类的新的中心点,继续 step2。

2

驾驶行为分类辨识建模

为检验去除数据冗余的有效性,基于车联网数据的应用场景之一的驾驶行为分类辨识进行验证。驾驶行为分类辨识的研究目标是从车联网数据中区分与油耗相关联的不同驾驶行为方式特点。

建模所用数据来源于智能网联平台下的车联网数据管理中心。首先对原始数据进行预处理,并使用相关分析筛选与燃油经济性相关的指标,其次使用数据降维方法对指标数据进行处理,最后使用聚类方法区分驾驶行为特征。主要流程如图 1 所示。

2.1 相关分析

通过获取到的车联网数据,定义了相关指标。主要包括速度、加速度、发动机转速、变速箱输出转速的相关统计量。

进一步绘制了这些指标与油耗之间相关分析的散点图如图 2 所示。其中方形标记框中可看出指标间有明显正相关性。

 

由相关分析的散点图可知,指标与油耗间具有相关性,进一步计算指标与油耗之间的相关系数并绘制图形如图 3 所示。其中指标序号为 16 的指标与油耗之间具有最大的相关性。通过相关系数值的大小对指标进行筛选去除部分指标。为下一步数据降维做准备。

 

2.2 数据降维

经过相关分析后,对上述所挑选的指标进行数据主成分降维。将多维数据降维成低维可展的数据。为聚类分析结果的可视化展示做准备。其中三维数据既能更大程度地保留源数据信息,又能在空间坐标中进行展示。将源数据降维为三维数据。

2.3 聚类分析

使用降维后的 3 列指标数据进行 k-means 聚类, 经过聚类数的调整,当聚类数为 3 时较好地展现了数据的类别信息。聚类结果的可视化展示如图 4。图中出现的三类数据点集表明数据特征间差异明显, 有效地展示了驾驶行为差异性的特点。这可以为智能驾驶的辅助功能开发提供信息支持。

 

2.4 结果分析

由图 2 的相关分析散点图表明,不同指标间具有一定的相关冗余性,这对于车联网数据分析与应用有较大的干扰。因此对数据进行了主成分分析以去除相关冗余性。最后,使用 k-menas 聚类对去除相关冗余性的数据进行聚类,结果如图 4,聚类效果明显,将数据聚类为三类,且这三类数据在空间坐标下差异明显。表明驾驶行为数据的差异性,较好地区分辨识了不同驾驶行为数据的特点。

3

结论

随着人工智能、物联网、大数据、信息传输、通信等技术的融合发展,智能网联汽车也将进入飞速发展阶段。为了提升交通智能化程度,解决车联网数据应用过程中的数据冗余问题,本文采用了相关分析与主成分分析对车联网数据进行筛选与降维,并在车联网数据的应用场景驾驶行为特点分类辨识下,进行了应用与检验。结果显示,使用数据降维的方法去除了车联网数据的相关冗余性,对驾驶行为特点辨识结果表明车联网数据在去除数据相关冗余与降维处理后可分区为为三类驾驶行为。这一研究进一步的挖掘了车联网数据的应用价值,也为交通智能化提供相关的信息支持。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。