一、什么是大数据平台?
将非结构化的数据,通过一系列操作,最终形成一种结构化、标准化的数据吞吐给其他用户,支持其他系统的数据处理平台。
大数据技术平台有很多,我们可以从大数据处理的过程、大数据处理的数据类型、大数据处理的方式以及平台对数据的部署方式这几方面进行分类。
- 从处理方式进行划分——可以分为批量处理、实时处理、综合处理平台。
- 从处理过程进行划分——可以分为数据存储、数据挖掘分析、以及为完成高效分析挖掘而设计的计算平台。
- 从处理数据类型进行划分——可以分为针对关系型数据、非关系型数据、半结构化数据、混合类型数据处理的技术平台。
- 从数据部署进行划分——可以分为基于内存的、基于磁盘的平台。
- 其他划分方式——云环境和非云环境之分,分布式、集中式之分等。
二、大数据平台基本架构图
1.数据源
数据源:第三方平台、网络爬虫、适配器(中间键)、自身业务数据(例如在电商领域,加购、下单、支付等)
数据特点:海量、复杂、高速
很多来自第三方平台或者网络爬虫的数据,他们的数据类型都不统一,如:word,excel,图片,pdf,扫描件,视频等,这些非结构化的信息,会实时的地进入这个大数据平台。
2.数据接入(数据采集)
常见的数据采集场景:
场景1:支持FTP、SFTP、 HTTP等 协议的数据源获取数据
场景2:从业务数据库获取数据,数据采集录入后需支撑业务系统
场景3:数据源通过Kafka等消息队列传输,需要实时采集数据
场景4:适配器
数据采集部分设计需求:
- 数据源管理与状态监控
- 定时、实时、全量、增量等多模式的数据采集及任务监控
- 支持离线接入数据
3.数据处理
实时处理:在数据同步的过程中就依靠某些算法完成数据的计算
批量处理:在数据同步的过程中依靠批处理算法将计算结果写入HDFS中,完成数据的预处理
无论是大数据核算发生的数据还是写入到 HDFS 中,应用程序不能到 HDFS 中读取数据,所以需要全部导入数据库中。
有时,企业会通过机器学习、交互式分析、模型训练等,对数据进一步分析挖掘,这是最后生成的数据将作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的商业价值。
4.数据服务
随着大数据的发展,大数据已经融入到各行各业,主要的应用领域有:政府、医疗、电商、零售、传媒、电信、教育、交通、金融、安防、保险、天气预测等等。
我们常见的数据产品分为三大类:
- 企业内部使用的数据产品
- 企业针对公司推出的商业型数据产品
- 针对C端用户推出的数据产品
评论留言