项目背景及目标
大数据技术迅速发展并日益成熟,数据应用在企业竞争中的重要性日益突显,利用大数据平台进行数据存储、管理成为趋势。山东省农商银行系统处于改革发展转型关键阶段,金融产品不断推出和完善,催生了更多种类、更大体量的各类结构化和非结构化数据,传统的存储方式越来越难以应对高并发、快速响应的业务场景需求,必须进行数据的归档和清理,客观上需要通过新的技术手段来适应新的发展要求,满足新产品开发应用和新业务场景的需要。
为进一步加快数据应用步伐,充分发掘数据应值价值,山东省联社结合同行业实践和技术发展趋势,开始建设基于Hadoop的数据处理平台。项目以构建涵盖结构化和非结构化数据,集关系型数据库、列式数据库、分布式数据库、内容管理等技术于一体的大数据处理体系为目标,建设满足海量数据存储和处理需要,兼顾多样化和个性化的数据管理和应用需求的大数据平台,项目建设过程中同步开展了客户交易数据和账户数据分析,建设完成了“客户画像”应用,为信贷管理、业务拓展、风险管理相关系统提供数据支持,同时为引入外部数据,实现交叉销售、精准营销、风险管控等高阶应用提供支持。
项目方案
山东省联社将大数据平台Hadoop生态系统建设项目纳入2019年科技自用类项目实施,成立了大数据项目组,由信息科技部牵头组织具体实施工作。经过充分论证分析,确定了“数据(存储计算)层——整合(治理)层——加工(建模)层——展现(产品)层”为基本架构,以客户画像应用为驱动,一期完成数据支撑平台、数据处理平台搭建、大数据平台功能验证,后期逐步开展共性数据加工、数据应用开发、海量历史数据存储、数据挖掘平台建设、提供全方位数据支撑服务的大数据平台应用发展路线。
在业务实现层面,在引入基于海杜普(Hadoop)技术大数据平台基础上,同步建设“客户画像”应用,通过大数据平台对系统内长期积累的业务数据、管理加工数据进行分析,对客户信息、账户交易、产品信息、风险识别等数据进行统一管理、加工、处理,建立了对私客户“基本特征”、“金融特征”、“风险特征”、“行为特征”四个维度,客户基本信息、地理位置、客户价值、产品偏好、金融行为偏好、渠道偏好、风险特征等7大类的客户指标体系,初步完成了“高消费人群”、“高收入客户群”、“退休人群”、“存款大户”等29种客户画像,形成客户信息统一视图,为信贷管理、业务拓展、风险管理相关系统提供客户画像数据支持,同时为后期开展客户关联关系识别、智能获客、精准营销、智能风控、经营预测等数据挖掘场景需求提供数据支撑。
技术设计方面,引入华为Hadoop架构的大数据平台和数据应用服务平台FusionInsight, Hadoop大数据平台构建数据存储及应用服务,数据应用服务平台引入封装大数据平台组件,组装成数据场景服务应用组件,从数据交换层进行数据采集,将(海量)数据存储于大数据平台,对数据进行清洗、加工等预处理,实现数据管理标准化,对共性数据提前进行加工,形成指标数据、标签数据、画像数据等有价值数据,提供数据模型、算法服务、数据管理等能力,对外提供数据查询、订阅等服务等应用服务。
项目实施采取合作开发方式开展,引入大数据平台和数据应用服务平台产品原型,项目组在对行内数据分析基础上,确定了客户画像应用业务需求,完成了大数据平台架构设计、客户画像应用详细设计,完成了客户画像应用开发工作。
创新点
一、搭建了灵活、分层、适配的分布式大数据平台,在省联社整体数据架构的框架下,按照数据产生层、数据交换层、数据整合层及数据应用层四个层次进行划分,架构层次清晰。
二、按照CRISP-DM数据挖掘方法论,对数据准备阶段进行了本地化、适应性落地实现工作。在部署大数据平台的同时,同步搭建数据加工服务平台,通过数据加工、指标加工、路由定义、调度定义、决策树定义等功能适配数据准备阶段的选择、清洗、构建、整合、格式化各项工作,实现数据准备工作的自动化和流程化。
三、通过参数配置化的数据的加工处理流程,提高数据加工处理的效率和复用性,为后期多元化的数据应用提供基础服务。
四、整合行内数据核心、信贷、CRM等上游系统数据,充分借鉴银行同业客户应用等方面的建设经验,建设了全行级客户画像,在数据服务能力输出上同步实现了本地化应用。
技术实现特点
项目建设过程中以搭建大数据平台为目标,以客户画像应用建设为导向,整合行内数据核心、信贷、CRM等上游系统数据,搭建相应的Hadoop大数据处理平台,在省联社蓝海大数据平台整体架构指导下开展项目建设。项目同步实施了数据加工服务平台作为数据中台进行数据加工处理,完成元数据定义、数据清洗、数据加工、指标加工、标签定义、路由定义、调度定义、决策树定义、决策参数定义、决策脚本计算等实现数据订阅,完成数据加工处理等数据准备工作。开展了基础数据分析、数据清理工作,在客户画像应用的实现过程中,大数据平台提供客户画像的数据存储、计算与应用等基础能力,通过数据加工服务平台的管理功能组件和数据服务组件,形成从客户画像数据输入到输出的整套加工应用体系。
项目管理过程
省联社信息科技部成立了大数据平台项目组,制定了详细的项目计划,推动项目有序实施:
一、项目准备阶段:hadoop大数据平台、数据加工服务平台测试环境部署及培训,客户画像应用需求调研,周期0.5个月。
二、需求阶段,客户画像应用需求编写,需求评审及需求分析,周期0.75月。
三、设计阶段,客户画像应用设计、数据交互接口设计、客户画像数据模型设计,周期0.5月。
四、开发测试阶段,开展数据分析,准备客户画像涉及的业务数据文件;客户画像应用编码开发、测试,周期1月。
五、投产上线阶段:大数据平台生产环境部署调试、安全评估等,完成客户画像应用投产,周期1月。
运营情况
山东省联社hadoop大数据平台自2019年10月份完成平台及客户画像应用部署,加载了客户评级信息、个人客户信息、客户地址信息、活期存款信息、定期存款信息、贷款账户信息、贷款本金信息、还款计划信息、贷款利息信息、股权账户信息、集中签约信息、活期明细信息、定期卡片信息中间业务信息、个人交易信息、公务卡信息、商户注册信息、黑名单信息、汇率信息等34类数据,支持个人客户1.19亿、活期数据1.61亿、定期数据1.69亿、贷款数据2800万、明细数据93.35亿、流水数据108.38亿、以及其他数据共计212.1亿。从基本特征、金融特征、风险特征、行为特征4个维度为为每个服务客户作29类画像,有效支撑营销、风控、经营管理等工作。
项目成效
大数据平台部署上线,为山东农信全面开展数据应用提供了基础平台,有效解决业务发展中遇到的海量数据存储管理问题,为数据的加工、分析、挖掘、流处理等计算提供高效的技术工具,通过后续项目实施,可以接入内部、外部数据,对目前客户关系管理、信贷管理、业务拓展、风险管理相关系统提供数据加工和数据服务,对开展产品精准营销、交叉销售、智能获客、客户挽留、用户唤醒、智能授信、智能风控、智能投顾、智能监管等应用打下基础。同时,在建设大数据平台和客户画像应用过程中,不断积累数据分析、数据加工、数据挖掘经验,为大数据平台推广做好支撑。
经验总结
一、项目实施以架构规划为指导,大数据平台建设是企业级数据支撑服务平台,平台建设前需要明确大数据平台定位和项目实施范围,明确大数据平台应用规划,本项目客户画像应用需求为目标,同步开展大数据平台建设,引入数据开发服务平台,为后续大数据应用打好基础;
二、加强业务和科技融合,多部门合作推动大数据平台建设,在需求分析和项目实施过程中,科技部门、业务部门共同分析大数据应用场景,保障了项目有序开展和项目成果落地;
三、充分借鉴同业实施经验,作为新技术应用项目,在项目实施过程中,吸收借鉴股份制银行、农信系统大数据平台建设规划和项目建设经验,提高项目建设效率。
评论留言