返回顶部
关闭软件导航
位置:首页 > 资讯 > 电商资讯>以互联网行业为例谈谈如何构建企业数据平台

  以互联网行业为例(谈谈如何构建企业数据平台)

  从事数据开发工作十多年,经历过银行、电商行业数据开发及系统建设。对数据仓库/ODS/大数据平台架构等数据类系统有一定的经验积累。预备将这么多年来的一些经验整理成文,一来为自己工作做个总结梳理,二来也希望能和大家互相讨论,共同学习,探讨新技术、新架构以及趋势。欢迎大家关注!

  很近在给公司规划新一轮的大数据平台架构,距离上次这么系统做架构工作也有2、3年。时间上关于平台架构的好内容少之又少,所以一直想整理这块内容。既然是漫谈,就想起什么说什么吧。这几年一直在互联网行业,就以互联网行业来说。

  文章目录:

  整体架构

  数据采集

  数据存储与分析

  数据共享

  数据应用

以互联网行业为例谈谈如何构建企业数据平台1

  机器学习

  Ad-Hoc查询

  离线计算

  实时计算

  数据可视化

  任务调度与监控

  互联网发展了好多年,数据平台也已经相当成熟了。数据仓库以及数据平台在这个行业的应用价值我总结了这样几点:

  整合公司所有业务数据,建立统一的数据中心;

  提供各种数据报表,有给治理层用于数据监控的,也有给各个业务支撑业务的;

  为经营及治理服务,增效降本。比如分析各部门的人力及产出情况,来提升单位时间的产值增效

  为产品/网站运营提供运营数据支持。简单来讲就是通过数据让运营及时了解产品/网站的运营效果;

  为各个业务提供数据支持,成为公司统一的数据交换与提供平台;

  分析用户行为数据,比如数据挖掘来降低投入成本,提高投入效果;比如广告定向精准投放、用户个性化推荐等;

  开发数据产品,直接或间接为公司盈利;

  建设开放数据平台,开放公司数据;

  ……

  上面列出的内容看上去和传统行业数据仓库用途差不多,并且都要求数据仓库/数据平台有很好的稳定性、可靠性。但在互联网行业包括目前银行保险零售等以C端客户服务为主导的行业,除了数据量大之外,越来越多的业务要求时效性,甚至很多是要求实时的 。互联网行业的业务变化非常快,不可能像传统行业一样,可以使用自顶向下的方法建立数据仓库,一劳永逸,它要求新的业务很快能融入数据仓库中来,老的下线的业务,能很方便的从现有的数据仓库中下线。

  其实,互联网行业的数据仓库就是所谓的灵敏数据仓库,不但要求能快速的响应数据,也要求能快速的响应业务。

  建设灵敏数据仓库,除了对架构技术上的要求之外,还有一个很重要的方面,就是数据建模,假如一上来就想着建立一套能兼容所有数据和业务的数据模型,那就又回到传统数据仓库的建设上了,很难满足对业务变化的快速响应。应对这种情况,一般是先将核心的持久化的业务进行深度建模。比如基于网站日志建立的网站统计分析模型和用户浏览轨迹模型;基于公司核心用户数据建立的用户模型。其它的业务一般都采用维度+宽表的方式来建立数据模型。——这块是后话。

  整体架构

  下面的图是我目前规划的数据平台架构图,其实大多公司应该都差不多:

  逻辑上,一般都有数据采集层、数据存储层,数据分析层、数据共享层、数据应用层。可能叫法有所不同,大家看图都能理解,本质上的角色都大同小异。

  数据采集

以互联网行业为例谈谈如何构建企业数据平台2

  数据采集层的任务就是把数据从各种数据源中采集和存储到数据存储上,在这个过程中可能会做一些简单的清洗。

  对于关系型数据库以及部分NOSQL(Redis、MongoDB)中的数据,仍然使用DataHub按天、按小时,增量抽取到HDFS,映射到Hive表。对于日志数据,使用Flume从日志收集服务器实时抽取到Kafka,再使用Flume,从Kafka抽取到HDFS,映射到Hive表。

  数据源的种类比较多:

  ① 网站日志:

  互联网行业网站日志占的份额很大。网站日志存储在多台网站日志服务器上,一般是在每台网站日志服务器上部署flume agent,实时的收集网站日志并存储到HDFS上。

  ② 业务数据库:

如果您觉得 以互联网行业为例谈谈如何构建企业数据平台 这篇文章对您有用,请分享给您的好友,谢谢
文章地址:https://www.tianxianmao.com/article/online/4208.html
解放双手无尽可能,有问题添加天线猫微信