Spark+ClickHouse实战企业级数据仓库,进军大厂必备
价格
¥399.00元
454次学习
试看 立即购买

现阶段的数据开发领域,数据仓库作为企业战略决策的“大脑”,地位日益凸显,对数仓技术的掌握程度也成了大厂面试必考的一环。本课程结合ClickHouse+Spark 这一对数据处理的“黄金搭档”,选取“大数据量企业数据仓库“这一典型场景,实战大数据量下数仓的建模、设计与调优等实用技巧,快速掌握ClickHouse+Spark核心技能,为晋级大数据架构师铺路!

数据仓库被广泛应用于互联网业务中,就业前景极为广阔



结合热门技术,实战企业级数仓项目,轻松掌握高薪数据工程师必备技能

全方位提升项目开发经验,上手 ClickHouse+Spark,实现个人的成长蜕变


通过更贴近生产实践的案例,掌握多种实用方案,满足复杂业务需求


遵照数仓分层模型,实战数据处理的各个环节,构建实用技术体系




从0到1搭建项目开发环境,快速上手大数据开发
1、
大数据时代,你还不知道数据仓库么?
00:10:28
2、
本章概览
00:02:05
3、
基于IDEA + Maven构建Spark工程
00:12:18
4、
源码、启动脚本、配置等自动构建打包
00:13:07
5、
项目多模块规划与自动构建打包
00:16:11
项目关键技术准备,学习通用的数据处理技术
6、
本章概览
00:04:00
7、
IPv4和数值转换
00:10:51
8、
IP地址简写和全写的格式转换
00:04:23
9、
IP地址二分查找
00:12:24
10、
Spark自定义IP函数
00:04:26
11、
初识Grok通用数据解析器
00:15:57
12、
在程序中解析Grok
00:07:23
13、
自定义Grok表达式
00:06:37
14、
Grok工具类封装
00:05:57
15、
在Spark中集成Grok
00:09:43
16、
Grok的序列化问题与源码修改
00:05:48
项目数据准备,操练基于Spark的数据开发与优化
17、
本章概览
00:01:31
18、
项目业务数据
00:06:29
19、
生成IP、域名、IP位置的中间数据(上)
00:09:05
20、
生成IP、域名、IP位置的中间数据(下)
00:13:56
21、
生成域名备案、IP位置、违规实体数据
00:09:43
22、
基于Grok模拟安全访问日志
00:16:55
23、
安全访问日志生成之广播变量优化
00:02:49
初识OLAP数仓架构
24、
本章概览
00:01:09
25、
基于Lambda架构的数仓
00:05:54
26、
基于Kappa架构的数仓
00:02:53
27、
基于实时OLAP架构的数仓
00:06:19
详解数据仓库基础理论,掌握数据仓库的实施流程
28、
本章概览
00:02:42
29、
数据仓库的定义
00:05:25
30、
3NF范式建模
00:04:23
31、
Kimball和Inmon数据仓库架构
00:04:57
32、
数据仓库建模方法
00:06:26
33、
事实表与维度表
00:05:58
34、
星型、雪花和星座维度模型
00:03:27
35、
数据仓库构建流程
00:05:21
36、
数据仓库分层模型
00:08:48
【项目实战第一篇】项目业务流程与ODS层数据同步
37、
课程目录
00:01:25
38、
项目业务流程与技术架构
00:03:26
39、
ODS数据同步技术架构
00:05:10
40、
基于HDFS API的数据同步
00:17:30
41、
基于HDFS API的数据同步工具封装
00:17:37
42、
业务数据库的数据同步
00:11:48
快速上手OLAP分析引擎ClickHouse
43、
本章概览
00:01:56
44、
初识OLAP分析引擎ClickHouse
00:13:10
45、
ClickHouse与MySQL、Hbase、Elasticsearch
00:05:38
46、
ClickHouse单机版安装
00:02:22
47、
ClickHouse快速入门
00:06:55
48、
ClickHouse-client使用
00:14:28
49、
可视化工具DBeaver安装配置
00:05:35
50、
ClickHouse表引擎快速入门
00:05:43
51、
ClickHouse学习建议
00:07:44
基于Spark源码自定义ClickHouse外部数据源,简化数据写入流程
52、
本章概览
00:02:15
53、
JDBC操作ClickHouse
00:15:35
54、
???用Spark将数据写入ClickHouse
00:14:45
55、
Spark写ClickHouse的配置化改造
00:13:13
56、
在Spark中集成写ClickHouse的通用能力
00:22:52
57、
基于Spark源码自定义ClickHouse外部数据源
00:20:46
数仓高级之维度模型设计
58、
本章概览
00:02:24
59、
维度相关基本概念
00:05:43
60、
维度设计的基本方法
00:03:08
61、
维度设计的反规范化
00:03:08
62、
一致性维度集成
00:03:57
63、
维度模型设计原则和方式
00:10:07
64、
缓慢变化维度SCD
00:12:40
65、
维度的层次关系
00:06:29
66、
其他常见的维度模型
00:06:05
【项目实战第二篇】构建项目公共维度层
67、
本章概览
00:01:56
68、
反规范化维度合并之应用内容的模型设计与实现
00:18:41
69、
公共方法封装
00:04:41
70、
维度合并拆分之IP域名备案模型设计
00:02:28
71、
IP域名备案维度代码实现
00:08:43
72、
违规IP域名数据入库
00:07:42
73、
维度层次结构扁平化之IP地址段区域维度模型设计
00:03:46
74、
IP地址段区域维度代码实现
00:10:26
ClickHouse的MergeTree系列引擎原理、实践与优化
75、
本章概览
00:02:29
76、
表引擎概述
00:04:36
77、
MergeTree引擎
00:14:07
78、
数据片段存储合并机制与自定义分区
00:12:41
79、
主键、索引、数据标记的工作机制
00:08:34
80、
性能优化利器之跳数索引的基本使用
00:26:18
81、
性能优化利器之跳数索引实现原理与使用场景
00:11:31
82、
性能优化利器之Projection
00:18:30
83、
ReplacingMergeTree引擎
00:09:10
84、
SummingMergeTree引擎
00:05:22
85、
AggregatingMergeTree引擎
00:11:18
86、
CollapsingMergeTree引擎
00:08:32
87、
VersionedCollapsingMergeTree引擎
00:04:21
88、
MergeTree系列引擎选型对比
00:11:09
89、
数据实时更新删除
00:13:02
数仓高级之事实表模型设计
90、
本章概览
00:01:34
91、
事实表设计过程
00:09:10
92、
事务、无事实事实表模型设计
00:08:03
93、
多事务事实表模型设计
00:06:58
94、
周期快照事实表模型设计
00:04:24
95、
累积快照事实表模型设计
00:08:12
96、
聚集事实表模型设计
00:03:17
97、
六类事实表对比
00:03:21
【项目实战第三篇】数据清洗加工,构建项目数据明细层
98、
本章概览
00:01:58
99、
事务无事实事实表模型建模
00:05:40
100、
日志事务事实表代码实现(上)
00:16:20
101、
日志事务事实表代码实现(下)
00:13:53
102、
日志拦截无事实事实表代码实现
00:08:46
103、
累计快照事实表建模与代码实现
00:06:50
104、
Spark资源参数调优
00:18:42
105、
大数据量场景下的程序部署与优化实践
00:11:19
106、
周期性快照事实表模型设计与实现
00:09:57
构建ClickHouse分布式集群,掌握分布式环境的数据查询、写入优化方案
107、
本章概览
00:01:08
108、
集群规划与环境准备
00:09:02
109、
ClickHouse集群安装配置
00:13:55
110、
ClickHouse集群功能验证
00:12:05
111、
ClickHouse的原子写入与去重
00:04:05
112、
复制表与副本同步机制
00:07:21
113、
分布式表与本地表
00:06:13
【项目实战第四篇】负载均衡与高可用方案实践,自定义Spark写本地分片表策略
114、
本章概览
00:01:40
115、
负载均衡与高可用五问
00:03:54
116、
分布式请求的副本高可用和负载均衡
00:03:16
117、
基于代码层面的负载均衡与高可用
00:03:17
118、
基于Nginx反向代理TCP与HTTP的负载均衡与高可用
00:18:31
119、
基于Chproxy的负载均衡与高可用
00:14:32
120、
Spark如何写本地表方案
00:05:00
121、
Spark写本地表之随机策略代码实现
00:16:16
122、
Spark写本地表之轮询策略代码实现
00:04:39
123、
大数据量场景写ClickHouse集群的程序部署与优化
00:09:34
124、
Spark自定义分片路由与方案总结
00:03:24
【项目实战第五篇】如何选择合适的维度表存储方案
125、
本章概览
00:02:01
126、
Log系列引擎
00:05:47
127、
MySQL引擎
00:09:30
128、
HDFS引擎与HA配置
00:09:32
129、
高性能数据检索的RocksDB引擎
00:09:44
130、
Merge表引擎
00:05:03
131、
Join表引擎
00:07:51
132、
深入浅出ClickHouse数据字典(上)
00:20:47
133、
深入浅出ClickHouse数据字典(下)
00:15:25
134、
分布式场景的表关联子查询的运行流程与优化
00:04:29
135、
分布式场景下的维度表存储选型优化
00:05:59
136、
项目的维度表存储优化
00:11:52
【项目实战第六篇】数据汇总层与应用查询优化
137、
本章概览
00:01:40
138、
主键与排序键优化
00:06:11
139、
聚合查询优化
00:04:45
140、
物化视图提速
00:05:05
141、
DWS层之IP流量监测主题
00:14:43
142、
DWS层之区域流量分析主题
00:11:20
143、
构建数据应用层(ADS)
00:16:42
144、
应用查询优化案例
00:06:21
145、
数据写入与查询优化常用经验法则
00:02:12
【项目实战第七篇】基于轻量级BI工具的数据展示与可视化监控
146、
本章概览
00:01:41
147、
基于轻量级BI工具的数据可视化效果
00:02:16
148、
Superset环境搭建与基本使用
00:13:02
149、
Superset查询分析可视化展示
00:10:50
150、
Grafana的安装与ClickHouse数据源管理
00:07:15
151、
Granfana查询分析可视化展示
00:09:14
152、
ClickHouse监控概述
00:02:32
153、
ClickHouse系统表+ Granfana可视化监控
00:02:54
154、
Promethues安装与ClickHouse的metric采集
00:04:26
155、
prometheus + Granfana可视化监控
00:03:34
数仓管理之调度系统DolphinScheduler 3.x
156、
本章概览
00:03:51
157、
我们为什么需要配合调度系统
00:07:32
158、
DolphinScheduler单机部署
00:04:32
159、
快速上手DolphinScheduler
00:12:27
160、
DolphinScheduler源码编译
00:02:43
161、
DolphinScheduler伪集群安装
00:14:45
162、
工作流管理之子流程管理
00:03:41
163、
工作流管理之依赖检查管理
00:07:51
164、
工作流管理之Conditions条件分支判断
00:05:16
165、
工作流管理之Switch条件分支判断
00:04:24
166、
本地和HDFS两种文件资源管理方式
00:15:52
167、
内置参数、本地参数、全局参数和参数传递
00:14:12
168、
如何动态生成自定义参数
00:08:15
169、
Spark任务节点管理
00:10:05
170、
流程告警管理
00:07:11
171、
数仓项目之文件数据源同步
00:20:37
172、
数仓项目之Spark工作流调度
00:09:23
构建现代数据技术栈的元数据管理平台
173、
本章概览
00:04:00
174、
为什么数仓管理中需要元数据管理
00:11:50
175、
元数据体系架构的演进
00:10:12
176、
DataHub的元数据体系架构
00:07:03
177、
DataHub元数据系统搭建
00:09:41
178、
基于Pull(拉取)流程的元数据摄取
00:03:29
179、
基于Pull的元数据摄取实践
00:06:56
180、
DataHub的MetaData元数据模型
00:07:48
181、
基于Kafka的Sink接收器同步MySQL元数据
00:06:54
182、
ClickHouse的元数据摄取实践
00:06:08
183、
可视化BI工具的元数据摄取
00:02:52
184、
构建数据集之间的血缘链路实践
00:05:18
185、
构建数据集与可视化BI工具的血缘链路实践
00:04:08
通用数据质量管理实践
186、
本章概览
00:03:29
187、
如果数仓不考虑数据质量会有什么危害
00:06:31
188、
数据质量评估标准
00:05:55
189、
数据质量管理架构与数据模型
00:08:23
190、
通用数据质量管理工具之配置逻辑
00:16:28
191、
通用数据质量管理工具之代码实践
00:19:54
192、
通用数据质量管理工具之历史周期性质量指标对比
00:07:36
193、
单数据源的检查之唯一性校验
00:06:30
194、
单数据源的检查之表字段长度校验
00:04:51
195、
单数据源的检查之表记录数检查
00:03:20
196、
单数据源的检查之枚举值校验
00:04:10
197、
多数据源检查之准确性检查
00:05:39
主办方简介
慕课网
慕课网隶属于北京奥鹏远程教育中心有限公司。我们是IT教育行业的造梦者,也是前沿技术内容的创造者和传播者! 作为国内深受欢迎的互联网IT技能学习网站,慕课网自2013年成立至今,始终专注IT在线教育,以培养互联网企业实用型人才为 己任,邀请一线大厂技术达人打造前沿的IT技术精品课程,赋能全球范围内每一位有梦想、有志向的开发者实现职业梦想。
联系我们
联系地址:北京TBD云集中心4号楼
联系电话:010-80751659   13810398406
CIO同学会小程序
CIO同学会公众号
技术支持:北京微令信息科技有限公司
京ICP备06042438号-1