登录
首页
联盟介绍
联盟资讯
课程中心
特邀专家
合作伙伴
Spark+ClickHouse实战企业级数据仓库,进军大厂必备
470次学习
主讲人:
慕课网
目录
1、大数据时代,你还不知道数据仓库么?
10分钟28秒
2、本章概览
2分钟5秒
3、基于IDEA + Maven构建Spark工程
12分钟18秒
4、源码、启动脚本、配置等自动构建打包
13分钟7秒
5、项目多模块规划与自动构建打包
16分钟11秒
6、本章概览
4分钟
7、IPv4和数值转换
10分钟51秒
8、IP地址简写和全写的格式转换
4分钟23秒
9、IP地址二分查找
12分钟24秒
10、Spark自定义IP函数
4分钟26秒
11、初识Grok通用数据解析器
15分钟57秒
12、在程序中解析Grok
7分钟23秒
13、自定义Grok表达式
6分钟37秒
14、Grok工具类封装
5分钟57秒
15、在Spark中集成Grok
9分钟43秒
16、Grok的序列化问题与源码修改
5分钟48秒
17、本章概览
1分钟31秒
18、项目业务数据
6分钟29秒
19、生成IP、域名、IP位置的中间数据(上)
9分钟5秒
20、生成IP、域名、IP位置的中间数据(下)
13分钟56秒
21、生成域名备案、IP位置、违规实体数据
9分钟43秒
22、基于Grok模拟安全访问日志
16分钟55秒
23、安全访问日志生成之广播变量优化
2分钟49秒
24、本章概览
1分钟9秒
25、基于Lambda架构的数仓
5分钟54秒
26、基于Kappa架构的数仓
2分钟53秒
27、基于实时OLAP架构的数仓
6分钟19秒
28、本章概览
2分钟42秒
29、数据仓库的定义
5分钟25秒
30、3NF范式建模
4分钟23秒
31、Kimball和Inmon数据仓库架构
4分钟57秒
32、数据仓库建模方法
6分钟26秒
33、事实表与维度表
5分钟58秒
34、星型、雪花和星座维度模型
3分钟27秒
35、数据仓库构建流程
5分钟21秒
36、数据仓库分层模型
8分钟48秒
37、课程目录
1分钟25秒
38、项目业务流程与技术架构
3分钟26秒
39、ODS数据同步技术架构
5分钟10秒
40、基于HDFS API的数据同步
17分钟30秒
41、基于HDFS API的数据同步工具封装
17分钟37秒
42、业务数据库的数据同步
11分钟48秒
43、本章概览
1分钟56秒
44、初识OLAP分析引擎ClickHouse
13分钟10秒
45、ClickHouse与MySQL、Hbase、Elasticsearch
5分钟38秒
46、ClickHouse单机版安装
2分钟22秒
47、ClickHouse快速入门
6分钟55秒
48、ClickHouse-client使用
14分钟28秒
49、可视化工具DBeaver安装配置
5分钟35秒
50、ClickHouse表引擎快速入门
5分钟43秒
51、ClickHouse学习建议
7分钟44秒
52、本章概览
2分钟15秒
53、JDBC操作ClickHouse
15分钟35秒
54、???用Spark将数据写入ClickHouse
14分钟45秒
55、Spark写ClickHouse的配置化改造
13分钟13秒
56、在Spark中集成写ClickHouse的通用能力
22分钟52秒
57、基于Spark源码自定义ClickHouse外部数据源
20分钟46秒
58、本章概览
2分钟24秒
59、维度相关基本概念
5分钟43秒
60、维度设计的基本方法
3分钟8秒
61、维度设计的反规范化
3分钟8秒
62、一致性维度集成
3分钟57秒
63、维度模型设计原则和方式
10分钟7秒
64、缓慢变化维度SCD
12分钟40秒
65、维度的层次关系
6分钟29秒
66、其他常见的维度模型
6分钟5秒
67、本章概览
1分钟56秒
68、反规范化维度合并之应用内容的模型设计与实现
18分钟41秒
69、公共方法封装
4分钟41秒
70、维度合并拆分之IP域名备案模型设计
2分钟28秒
71、IP域名备案维度代码实现
8分钟43秒
72、违规IP域名数据入库
7分钟42秒
73、维度层次结构扁平化之IP地址段区域维度模型设计
3分钟46秒
74、IP地址段区域维度代码实现
10分钟26秒
75、本章概览
2分钟29秒
76、表引擎概述
4分钟36秒
77、MergeTree引擎
14分钟7秒
78、数据片段存储合并机制与自定义分区
12分钟41秒
79、主键、索引、数据标记的工作机制
8分钟34秒
80、性能优化利器之跳数索引的基本使用
26分钟18秒
81、性能优化利器之跳数索引实现原理与使用场景
11分钟31秒
82、性能优化利器之Projection
18分钟30秒
83、ReplacingMergeTree引擎
9分钟10秒
84、SummingMergeTree引擎
5分钟22秒
85、AggregatingMergeTree引擎
11分钟18秒
86、CollapsingMergeTree引擎
8分钟32秒
87、VersionedCollapsingMergeTree引擎
4分钟21秒
88、MergeTree系列引擎选型对比
11分钟9秒
89、数据实时更新删除
13分钟2秒
90、本章概览
1分钟34秒
91、事实表设计过程
9分钟10秒
92、事务、无事实事实表模型设计
8分钟3秒
93、多事务事实表模型设计
6分钟58秒
94、周期快照事实表模型设计
4分钟24秒
95、累积快照事实表模型设计
8分钟12秒
96、聚集事实表模型设计
3分钟17秒
97、六类事实表对比
3分钟21秒
98、本章概览
1分钟58秒
99、事务无事实事实表模型建模
5分钟40秒
100、日志事务事实表代码实现(上)
16分钟20秒
101、日志事务事实表代码实现(下)
13分钟53秒
102、日志拦截无事实事实表代码实现
8分钟46秒
103、累计快照事实表建模与代码实现
6分钟50秒
104、Spark资源参数调优
18分钟42秒
105、大数据量场景下的程序部署与优化实践
11分钟19秒
106、周期性快照事实表模型设计与实现
9分钟57秒
107、本章概览
1分钟8秒
108、集群规划与环境准备
9分钟2秒
109、ClickHouse集群安装配置
13分钟55秒
110、ClickHouse集群功能验证
12分钟5秒
111、ClickHouse的原子写入与去重
4分钟5秒
112、复制表与副本同步机制
7分钟21秒
113、分布式表与本地表
6分钟13秒
114、本章概览
1分钟40秒
115、负载均衡与高可用五问
3分钟54秒
116、分布式请求的副本高可用和负载均衡
3分钟16秒
117、基于代码层面的负载均衡与高可用
3分钟17秒
118、基于Nginx反向代理TCP与HTTP的负载均衡与高可用
18分钟31秒
119、基于Chproxy的负载均衡与高可用
14分钟32秒
120、Spark如何写本地表方案
5分钟
121、Spark写本地表之随机策略代码实现
16分钟16秒
122、Spark写本地表之轮询策略代码实现
4分钟39秒
123、大数据量场景写ClickHouse集群的程序部署与优化
9分钟34秒
124、Spark自定义分片路由与方案总结
3分钟24秒
125、本章概览
2分钟1秒
126、Log系列引擎
5分钟47秒
127、MySQL引擎
9分钟30秒
128、HDFS引擎与HA配置
9分钟32秒
129、高性能数据检索的RocksDB引擎
9分钟44秒
130、Merge表引擎
5分钟3秒
131、Join表引擎
7分钟51秒
132、深入浅出ClickHouse数据字典(上)
20分钟47秒
133、深入浅出ClickHouse数据字典(下)
15分钟25秒
134、分布式场景的表关联子查询的运行流程与优化
4分钟29秒
135、分布式场景下的维度表存储选型优化
5分钟59秒
136、项目的维度表存储优化
11分钟52秒
137、本章概览
1分钟40秒
138、主键与排序键优化
6分钟11秒
139、聚合查询优化
4分钟45秒
140、物化视图提速
5分钟5秒
141、DWS层之IP流量监测主题
14分钟43秒
142、DWS层之区域流量分析主题
11分钟20秒
143、构建数据应用层(ADS)
16分钟42秒
144、应用查询优化案例
6分钟21秒
145、数据写入与查询优化常用经验法则
2分钟12秒
146、本章概览
1分钟41秒
147、基于轻量级BI工具的数据可视化效果
2分钟16秒
148、Superset环境搭建与基本使用
13分钟2秒
149、Superset查询分析可视化展示
10分钟50秒
150、Grafana的安装与ClickHouse数据源管理
7分钟15秒
151、Granfana查询分析可视化展示
9分钟14秒
152、ClickHouse监控概述
2分钟32秒
153、ClickHouse系统表+ Granfana可视化监控
2分钟54秒
154、Promethues安装与ClickHouse的metric采集
4分钟26秒
155、prometheus + Granfana可视化监控
3分钟34秒
156、本章概览
3分钟51秒
157、我们为什么需要配合调度系统
7分钟32秒
158、DolphinScheduler单机部署
4分钟32秒
159、快速上手DolphinScheduler
12分钟27秒
160、DolphinScheduler源码编译
2分钟43秒
161、DolphinScheduler伪集群安装
14分钟45秒
162、工作流管理之子流程管理
3分钟41秒
163、工作流管理之依赖检查管理
7分钟51秒
164、工作流管理之Conditions条件分支判断
5分钟16秒
165、工作流管理之Switch条件分支判断
4分钟24秒
166、本地和HDFS两种文件资源管理方式
15分钟52秒
167、内置参数、本地参数、全局参数和参数传递
14分钟12秒
168、如何动态生成自定义参数
8分钟15秒
169、Spark任务节点管理
10分钟5秒
170、流程告警管理
7分钟11秒
171、数仓项目之文件数据源同步
20分钟37秒
172、数仓项目之Spark工作流调度
9分钟23秒
173、本章概览
4分钟
174、为什么数仓管理中需要元数据管理
11分钟50秒
175、元数据体系架构的演进
10分钟12秒
176、DataHub的元数据体系架构
7分钟3秒
177、DataHub元数据系统搭建
9分钟41秒
178、基于Pull(拉取)流程的元数据摄取
3分钟29秒
179、基于Pull的元数据摄取实践
6分钟56秒
180、DataHub的MetaData元数据模型
7分钟48秒
181、基于Kafka的Sink接收器同步MySQL元数据
6分钟54秒
182、ClickHouse的元数据摄取实践
6分钟8秒
183、可视化BI工具的元数据摄取
2分钟52秒
184、构建数据集之间的血缘链路实践
5分钟18秒
185、构建数据集与可视化BI工具的血缘链路实践
4分钟8秒
186、本章概览
3分钟29秒
187、如果数仓不考虑数据质量会有什么危害
6分钟31秒
188、数据质量评估标准
5分钟55秒
189、数据质量管理架构与数据模型
8分钟23秒
190、通用数据质量管理工具之配置逻辑
16分钟28秒
191、通用数据质量管理工具之代码实践
19分钟54秒
192、通用数据质量管理工具之历史周期性质量指标对比
7分钟36秒
193、单数据源的检查之唯一性校验
6分钟30秒
194、单数据源的检查之表字段长度校验
4分钟51秒
195、单数据源的检查之表记录数检查
3分钟20秒
196、单数据源的检查之枚举值校验
4分钟10秒
197、多数据源检查之准确性检查
5分钟39秒
试看中,可以免费试看前2分钟视频,试看结束后,需要购买才可以继续观看。
联系我们
联系地址:北京TBD云集中心4号楼
联系电话:010-80751659 13810398406
CIO同学会小程序
CIO同学会公众号
技术支持:北京微令信息科技有限公司
京ICP备06042438号-1
登录
用户名密码登录
验证码登录
获取验证码
登录
忘记密码?
注册新用户
找回密码
获取验证码
确定
注册
获取验证码
确定
提示
×
本课程仅对会员开放,请登录后查看!
提示
×
提示内容