Spark+ClickHouse实战企业级数据仓库,进军大厂必备
470次学习
主讲人:
慕课网
目录
  • 1、大数据时代,你还不知道数据仓库么?
    10分钟28秒
  • 2、本章概览
    2分钟5秒
  • 3、基于IDEA + Maven构建Spark工程
    12分钟18秒
  • 4、源码、启动脚本、配置等自动构建打包
    13分钟7秒
  • 5、项目多模块规划与自动构建打包
    16分钟11秒
  • 6、本章概览
    4分钟
  • 7、IPv4和数值转换
    10分钟51秒
  • 8、IP地址简写和全写的格式转换
    4分钟23秒
  • 9、IP地址二分查找
    12分钟24秒
  • 10、Spark自定义IP函数
    4分钟26秒
  • 11、初识Grok通用数据解析器
    15分钟57秒
  • 12、在程序中解析Grok
    7分钟23秒
  • 13、自定义Grok表达式
    6分钟37秒
  • 14、Grok工具类封装
    5分钟57秒
  • 15、在Spark中集成Grok
    9分钟43秒
  • 16、Grok的序列化问题与源码修改
    5分钟48秒
  • 17、本章概览
    1分钟31秒
  • 18、项目业务数据
    6分钟29秒
  • 19、生成IP、域名、IP位置的中间数据(上)
    9分钟5秒
  • 20、生成IP、域名、IP位置的中间数据(下)
    13分钟56秒
  • 21、生成域名备案、IP位置、违规实体数据
    9分钟43秒
  • 22、基于Grok模拟安全访问日志
    16分钟55秒
  • 23、安全访问日志生成之广播变量优化
    2分钟49秒
  • 24、本章概览
    1分钟9秒
  • 25、基于Lambda架构的数仓
    5分钟54秒
  • 26、基于Kappa架构的数仓
    2分钟53秒
  • 27、基于实时OLAP架构的数仓
    6分钟19秒
  • 28、本章概览
    2分钟42秒
  • 29、数据仓库的定义
    5分钟25秒
  • 30、3NF范式建模
    4分钟23秒
  • 31、Kimball和Inmon数据仓库架构
    4分钟57秒
  • 32、数据仓库建模方法
    6分钟26秒
  • 33、事实表与维度表
    5分钟58秒
  • 34、星型、雪花和星座维度模型
    3分钟27秒
  • 35、数据仓库构建流程
    5分钟21秒
  • 36、数据仓库分层模型
    8分钟48秒
  • 37、课程目录
    1分钟25秒
  • 38、项目业务流程与技术架构
    3分钟26秒
  • 39、ODS数据同步技术架构
    5分钟10秒
  • 40、基于HDFS API的数据同步
    17分钟30秒
  • 41、基于HDFS API的数据同步工具封装
    17分钟37秒
  • 42、业务数据库的数据同步
    11分钟48秒
  • 43、本章概览
    1分钟56秒
  • 44、初识OLAP分析引擎ClickHouse
    13分钟10秒
  • 45、ClickHouse与MySQL、Hbase、Elasticsearch
    5分钟38秒
  • 46、ClickHouse单机版安装
    2分钟22秒
  • 47、ClickHouse快速入门
    6分钟55秒
  • 48、ClickHouse-client使用
    14分钟28秒
  • 49、可视化工具DBeaver安装配置
    5分钟35秒
  • 50、ClickHouse表引擎快速入门
    5分钟43秒
  • 51、ClickHouse学习建议
    7分钟44秒
  • 52、本章概览
    2分钟15秒
  • 53、JDBC操作ClickHouse
    15分钟35秒
  • 54、???用Spark将数据写入ClickHouse
    14分钟45秒
  • 55、Spark写ClickHouse的配置化改造
    13分钟13秒
  • 56、在Spark中集成写ClickHouse的通用能力
    22分钟52秒
  • 57、基于Spark源码自定义ClickHouse外部数据源
    20分钟46秒
  • 58、本章概览
    2分钟24秒
  • 59、维度相关基本概念
    5分钟43秒
  • 60、维度设计的基本方法
    3分钟8秒
  • 61、维度设计的反规范化
    3分钟8秒
  • 62、一致性维度集成
    3分钟57秒
  • 63、维度模型设计原则和方式
    10分钟7秒
  • 64、缓慢变化维度SCD
    12分钟40秒
  • 65、维度的层次关系
    6分钟29秒
  • 66、其他常见的维度模型
    6分钟5秒
  • 67、本章概览
    1分钟56秒
  • 68、反规范化维度合并之应用内容的模型设计与实现
    18分钟41秒
  • 69、公共方法封装
    4分钟41秒
  • 70、维度合并拆分之IP域名备案模型设计
    2分钟28秒
  • 71、IP域名备案维度代码实现
    8分钟43秒
  • 72、违规IP域名数据入库
    7分钟42秒
  • 73、维度层次结构扁平化之IP地址段区域维度模型设计
    3分钟46秒
  • 74、IP地址段区域维度代码实现
    10分钟26秒
  • 75、本章概览
    2分钟29秒
  • 76、表引擎概述
    4分钟36秒
  • 77、MergeTree引擎
    14分钟7秒
  • 78、数据片段存储合并机制与自定义分区
    12分钟41秒
  • 79、主键、索引、数据标记的工作机制
    8分钟34秒
  • 80、性能优化利器之跳数索引的基本使用
    26分钟18秒
  • 81、性能优化利器之跳数索引实现原理与使用场景
    11分钟31秒
  • 82、性能优化利器之Projection
    18分钟30秒
  • 83、ReplacingMergeTree引擎
    9分钟10秒
  • 84、SummingMergeTree引擎
    5分钟22秒
  • 85、AggregatingMergeTree引擎
    11分钟18秒
  • 86、CollapsingMergeTree引擎
    8分钟32秒
  • 87、VersionedCollapsingMergeTree引擎
    4分钟21秒
  • 88、MergeTree系列引擎选型对比
    11分钟9秒
  • 89、数据实时更新删除
    13分钟2秒
  • 90、本章概览
    1分钟34秒
  • 91、事实表设计过程
    9分钟10秒
  • 92、事务、无事实事实表模型设计
    8分钟3秒
  • 93、多事务事实表模型设计
    6分钟58秒
  • 94、周期快照事实表模型设计
    4分钟24秒
  • 95、累积快照事实表模型设计
    8分钟12秒
  • 96、聚集事实表模型设计
    3分钟17秒
  • 97、六类事实表对比
    3分钟21秒
  • 98、本章概览
    1分钟58秒
  • 99、事务无事实事实表模型建模
    5分钟40秒
  • 100、日志事务事实表代码实现(上)
    16分钟20秒
  • 101、日志事务事实表代码实现(下)
    13分钟53秒
  • 102、日志拦截无事实事实表代码实现
    8分钟46秒
  • 103、累计快照事实表建模与代码实现
    6分钟50秒
  • 104、Spark资源参数调优
    18分钟42秒
  • 105、大数据量场景下的程序部署与优化实践
    11分钟19秒
  • 106、周期性快照事实表模型设计与实现
    9分钟57秒
  • 107、本章概览
    1分钟8秒
  • 108、集群规划与环境准备
    9分钟2秒
  • 109、ClickHouse集群安装配置
    13分钟55秒
  • 110、ClickHouse集群功能验证
    12分钟5秒
  • 111、ClickHouse的原子写入与去重
    4分钟5秒
  • 112、复制表与副本同步机制
    7分钟21秒
  • 113、分布式表与本地表
    6分钟13秒
  • 114、本章概览
    1分钟40秒
  • 115、负载均衡与高可用五问
    3分钟54秒
  • 116、分布式请求的副本高可用和负载均衡
    3分钟16秒
  • 117、基于代码层面的负载均衡与高可用
    3分钟17秒
  • 118、基于Nginx反向代理TCP与HTTP的负载均衡与高可用
    18分钟31秒
  • 119、基于Chproxy的负载均衡与高可用
    14分钟32秒
  • 120、Spark如何写本地表方案
    5分钟
  • 121、Spark写本地表之随机策略代码实现
    16分钟16秒
  • 122、Spark写本地表之轮询策略代码实现
    4分钟39秒
  • 123、大数据量场景写ClickHouse集群的程序部署与优化
    9分钟34秒
  • 124、Spark自定义分片路由与方案总结
    3分钟24秒
  • 125、本章概览
    2分钟1秒
  • 126、Log系列引擎
    5分钟47秒
  • 127、MySQL引擎
    9分钟30秒
  • 128、HDFS引擎与HA配置
    9分钟32秒
  • 129、高性能数据检索的RocksDB引擎
    9分钟44秒
  • 130、Merge表引擎
    5分钟3秒
  • 131、Join表引擎
    7分钟51秒
  • 132、深入浅出ClickHouse数据字典(上)
    20分钟47秒
  • 133、深入浅出ClickHouse数据字典(下)
    15分钟25秒
  • 134、分布式场景的表关联子查询的运行流程与优化
    4分钟29秒
  • 135、分布式场景下的维度表存储选型优化
    5分钟59秒
  • 136、项目的维度表存储优化
    11分钟52秒
  • 137、本章概览
    1分钟40秒
  • 138、主键与排序键优化
    6分钟11秒
  • 139、聚合查询优化
    4分钟45秒
  • 140、物化视图提速
    5分钟5秒
  • 141、DWS层之IP流量监测主题
    14分钟43秒
  • 142、DWS层之区域流量分析主题
    11分钟20秒
  • 143、构建数据应用层(ADS)
    16分钟42秒
  • 144、应用查询优化案例
    6分钟21秒
  • 145、数据写入与查询优化常用经验法则
    2分钟12秒
  • 146、本章概览
    1分钟41秒
  • 147、基于轻量级BI工具的数据可视化效果
    2分钟16秒
  • 148、Superset环境搭建与基本使用
    13分钟2秒
  • 149、Superset查询分析可视化展示
    10分钟50秒
  • 150、Grafana的安装与ClickHouse数据源管理
    7分钟15秒
  • 151、Granfana查询分析可视化展示
    9分钟14秒
  • 152、ClickHouse监控概述
    2分钟32秒
  • 153、ClickHouse系统表+ Granfana可视化监控
    2分钟54秒
  • 154、Promethues安装与ClickHouse的metric采集
    4分钟26秒
  • 155、prometheus + Granfana可视化监控
    3分钟34秒
  • 156、本章概览
    3分钟51秒
  • 157、我们为什么需要配合调度系统
    7分钟32秒
  • 158、DolphinScheduler单机部署
    4分钟32秒
  • 159、快速上手DolphinScheduler
    12分钟27秒
  • 160、DolphinScheduler源码编译
    2分钟43秒
  • 161、DolphinScheduler伪集群安装
    14分钟45秒
  • 162、工作流管理之子流程管理
    3分钟41秒
  • 163、工作流管理之依赖检查管理
    7分钟51秒
  • 164、工作流管理之Conditions条件分支判断
    5分钟16秒
  • 165、工作流管理之Switch条件分支判断
    4分钟24秒
  • 166、本地和HDFS两种文件资源管理方式
    15分钟52秒
  • 167、内置参数、本地参数、全局参数和参数传递
    14分钟12秒
  • 168、如何动态生成自定义参数
    8分钟15秒
  • 169、Spark任务节点管理
    10分钟5秒
  • 170、流程告警管理
    7分钟11秒
  • 171、数仓项目之文件数据源同步
    20分钟37秒
  • 172、数仓项目之Spark工作流调度
    9分钟23秒
  • 173、本章概览
    4分钟
  • 174、为什么数仓管理中需要元数据管理
    11分钟50秒
  • 175、元数据体系架构的演进
    10分钟12秒
  • 176、DataHub的元数据体系架构
    7分钟3秒
  • 177、DataHub元数据系统搭建
    9分钟41秒
  • 178、基于Pull(拉取)流程的元数据摄取
    3分钟29秒
  • 179、基于Pull的元数据摄取实践
    6分钟56秒
  • 180、DataHub的MetaData元数据模型
    7分钟48秒
  • 181、基于Kafka的Sink接收器同步MySQL元数据
    6分钟54秒
  • 182、ClickHouse的元数据摄取实践
    6分钟8秒
  • 183、可视化BI工具的元数据摄取
    2分钟52秒
  • 184、构建数据集之间的血缘链路实践
    5分钟18秒
  • 185、构建数据集与可视化BI工具的血缘链路实践
    4分钟8秒
  • 186、本章概览
    3分钟29秒
  • 187、如果数仓不考虑数据质量会有什么危害
    6分钟31秒
  • 188、数据质量评估标准
    5分钟55秒
  • 189、数据质量管理架构与数据模型
    8分钟23秒
  • 190、通用数据质量管理工具之配置逻辑
    16分钟28秒
  • 191、通用数据质量管理工具之代码实践
    19分钟54秒
  • 192、通用数据质量管理工具之历史周期性质量指标对比
    7分钟36秒
  • 193、单数据源的检查之唯一性校验
    6分钟30秒
  • 194、单数据源的检查之表字段长度校验
    4分钟51秒
  • 195、单数据源的检查之表记录数检查
    3分钟20秒
  • 196、单数据源的检查之枚举值校验
    4分钟10秒
  • 197、多数据源检查之准确性检查
    5分钟39秒
试看中,可以免费试看前2分钟视频,试看结束后,需要购买才可以继续观看。
联系我们
联系地址:北京TBD云集中心4号楼
联系电话:010-80751659   13810398406
CIO同学会小程序
CIO同学会公众号
技术支持:北京微令信息科技有限公司
京ICP备06042438号-1