This project builds an offline data warehouse based on the 2020 Github annual logs provided by OpenDigger.
在此之前,已经在B站学习过数仓项目,但是学完总感觉空落落的,感觉学了东西,又感觉没有学东西。 很幸运的是学校与华师大X-Lab实验室有交集,并了解到了该实验室的开源项目OpenDigger,并且提供了2020年GitHub的全域开发者行为数据,并且已经在阿里云上搭建了服务器,所以在github上进行一个回忆记录,内容可能不完善,需要慢慢补充。
目前来说,
- 自己也通过数仓了解到数仓的搭建和构造,并且也开始阅读William H.Inmon的《数据仓库》、跟着B站一些数据总监发布的数仓讲解进行学习。但是感觉数仓的建模以及搭建不像大数据的其他技术栈学习后就会使用,其本身需要不断地了解那种建模思想和实际应用才能从中不断地提取自己想要地内容,不断地进行优化,所以也很清楚距离自己能够真正搭建中规中矩的数仓还是有很长一段路需要走🐢。
- 另一方面,正好有亿级别地开发者行为数据。
介于此,正好可以将自己学习地内容通过实践来进行一个提升,在实际构建地过程中思考🤯:
- 数仓建模地目的
- 如何梳理业务流程
- 为什么要进行数仓地建模
- 如何进行数仓的建模
- 之后如何进行优化?
- 数仓的扩展性如何?
其实还有很多的问题,这些问题在之后的记录中不断地记录并解答,如果有新的问题,再标注进来同时做好问题的时序,防止重复地陷入某个问题中去。
🐂“纸上得来终觉浅,绝知此事要躬行”🐂
好了进入正题🎉:
该 project 主要用来帮助自己更好的熟悉离线数据仓库的搭建过程,从数仓的业务梳理、建模到分层等各个环节。
提交的大部分内容可能包含了一些笔记、图片或者一些代码片段,记录了自己从0搭建的整个过程。
一定会存在问题或者漏洞,假如作为更加了解数仓各个环节的你能为我提出一些建议和改进的方法,我会倍感荣幸和兴奋!😆🤩
项目目前包含以下内容:
-
数仓构建前的一些思考
-
梳理开发者业务流程
-
维度建模构建数仓各层级
-
服务器规划/ 数据准备/
项目还在持续的更新完善中 ... 🐢🐢🐢