这里分享一些自己学习过程中觉得不错的资料和开发工具。
- 《hadoop 权威指南 (第四版)》 2017 年
- 《Kafka 权威指南》 2017 年
- 《从 Paxos 到 Zookeeper 分布式一致性原理与实践》 2015 年
- 《Spark 技术内幕 深入解析 Spark 内核架构设计与实现原理》 2015 年
- 《Spark.The.Definitive.Guide》 2018 年
- 《HBase 权威指南》 2012 年
- 《Hive 编程指南》 2013 年
- 《快学 Scala(第 2 版)》 2017 年
- 《Scala 编程》 2018 年
上面的书籍我都列出了出版日期,可以看到大部分书籍的出版时间都比较久远了,虽然这些书籍比较经典,但是很多书籍在软件版本上已经滞后了很多。所以推荐优先选择各个框架的官方文档作为学习资料。大数据框架的官方文档都很全面,并且对知识点的讲解都做到了简明扼要。这里以 Spark RDD 官方文档 为例,你会发现不仅清晰的知识点导航,而且所有示例都给出了 Java,Scala,Python 三种语言的版本,除了官方文档,其他书籍很少能够做到这一点。
- 有态度的 HBase/Spark/BigData:http://hbasefly.com/
- 深入 Apache Spark 的设计和实现原理 : https://github.com/JerryLead/SparkInternals
- Jark's Blog - Flink 系列文章:http://wuchong.me/categories/Flink/
一款开源、免费的虚拟机管理软件,虽然是轻量级软件,但功能很丰富,基本能够满足全部的使用需求。
官方网站:https://www.virtualbox.org/
大数据的框架通常都部署在服务器上,这里推荐使用 MobaXterm 进行连接。同样是免费开源的,支持多种连接协议,支持拖拽上传文件,支持使用插件扩展。
官方网站:https://mobaxterm.mobatek.net/
Translate Man 是一款浏览器上的翻译插件 (谷歌和火狐均支持)。它采用谷歌的翻译接口,准确性非常高,支持划词翻译,可以辅助进行官方文档的阅读。
ProcessOn 式一个在线绘图平台,使用起来非常便捷,可以用于笔记或者博客配图的绘制。