先说入门吧,如果完全是零基础,那本《大数据之路:阿里巴巴大数据实践》,我觉得是绕不过去的。别被“阿里巴巴”吓到,它其实挺接地气的,把阿里内部怎么玩转大数据的那些事儿,掰开了揉碎了讲给你听。注意,是“实践”,不是理论。虽然现在可能有些过时,但对于了解大数据的整体架构、流程,以及一些常见的坑,还是很有帮助的。我当年刚入行的时候,就是靠它大概摸清了门道。别指望它能教你写代码,它更多的是一种全局观。
然后呢,如果你想稍微深入一点,开始动手操作,那《Hadoop权威指南》,绝对是必啃的骨头。这本书真的厚,而且全是干货。Hadoop虽然现在感觉有点老了,但它的思想,MapReduce、HDFS,那些东西,是大数据的基础中的基础。就算以后不用Hadoop了,理解了这些,再去学Spark、Flink,也会轻松很多。当初啃这本书的时候,真是头皮发麻,各种配置文件,各种报错,但搞定之后,成就感也是满满的。建议配合一些视频教程一起看,光看书,真的容易迷路。

如果你是程序员,想更深入地了解大数据处理的底层原理,或者想自己开发一些大数据工具,那《数据密集型应用系统设计》(Designing Data-Intensive Applications,简称DDIA)绝对是神书。这本书不是教你具体怎么用某个工具,而是告诉你为什么这些工具要这么设计,它们背后的 trade-off 是什么。这本书很硬核,需要一定的计算机基础,但如果你能把它啃下来,那你的大数据功力,绝对能上一个台阶。我敢说,看懂这本书,你就能在面试的时候,把面试官问得哑口无言。当然,前提是你得真懂,不是死记硬背。
再说说Spark,现在Spark用的也挺多的。《Spark快速大数据分析》,这本书算是一个不错的入门选择。它的优点是短小精悍,例子很多,可以快速上手。但是,这本书的缺点也很明显,就是不够深入。如果你想深入了解Spark的原理,那《Spark技术内幕:深入解析Spark内核架构与设计思想》,这本书可以看看。这本书讲得很细,从Spark的源码层面,剖析了Spark的各个组件的实现原理。这本书适合那些想成为Spark专家的同学。
Flink的话,《Flink基础教程》和《深入理解Flink》这两本可以一起看,前者偏入门,后者偏原理。Flink现在正火,学好了前途无量。但是,Flink的学习曲线也比较陡峭,需要一定的耐心。
顺便提一句,别迷信“权威指南”之类的书名。很多“权威指南”,其实就是把官方文档翻译了一遍,然后加了一些例子。这种书,看看可以,但别指望它能帮你解决所有问题。最好的学习方法,还是多动手,多实践,多踩坑。
还有,大数据技术更新迭代很快,书上的知识,可能过时了。所以,除了看书,还要多关注社区,多看博客,多参加一些技术交流活动。这样才能跟上时代的步伐。
最后,我想说,大数据不是银弹。不是说有了大数据,就能解决所有问题。大数据只是一个工具,关键在于你怎么用它。不要为了大数据而大数据,要根据实际需求,选择合适的工具和技术。我见过很多公司,花了大价钱买了大数据平台,结果却发现,根本用不上,或者用了也达不到预期的效果。所以,一定要想清楚,你到底需要什么,然后再去学习相应的知识。
嗯,大概就这些吧。希望这些建议对你有帮助。记住,读书是为了学习,学习是为了解决问题。别忘了思考和实践!
本文由用户 大王 上传分享,若内容存在侵权,请联系我们(点这里联系)处理。如若转载,请注明出处:http://www.365yunshebao.com/book/5558.html