神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:为方便对数据科学(DATA SCIENCE)感兴趣的爱好者和实操者的学习,本文作者分享了 8 类关于数据科学的书籍,包括统计/概率论类、机器学习类、数据可视化与分析类、深度学习类、自然语言处理(NLP)类、计算机视觉类、人工智能类和工具/语言类。在分享书籍的同时,作者还提出以下忠告:在数据科学领域有多种成功的途径,而我们要选择的途径应该是足够简单,足以帮助我们快速上手的。
我们之所以在选择学习方法上不知所措,往往是因为我们接触的信息量太大了。与其花更多的时间思考如何获得研究数据科学的技能,不如根据实际需要,从分享的书中挑选一本,然后开始学习。关键是要始终如一地采取行动,坚持阅读。阅读的目的是,学习和发现隐藏于书中的真实思想。对数据科学感兴趣的朋友们,如果你还没选好学习材料,就请阅读作者推荐的这些顶级书籍吧。本文来自编译,希望对您有帮助。因篇幅原因,本篇文章分三部分刊出,此为第三部分:
相关阅读:学习数据科学的8类必读书籍(上)
学习数据科学的8类必读书籍(中)
8.工具/语言类书籍
(1)《学习 Pandas——使 Python 数据发现和分析变得容易》(Learning Pandas—Python Data Discovery and Analysis Made Easy)
作者:迈克尔·海特(Michael Heydt)
《学习Pandas》也是一本适合初学者的书(Pandas,是python+data+analysis 的组合缩写,是 python 中基于 numpy 和 matplotlib 的第三方数据分析库),它为我们提供了在 Pandas 的帮助下做数据分析所需的技术知识。这本书最大的优点之一就是,它只关注 Pandas,而不包括其他 100 个库,因此可以让读者免于其他内容的干扰。这本书称自己是学习 Pandas 的最好的书籍之一。
图33. 《学习Pandas——使Python数据发现和分析变得容易》
(2)《学习Pandas库》(Learning the Pandas Library)
作者:马特·哈里森(Matt Harrison)
简单、准确、通俗是形容这本书最贴切的词汇。它也被誉为学习 Pandas 的最好的书籍之一。本书全面地描述了 Pandas DataFrame 以及在 DataFrames 的帮助下执行的各种活动。
图34. 《学习Pandas库》
(3)《Pandas操作指南》(Pandas Cookbook)
作者:西奥多·佩特罗(Theodore Petrou)
此书算得上是完美的参考书。它囊括了 Pandas 的 95 种以上的功能,展示了这个库的强大,读者将能够以前所未有的方式分析数据。
图35. 《Pandas操作指南》
(4)《面向所有人的Pandas:Python数据分析》(Pandas for Everyone: Python Data Analysis)
作者:丹尼尔·Y·陈(Daniel Y. Chen)
这是一本为完全没有编程知识的初学者而写的书,能让读者振奋。因为它的内容能指导读者,引导大家的思维,让读者确切地了解到,需要怎样用 Python 和 Pandas 开始数据分析。正如书名所说的那样,这本书适合所有人,其普适性使它成为学习 Pandas 的最佳书籍之一。
图36. 《面向所有人的Pandas:Python数据分析》
(5)《使用NumPy和Pandas做数据分析》(Hands-On Data Analysis with NumPy and Pandas)
作者:柯蒂斯·米勒(Curtis Miller)
这本关于 Pandas 的书有点难以理解,建议读者在阅读这本书之前先对 Pandas 和 NumPy 做一些了解。本书不太适合初学者,虽然有点难理解,但丝毫不妨碍它成为学习 Pandas 最好的书之一。
图37. 《使用NumPy和Pandas做数据分析》
(6)《实用主义程序员——你的精通之旅》(The Pragmatic Programmer — Your Journey To Mastery)
作者:大卫·托马斯,安德鲁·亨特(David Thomas ,Andrew Hunt)
这是一本不会过时的书,它研究了软件开发独立于任何特定的语言、框架或方法学的本质。它不仅讨论了使代码保持普遍适用性和易于重复利用的技术,还探讨了关于个人责任和职业发展的内容。
图38. 《实用主义程序员——你的精通之旅》
(7)《干净代码——一本敏捷软件工艺手册》(Clean Code — A Handbook of Agile Software Craftsmanship)
作者:罗伯特·C·马丁(Robert C. Martin)
这本书讲述了编写干净代码的原则和最佳操作,并举出几个案例研究来加以说明。对于在协作环境中工作的数据专业人员来说,编写干净的代码很重要,它是一项可以让我们和自己的团队生产出更好的数据产品的基本技能。
图39. 《干净代码——一本敏捷软件工艺手册》
(8)《流利的 Python:清晰、简洁和有效的编程》(Fluent Python: Clear, Concise, and Effective Programming)
作者:卢西亚诺·拉马霍(Luciano Ramalho)
可以用来学习 Python 的资源有很多,但是,还没有哪项资源能像一本教科书一样教你编程。此书是一本实用的指南,正像我们对一本编码书所期望的那样,它能帮助我们理解 Python 如何工作,以及如何编写出色而有效的 Python 代码。这本书的篇幅长达 794 页,完全物有所值,值得我们购买。
图40. 《流利的Python:清晰、简洁和有效的编程》
(9)《Python编程:强大的面向对象编程》(Programming Python: Powerful Object-Oriented Programming)
作者:马克·鲁茨(Mark Lutz)
别急,这是另一本 Python 书?!如果我们认为,自己已经从前面介绍的书中学到了关于 Python 的所有知识,那么就请再好好想一想。Python 是一门庞大的编程语言,在这本书里,还有很多我们不知道的东西要讲。在我们掌握了《流利的 Python:清晰、简洁和有效的编程》一书中的基本知识之后,尝试下阅读马克·鲁茨的这本书。此书包含关于各种主题的深入教程:数据库、网络、文本处理、GUIs 等。教程中还包含了大量的例子。这是一本编程人的必读书。
图41. 《Python编程:强大的面向对象编程》
(10)《掌握 Python数据科学》(Mastering Python for Data Science)
作者:萨米尔·马达万(Samir Madhavan)
到目前为止,我们已经介绍过的两本学习 Python 的书都是从编程的角度来学习 Python 的。现在该从数据科学的角度来学习 Python 了。萨米尔·马达万在《掌握 Python 数据科学》这本精彩的书中回答了以下问题:哪些数据科学库是常用的,如何使用?如何在 Python 中创建数据可视化和挖掘模式?如何编写高级数据科学/机器学习技术的代码来构建模型?
图42. 《掌握Python数据科学》
(11)《R 语言数据科学》(R for Data Science)
作者:加勒特·格罗蒙,哈德利·韦翰(Garrett Grolemund,Hadley Wickham)
任何一个听说过一点儿 R 编程的人都会接触到哈德利·韦翰的作品。他用 R 语言写的作品是无与伦比的。关于他的作品,我有说不完的话。这是一本通过 R 语言编程来学习数据科学的完美书籍。
图43. 《R语言数据科学》
(12)《为每个人创建的R语言》(R for Everyone)
作者:贾里德·P·兰德(Jared P. Lander)
如果我们没有技术背景和统计学背景,那么对于我们来说,这是一本很棒的入门书。
图44. 《为每个人创建的R语言》
(13)《 R 语言操作指南》(R Cookbook)
作者:保罗·提托(Paul Teetor)
《R 语言操作指南》这本书,是对数据科学书籍阅读清单的绝佳补充。它包含了 200 多个实用的食谱,可以帮助我们使用 R 语言分析和操作数据。
图45. 《R语言操作指南》
最后总结
我写这篇文章的主要目的是为广大读者推荐最好的数据科学书籍。我对每一本建议的书籍都做了简要的总结,以确保读者可以根据自己的需求、兴趣和未来愿望进行选择。
当有人试图迷惑我们的时候,请记住以下这些忠告:
在数据科学领域有多种成功的途径,而我们要选择的途径应该是足够简单,足以帮助我们采取行动的。我们之所以不知道如何开始学习,是因为我们接收的信息量太大了。与其花更多的时间思考和计划如何获得数据科学这项技能,不如根据自己当前的实际需要,从上面介绍的书中挑选一本,然后开始学习。关键是要始终如一地采取行动,坚持阅读。
阅读的目的是,学习和发现隐藏于这些伟大的作家和实践者脑中的真实思想。
祝大家学习快乐!
图46. 开始阅读这些书
译者:甜汤