pandas作为Python的一个强大扩展库,被很多人称为数据分析界的“瑞士军刀”。
然而,它也被不少学习者诟病:语法很乱!API太多!
有没有什么好办法能够快速上手呢?
为此,有网友在知乎提出这样的问题:
该问题引起了不少网友的共鸣,很多人也提供了自己上手pandas的方法。
为啥这么乱?
首先来看,大家都吐槽pandas用起来感觉很混乱,那为什么会这样?
针对这个问题,来自中科院大学的@李丁表示,由于Pandas等Python的科学计算包都是
“一帮学术界人士搞的”,主要是模仿R语言,又没有模仿到R的灵活语法。最后就是只做
到了功能全面能用就行,没有关注好不好用等其他代码工程素养问题。
结果就是虽然它很乱,但是迫于它的“地位”,很多人还是不得不使用它。那大家都是如何上手的呢?
“磨刀不误砍柴工”
纵观整个回答,大部分人的思路都是先整体过一遍,脑子里留个印象,到用的时候再去细查!
但是很多东西一遍根本就记不住,查的时候可能都不知道有某个功能,更有人吐槽即使已经用了很久pandas,再用还是需要一遍遍再查官方文档。
于是,为了提升查询效率,在初入门时就把各种语法和相关类整理一下非常重要,此所谓“磨刀不误砍柴工”。
下面是GiHub上一个获星1.3k的“磨刀”成果:
每一条目录下都有全面的细化总结,包括示例代码:
作者是来自阿里巴巴的技术专家。
也有知友更加细化,总结了75个数据分析打工人的Pandas高频操作:
每一条都说明了具体用法:
实在忍不了试试别的工具
学习计算机,看书是避免不了,除了pandas作者的那本《利用Python进行数据分析》(第2版),还有人强烈推荐《Python数据分析:活用pandas库》,不过也是不用全部看完,随用随查就行。
亚马逊书评也不错:
这本书比我读过的其他介绍Pandas的书好很多,别的书也不错,但这本书更简明扼要。作者先介绍方法,接着给出示例,然后继续推进,非常适合学习。
官方文档一直被吐槽乱,但是官方网站升级以后的文档比之前好了一些,该查询该学习的时候还是得使用它。
剩下的就是在实践中一次次加深各种用法的记忆了!
当然了,也有一些人推荐直接改用matlab、mathematica,或者效率更高(但比较小众)的julia。
以及DaPy,一个专门针对pandas数据结构严格和api过多等问题的Python数据分析框架,轻量且具有易用性。
你又是如何上手混乱的pandas呢?
“