最近在用python处理一些大数据相关的工作,就无可避免的涉及到了pandas。迟早还是要学一下的,就在这里简单看一看。 pandas的核心数据结构: * DataFrame,二维表格,由Series组成。和关系表一样。行列组成,列是有相同的schema * Series:一维表格 在此之上提供了: * 数据对齐,用来做数据的合并和join * 数据清洗:做数据类型转化,异常值处理,处理缺失数据 * 可视化:与Matplotib等库无缝集成 * 性能:内部使用numpy,性能比较好 * 生态:与其他数据科学相关的库…