pandas是什么
TOP1 894
pandas是一个快速、强大、灵活且易于使用的开源数据分析和操作工具,构建在Python编程语言之上。其数据结构以Series和DataFrame为主。同时,pandas还具有高度优化性能,智能数据对齐,重塑和旋转数据集等功能特点。
pandas介绍
pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,pandas 离这个目标已经越来越近了。
pandas 适用于处理以下类型的数据:
- 与 SQL 或 Excel 表类似的,含异构列的表格数据
- 有序和无序(非固定频率)的时间序列数据
- 带行列标签的矩阵数据,包括同构或异构型数据
- 任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记
pandas数据结构:
pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。对于 R 用户,DataFrame 提供了比 R 语言 data.frame 更丰富的功能。pandas 基于 NumPy (opens new window)开发,可以与其它第三方科学计算支持库完美集成。
维数 | 名称 | 描述 |
---|---|---|
1 | Series | 带标签的一维同构数组 |
2 | DataFrame | 带标签的,大小可变的,二维异构表格 |
pandas特点:
- 一个快速高效的DataFrame对象,用于集成索引的数据操作;
- 用于在内存数据结构和不同格式之间读取和写入数据的工具:CSV 和文本文件、Microsoft Excel、SQL 数据库和快速 HDF5 格式;
- 智能数据对齐和缺失数据的集成处理:在计算中获得基于标签的自动对齐,并轻松地将杂乱的数据处理成有序的形式;
- 灵活地重塑和旋转数据集;
- 基于标签的智能切片、花式索引和大型数据集的子集化;
- 可以从数据结构中插入和删除列以实现大小可变性;
- 通过引擎使用强大的组聚合或转换数据,允许对数据集进行拆分-应用-组合操作;
- 数据集的高性能合并和连接;
- 分层轴索引提供了一种在低维数据结构中处理高维数据的直观方式;
- 时间序列-功能:日期范围生成和频率转换、移动窗口统计、日期偏移和滞后。甚至创建特定领域的时间偏移并加入时间序列而不会丢失数据;
- 高度优化性能,关键代码路径用 Cython或 C编写。
- 带有pandas的Python被广泛用于各种学术和商业领域,包括金融、神经科学、经济学、统计学、广告、网络分析等。