pandas是什么

pengjiani TOP1 894

pandas是一个快速、强大、灵活且易于使用的开源数据分析和操作工具,构建在Python编程语言之上。其数据结构以Series和DataFrame为主。同时,pandas还具有高度优化性能,智能数据对齐,重塑和旋转数据集等功能特点。

pandas介绍

pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,pandas 离这个目标已经越来越近了。

pandas 适用于处理以下类型的数据:

  • 与 SQL 或 Excel 表类似的,含异构列的表格数据
  • 有序和无序(非固定频率)的时间序列数据
  • 带行列标签的矩阵数据,包括同构或异构型数据
  • 任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记

pandas数据结构

pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。对于 R 用户,DataFrame 提供了比 R 语言 data.frame 更丰富的功能。pandas 基于 NumPy (opens new window)开发,可以与其它第三方科学计算支持库完美集成。

维数 名称 描述
1 Series 带标签的一维同构数组
2 DataFrame 带标签的,大小可变的,二维异构表格

pandas特点

  • 一个快速高效的DataFrame对象,用于集成索引的数据操作;
  • 用于在内存数据结构和不同格式之间读取和写入数据的工具:CSV 和文本文件、Microsoft Excel、SQL 数据库和快速 HDF5 格式;
  • 智能数据对齐和缺失数据的集成处理:在计算中获得基于标签的自动对齐,并轻松地将杂乱的数据处理成有序的形式;
  • 灵活地重塑和旋转数据集;
  • 基于标签的智能切片、花式索引和大型数据集的子集化;
  • 可以从数据结构中插入和删除列以实现大小可变性;
  • 通过引擎使用强大的组聚合或转换数据,允许对数据集进行拆分-应用-组合操作;
  • 数据集的高性能合并和连接;
  • 分层轴索引提供了一种在低维数据结构中处理高维数据的直观方式;
  • 时间序列-功能:日期范围生成和频率转换、移动窗口统计、日期偏移和滞后。甚至创建特定领域的时间偏移并加入时间序列而不会丢失数据;
  • 高度优化性能,关键代码路径用 Cython或 C编写。
  • 带有pandas的Python被广泛用于各种学术和商业领域,包括金融、神经科学、经济学、统计学、广告、网络分析等。

回复

我来回复
  • 暂无回复内容

注册PingCode 在线客服
站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部