pandas是什么

pengjiani 4年前 TOP1 1097

pandas是一个快速、强大、灵活且易于使用的开源数据分析和操作工具，构建在Python编程语言之上。其数据结构以Series和DataFrame为主。同时，pandas还具有高度优化性能，智能数据对齐，重塑和旋转数据集等功能特点。

pandas介绍

pandas 是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具，其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力，pandas 离这个目标已经越来越近了。

pandas 适用于处理以下类型的数据：

与 SQL 或 Excel 表类似的，含异构列的表格数据
有序和无序（非固定频率）的时间序列数据
带行列标签的矩阵数据，包括同构或异构型数据
任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记

pandas数据结构：

pandas 的主要数据结构是 Series（一维数据）与 DataFrame（二维数据），这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。对于 R 用户，DataFrame 提供了比 R 语言 data.frame 更丰富的功能。pandas 基于 NumPy (opens new window)开发，可以与其它第三方科学计算支持库完美集成。

维数	名称	描述
1	Series	带标签的一维同构数组
2	DataFrame	带标签的，大小可变的，二维异构表格

pandas特点：

一个快速高效的DataFrame对象，用于集成索引的数据操作；
用于在内存数据结构和不同格式之间读取和写入数据的工具：CSV 和文本文件、Microsoft Excel、SQL 数据库和快速 HDF5 格式；
智能数据对齐和缺失数据的集成处理：在计算中获得基于标签的自动对齐，并轻松地将杂乱的数据处理成有序的形式；
灵活地重塑和旋转数据集；
基于标签的智能切片、花式索引和大型数据集的子集化；
可以从数据结构中插入和删除列以实现大小可变性；
通过引擎使用强大的组聚合或转换数据，允许对数据集进行拆分-应用-组合操作；
数据集的高性能合并和连接；
分层轴索引提供了一种在低维数据结构中处理高维数据的直观方式；
时间序列-功能：日期范围生成和频率转换、移动窗口统计、日期偏移和滞后。甚至创建特定领域的时间偏移并加入时间序列而不会丢失数据；
高度优化性能，关键代码路径用 Cython或 C编写。
带有pandas的Python被广泛用于各种学术和商业领域，包括金融、神经科学、经济学、统计学、广告、网络分析等。

我来回复

暂无回复内容