1. 简单百科
  2. numpy

numpy

NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。

软件简介

一个用python实现的科学计算,包括:

1、一个强大的N维数组对象Array;

2、比较成熟的(广播)函数库;

3、用于整合C/C++Fortran代码的工具包;

4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包SciPy配合使用更加方便。

NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,美国航空航天局用其处理一些本来使用C++FortranMATLAB等所做的任务。

开发历史

NumPy的前身Numeric最初由Jim Hugunin创建,后由多位开发者贡献代码。

1995年,Python的特别兴趣小组matrix-sig成立,旨在定义一个数组计算包,Python设计师Guido van Rossum也参与其中。Numeric由Jim Fulton实现,后由Jim Hugunin泛化,受到多种编程语言的影响。Numarray作为Numeric的替代品出现,但在处理小型数组时性能较慢。

2005年,Travis Oliphant将Numarray的特性整合到Numeric中,创建了NumPy。NumPy是开源软件,也是NumFOCUS财政赞助项目。它是SciPy的一部分,但为了避免安装大型SciPy包,NumPy被分离出来。对Python 3的支持是在2011年的NumPy版本1.5.0中添加的。

功能特色

综述

NumPy针对Python的CPython参考实现,提供了多维数组、函数和运算符,使得数学算法的运行速度得到提升。NumPy的核心是其“ndarray”(n维数组)数据结构,这些数组是对内存的分块视图,所有元素必须是相同类型的。NumPy内置支持内存映射的ndarrays。NumPy的数组必须是对连续内存缓冲区的视图,这导致了一些限制,例如向数组中插入或追加条目并不简单。NumPy的操作通常在单个CPU上执行,但许多线性代数操作可以通过在CPU集群或专用硬件上执行来加速。科学Python生态系统中出现了几种替代的数组实现,如Dask、TensorFlow或JAX。CuPy是由英伟达的CUDA框架加速的NumPy的“PnP替代品

数据类型

numpy 支持的数据类型比 Python 内置的类型要多很多,基本上可以和 C 语言的数据类型对应上,其中部分类型对应为Python 内置的类型。下表列举了常用 NumPy 基本类型。

numpy 的数值类型实际上是 dtype 对象的实例,并对应唯一的字符,包括 NPbool_,np.int32,np.float32,等等。

数组属性

NumPy 数组的维数称为秩(rank),秩就是轴的数量,即数组的维度,一维数组的秩为 1,二维数组的秩为 2,以此类推。

在 NumPy中,每一个线性的数组称为是一个轴(axis),也就是维度(dimensions)。比如说,二维数组相当于是两个一维数组,其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是 NumPy 中的轴(axis),第一个轴相当于是底层数组,第二个轴是底层数组里的数组。而轴的数量——秩,就是数组的维数。

很多时候可以声明 axis。axis=0,表示沿着第 0 轴进行操作,即对每一列进行操作;axis=1,表示沿着第1轴进行操作,即对每一行进行操作。

NumPy 的数组中比较重要 ndarray 对象属性有:

数组类型ndarray。

NumPy提供了一个N维数组类型ndarray,它描述了相同类型的“items”的集合。

ndarray到底跟原生Python列表的区别:

从图中我们可以看出ndarray在存储数据的时候,数据与数据的地址都是连续的,这样就给使得批量操作数组元素时速度更快。

这是因为ndarray中的所有元素的类型都是相同的,而Python列表中的元素类型是任意的,所以ndarray在存储元素时内存可以连续,而python原生list就只能通过寻址方式找到下一个元素,这虽然也导致了在通用性能方面Numpy的ndarray不及Python原生list,但在科学计算中,Numpy的ndarray就可以省掉很多循环语句,代码使用方面比Python原生list简单的多。

numpy内置了并行运算功能,当系统有多个核心时,做某种计算时,numpy会自动做并行计算

Numpy底层使用c语言编写,内部解除了GIL(全局解释器锁),其对数组的操作速度不受Python解释器的限制,效率远高于纯Python代码。

ndarray的属性

生成数组的方法:

empty(shape[, dtype, order])

empty_like(a[, dtype, order, subok])

eye(N[, M, k, dtype, order])

identity(n[, dtype])

ones(shape[, dtype, order])

ones_like(a[, dtype, order, subok])

zeros(shape[, dtype, order])

zeros_like(a[, dtype, order, subok])

full(shape, fill_value[, dtype, order])

full_like(a, fill_value[, dtype, order, subok])

参考资料