正文
Series内部由一个NumPy数组和一个类似数组的结构index组成,如下所示:
Index提供了一种通过标签查找值的方便方法。那么如何通过值查找标签呢?
s.index[s.tolist().find(x)] # faster for len(s) < 1000
s.index[np.where(s.values==x)[0][0]] # faster for len(s) > 1000
我编写了find()和findall()两个简单的封装器,它们运行速度快(因为它们会根据序列的大小自动选择实际的命令),而且使用起来更方便。代码如下所示:
>>> import pdi
>>> pdi.find(s, 2)
'penguin'
>>> pdi.findall(s, 4)
Index(['cat', 'dog'], dtype='object')
缺失值
Pandas开发人员特别关注缺失值。通常,你通过向read_csv提供一个标志来接收一个带有NaNs的dataframe。否则,可以在构造函数或赋值运算符中使用None(尽管不同数据类型的实现略有不同,但它仍然有效)。这张图片有助于解释这个概念:
你可以使用NaNs做的第一件事是了解你是否有NaNs。从上图可以看出,isna()生成了一个布尔数组,而.sum()给出了缺失值的总数。
现在你知道了它们的存在,你可以选择用常量值填充它们或通过插值来一次性删除它们,如下所示:
另一方面,你可以继续使用它们。大多数Pandas函数会很高兴地忽略缺失值,如下图所示:
更高级的函数(median、rank、quantile等)也可以做到这一点。
算术运算与索引对齐:
如果索引中存在非唯一值,则结果不一致。不要对索引不唯一的序列使用算术运算。
比较
比较有缺失值的数组可能会比较棘手。下面是一个例子:
>>> np.all(pd.Series([1., None, 3.]) ==
pd.Series([1., None, 3.]))
False
>>> np.all(pd.Series([1, None, 3], dtype='Int64') ==
pd.Series([1, None, 3], dtype='Int64'))
True
>>> np.all(pd.Series(['a', None, 'c']) ==
pd.Series(['a', None, 'c']))
False
为了正确地比较nan,需要用数组中一定没有的元素替换nan。例如,使用-1或∞:
>>> np.all(s1.fillna(np.inf) == s2.fillna(np.inf)) # works for all dtypes
True
或者,更好的做法是使用NumPy或Pandas的标准比较函数:
>>> s = pd.Series([1., None, 3.])
>>> np.array_equal(s.values, s.values, equal_nan=True)
True
>>> len(s.compare(s)) == 0
True
这里,compare函数返回一个差异列表(实际上是一个DataFrame), array_equal则直接返回一个布尔值。
当比较混合类型的DataFrames时,NumPy比较失败(issue #19205),而Pandas工作得很好。如下所示:
>>> df = pd.DataFrame({'a': [1., None, 3.], 'b': ['x', None
, 'z']})
>>> np.array_equal(df.values, df.values, equal_nan=True)
TypeError
<...>
>>> len(df.compare(df)) == 0
True
追加、插入、删除
虽然Series对象被认为是size不可变的,但它可以在原地追加、插入和删除元素,但所有这些操作都是:
下面是插入值的一种方式和删除值的两种方式:
第二种删除值的方法(通过drop)比较慢,并且在索引中存在非唯一值时可能会导致复杂的错误。
Pandas有df.insert方法,但它只能将列(而不是行)插入到dataframe中(并且对series不起作用)。
添加和插入的另一种方法是使用iloc对DataFrame进行切片,应用必要的转换,然后使用concat将其放回。我实现了一个名为insert的函数,可以自动执行这个过程:
注意(就像在df.insert中一样)插入位置由位置0<=i<=len(s)指定,而不是索引中元素的标签。如下所示:
要按元素的名称插入,可以合并pdi。用pdi查找。插入,如下所示:
请注意,unlikedf.insert、pdi.insert返回一个副本,而不是原地修改Series/DataFrame
统计数据
Pandas提供了全方位的统计函数。它们可以让您了解百万元素序列或DataFrame中的内容,而无需手动滚动数据。
所有Pandas统计函数都会忽略NaNs,如下所示:
注意,Pandas std给出的结果与NumPy std不同,如下所示:
>>> pd.Series([1, 2]).std()
0.7071067811865476
>>> pd.Series([1, 2]).values.std()
0.5
这是因为NumPy std默认使用N作为分母,而Pandas std默认使用N-1作为分母。两个std都有一个名为ddof (` delta degrees of freedom `)的参数,NumPy默认为0,Pandas默认为1,这可以使结果一致。N-1是你通常想要的值(在均值未知的情况下估计样本的偏差)。这里有一篇维基百科的文章详细介绍了贝塞尔的修正。
由于序列中的每个元素都可以通过标签或位置索引访问,因此argmin (argmax)有一个姐妹函数idxmin (idxmax),如下图所示:
下面是Pandas的自描述统计函数供参考:
-
std:样本标准差
-
var,无偏方差
-
sem,均值的无偏标准误差
-
quantile分位数,样本分位数(s.quantile(0.5)≈s.median())
-
oode是出现频率最高的值
-
默认为Nlargest和nsmallest,按出现顺序排列
-
diff,第一个离散差分
-
cumsum 和 cumprod、cumulative sum和product
-
cummin和cummax,累积最小值和最大值
以及一些更专业的统计函数:
重复数据
在检测和处理重复数据时需要特别小心,如下图所示:
drop_duplicates和duplication可以保留最后一次出现的副本,而不是第一次出现的副本。
请注意,s.a uint()比np快。唯一性(O(N) vs O(NlogN)),它会保留顺序,而不会返回排序结果。独特的。
缺失值被视为普通值,有时可能会导致令人惊讶的结果。
如果你想排除nan,需要显式地这样做。在这个例子中,是s.l opdropna().is_unique == True。
还有一类单调函数,它们的名字是自描述的:
-
s.is_monotonic_increasing ()
-
s.is_monotonic_decreasing ()
-
s._strict_monotonic_increasing ()
-
s._string_monotonic_decreasing ()
-
s.is_monotonic()。这是意料之外的,出于某种原因,这是s.is_monotonic_increasing()。它只对单调递减序列返回False。
分组
在数据处理中,一个常见的操作是计算一些统计量,不是针对整个数据集,而是针对其中的某些组。第一步是通过提供将一系列(或一个dataframe)分解为组的标准来定义一个“智能对象”。这个`智能对象`没有立即的表示,但可以像Series一样查询它,以获得每个组的某个属性,如下图所示:
在这个例子中,我们根据数值除以10的整数部分将序列分成三组。对于每个组,我们请求每个组中元素的和、元素的数量以及平均值。
除了这些聚合函数,您还可以根据特定元素在组中的位置或相对值访问它们。如下所示:
你也可以使用g.ag (['min', 'max'])一次调用计算多个函数,或者使用g.c describe()一次显示一堆统计函数。
如果这些还不够,你还可以通过自己的Python函数传递数据。它可以是:
一个函数f,它接受一个组x(一个Series对象)并生成一个值(例如sum())与g.eapply (f)一起使用。
一个函数f,它接受一个组x(一个Series对象),并与g.transform(f)生成一个大小与x相同的Series对象(例如cumsum())。
在上面的例子中,输入数据是有序的。groupby不需要这样做。实际上,如果分组中的元素不是连续存储的,它也同样有效,因此它更接近于collections.defaultdict,而不是itertools.groupby。它总是返回一个没有重复项的索引。
与defaultdict和关系数据库GROUP BY子句不同,Pandas groupby按组名对结果进行排序。可以用sort=False来禁用它。
免责声明:实际上,g.apply(f)比上面描述的更通用:
但文档警告说,这些使用方法可能比相应的transform和agg方法慢,所以要小心。
第三部分. DataFrames
Pandas的主要数据结构是DataFrame。它将一个二维数组与它的行和列的标签捆绑在一起。它由一系列对象组成(具有共享索引),每个对象表示一列,可能具有不同的dtype。
读写CSV文件
构造DataFrame的一种常用方法是读取csv(逗号分隔值)文件,如下图所示:
pd.read_csv()函数是一个完全自动化且可疯狂定制的工具。如果你只想学习Pandas的一件事,那就学习使用read_csv——它会有回报的:)。