Pandas学习 Series_1
Contents
###Intro to pandas
在平时的工作中,经常会遇到很多表格类型的数据(如:txt, csv, excel, sql, json, parquet, …)。Pandas的出现正是为了专门处理这些类型数据。在Pandas中,Series和DataFrame是数据最基本的表现形式。其中Series是一维的、有索引的、支持任何类型的数据结构(整数,字符串,浮点数,python对象等等),DataFrame是二维的数据结构。
Pandas通过对Series和DataFrame的操作,可以实现对数据进行切片,提取特定的行列信息,过滤,并合,拆分等从而更便于对数据统计分析。Pandas通过Matplotlib模块可以方便对数据进行绘图,此外Pandas还支持对时间序列数据的处理。总而言之,平时工作中遇到的任何数据格式都可以通过Pandas做数据分析。
Reference: pandas: powerful Python data analysis toolkit
###pandas.Series
回想起自己刚开始学习编程语言时,很多教程都是让我们跟着他们机械的敲一些代码:
|
|
说实话,这种类型的教程前期给我的学习带来了很大困扰,因为我是一个很喜欢刨根问底的人,虽然我也能跟着在Terminal打印出“Hello World!”这句话,但是如果没能搞明白这段代码的原理,会影响自己后续的学习动力。
其实,搞懂前面的问题也就一句话的事情。在编程语言的学习中,只要把每一个代码看成一个函数结构,每个函数结构又有一定的参数设置,这样我就会很好理解print这个函数了。而且有了这个概念在脑中时,以后凡事遇见一个命令时,我都会想考虑其中有那些函数?这个函数又有那些参数?
因此在总结Pandas学习中,我希望自己能延续这个习惯(学习任何一个模块都应该这样吧)。首先从pandas.Series的参数结构开始说起,当然一开始只会总结一些主要的参数。
|
|
在上面的语法结构中,=号后面表示默认的设置(data=None,默认没有数据,言外之意没有任何输入直接执行pandas.Series()是没有输出的)。
主要参数:
- data: 可以是数组类型,可迭代结构,字典,或者常数
- index: 数组类型or指针 index必须跟data有相同的长度,但是不要求每个index值是唯一的。如果没有给定,默认是(0, 1, 2, …, len(data)-1)。对于字典,在把dict转成Series过程中,如果给定index则会优先于dict的关键字,如果没有输入index默认把dict的key生成index。
- dtype: 如果没有要求生成的Series的数据类型,默认的数据类型来自于输入的数据类型
Reference: pandas.Series
例子
|
|
###Reference: