pandas基础篇(二)
pandas基础篇(二)
这部分主要整理介绍pandas的基本数据结构及其基础语法
pandas的基本数据结构有两种数据类型:(1)Series
(2) DataFrame
1. Series
1.1 Series的组成
Series的组成由四部分组成:
data :序列的值
index:索引 (索引有它自己的名字属性,默认为NULL)
dtype: 储存类型
name: 序列名字
1.2 定义
#定义Series
import pandas as pd
s = pd.Series(data = [100, ‘a’, {‘dic1’:5}],
index = pd.Index([‘id1’, 20, ‘third’], name=’my_idx’),
dtype = ‘object’,
name = ‘my_name’)
s
运行截图
Object:代表了一种混合类型。正如上面所示,data里既有字符串,又有整数,字典形式等。此外,pandas把纯字符串序列也默认认为是一种object类型的序列,但它也可以用string类型存储。
1.3 Series获取属性
series获取属性,其实和java类似,都是以”.”的方式获取属性和方法。
#获取属性代码如下:
s.values #获取data值,得写成values,不能直接写data
s.index
s.dtype
s.name
部分代码运行截图:
2. DataFrame
DataFrame在Series的基础上增加了列索引,一个数据框可以由二维的data与行列索引来构造:
2.1 两种定义方式
普通定义
data = [[1, ‘a’, 1.2], [2, ‘b’, 2.2], [3, ‘c’, 3.2]]
df = pd.DataFrame(data = data,
index = [‘row_%d’%i for i in range(3)],
columns=[‘col_0’, ‘col_1’, ‘col_2’])
df
运行截图
常用方式
采用从列索引名到数据的映射来构造数据框,同时再加上行索引:
df = pd.DataFrame(data = {‘col_0’: [1,2,3],
‘col_1’:list(‘abc’),
‘col_2’: [1.2, 2.2, 3.2]},
index = [‘row_%d’%i for i in range(3)])
df
2.2 获取属性
与Series类似,在数据框中同样可以取出相应的属性
df.values
df.index
2.3 .T转置
通过.T可以把DataFrame进行转置:
df.T