pandas入门

2018-05-03

参加腾讯广告算法大赛，学习pandas使用

学习的材料：

1
2
3

import pandas as pd

df = pd.read_csv('../datasets/train.csv') #读取后的格式为DataFrame

1 2	df.head(5) #显示前5行 df.tail(5) #显示最后5行

1
2
3

df.shape #显示dataframe的大小
df.shape[0] #显示dataframe的长度，即样本数
df.shape[1] #显示dataframe的宽度，即特征数量

1	df.describe() #统计信息

1	df.info(memory_usage='deep') #总体信息

1 2	df_aid = df['aid'] #最终返回的是Series df_aid_df = df[['aid']] #最终返回的是dataframe的类型

1	df_aid.iloc(30) #最显示第30行的数据，返回的是Series

索引(index)为字符: dataframe.iloc("30")

1	df_aid.loc("30") #最显示第30行的数据，返回的是Series

1	df_aid.iloc([30,20,10]) #最显示第30,20,10行的数据，返回的是Series

索引(index)为字符: dataframe.iloc(["30","20","10"])

1	df_aid.loc("30") #最显示第30,20,10行的数据，返回的是Series

1	df_aid.set_index(['aid']) #将aid列作为index值

1	df_aid.reset_index() #重置index

1	df..sort_index(acending=False) #按照index进行降序排序

1	df.sort_values(by=["aid"], acending=False) #按照aid列进行降序排序

1	df.rename(columns={"aid":"aid_new"}) #将aid列名改为aid_new

原始的数据样本数据量太大，在进行调参和线下测试的时候只取一小部分可以节约时间，所以对数据集进行采样

1 2	df['aid'].value_counts() df.groupby(by='aid').size()

1	df[df['aid'] > 1000]

1	df['aid'].unique()

1 2	df['score'].round(6) #保留6位 df['score'] = df['score'].apply(lambda x: '%.6f' % x) #保留6位

1 2	train.loc[train['label']==-1,'label']=0 train['label'] = train['label'].map({1: 1, -1: 0})