处理数据快准狠

Python技术博文 · 公众号 · Python · 2017-09-23 16:30

正文

请到「今天看啥」查看全文

[ 1 : 3 ，[ 1 , 3 ]]= 1 #所选位置数据替换为1

4）使用DataFrame筛选数据(类似SQL中的WHERE):

alist = ['023-18996609823']
 #将要过滤的数据放入字典中,使用isin对数据进行筛选,
 #返回行索引以及每行筛选的结果,若匹配则返回turedf_obj['用户号码'].isin(alist)
df_obj[df_obj['用户号码'].isin(alist)] #获取匹配结果为ture的行

5）使用DataFrame模糊筛选数据(类似SQL中的LIKE):

#使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次
df_obj[df_obj['套餐'].str.contains(r'.*?语音CDMA.*')]

6）使用DataFrame进行数据转换(后期补充说明)

#可以使用正则表达式
df_obj[ '支局_维护线' ] = df_obj[ '支局_维护线' ].str. replace ( '巫溪分公司(.{2,})支局' , '\\1' )

可以设置take_last=ture 保留最后一个,或保留开始一个.补充说明:注意take_last=ture已过时,请使用keep=’last’
7）使用pandas中读取数据:

#首先输入csv文本地址,然后分割符选择等等
read_csv('D:\LQJ.csv',sep=';',nrows=2) 
df.to_excel('foo.xlsx',sheet_name='Sheet1');
#写入读取excel数据，pd.read_excel读取的数据是以DataFrame形式存储
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])
df.to_hdf('foo.h5','df');pd.read_hdf('foo.h5'