本系列课程适用人群:

  1. python零基础数据分析的朋友;
  2. 在校学生;
  3. 职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;
  4. 喜欢图表可视化的朋友;

系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!

视频地址:python中数据去重、分列、替换

本节代码:

import pandas as pd
data1 = pd.read_csv('D:/python/课件/data/dzdp_data.csv')

'''
# =============================================================================
#  数据去重
# =============================================================================
'''
# 查看帮助文档
help(data1.drop_duplicates)

# =============================================================================
#  对cus_id 进行去重
# =============================================================================

# 删除重复的数据,返回一个DataFrame
data2 = data1.drop_duplicates(subset='cus_id')  # 写成['cus_id']也可以,inplace参数未设置,
#data1.drop_duplicates(subset='cus_id',inplace=True) 
# 对某列差看不重复项
temp1 = data1['cus_id'].unique()

# 判断是否重复
data1['cus_id'].duplicated()

# =============================================================================
# 多个字段('kouwei','huanjing','fuwu')去重
# =============================================================================

data3 = data1.drop_duplicates(subset=['kouwei','huanjing','fuwu'])



'''
# =============================================================================
# 数据分列
# =============================================================================
'''
# =============================================================================
# 对comment_star字段按照“-”分割
# =============================================================================

data1['comment_star_re'] = data1['comment_star'].str.split('-')


# =============================================================================
# 对comment_star字段按照“-”分割,取第2个元素
# =============================================================================

data1['comment_star_re'] = data1['comment_star'].str.split('-',expand=True)[1]


'''
# =============================================================================
# 数据替换
# =============================================================================
'''
# =============================================================================
# 按单元格匹配替换
# =============================================================================
# 前后都用中括号,成对替换★★★★
data1['kouwei'].replace(['非常好', '很好', '好', '差', '一般', '无'],
                        [1, 2, 3, 4,5,999],
                        inplace=True)

# 多对一替换★★★★
data1['huanjing'].replace(['非常好', '很好', '好'],'好',inplace=True)

# 字典格式替换
data1['fuwu'].replace({'非常好':1, '很好':2,'好':'3','一般':4,'差':5,'无':999},inplace=True)


# =============================================================================
# 按单元格部分替换
# =============================================================================
data1['comment_star'] = data1['comment_star'].str.replace('sml','SML')   #部分替换 ,只把sml替换成SML,没有inplace参数