pandas数据读取与清洗视频10-python中数据去重、分列、替换

python技巧(数据分析及可视化) Python 2023-03-17 62 0 原文

本系列课程适用人群：

python零基础数据分析的朋友；
在校学生；
职场中经常要处理各种数据表格，或大量数据（十万级以上）的朋友；
喜欢图表可视化的朋友；

系列视频目前可在B站观看，会定期更新，欢迎大家吐槽！

本节代码：

import pandas as pd
data1 = pd.read_csv('D:/python/课件/data/dzdp_data.csv')

'''
# =============================================================================
#  数据去重
# =============================================================================
'''
# 查看帮助文档
help(data1.drop_duplicates)

# =============================================================================
#  对cus_id 进行去重
# =============================================================================

# 删除重复的数据，返回一个DataFrame
data2 = data1.drop_duplicates(subset='cus_id')  # 写成['cus_id']也可以，inplace参数未设置,
#data1.drop_duplicates(subset='cus_id',inplace=True) 
# 对某列差看不重复项
temp1 = data1['cus_id'].unique()

# 判断是否重复
data1['cus_id'].duplicated()

# =============================================================================
# 多个字段（'kouwei','huanjing','fuwu'）去重
# =============================================================================

data3 = data1.drop_duplicates(subset=['kouwei','huanjing','fuwu'])



'''
# =============================================================================
# 数据分列
# =============================================================================
'''
# =============================================================================
# 对comment_star字段按照“-”分割
# =============================================================================

data1['comment_star_re'] = data1['comment_star'].str.split('-')


# =============================================================================
# 对comment_star字段按照“-”分割，取第2个元素
# =============================================================================

data1['comment_star_re'] = data1['comment_star'].str.split('-',expand=True)[1]


'''
# =============================================================================
# 数据替换
# =============================================================================
'''
# =============================================================================
# 按单元格匹配替换
# =============================================================================
# 前后都用中括号，成对替换★★★★
data1['kouwei'].replace(['非常好', '很好', '好', '差', '一般', '无'],
                        [1, 2, 3, 4,5,999],
                        inplace=True)

# 多对一替换★★★★
data1['huanjing'].replace(['非常好', '很好', '好'],'好',inplace=True)

# 字典格式替换
data1['fuwu'].replace({'非常好':1, '很好':2,'好':'3','一般':4,'差':5,'无':999},inplace=True)


# =============================================================================
# 按单元格部分替换
# =============================================================================
data1['comment_star'] = data1['comment_star'].str.replace('sml','SML')   #部分替换 ，只把sml替换成SML,没有inplace参数