pandas数据读取与清洗视频02-pd.read_excel()读取excel文件

本系列课程适用人群：

python零基础数据分析的朋友；
在校学生；
职场中经常要处理各种数据表格，或大量数据（十万级以上）的朋友；
喜欢图表可视化的朋友；

系列视频目前可在B站观看，会定期更新，欢迎大家吐槽！

本节概要：python能快速读取电脑的excel文件，不用担心一个几十兆的文件打不开

本节代码：

"""
# =============================================================================
# 3.1 Python工具包
# =============================================================================
1 Python中与数据处理相关的部分工具包
    - numpy：基础数据计算工具包
    - pandas：数据处理，python数据处理中最重要的工具包
    - matplotlib：静态可视
    - seaborn：静态可视
    - pyechart：动态可视，需要手动安装工具包

2 工具包的使用  ★★★★★
    - 步骤：导入工具包；调用工具包中的方法或属性
        - import padas as pd  # 导入工具包并简写成pd，写成其他名称也可以，写作“pd”只是大家的习惯。
        - pd.read_excel()
    
3 工具包中方法与excel中函数类比 ★★★★★
    - =VLOOKUP(F11,A1:D20,2,0)    # excel函数用等号开始，vlookup有4个参数

    - pandas.read_excel(io, sheet_name=0, header=0, **kwds) # pythong中函数用"."

# =============================================================================
# 3.2 读取excel文件  ： pandas.read_excel()
# =============================================================================

pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, 
                  squeeze=False, dtype=None, engine=None, converters=None, true_values=None, 
                  false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, 
                  verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, 
                  skip_footer=0, skipfooter=0, convert_float=True, mangle_dupe_cols=True, **kwds)
    - 常用参数：
        - io：excel的路径,选中文件，鼠标右键，在"属性"中找到文件位置，再补充上文件名称，则为完整路径。注意反斜杠方向   ★★★★★ 
        - sheet_name：工作表的名称。当不输入时，默认读取第一个工作表
    - 不常用参数:
        - index_col ：指定某一列为索引。index_col=1
        - names ：列名称,传入list数据
        - header:指定行作为列名,默认为第1行。header=[1,2]多级索引
        - usecols:读取指定列。usecols = ["A","B"]
"""


# =============================================================================
# 3.2.1 常用参数io：excel文件所在的路径
# =============================================================================
# 导入pandas工具包
import pandas as pd

# 方式1 ★★★
data1 = pd.read_excel('D:/python/课件/data/泰坦尼克数据.xlsx')

# 方式2 ★★★
# 导入os工具包
import os
# 设置默认路径，当读取此文件夹下的文件时，直接输入文件名称就可以
os.chdir('D:/python/课件/data/')
data2 = pd.read_excel('泰坦尼克数据.xlsx')

# =============================================================================
# 3.2.2 常用参数sheet_name：读取的工作表的名称
# =============================================================================
# 方式1 ★★★
data3 = pd.read_excel('泰坦尼克数据.xlsx',sheet_name='Sheet1')
# 方式2
data4 = pd.read_excel('泰坦尼克数据.xlsx',sheet_name=1)

# =============================================================================
# 3.2.3 常用参数index_col：设置某一列为索引。一般在数据中有序列编号列时使用
# =============================================================================
data5 = pd.read_excel('泰坦尼克数据.xlsx',index_col='乘客ID')
# 设置所以一般用DataFrame中set_index()方法 ★★★

# =============================================================================
# 3.2.4 常用参数names：更改列名称。列名长度需要与数据列名数量一致
# =============================================================================
data6 = pd.read_excel('泰坦尼克数据.xlsx',names=['变量1','变量2','变量3','变量4','变量5','变量6','变量7','变量8','变量9','变量10','变量11','变量12'])

# 更改列名一般用DataFrame中columns属性★★★
data6.columns = ['乘客ID', '是否存活', '票类', '姓名', '性别', '年龄', '乘客兄弟姐妹个数',
                 '乘客父母/孩子的个数', '票号','票价', '仓位', '登船港口']

# =============================================================================
# 3.2.5 常用参数usecols：读取指定列
# =============================================================================
data7 = pd.read_excel('泰坦尼克数据.xlsx',usecols=['姓名','性别','年龄'])

# 方式二★★★
data8 = pd.read_excel('泰坦尼克数据.xlsx')[['姓名','性别','年龄']]  # 注意是两个中括号

# =============================================================================
# 3.2.5 常用参数header：列名所在位置
# =============================================================================
data9 = pd.read_excel('泰坦尼克数据.xlsx',header=1)
data10 = pd.read_excel('泰坦尼克数据.xlsx',header=None)