本系列课程适用人群:

  1. python零基础数据分析的朋友;
  2. 在校学生;
  3. 职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;
  4. 喜欢图表可视化的朋友;

系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!

本节概要:python能快速读取电脑的excel文件,不用担心一个几十兆的文件打不开

视频地址:python读取excel文件

本节代码:

"""
# =============================================================================
# 3.1 Python工具包
# =============================================================================
1 Python中与数据处理相关的部分工具包
    - numpy:基础数据计算工具包
    - pandas:数据处理,python数据处理中最重要的工具包
    - matplotlib:静态可视
    - seaborn:静态可视
    - pyechart:动态可视,需要手动安装工具包

2 工具包的使用  ★★★★★
    - 步骤:导入工具包;调用工具包中的方法或属性
        - import padas as pd  # 导入工具包并简写成pd,写成其他名称也可以,写作“pd”只是大家的习惯。
        - pd.read_excel()
    
3 工具包中方法与excel中函数类比 ★★★★★
    - =VLOOKUP(F11,A1:D20,2,0)    # excel函数用等号开始,vlookup有4个参数

    - pandas.read_excel(io, sheet_name=0, header=0, **kwds) # pythong中函数用"."

# =============================================================================
# 3.2 读取excel文件  : pandas.read_excel()
# =============================================================================

pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, 
                  squeeze=False, dtype=None, engine=None, converters=None, true_values=None, 
                  false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, 
                  verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, 
                  skip_footer=0, skipfooter=0, convert_float=True, mangle_dupe_cols=True, **kwds)
    - 常用参数:
        - io:excel的路径,选中文件,鼠标右键,在"属性"中找到文件位置,再补充上文件名称,则为完整路径。注意反斜杠方向   ★★★★★ 
        - sheet_name:工作表的名称。当不输入时,默认读取第一个工作表
    - 不常用参数:
        - index_col :指定某一列为索引。index_col=1
        - names :列名称,传入list数据
        - header:指定行作为列名,默认为第1行。header=[1,2]多级索引
        - usecols:读取指定列。usecols = ["A","B"]
"""


# =============================================================================
# 3.2.1 常用参数io:excel文件所在的路径
# =============================================================================
# 导入pandas工具包
import pandas as pd

# 方式1 ★★★
data1 = pd.read_excel('D:/python/课件/data/泰坦尼克数据.xlsx')

# 方式2 ★★★
# 导入os工具包
import os
# 设置默认路径,当读取此文件夹下的文件时,直接输入文件名称就可以
os.chdir('D:/python/课件/data/')
data2 = pd.read_excel('泰坦尼克数据.xlsx')

# =============================================================================
# 3.2.2 常用参数sheet_name:读取的工作表的名称
# =============================================================================
# 方式1 ★★★
data3 = pd.read_excel('泰坦尼克数据.xlsx',sheet_name='Sheet1')
# 方式2
data4 = pd.read_excel('泰坦尼克数据.xlsx',sheet_name=1)

# =============================================================================
# 3.2.3 常用参数index_col:设置某一列为索引。一般在数据中有序列编号列时使用
# =============================================================================
data5 = pd.read_excel('泰坦尼克数据.xlsx',index_col='乘客ID')
# 设置所以一般用DataFrame中set_index()方法 ★★★

# =============================================================================
# 3.2.4 常用参数names:更改列名称。列名长度需要与数据列名数量一致
# =============================================================================
data6 = pd.read_excel('泰坦尼克数据.xlsx',names=['变量1','变量2','变量3','变量4','变量5','变量6','变量7','变量8','变量9','变量10','变量11','变量12'])

# 更改列名一般用DataFrame中columns属性★★★
data6.columns = ['乘客ID', '是否存活', '票类', '姓名', '性别', '年龄', '乘客兄弟姐妹个数',
                 '乘客父母/孩子的个数', '票号','票价', '仓位', '登船港口']

# =============================================================================
# 3.2.5 常用参数usecols:读取指定列
# =============================================================================
data7 = pd.read_excel('泰坦尼克数据.xlsx',usecols=['姓名','性别','年龄'])

# 方式二★★★
data8 = pd.read_excel('泰坦尼克数据.xlsx')[['姓名','性别','年龄']]  # 注意是两个中括号

# =============================================================================
# 3.2.5 常用参数header:列名所在位置
# =============================================================================
data9 = pd.read_excel('泰坦尼克数据.xlsx',header=1)
data10 = pd.read_excel('泰坦尼克数据.xlsx',header=None)