pandas数据读取与清洗视频06-python中数据结构（DataFrame、Series）

本系列课程适用人群：

python零基础数据分析的朋友；
在校学生；
职场中经常要处理各种数据表格，或大量数据（十万级以上）的朋友；
喜欢图表可视化的朋友；

系列视频目前可在B站观看，会定期更新，欢迎大家吐槽！

本节概要：认识DataFrame数据格式

本节代码：

'''
# =============================================================================
#  Python中基本数据格式, 和excel中单元格格式类似
# =============================================================================
    - 整数 : int  ，类似excel中数字格式
    - 小数 : float，类似excel中数字格式，设置小数位数
    - 字符串 : string ，类似excel中文本格式
    - 布尔值 : True、 False
    - 对象 : object  
'''

# 导入pandas工具包，并简写成pd
import pandas as pd
# 读取文件，并命名为data1
data1 = pd.read_excel('D:/python/课件/data/泰坦尼克数据.xlsx')
# 通过info()方法查看data1的基本信息
data1.info()

'''
# =============================================================================
# Python中基本数据结构，在数据处理中list和字典最常用
# =============================================================================
 - 列表(list) ：中括号 ★★★★★
 - 字典(dict) ：大括号，里面元素成对 ★★★★★
 - 元组(Tuple) ：逗号
 - 集合(set)： 大括号
'''


# =============================================================================
# 列表★★★★★
# =============================================================================
# 定义3个列表
ls1 = [1,2,3,4,5]
ls2 = ['a','b','c','d','e']
ls3 = ['a','b',[1,2],'d','e']

# 打印
print(ls1)
print(ls2)
print(ls3)

# =============================================================================
# 字典★★★★★：成对数据
# =============================================================================
# 定义三个字典
dic1 = {'A':1,'B':2}
dic2 = {'A':'中国','B':'美国'}
dic3 = {'A':[1,2,3],'B':[4,2,5]}

# 打印
print(dic1)
print(dic2)
print(dic3)

# =============================================================================
# 元组
# =============================================================================
# 定义1个元组
tup1 = 4,5,6,7

print(tup1)

# =============================================================================
# 集合
# =============================================================================
# 定义1个集合
s1 = set([2,2,2,1,3,3,'a','a'])

print(s1)


'''
# =============================================================================
# Numpy中基本数据结构
# =============================================================================
 - 数组(array)

'''
# 生成一维数组
import numpy as np
arr1 = np.array([1,2,3,4,5])
arr1

# 生成二维数组
arr2 = np.array([[1,2,3,4,5],
                 [6,7,8,9,10]])
arr2


# 数组属性
print(arr2.shape)
print(arr2.size)
print(arr2.dtype)


# 数组的运算
arr3 = arr2 + 100
arr3

'''
# =============================================================================
# Pandas中基本数据结构
# =============================================================================
 - DataFrame(二维表)：类似于excel中的一个表格
 - Series(一维表)：类似于excel中的一个表格中一行或者一列
'''

# =============================================================================
# 读取数据
# =============================================================================
# 导入pandas工具包
import pandas as pd

data1 = pd.read_excel('D:/python/课件/data/泰坦尼克数据.xlsx')
# 查看其中一列，也可写成data1.姓名 ，一般不用此种写法
data2 = data1['姓名']
# 查看其中一行
data3 = data1.iloc[100]


# =============================================================================
# 创建数据
# =============================================================================
import numpy as np
#创建一个series，random是np中一个生产随机数的函数
s1 = pd.Series(np.random.random(5))     # 生成5个 0到1 间的随机数

# 创建一个DataFrame
data3 = pd.DataFrame(np.random.randint(5,20,(10,5)),  # 生成一个10行5列整数数组，值在5~20之间
                  columns=list('ABCDE'))

# 数据是几维数据
data3.shape
# 获取数据行数，经常在for循环中辅助使用
data3.shape[0]
# 数据的索引
data3.index
# 数值变量描述性统计
data3.describe().round(2)
# 变量的格式
data3.dtypes
# 数据的列名
data3.columns
# 数据基本信息
data3.info()