pandas怎么用,看看这10个最常见例子吧

  1. 数据读取:pandas可以读取各种类型的数据文件,如CSV、Excel、SQL等。
import pandas as pd
# 读取CSV文件
data = pd.read_csv('data.csv')
# 读取Excel文件
data = pd.read_excel('data.xlsx')
# 读取SQL数据库中的数据
import sqlite3
conn = sqlite3.connect('database.db')
query = "SELECT * FROM table_name"
data = pd.read_sql(query, conn)
  1. 数据导出:pandas可以将数据导出为不同格式的文件。
# 导出为CSV文件
data.to_csv('data.csv', index=False)
# 导出为Excel文件
data.to_excel('data.xlsx', index=False)
# 导出为SQL数据库
import sqlalchemy
engine = sqlalchemy.create_engine('sqlite:///database.db')
data.to_sql('table_name', engine, if_exists='replace')
  1. 数据选择:pandas可以根据条件和标签对数据进行选择。
# 根据条件进行数据选择
filtered_data = data[data['column_name'] > 100]
# 根据标签进行数据选择
selected_data = data.loc[:, ['column_name1', 'column_name2']]
  1. 数据排序:pandas可以按指定的列对数据进行排序。
# 按某一列升序排序
sorted_data = data.sort_values('column_name', ascending=True)
# 按多列升序排序
sorted_data = data.sort_values(['column_name1', 'column_name2'], ascending=[True, False])
  1. 缺失值处理:pandas可以对缺失值进行处理,如填充、删除等。
# 填充缺失值
data.fillna(0)
# 删除含有缺失值的行
data.dropna()
# 使用前一个非缺失值填充
data.ffill()
  1. 数据分组:pandas可以根据指定的列进行分组操作。
# 按某一列进行分组
grouped_data = data.groupby('column_name')
# 对分组后的数据进行聚合操作(如求和、平均值等)
aggregated_data = grouped_data.sum()
  1. 数据合并:pandas可以将多个数据集根据指定的键值进行合并。
# 合并两个数据集
merged_data = pd.merge(data1, data2, on='column_name')
# 根据多个键值合并数据集
merged_data = pd.merge(data1, data2, on=['column_name1', 'column_name2'])
# 按索引合并数据集
merged_data = pd.merge(data1, data2, left_index=True, right_index=True)
  1. 数据透视表:pandas可以根据指定的行和列进行数据透视。
# 创建数据透视表
pivot_table = data.pivot_table(index='row_column', columns='column_column', values='value_column', aggfunc='mean')
# 透视表添加总计行和列
pivot_table = pivot_table.append(pivot_table.sum(numeric_only=True), ignore_index=True)
pivot_table['Total'] = pivot_table.sum(numeric_only=True, axis=1)
  1. 数据可视化:pandas可以使用matplotlib库进行数据可视化。
# 绘制折线图
data.plot(x='column_name1', y='column_name2', kind='line')
# 绘制柱状图
data.plot(x='column_name', y='column_name', kind='bar')
# 绘制散点图
data.plot(x='column_name1', y='column_name2', kind='scatter')
  1. 数据统计:pandas可以进行各种统计分析。
# 计算平均值
mean_value = data['column_name'].mean()
# 计算中位数
median_value = data['column_name'].median()
# 计算相关系数
correlation = data['column_name1'].corr(data['column_name2'])

已发布

分类

,

标签:

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注