Pandas读取外部数据常用的4种方法

AI 概述
Pandas是Python数据分析核心工具,凭借pd.read_*系列函数可读取CSV、TXT、Excel、JSON、数据库等多种数据并转为DataFrame。文中介绍了读取文本、Excel、JSON及MySQL数据库数据的常用方法与关键参数,还提及需安装对应依赖库。灵活配置编码、列名、缺失值等参数,能高效完成数据分析的数据读取工作。
目录
文章目录隐藏
  1. 1. 读取文本文件(CSV/TXT)
  2. 2. 读取 Excel 文件(XLS/XLSX)
  3. 3. 读取 JSON 文件
  4. 4. 读取数据库数据(MySQL/PostgreSQL)
  5. 结语

Pandas 读取外部数据常用的 4 种方法

Pandas 作为 Python 数据分析的核心工具,最大优势在于强大的数据读取能力,它通过pd.read_*系列函数,支持 CSV、TXT、Excel、JSON、数据库等几乎所有常见外部数据格式。无论是文本文件、表格文件、结构化 JSON 数据,还是 MySQL 等数据库数据,都能快速读取并转换为 DataFrame 对象,为后续数据清洗、分析奠定基础,是数据处理必备的核心功能。

以下是最常用的格式及用法:

1. 读取文本文件(CSV/TXT)

这是最常用的场景,核心函数 pd.read_csv(),支持自定义分隔符、编码、列名等。

import pandas as pd
# 读取 CSV 文件(默认逗号分隔)
df = pd.read_csv(
    "data.csv",          # 文件路径(本地/URL)
    encoding="utf-8",    # 编码(中文常用 utf-8/gbk)
    header=0,            # 第 0 行作为列名(默认)
    index_col=None,      # 不将某列作为索引
    sep=",",             # 分隔符(TXT 常用"\t")
    na_values=["NA", "缺失", "-"],  # 哪些值视为 NaN
    skiprows=1,          # 跳过前 1 行(如跳过注释行)
    usecols=["姓名", "分数", "班级"]  # 只读取指定列
)
print("读取的 CSV 数据:")
print(df.head())  # 查看前 5 行

关键参数说明

参数 作用 常用值
encoding 文件编码 utf-8/gbk(解决中文乱码)
header 列名行号 None(无列名)/0(第一行)
na_values 缺失值映射 [“”, “NA”, “无”]
usecols 筛选列 [“列 1”, “列 2”](减少内存占用)
dtype 指定列类型 {“分数”: int, “班级”: str}

2. 读取 Excel 文件(XLS/XLSX)

核心函数 pd.read_excel(),需先安装依赖:

pip install openpyxl  # 读取 xlsx
pip install xlrd      # 读取 xls

基础用法:

import pandas as pd
# 读取 Excel 文件(指定 sheet)
df = pd.read_excel(
    "data.xlsx",
    sheet_name="学生成绩",  # 指定 sheet 名称/索引(0 为第一个)
    header=0,
    usecols="A:C",         # 只读取 A-C 列
    dtype={"分数": float},
    na_values=["未填写"]
)
print("读取的 Excel 数据:")
print(df.info())  # 查看数据基本信息

3. 读取 JSON 文件

核心函数 pd.read_json(),适合读取结构化的 JSON 数据:

import pandas as pd
# 读取 JSON 文件
df = pd.read_json(
    "data.json",
    orient="records",  # JSON 格式(records:[{"列 1":值}, ...])
    encoding="utf-8"
)
print(df.head())

4. 读取数据库数据(MySQL/PostgreSQL)

需安装数据库驱动(以 MySQL 为例):

pip install pymysql

基础用法:

import pandas as pd
import pymysql
# 建立数据库连接
conn = pymysql.connect(
    host="localhost",
    user="root",
    password="123456",
    database="test_db"
)
# 读取数据库表
df = pd.read_sql(
    "SELECT * FROM student_scores",  # SQL 语句
    con=conn  # 数据库连接
)
conn.close()  # 关闭连接
print(df.head())

结语

熟练掌握pd.read_*系列函数的用法,灵活配置编码、列名、缺失值、指定列等关键参数,就能高效读取各类外部数据。无论是处理本地 CSV/Excel 文件,还是读取 JSON、数据库数据,Pandas 都能简化流程、提升效率,牢牢掌握这一核心能力,就能轻松搞定数据分析的第一步数据读取工作。

以上关于Pandas读取外部数据常用的4种方法的文章就介绍到这了,更多相关内容请搜索码云笔记以前的文章或继续浏览下面的相关文章,希望大家以后多多支持码云笔记。

「点点赞赏,手留余香」

22

给作者打赏,鼓励TA抓紧创作!

微信微信 支付宝支付宝

还没有人赞赏,快来当第一个赞赏的人吧!

声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 admin@mybj123.com 进行投诉反馈,一经查实,立即处理!
重要:如软件存在付费、会员、充值等,均属软件开发者或所属公司行为,与本站无关,网友需自行判断
码云笔记 » Pandas读取外部数据常用的4种方法

发表回复