python怎么读取csv的一部分数据?

开发者资讯
2025-07-19
编辑

　　Python提供了多种工具和库来处理CSV文件。在处理大型CSV文件时，有时只需要读取部分数据而不是整个文件。在Python中，可以使用标准库csv或第三方库pandas高效读取CSV文件的部分数据。本文为大家详细介绍python读取csv的一部分数据的几种方式。

　　python怎么读取csv的一部分数据?

　　方法1：使用标准库csv

　　pythonimport csv# 示例1：读取前N行with open('data.csv', 'r', encoding='utf-8') as file:reader = csv.reader(file)header = next(reader) # 跳过标题行(可选)for i, row in enumerate(reader):if i < 5: # 只读取前5行print(row)else:break# 示例2：按条件筛选(如某列值>100)with open('data.csv', 'r') as file:reader = csv.DictReader(file) # 以字典形式读取(首行为键)filtered_rows = [row for row in reader if int(row['value']) > 100] # 假设'value'是数值列print(filtered_rows[:3]) # 打印前3条匹配结果

python怎么读取csv的一部分数据.jpg

　　方法2：使用pandas

　　pythonimport pandas as pd# 示例1：读取前N行df = pd.read_csv('data.csv', nrows=10) # 仅读取前10行print(df.head())# 示例2：按条件筛选列和行df = pd.read_csv('data.csv', usecols=['name', 'value']) # 只读取指定列filtered_df = df[df['value'] > 100].head(3) # 筛选并取前3条print(filtered_df)# 示例3：分块读取(处理超大文件)chunk_iter = pd.read_csv('large_file.csv', chunksize=1000) # 每次读取1000行for chunk in chunk_iter:subset = chunk[chunk['date'] > '2023-01-01'] # 对每个分块处理print(subset.shape)

　　关键参数说明

　　nrows: 限制读取的行数。

　　usecols: 指定需要读取的列(如['col1', 'col2'])。

　　chunksize: 分块读取的行数，避免内存溢出。

　　skiprows: 跳过指定行，如skiprows=5跳过前5行。

　　注意事项

　　编码问题：若文件含中文，需指定encoding='utf-8'或'gbk'。

　　性能优化：大文件优先用pandas分块处理或csv.reader逐行读取。

　　内存管理：避免直接加载整个大文件，使用生成器或分块处理。

　　通过灵活组合这些方法，可以高效提取CSV中的目标数据。

　　以上就是详细的方法介绍，在处理CSV文件时，选择合适的方法取决于文件的大小和具体需求。对于小型到中型文件，pandas库提供了简便且高效的读取方式，使用csv模块可以实现更低级别的控制，但可能需要更多的编码工作。