无论是企业的财务报表、市场调研数据,还是科研项目的实验记录,都常常以 Excel 格式呈现。而 Python 作为一门功能强大的编程语言,拥有丰富的第三方库,能够轻松实现对 Excel 文件的读取与处理。通过 Python 处理 Excel 文件,不仅可以大幅提高数据处理效率,还能完成复杂的数据清洗、分析和可视化任务。接下来一起来详细了解 Python 读取 Excel 文件的多种方法。
一、使用pandas库读取 Excel 文件
pandas是 Python 中用于数据处理和分析的核心库,它对 Excel 文件的支持十分友好,操作简洁高效。
安装pandas库:在使用pandas之前,需要先进行安装。打开命令行终端,输入以下命令:
TypeScript取消自动换行复制
pip install pandas读取 Excel 文件:安装完成后,在 Python 代码中导入pandas库,就可以开始读取 Excel 文件了。例如,要读取当前目录下名为data.xlsx的 Excel 文件,可以使用以下代码:
TypeScript取消自动换行复制
import pandas as pd
data = pd.read_excel('data.xlsx')
print(data)上述代码会将 Excel 文件中的数据读取到一个DataFrame对象中,DataFrame是pandas中用于存储和处理表格型数据的核心数据结构。如果 Excel 文件包含多个工作表,read_excel函数默认读取第一个工作表,若要读取指定工作表,可以通过sheet_name参数指定,如pd.read_excel('data.xlsx', sheet_name='Sheet2') 。此外,还可以通过设置header参数指定哪一行作为表头,通过index_col参数指定索引列等。
二、使用openpyxl库读取 Excel 文件
openpyxl是专门用于处理 Excel 2010 及以上版本(.xlsx/.xlsm/xltx/xltm)的 Python 库,它提供了更底层的操作方式,能让我们对 Excel 文件的单元格、样式等进行更精细的控制。
安装openpyxl库:在命令行终端输入以下命令进行安装:
TypeScript取消自动换行复制
pip install openpyxl读取 Excel 文件:安装完成后,使用以下代码读取 Excel 文件:
TypeScript取消自动换行复制
from openpyxl import load_workbook
wb = load_workbook('data.xlsx')
sheet = wb.active
for row in sheet.iter_rows(values_only=True):
print(row)上述代码首先使用load_workbook函数加载 Excel 文件,然后通过wb.active获取当前活动工作表,接着使用iter_rows方法遍历工作表中的每一行数据。values_only=True参数表示只获取单元格中的值,而不获取单元格对象。如果需要获取指定单元格的值,如获取 A1 单元格的值,可以使用sheet['A1'].value 。
三、使用xlrd库读取 Excel 文件
xlrd库是 Python 中较早用于读取 Excel 文件的库,它对 Excel 97-2003(.xls)文件的支持较好。不过需要注意的是,xlrd库从 2.0.1 版本开始不再支持读取.xlsx 文件。
安装xlrd库:在命令行终端输入以下命令进行安装:
TypeScript取消自动换行复制
pip install xlrd读取 Excel 文件:安装完成后,使用以下代码读取 Excel 文件:
TypeScript取消自动换行复制
import xlrd
workbook = xlrd.open_workbook('data.xls')
sheet = workbook.sheet_by_index(0)
for row in range(sheet.nrows):
print(sheet.row_values(row))上述代码通过open_workbook函数打开 Excel 文件,使用sheet_by_index(0)获取第一个工作表,然后通过循环遍历每一行,使用row_values方法获取每一行的数据。
从简单的数据读取到精细化的单元格操作,Python 提供的这些处理 Excel 文件的方法,能够满足不同场景下的数据处理需求。