Python超强大的PDF表格提取器

如果你有从PDF中批量提取表格的需求，那么这篇文章就是你的福音。

Python 第三方模块 Camelot 能够精准识别PDF中的表格信息，并提取为pandas数据结构，而且还能导出为多种格式：JSON，Excel，HTML和Sqlite。

下面给大家介绍这个模块的使用方法：

1.使用

最简单的使用方式如下：

import camelot
# 1.读取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.导出pdf所有的表格为csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行，导入了camelot这个模块。

第二行，以stream的模式读取当前目录的foo.pdf文件。

第三行，将所有表格数据导出为 foo.csv 文件，并保存在当前文件夹下。

相当简单，请注意，read_pdf 的 flavor 参数是可选的，如果你不带这个参数，请注意需要安装 ghostscript 这个驱动，因为它默认使用 ghostscript 去用 lattice 模式。

2.进阶

2.1 处理背景线：

可以看到，很多表格的线都隐藏在背景中。这种表格默认是不支持的，这时候我们需要让程序能够自动识别这样的表格：

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

增加 process_background=True 参数即可。

2.2 指定表格区域

某些情况下无法正确识别到PDF中的表格，此时手动设定左上角和右下角的边界可能是有效果的：

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 接受格式为 x1，y1，x2，y2 的字符串，其中(x1，y1) -> 左上角, (x2，y2) -> 右下角。在PDF坐标空间中，页面的左下角是原点，坐标为（0，0）。

以上就是“Python超强大的PDF表格提取器 — Camelot”的详细内容，想要了解更多关于Python教程欢迎持续关注编程学习网

扫码二维码 获取免费视频学习资料

Python编程学习

查看2022高级编程视频教程免费获取