TASK-6.10-PDF_Extract

任务描述

识别PDF里面的文字提取部分数据导出表格文件

img/ 目录用于存放本文档里面需要显示的图片

output/ 目录用于程序的输出

scr/ 目录为源码

scr/PDFread.py 是刘伟鸿写的已经实现了全部功能的程序

scr/server/server_eat_pdf.py 是曾一凡写的服务端程序（有严重bug）

虽然说需求的功能已经实现了，但是需要打包成EXE（吃饱了撑着）。而打包的过程会报错，报错内容见下图

所以，余强老师让我们写一个，Web版本的。这个我经过尝试发现了很多问题，不比解决打包的库问题容易。

我的想法是，写一个API（避免了搞前端网页）。在客户端将PDF文件用base64编码后通过get请求的查询参数给服务端（这是一个很长很长的URL），然后服务端解析完之后返回给客户端，客户端输出Excel文件。

但是目前遇到的问题是，那个查询参数传过去正常的，服务端一解析就不正常了，里面莫名其妙多了很多换行，以及base64的+全不见了。（通过输出文件查看得知）

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
img		img
scr		scr
.gitignore		.gitignore
README.md		README.md
target_page.pdf		target_page.pdf