识别PDF里面的文字提取部分数据导出表格文件
img/ 目录用于存放本文档里面需要显示的图片
output/ 目录用于程序的输出
scr/ 目录为源码
scr/PDFread.py 是刘伟鸿写的已经实现了全部功能的程序
scr/server/server_eat_pdf.py 是曾一凡写的服务端程序(有严重bug)
虽然说需求的功能已经实现了,但是需要打包成EXE(吃饱了撑着)。而打包的过程会报错,报错内容见下图
所以,余强老师让我们写一个,Web版本的。这个我经过尝试发现了很多问题,不比解决打包的库问题容易。
我的想法是,写一个API(避免了搞前端网页)。在客户端将PDF文件用base64编码后通过get请求的查询参数给服务端(这是一个很长很长的URL),然后服务端解析完之后返回给客户端,客户端输出Excel文件。
但是目前遇到的问题是,那个查询参数传过去正常的,服务端一解析就不正常了,里面莫名其妙多了很多换行,以及base64的+全不见了。(通过输出文件查看得知)