Skip to content
This repository has been archived by the owner on Nov 30, 2023. It is now read-only.

识别PDF里面的文字提取部分数据导出表格文件

Notifications You must be signed in to change notification settings

JLUZHAnalytica/TASK-6.10-PDF_Extract

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TASK-6.10-PDF_Extract

任务描述

识别PDF里面的文字提取部分数据导出表格文件

文件说明

img/ 目录用于存放本文档里面需要显示的图片

output/ 目录用于程序的输出

scr/ 目录为源码

scr/PDFread.py 是刘伟鸿写的已经实现了全部功能的程序

scr/server/server_eat_pdf.py 是曾一凡写的服务端程序(有严重bug)

项目目前问题

虽然说需求的功能已经实现了,但是需要打包成EXE(吃饱了撑着)。而打包的过程会报错,报错内容见下图

image

所以,余强老师让我们写一个,Web版本的。这个我经过尝试发现了很多问题,不比解决打包的库问题容易。

我的想法是,写一个API(避免了搞前端网页)。在客户端将PDF文件用base64编码后通过get请求的查询参数给服务端(这是一个很长很长的URL),然后服务端解析完之后返回给客户端,客户端输出Excel文件。

但是目前遇到的问题是,那个查询参数传过去正常的,服务端一解析就不正常了,里面莫名其妙多了很多换行,以及base64的+全不见了。(通过输出文件查看得知)

About

识别PDF里面的文字提取部分数据导出表格文件

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages