1,对象为PDF文件
2,重新命名文件。根据文件中特定词(汉字)后面的信息,可以用正则表达式匹配找出相关信息。
3,提取特定词所在表格中的所有信息,并提取对应表头。该特定词肯定在表格里面。
4,根据第3步中得到的表头列表,将一批PDF文档中所有以这些表头命名的表格全部提取出来
5,要求python + PDFminer
6,有意者请邮件联系,联系方式:advstreet@gmail.com
7,鉴于想找长期合作,请介绍一下背景,最好可以发一份简历。
8,由于工作时间的关系,在校生优先。
9,如果身边有合适的,也烦请推荐,非常感谢。
--
FROM 114.242.250.*