如何读pdf或者docx中的章节信息

水木社区手机版

展开|楼主|同主题展开|返回

上一篇|下一篇

主题:如何读pdf或者docx中的章节信息
doitmy|2021-09-16 16:26:39|
要从一大堆文档中，建一个语料库，基本上每个head 3的章节，是一个语料，我得把它们切分出来
word 文档的部分，用python-docx库，通过每个Document.paragraphs的style，可以把Heading找出来

doc = docx.Document(url)
for par in doc.paragraphs:
    stylename = par.style.name
    if re.match(f'Heading [1-3]',stylename):
           #找到章节
怎么得到章节号？

还有一批pdf文档，pdfminer只能抽取每页的文本，没法得到章节信息啊，有什么思路么？
这哥们儿遇到同样问题
https://stackoverflow.com/questions/53219016/detecting-sections-of-a-pdf-with-pdfminer
--
FROM 180.166.53.*

上一篇|下一篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版