要从一大堆文档中,建一个语料库,基本上每个head 3的章节,是一个语料,我得把它们切分出来
word 文档的部分,用python-docx库,通过每个Document.paragraphs的style,可以把Heading找出来
doc = docx.Document(url)
for par in doc.paragraphs:
stylename = par.style.name
if re.match(f'Heading [1-3]',stylename):
#找到章节
怎么得到章节号?
还有一批pdf文档,pdfminer只能抽取每页的文本,没法得到章节信息啊,有什么思路么?
这哥们儿遇到同样问题
https://stackoverflow.com/questions/53219016/detecting-sections-of-a-pdf-with-pdfminer
--
FROM 180.166.53.*