需要定制的爬虫一个, 两个功能. 可以用python
1. 给一个url, 把他的html/css/js/image,存为本地网站。 类似于offline website.
把一个网站, 不管他后台怎么写的, 存为html.
1. index.html
2. Contact.html
3. aboutus.html
4. Asset
1. Js
2. Css
3. Img
5. blog
1. index.html
2. Posts
1. Abc.html
需要修改html的链接。 wget这个可以做到, 但是我希望有代码可以控制
2. 提取数据
html里面的数据, h1/h2/h3/p, 然后metadata, 这些输出到text.
--
FROM 73.225.94.*