- 主题:[求助]菜鸟级的问题
我的意见是
隔1天wget抓一次
然后用C语言编译一个程序结合bash script写一个脚本
放crontab里面执行
然后输出处理过的html文件
这个完全是后台的
【 在 PowerRC (Because I choose to.) 的大作中提到: 】
: 有点担心php的效率和安全问题,要是被别人知道了脚本所在,狂触发它会塞爆服务器的吧?
--
修改:sxdxsimple FROM 61.237.147.*
FROM 61.237.147.*
我是学C入门的
【 在 tombcy (香烧熊猫) 的大作中提到: 】
: 我是学汇编入门的
--
FROM 61.237.147.*
C plus plus, C ++
【 在 jiangjun2000 (%d) 的大作中提到: 】
: 那cpp是啥...
--
FROM 61.237.147.*
你写的socket能好过wget的吗?
能利用别人的就利用
【 在 PowerRC (Because I choose to.) 的大作中提到: 】
: 嗯。
: 不过抓取和过滤处理我已经自己编程实现了,由socket开始写起的。
: 我还想写个类,专门封装所有kbs的发帖操作,不过看来工程浩大,所以我放弃了。
: ...................
--
FROM 221.204.246.*
给你个我测试的例子
是抓某站的十大,已经在服务器上测试过了,可用
是用bash script写的,需要根据不同的页面调整代码
http://www.hshdd.cn/download/css/
【 在 PowerRC (Because I choose to.) 的大作中提到: 】
: 不是这个意思
: 其实我上个学期就已经用java写完这部分的了,太依赖java了,结果拿到服务器上,没有装jre,要先装jre,服务器用的是freebsd 6.0,xorg 7.0;刚好碰上那时候xorg大升级,升级了ports后需要先升级xorg才能装其他ports ,我自己的电脑上升级失败了,所以不敢在服务器上升级,
: 这个学期我就决定减少依赖性,自己写算了
: ...................
--
修改:sxdxsimple FROM 221.204.246.*
FROM 221.204.246.*
一般获取列表就足够了。
写script肯定比用其他的简单,还能顺便练习linux基本操作
我站目前的需求就是那样,更进一步的没有动力编写了
【 在 PowerRC (Because I choose to.) 的大作中提到: 】
: 假如是这样的呢,是先获取新闻的列表,然后在列表里获取地址,然后再根据地址去获取新闻?
: 这样写script会不会很繁琐?
--
FROM 221.204.246.*
哈哈,如果是这样,还真得改改
【 在 PowerRC (Because I choose to.) 的大作中提到: 】
: 不知道是不是我的算法有问题,运行起来,其中一个CPU就100%.(双p4 xeon 2.8g)
: 我过滤html语法的语句很简单啊,就是用stl stirng的find(">"),然后substr>和<里面的东西.
--
FROM 221.204.246.*