1、wordpress的插件应采用多线程的,也就是在插件的后台可以新增好几个采集节点,类似dede的采集系统,支持分级采集,缩小采集范围,当然能自动监视目标站。
创新互联是一家专注于网站建设、成都网站设计与策划设计,赣县网站建设哪家好?创新互联做网站,专注于网站建设十多年,网设计领域的专业建站公司;建站业务涵盖:赣县等地区。赣县做网站价格咨询:13518219792
2、采集到的数据有过滤规则,过滤一些不必要的数据。
3、采集到的数据直接入库(mysql)或发布。
如果是简单的采集
wordpress插件就能实现:WP-o-Matic 只需在后台设定 Rss 源以及采集的时间,WP-o-Matic就会自动执行。它甚至可以将对方网站的附件以及图片等都采集,跟国内的cms系统有得一拼,完全无需站长耗心耗力。
如果想整站采集
可以使用火车头采集软件,但是需要手动编写规则, 数据库也需要自己处理后在导入,比较麻烦
wp上常用的采集插件有胖鼠、wp-automatic、scrapes、crawling等。
说不上哪个最好用,只要会写采集规则,都能用。
不过网站最好还是发布原创内容,采集的排名或越来越难,这是搜索引擎明确打击的行为。
WP可以通过第三方软件来采集,比如ET采集器,很好用,我一直在用,比火车头简单。