php采集网站数据 php 采集

php采集大数据的方案

1、建议你读写数据和下载图片分开，各用不同的进程完成。

在洛浦等地区，都构建了全面的区域性战略布局，加强发展的系统性、市场前瞻性、产品创新能力，以专注、极致的服务理念，为客户提供网站制作、成都网站建设网站设计制作按需定制网站,公司网站建设,企业网站建设,品牌网站设计,全网营销推广,外贸营销网站建设,洛浦网站建设费用合理。

比如说，取数据用get-data.php，下载图片用get-image.php。

2、多进程的话，php可以简单的用pcntl_fork()。这样可以并发多个子进程。

但是我不建议你用fork，我建议你安装一个gearman worker。这样你要并发几个，就启几个worker，写代码简单，根本不用在代码里考虑thread啊，process等等。

3、综上，解决方案这样：

（1）安装gearman worker。

（2）写一个get-data.php，在crontab里设置它每5分钟执行一次，只负责读数据，然后把读回来的数据一条一条的扔到 gearman worker的队列里；

然后再写一个处理数据的脚本作为worker，例如叫process-data.php，这个脚本常驻内存。它作为worker从geraman 队列里读出一条一条的数据，然后跟你的数据库老数据比较，进行你的业务逻辑。如果你要10个并发，那就启动10个process-data.php好了。处理完后，如果图片地址有变动需要下载图片，就把图片地址扔到 gearman worker的另一个队列里。

（3）再写一个download-data.php，作为下载图片的worker，同样，你启动10个20个并发随便你。这个进程也常驻内存运行，从gearman worker的图片数据队列里取数据出来，下载图片

4、常驻进程的话，就是在代码里写个while(true)死循环，让它一直运行好了。如果怕内存泄露啥的，你可以每循环10万次退出一下。然后在crontab里设置，每分钟检查一下进程有没有启动，比如说这样启动3个process-data worker进程：

* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php /dev/null 21'

不知道你明白了没有

php 百度知道数据采集

问题其实不难，自己都能写。给你几个思路吧：

1.在百度知道中，输入linux，然后会出现列表。复制浏览器地址栏内容。

然后翻页，在复制地址栏内容，看看有什么不同，不同之处，就是你要循环分页的i值。

当然这个是笨方法。

2.使用php的file或者file_get_contents函数，获取链接URL的内容。

3.通过php正则表达式，获取你需要的3个字段内容。

4.写入数据库。

需要注意的是，百度知道有可能做了防抓取的功能，你刚一抓几个页面，可能会被禁止。

建议也就抓10页数据。

其实不难，你肯定写的出来。还有，网上应该有很多抓取工具，你找找看，然后将抓下来的数据

在做分析。写入数据库。

php如何获取网址中的参数

比如有一个网址为

http://域名/goods.php?u=59id=24#pinglun

我想得到这个id值

可以用正则,也可以用php函数解析到数组中

用正则可以这样

preg_match('/id=(\d+)/',$_SERVER["REQUEST_URI"],$m);//$_SERVER 这个表示当前网址url

print_r($m[1]);exit;

或者用parse_url()及parse_str()函数

$cur_q=parse_url($_SERVER["REQUEST_URI"],PHP_URL_QUERY);

parse_str($cur_q,$myArray);

print_r($myArray["id"]);exit;

拓展资料

PHP（外文名:PHP: Hypertext Preprocessor，中文名：“超文本预处理器”）是一种通用开源脚本语言。语法吸收了C语言、Java和Perl的特点，利于学习，使用广泛，主要适用于Web开发领域。PHP 独特的语法混合了C、Java、Perl以及PHP自创的语法。它可以比CGI或者Perl更快速地执行动态网页。用PHP做出的动态页面与其他的编程语言相比，PHP是将程序嵌入到HTML（标准通用标记语言下的一个应用）文档中去执行，执行效率比完全生成HTML标记的CGI要高许多；PHP还可以执行编译后代码，编译可以达到加密和优化代码运行，使代码运行更快。

PHP的特性包括：

1. PHP 独特的语法混合了 C、Java、Perl 以及 PHP 自创新的语法。

2. PHP可以比CGI或者Perl更快速的执行动态网页——动态页面方面，与其他的编程语言相比，

PHP是将程序嵌入到HTML文档中去执行，执行效率比完全生成htmL标记的CGI要高许多；

PHP具有非常强大的功能，所有的CGI的功能PHP都能实现。

3. PHP支持几乎所有流行的数据库以及操作系统。

4. 最重要的是PHP可以用C、C++进行程序的扩展！

参考资料：百度百科 PHP

phpcms网站建设中采集的方法，怎么样做采集

工具/原料

PHPCMS

文章采集器

方法/步骤

1、首先我们需要下载并安装GBK格式的PHPCMS系统。

2、下载PHPCMS和文章采集器的接口文件

3、将jiekou.php文件复制到网站的根目录下，并用记事本打开该文件，修改“密码验证”栏目password处的密码

4、启动文章采集器，先点击【第三步发布内容设置】中的"web发布管理配置"

5、在弹出的【web发布配置管理】窗口中单击右侧的【更多】按钮，导入“phpcms9.wpm”配置模块，并选择该模块

6、设置【web发布配置管理】中的编码设置、登录操作、获取分类栏目等选项

7、单击【测试】按钮，在弹出的【发布配置测试】对话框中设置标签和内容的值，此项为必须设置，否则发布测试文章会失败。至此PHPCMS已经与文章采集器连接成功。

怎么用php采集网站数据

简单的分了几个步骤：

1、确定采集目标

2、获取目标远程页面内容（curl、file_get_contents）

3、分析页面html源码，正则匹配你需要的内容（preg_match、preg_match_all），这一步最为重要，不同页面正则匹配规则不一样

4、入库

用JS翻页的网页如何用PHP实现采集

最简单的办法就是在你的所有中文页面上，一般在导航位置加一个英文页面首页的超链接。这样用户点英文那个链接就进入英文页面了。同样的，在所有的英文页面导航位置都加一个中文首页链接。推荐你用图片做这两个链接，这样不会因为用户没有装对应的语言系统而出现奇怪字符。比如欧美用户一般是不会装中文系统的，页面上有中文字符的时候必然显示为乱码。

网站目录当然要为中文和英文各建一个独立的目录，里面放置各自的页面了。

如果使用数据库的话，则思路是一样的。

当前标题：php采集网站数据 php 采集
当前路径：http://cxhlcq.com/article/dodjhos.html

php采集网站数据 php 采集

php采集大数据的方案

php 百度知道数据采集

php如何获取网址中的参数

phpcms网站建设中采集的方法，怎么样做采集

怎么用php采集网站数据

用JS翻页的网页如何用PHP实现采集

其他资讯

网站制作

企业服务

网站建设

服务器托管

php采集网站数据 php 采集

php采集大数据的方案

php 百度 知道数据采集

php如何获取网址中的参数

phpcms网站建设中采集的方法，怎么样做采集

怎么用php采集网站数据

用JS翻页的网页如何用PHP实现采集

其他资讯

网站制作

企业服务

网站建设

服务器托管

php 百度知道数据采集