开源的 PHP 爬虫系统,可视化的采集器,蓝天采集器

2018 年 5 月 4 日
 zorlan

php+mysql 开发的数据采集发布系统

支持 php5.3~php7

支持多级、多页、分页抓取

支持正则、xpath、json 匹配内容

可将数据导入 cms 系统或自己开发的程序、直接入库、保存为文件等

实现定时定量全自动采集发布

界面自适应宽度,手机也可以操作采集

开源地址: https://github.com/zorlan/skycaiji

9126 次点击
所在节点    程序员
33 条回复
eluotao
2018 年 5 月 4 日
支持一下...感谢你的开源分享.
zorlan
2018 年 5 月 4 日
@eluotao 谢谢支持哈!
martyartrt1
2018 年 5 月 4 日
支持 Js 解析么
IanG
2018 年 5 月 4 日
共享采集规则这个也不错
zorlan
2018 年 5 月 4 日
@martyartrt1 你说的是 js 渲染吗?这个还不能有些难度
zorlan
2018 年 5 月 4 日
@183387594 谢谢支持!还可以把规则保存到本地的
Enivel
2018 年 5 月 4 日
@zorlan php v8js 了解一下
zorlan
2018 年 5 月 4 日
@LevineChen 好东西,研究一下!
mf2019d
2018 年 5 月 4 日
好好。
gouchaoer
2018 年 5 月 4 日
说 v8js 的,js 代码一般和 dom 高度绑定的,v8js 里面又没有 dom,所以并没有用
Hansah
2018 年 5 月 4 日
挂上服务器试试
LeungJZ
2018 年 5 月 4 日
支持。
Nott
2018 年 5 月 4 日
赞,PHP 版火车头
gouchaoer
2018 年 5 月 4 日
源码里面把换行符去掉略蛋疼,一方面这个没用,另一方面造成一个暗示就是你不希望有人贡献代码
xjroot
2018 年 5 月 4 日
phpspider , 一样的问题, 重复内容该如何处理.. 通配规则等..
aiseo
2018 年 5 月 4 日
这个怎么感觉就是 php 版火车头呢
zorlan
2018 年 5 月 4 日
@gouchaoer 额,代码写的烂,不好意思让你们看
zorlan
2018 年 5 月 4 日
@aiseo 站在巨人的肩膀上
akira
2018 年 5 月 4 日
@zorlan 那不就是更应该让大家来帮忙改么
nosay
2018 年 5 月 4 日
赞,就是 tp 版本低了点,可能是一个不稳定的因素。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://v2ex.xtra.eu.org/t/452020

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX