项目名称:Kspider

项目功能:可视化爬虫

项目简介:一个可视化的爬虫平台,可以通过图形化界面定义爬虫流程,无需编写代码即可完成爬虫任务。 支持XPath和CSS选择器、自动管理Cookie、抓取动态渲染的页面、代理支持、还支持插件扩展、自定义JS脚本、可视化调试和任务日志等功能。无需编写后端代码的爬虫\WEB自动化测试平台,可自定义函数、复杂脚本、定时任务,支持插件热插拔,自定义扩展,方便快捷的管理UI,效率翻倍。

特性

  • 支持 xpath 和 css 选择器
  • 支持选择器提取、正则提取、json 提取等
  • 支持 Cookie 自动管理
  • 支持抓取由 js 动态渲染的页面
  • 支持代理
  • 支持多数据源
  • 内置常用的字符串、日期、文件、加解密等函数
  • 支持结果保存至多目的地(数据库、csv 文件等)
  • 支持插件扩展(自定义执行器,自定义函数等)
  • 支持任务日志
  • 支持爬虫可视化调试
  • 支持同步、异步执行
  • 支持插件扩展
  • 支持自定义 JS 脚本引擎
  • 支持产物下载

新增的特性:

  • 采用 Spring Data JPA 实现数据库操作,支持多种数据库,如 MySQL、PostgreSQL、SQLite、Oracle、MSSQL 等
  • 支持同步执行,对于执行结果有顺序要求的可以使用该功能
  • 增加随机 User-Agent(数据来自:useragentstring.com )
  • 增加身份认证机制
  • 增加延迟执行节点
  • 通过远程 WebDriver 来操纵浏览器(本地不用再加载驱动,更省心,依赖Selenium
  • 支持自定义执行器
  • 支持容器化部署

TODO

  • 支持分布式部署
  • 增加代理的管理界面,方便进行代理的手工添加(不推荐)和启动代理的自动管理功能
  • 支持 SQL 节点更多数据源及数据源配置
  • 重构表达式解析器
  • 增加自定义函数 JavaScript 脚本节点(满足更复杂的数据处理能力)
  • 增加用户管理系统
  • 增加 OCR 图文识别节点
  • 增加爬虫任务实时日志

 

项目地址:点击直达

官方网站:点击直达

 

1.本站所有资源收集于互联网,仅用于学习和研究,若用于违法,与本站无关,仅限学习交流请勿用于商业用途。 2.会员在本站下载的VIP素材后,只拥有使用权,著作权归原作者及49vps所有。 3.VIP素材,未经合法授权,会员不得以任何形式发布、传播、复制、转售该素材,否则一律封号处理。 4.如果素材损害你的权益,请联系客服删除。
49资源网 » 可视化爬虫工具