站点爬取

站点爬虫:  从给定域名或者网址中下载所有网页。

开始爬取站点
起始地址 (必须以
http:// https:// ftp:// smb:// file://开头)

empty
网址列表
网站地图地址

载入域名下全部文件
仅载入给定域名子路径中的文件
不超过 文件

提示

  • 爬取速度限制

    每秒最多从同一服务器中载入4个页面(每分钟不超过120个文件)以减少对目标服务器影响。
  • 目标平衡器

    因爬虫会平衡全部服务器的负载,对于不同服务器的二次爬取, 生产量会上升到每分钟最多240个文件。
  • 高速爬取

    当目标服务器数量很多时, 不局限于单个服务器(或站点)的'浅爬取'模式 会将生产量上升到每分钟无限页面数(ppm)。 可在专家爬虫中开启。
  • 调度器控制

    可以使用API控制改变或删除爬虫调度器。