API 单击此API按钮查看爬取启动的POST请求参数的文档。

高级爬取开启

开启爬取任务:  你可以在此指定网页爬取起始点的网址和开启爬取。 "爬取中"意即YaCy会下载指定的网站, 并提取出其中的链接,接着下载链接中的全部内容。 它将一直重复上述步骤,直到满足指定的"爬取深度"。 A crawl can also be started using wget and the post arguments for this web page.

爬取任务

爬取任务由一个或多个起始点、爬取限制和文档更新规则构成。

起始点
起始网址或网址列表:
(必须以http:// https:// ftp:// smb:// file://开头)
info在此给定起始网址。你可以提交多个网址,请一个网址一行。 这些网址中每个都是爬取开始的起点,已存在的起始网址总是会被重新加载。 对其他已访问过的网址,如果基于重爬选项它们不被允许,则被标记为'重复'。  
empty
来自网址的链接列表

来自网站地图
来自文件
(输入一个本地文件系统路径)
爬虫过滤器

这些是爬取堆栈器的限制。这些过滤器将在网页加载前被应用。

爬取深度
info 此选项决定了爬虫将跟随嵌入网址中链接的深度。 0代表仅将"起始点"网址添加到索引。 2-4是常规索引用的值。超过8的值没有用,因为深度为8的爬取将 索引接近256亿个网页,这可能是整个互联网的内容。     包括全部链接中不可解析的文档
对这些匹配的网址不不限制爬取深度
每个域名下最大网页数
info 使用此选项,你可以限制单个域名下爬取和索引的页面数。 你可以将此设置与'Auto-Dom-Filter'结合起来, 以限制给定深度中所有域名。 超出深度范围的域名会被自动忽略。 :    :
info 问号标记常用作动态网页的提示。指向动态内容的地址通常不应该被爬取。 然而,也有些含有静态网页地址也包含问号标记。 如果你不确定,不要勾选此项以防爬取陷入循环。 以下框架不是Gxxg1e制作的,但我们默认会制作更丰富的内容。robots元数据中的nofollow可被否决;这并不影响对无法忽视的robots.txt的遵守。 接受包含问号标记('?')的地址:
遵守html-robots-noindex:
遵守html-robots-nofollow:
媒体类型探测
Media Type checking info 不加载包含不受支持文件扩展名的网址速度更快,但准确性更低。 实际上,对于某些网络资源,实际的媒体类型与网址中文件扩展名不一致。以下是一些例子:
对地址加载过滤器
info 这个过滤器是一个正则表达式。 示例:要仅允许包含单词“science”的网址,请将“必须匹配”筛选器设置为'.*science.*'。 你还可以使用自动域名限制来完全爬取单个域名。 注意:你可以使用YaCy中的正则表达式测试仪测试正则表达式的功能。
必须匹配
限制起始域(s)
限制子路经(s)
使用过滤器 (不能为空)
必须排除
在链接的地址上加载筛选器
info 这个过滤器是一个正则表达式。 示例:为只允许加载域名example.org网页中链接,将“必须匹配”筛选器设置为'.*example.org.*'。 注意:你可以使用YaCy中的正则表达式测试仪测试正则表达式的功能。
必须匹配 (不能为空)
必须排除
对IP加载过滤器
必须匹配 (不能为空)
必须排除
info 爬取可以限制在特定的国家。它使用的国家代码可以从存放网页的服务器的IP计算得出。 过滤器不是正则表达式,而是国家代码列表,用逗号分隔。 没有国家代码限制
使用过滤器  
文档过滤器

这些是对索引供给器的限制。加载网页后过滤器才会被应用。

地址过滤器
info 这个过滤器是一个正则表达式 匹配那些必须排除的网址,以允许对剩下网址的内容进行索引。 注意:你可以使用YaCy中的正则表达式测试仪测试正则表达式的功能。
必须匹配 (不能为空)
必须排除
No Indexing when Canonical present and Canonical != URL
文档内容过滤器
(所有可见文本,包括驼峰大小写标记的网址和标题)
必须匹配 (不能为空)
必须排除
文档媒体类型过滤器(又名MIME类型)
Media Type filter info 这个过滤器是一个正则表达式 对那些有必须匹配文档媒体类型(也称为MIME类型)的网址进行索引。 IANA注册表中描述了标准媒体类型。 注意:你可以使用YaCy中的正则表达式测试仪测试正则表达式的功能。
必须匹配
必须排除
任何激活索引字段上的Solr查询过滤器
Solr query filter info 在添加到索引之前,将根据给定的Solr查询检查每个已解析的文档。 必须按照标准Solr查询语法编写查询。
必须匹配
必须排除
内容过滤器

这些是文档部分的限制.加载网页后将应用过滤器. You can choose to:

Evaluate by default
Use all words in document by default until a CSS class as listed below appears; then ignore all
Ignore by default
Ignore all words in document by default until a CSS class as listed below appears, then evaluate all
div或nav类名过滤器
应过滤掉的<div>元素或<nav>类名的逗号分隔列表/in according to switch above.
爬取前清理
清理搜索事件缓存 info 选中此选项以确保获得新包括新爬取文档的搜索结果.请注意,它也会中断当前从浏览器端请求的搜索结果的刷新/排序.
不删除
info 在过去完成爬取后,文档可能会过时,最终它们也会在目标服务器上被删除。 若要从搜索索引中删除旧文件,仅考虑重新加载它们是不够的。 但可能有必要删除它们,因为它们已经不存在了。与重新爬取组合使用,而这一时间应该更长。 在爬取前不删除任何文档.
删除子路径
对于启动URL列表中的每个服务器,从这些服务器中删除所有文档(在给定的子路径中).
删除旧文件
认为加载于 前的文档是旧文档,在爬取前删除它们..
重复检查规则
无重复检查
info 网页爬取参照自身数据库,对所有找到的链接进行重复性检查.如果链接重复, 并且'无重复'选项打开, 则被以重复链接对待.如果地址存在时间超过一定时间, 并且'重加载'选项打开,则此地址会被重新读取. 切勿加载任何已知的页面.只有起始地址可能会被重新加载.
重加载
认为加载于 前的文档是旧文档并重新加载它们.如果它们是新文档,不需要重新加载.
文档缓存
info 这个选项默认打开, 并用于预爬取, 但对于精确爬取此选项无效.
info 缓存策略即表示爬取时何时使用缓存: 无缓存: 从不使用缓存内容, 全部从因特网资源即时爬取; 如果有,更新: 如果缓存中存在并且是最新则使用代理刷新规则; 如果有,退出: 如果缓存存在则使用缓存. 不检查是否最新. 否则使用最新源; 仅缓存: 从不检查线上内容, 全部使用缓存内容. 如果缓存存在, 将其视为无效 无缓存    如果有,更新    如果有,退出    仅缓存
机器人行为
info 因为YaCy可以替代商业搜索设备 (像谷歌搜索设备,又名GSA)用户必须能够抓取所有授予此类商业平台的网页。 没有这个选项将是专业使用该软件的一大障碍。 因此,你可以在此处选择替代用户代理,它具有不同爬取时间,还可以伪装成另一个用户代理标识,并遵守相应的机器人规则。
创建快照
info 快照是可以在爬取期间创建的xml元数据和网页图片。 xml数据以与Solr搜索结果相同的方式存储,只需点击一次,图片将以pdf格式存储到HTCACHE/snapshots/的子目录中。 根据PDF计算jpg缩略图。可以使用深度参数控制快照生成; 这意味着只有当文档的爬网深度小于或等于此处给定的数字时,才会生成快照。 如果该数字设置为-1,则不会生成快照。
用新快照代替老快照    每次爬取添加新版本
索引属性
创建索引
info 这样就可以对爬虫将下载的网页进行索引。 默认情况下,应该打开该选项,除非你只想爬取以填充文档缓存而不建立索引。 :     :
info 如果选中, 爬虫会联系其他节点, 并将其作为此次爬取的远端索引器. 如果你仅想爬取本地内容, 请关闭此设置. 仅高级节点和主节点能发起或者接收远端爬取. YaCy新闻消息中会将这个全球爬取通知其他节点,, 然后他们才能以相同起始点进行爬取.

远程爬取结果不会添加到本地索引中,因为远程爬取程序在此节点上被禁用。

你可以在远程爬取配置页面中激活它。

:

此消息会显示在其他节点的'其他节点爬取起始列表'中.
info 爬取结果可以标记为收集请求的候选名称。 这些标签可以通过GSA界面使用“网站”运算进行选择。 要使用此选项,必须在Solr模式中打开“collection_sxt”字段
info 当解析器在已爬取的网页中检测到日期时,需要时区。 可以使用on:-修饰符搜索内容,在进行查询时,该修饰符还需要一个时区。为了规范化所有给定的日期,该日期存储在UTC时区中。 要获得从没有时区的日期到UTC的正确偏移量,必须在此处给出该偏移量。偏移量以分钟为单位; UTC以东位置的时区偏移必须为负值;UTC以西区域的偏移量必须为正值。