Back to Question Center
0

Semalt详细介绍了URLitor - 非常酷的网页扫描和数据提取工具

1 answers:
(8)

URLitor是一个新的有效的网络抓取和数据提取工具。要使用URLitor,只需要在提供的模板中添加一个您想要在线抓取的所有URL的列表。然后,您需要指定要从网页中提取的HTML元素,然后单击提交按钮。就是这么简单。有了这个工具,你不需要从浏览器复制或粘贴。

xPath是一种用于搜索XML文件中的信息的语言。它使用特定的表达式来选择XML文件中的节点集或节点。 XPath可以理解的表达式与正常的计算机文件或文档中使用的表达式非常相似。

尽管XPath与多种编程语言一起使用,但是该工具是为没有任何编程知识的用户构建的。所以,你不需要成为一个程序员来使用它。有了这个工具,您可以从多个HTML和XML页面提取数据。

为简单起见,在下拉菜单中预先定义了几个经常使用的XPath表达式,以便用户只需根据其目的选择其中的任何一个即可。但是,经验丰富的XPath用户可以随意使用自定义表达式。.

该工具被设计为在一个抓取会话中具有100个URL的容量,并且一次最多需要10个表达式。换句话说,它一次可以从最多100个URL中抓取数据。

可以修改或添加的一些重要的XPath自定义表达式概述如下:

1. // div [2] - 这个表达式分层次地选择第二个div;

2. // link [@ rel ='canonical'] / @ href - 这个表达式选择标签的位置(ref)设置rel属性等于规范;

3. / html / head / meta [@ name ='description'] / @ content - 该表达式用于选择内容;

4. // * [@ class ='class-name'] - 你可以使用这个表达式来选择所有具有'class-name'的元素为CSS类;

5. // h2 | // title - 这个表达式可以用来选择第一个H2和页面标题;

6. // * [name()='h1'或name()='title'] - 这个表达式和上面的一样。不过,上面的表述比较好,因为它比较短; - 这个表达式选择每一个具有CSS类的元素,也包含'thumb'提取; 8. // parent :: * [text()='Welcome'] - 此表达式选择具有文本“Welcome “;

这个工具是一个测试版本,仍然可以与一些错误工作。但是,对于那些只有很少或没有编程知识的用户来说,它仍然是一个很好的工具,因为所有常用的表达式都已经在前面提到的菜单中被预定义了。

4 days ago
Semalt详细介绍了URLitor - 非常酷的网页扫描和数据提取工具
Reply