Back to Question Center
0

Semalt:什么是从网站上刮取内容的最有效方式?

1 answers:

数据抓取是指使用特殊应用程序从网站上提取内容的过程。尽管数据挖掘听起来像是一个技术性的术语,但它可以用一个方便的工具或应用程序轻松执行。

这些工具用于从特定网页中尽可能快地提取所需的数据。您的机器将会更快更好地完成工作,因为无论数据库有多大,计算机都可以在几分钟内相互识别。

你有没有需要改造一个网站,而不会丢失其内容?你最好的办法是把所有内容都刮掉,并保存在一个特定的文件夹中。也许你所需要的只是一个应用程序或软件,它需要一个网站的URL,把所有的内容都删除并保存在一个预先指定的文件夹中。

下面是你可以尝试找到一个对应于你所有需求的工具列表:

1. HTTrack

这是一个离线浏览器工具,可以拉下网站。您可以通过您需要的方式来配置网站并保留其内容。需要注意的是,由于HTTrack是一个服务器端代码,因此无法下载PHP。但是,它可以处理图像,HTML和JavaScript。

2.使用“另存为”

您可以使用任何网站页面的“另存为”选项。它将几乎所有的媒体内容保存在网页上。从Firefox浏览器转到工具,然后选择页面信息,然后单击媒体。.它会列出你可以下载的所有媒体。你必须检查它并选择你想要提取的。

3. GNU Wget

你可以使用GNU Wget眨眼之间抓住整个网站。但是,这个工具有一个小缺点。它不能解析CSS文件。除此之外,它可以应付任何其他文件。它通过FTP,HTTP和HTTPS下载文件。

4.简单的HTML DOM解析器

HTML的DOM解析器是另一种有效的抓取工具,可以帮助你从你的网站上刮掉所有的内容。它有一些紧密的第三方替代品,如FluentDom,QueryPath,Zend_Dom和phpQuery,它们使用DOM而不是String Parsing。

5 - cheap vps windows usa. Scrapy

这个框架可以用来抓取你网站的所有内容。请注意,内容抓取并不是它唯一的功能,因为它可以用于自动化测试,监控,数据挖掘和网页爬行。

6.使用下面提供的命令来抓取你的网站的内容,然后把它拉开:

file_put_contents('/ some / directory / scrape_content.html',的file_get_contents( 'https://google.com'));

结论

你应该尝试上面列举的每个选项,因为它们都有其优点和缺点。但是,如果你需要刮大量的网站,最好是参考网络抓取专家,因为这些工具可能无法处理这样的卷。

December 7, 2017