Back to Question Center
0

Semalt专家解释如何用美丽的汤刮一个网站

1 answers:

大量的数据通常在一个HTML。对于电脑来说,网页只是符号,文字和空白的混合物。我们去网页上的实际内容只是以我们可读的方式呈现。计算机将这些元素定义为HTML标签。区分原始代码和我们看到的数据的因素是软件,在这种情况下是我们的浏览器。其他网站,如刮板可能会利用这个概念来刮取网站内容并保存以备后用。

用通俗易懂的语言,如果您打开特定网页的HTML文档或源文件,就可以检索出现在特定网站上的内容。这些信息将与许多代码一起处于平坦的景观中。整个过程涉及以非结构化方式处理内容。但是,可以以结构化的方式组织这些信息,并从整个代码中检索有用的部分。

在大多数情况下,刮板不执行他们的活动来实现一串HTML。通常每个人都试图达到的最终效益。例如,执行一些网络营销活动的人可能需要包含像command-f这样的唯一字符串以从网页获取信息。要在多个页面上完成此任务,您可能需要帮助,而不仅仅是人员功能。网站刮板是这些机器人,可以在一个小时内刮了一个网站超过一百万页。整个过程需要一个简单的程序意识的方法。使用Python等编程语言,用户可以编写一些抓取工具,它们可以抓取网站数据并将其转储到特定位置。

对某些网站来说,报废可能是一个危险的程序。围绕刮刮的合法性问题有很多担忧。首先,有些人认为他们的数据是私密和保密的。这种现象意味着版权问题以及特殊内容的泄漏可能会在报废的情况下发生。在某些情况下,人们下载整个网站以供离线使用。例如,最近有一个名为“3Taps”的网站的Craigslist案例。该网站正在抓取网站内容,并重新发布住房列表的分类部分。后来他们用3T支付了100万美元给他们的旧址。

BS是一套工具(Python语言),如模块或包。您可以使用美丽的汤,从网页上的数据页面刮起一个网站。可以刮一个网站,并获得与您的输出相匹配的结构化形式的数据。你可以解析一个URL,然后设置一个特定的模式,包括我们的导出格式。在BS中,您可以导出多种格式,如XML。要开始,你需要安装一个体面的版本的BS,并从几个Python的基础开始。编程知识在这里很重要。

. Source
December 7, 2017