Back to Question Center
0

Semalt:如何使用Python来刮一个网站?

1 answers:

数据在调查中起着关键作用,不是吗?它可以导致一种观察事物和发展其他见解的新方式。最不幸的是,你正在寻找的数据通常不是现成的。您可以在Internet上找到它,但它可能不是可下载的格式。在这种情况下,您可以使用网页抓取技术来编程和收集您需要的数据。

在这个过程中,有几种可以帮助你的方法和编程语言。本文将指导您如何使用python语言来取消网站。您将获得关于网页操作的很多见解。您还将了解开发人员如何在任何网站上构建数据。

最好的出发点是在您的计算机上下载并安装Anaconda Python Distribution。你也可以参考这门编程语言的基础知识。特别是如果你不知道这个领域的话,最好的地方可能是Codecademy。

本指南将利用Polk国家现有的犯人列表网站。我们将指导您如何使用Python脚本来提取囚犯名单,并获取每个在囚人士居住的城市和比赛等数据。我们将带你通过的整个脚本被存储并在GitHub上打开。.这是允许共享计算机代码的流行的在线平台之一。代码有一个长长的评论列表,可以给你很大的帮助。

抓取任何网站时,要查找的第一个工具是网页浏览器。大多数浏览器将为用户提供HTML检测工具,协助提升引擎舱口并理解页面结构。您访问每个工具的方式因浏览器而异。然而,支柱是“查看页面源”,您可以通过直接在页面上右键单击来获取它。

当您查看页面的HTML源代码时,建议整洁地列出表格行中关于囚犯的链接的详细信息。下一步是编写一个脚本,我们将用它来提取这些信息。我们将在繁重的过程中使用的两个Python包是美丽的汤和请求。确保在开始运行代码之前安装它们。

网络抓取脚本将做三件事情。这些包括加载列表页面和提取到详细信息页面的链接,加载每个详细信息页面并提取数据,以及根据过滤方式(例如居住和比赛城市)来打印提取的数据。一旦你明白了这一点,下一步就是使用美丽的汤和请求开始编码过程。

首先,使用requests Source - cheap vps linux.get URL从逻辑上加载犯人列表页面,然后用漂亮的汤姆将其加载。之后,我们通过遍历每一行来提取到详细信息页面的链接。在解析犯人的详细资料后,下一步是将性别,年龄,种族,预订时间和名字值提取到字典中。每个犯人都会得到他的字典,所有的字典都会被附在犯人的名单上。最后,在最后打印出你的列表之前,循环比赛和城市值。

December 7, 2017