Back to Question Center
0

初学者的指南从Semalt在网页上刮

1 answers:

网络上的数据和信息日益增多。如今,大多数人使用Google作为第一个知识来源,无论他们是在寻找关于企业的评论,还是试图了解新的术语。

随着网络上的数据量的增加,为数据科学家提供了很多机会。不幸的是,网络上的大部分数据都不是现成的。它以非结构化的格式呈现,称为HTML格式,不可下载。因此,它需要数据科学家的知识和专长来利用它。

Web抓取是将HTML格式的数据转换为可以方便访问和使用的结构化格式的过程。几乎所有的编程语言都可以用于正确的网页报废。但是,在这篇文章中,我们将使用R语言。

有几种方式可以从网上抓取数据。一些最流行的包括:

1.人类复制粘贴

这是一种缓慢但非常高效的从网上抓取数据的技术,在这种技术中,一个人自己分析数据,然后将其复制到本地存储。 19)2.文本模式匹配

这是从网络中提取信息的另一个简单而强大的方法,它需要使用正则表达式匹配设施的编程语言。 )

许多网站,如Twitter,Facebook,LinkedIn等为您提供公共或私人的API,可以使用标准代码调用以检索规定格式的数据。

4 Source - grain bin spoilage. DOM Parsing 20)

请注意,有些程序可以检索由客户端脚本创建的动态内容,可以将页面解析为一个DOM树,该DOM树可以用来检索这些页面的某些部分。 )

在R开始网页抓取之前,你需要对R有一个基本的了解。如果你是初学者,许多伟大的来源,可以帮助。此外,你需要有HTML和CSS的知识。但是,由于大多数数据科学家对HTML和CSS的技术知识不太了解,因此可以使用诸如Selector Gadget之类的开放式软件。

例如,如果您在IMDB网站上搜索某一特定时期发行的100部最受欢迎电影的数据,则需要从网站上刮取以下数据:说明,运行时间,流派,评级,投票,总收入,导演和演员。一旦你删除了数据,你可以用不同的方式进行分析。例如,您可以创建一些有趣的可视化。现在,当您对数据报废有一个大概的了解时,您可以绕过它!

December 7, 2017