Back to Question Center
0

Semalt解释如何从HTML页面提取数据到PDF文件

1 answers:

在这篇文章中,我们将带领你完成从您的HTML页面提取数据,并教导如何使用这些信息来构建PDF文件。第一步是确定您将要用于该任务的编程工具和语言。在这种情况下,你最好使用Perl的Mojolicious框架。

这个框架类似于Ruby on Rails,即使它具有可能超出您的期望的额外功能。我们不会使用这个框架来创建一个新的网站,而是从一个已经存在的页面中提取信息。 Mojolicious具有很好的功能来获取和处理HTML页面。这将花费你将近30秒的时间在你的机器上安装这个应用程序。

方法论

第一阶段:理解编写应用程序时需要使用的方法很重要。在第一阶段,你需要在得到你想要做的事情的总体概念并且对你的最终目标有清楚的理解之后,写一个小型的特别脚本。请注意,这个线性代码必须简单明了,没有任何程序或子程序。

第二阶段:现在你已经清楚了解你需要采取的方向和图书馆的使用方法。现在是“分而治之”的时候了!如果你已经在逻辑上做了相同的事情,把它们细分成子程序。子程序编码的优点是你可以做一些改动而不影响其他的代码。它还会提供更好的可读性。

第三阶段:这个阶段允许您对代码进行组件化。获得相关经验后,您可以轻松操作代码片段。现在,您可以从程序编码跨越到面向对象,特别是如果您使用面向对象的语言。任何使用功能类型的语言的人都可以将应用程序分离到软件包或/和“接口”。编程时为什么要用这种方法?这是因为你需要一些“呼吸空间”,特别是如果你正在写一个复杂的应用程序。

算法

理论之后,是时候转移到当前的程序。

  • 创建您想要收集的文章的URL列表;
  • 循环访问您的列表,并一个接一个地获取这些URL;
  • 提取你的HTML元素的内容;
  • 将结果保存在HTML文件中;
  • 将所有文件都准备好后,从文件中编译PDF文件;

一切都像ABC一样简单!只需下载网络清理程序,就可以完成任务了。

. Source - bean bags butterfly
December 7, 2017