除了它的效率,它也很容易使用. 这里列出了使用平台所需的简单步骤.
点击此链接进入CrawlBoard网页抓取请求页面. 正确填写注册表格. 有名字,姓氏,公司电子邮件地址和工作角色的字段. 完成后,只需点击注册按钮即可. 自动邮件将被发送到您提供验证的电子邮件地址. 打开电子邮件并点击验证链接以激活您的新CrawlBoard帐户.
这一步的主要目的是添加一个网站来抓取,但是你首先需要创建一个网站组. 网站组是一组具有相似结构的网站. 这是通常需要从多个地点一次刮取数据的人.
要创建一个站点组,点击“创建一个新的站点组”链接. 它位于“网站组”选择框的右侧. 之后,您现在可以通过单击位于页面右上角的添加链接来依次添加属于网站组的所有网站. 然后,逐个选择网站.
第3步:
转到网站群创建窗口,为您的网站群提供首选的唯一名称. 请记住,网站群中的所有网站都应具有相同的结构,否则您可能无法获得准确的内容.
了解网站群的意义,以就业列表网站为例. 如果请求的任务是从作业板上刮取作业,那么您将需要创建一个网站组来匹配该功能,而网站组中的所有网站都将是作业列表网站.
第4步:
根据此屏幕上的必填字段,您需要选择数据提取的频率,交付格式和交付方式. 数据抓取的频率是每日,每周,每月和自定义的.
对于传送格式,您可以选择XML,JSON和CSV中的一种. 而对于传送方式,您需要在FTP,Dropbox,Amazon S3和REST API中进行选择.
第5步:
屏幕是用于提供更多信息. 用户可以进一步描述自己的网页抓取任务. 虽然它是可选的,但是包含附加信息是非常重要的,因为您描述任务的内容越多,服务提供商就越能准确理解您想要的内容,并且会产生更好的结果.
您也可以在这个屏幕上询问一些增值服务. 其中一些是托管索引,文件合并,图像下载和加速交付.
第6步:
在这里,您只需点击“发送可行性检查”按钮. 目的是让服务提供商检查你的任务是否可行. 您将收到一封电子邮件,通知您任务是否可行. 如果是这样,你现在可以去付款了. 一旦您的付款得到确认,CrawlBoard团队将采取行动.
付款后,您只需按照您指定的格式,通过您的首选交付方式.