Back to Question Center
0

网页抓取:从Semalt有用的技巧

1 answers:

现在,数据可以成为您最重要的资产。因此,让它落入竞争对手的手中绝不是一个好主意。但是,有时可能会由于屏幕抓取而阻止这种情况。这是一种多年来用于从网页中提取数据的技术。

这种方法给企业带来了两个重要的问题。首先,这些数据可以被用来获得商业优势,可能是通过削减价格以及获得产品信息。而且,如果坚持不懈,这项技术也可能会降低网站的性能。

通常情况下,屏幕抓取是由几十年前的早期终端仿真程序创建的概念。这是一种程序化技术,从主要为人类观看而设计的屏幕提取信息。该程序假装是一个人,并读取数据,收集有价值的信息和处理它的存储。

多年来,这项技术已经得到了显着的发展,特别是对于网络爬虫的发明。.随着电子零售屏幕的发展,比如价格比较网站,它的发展就更进一步。这些网站采用定期访问流行的电子零售的程序来获取给定产品或服务的最新价格以及可用性信息。然后将这些数据存储在数据库中,并用于提供电子零售格局的比较评论。

竞争性的屏幕抓取对企业的IT系统有着各种负面影响,这只是另一个有害的流量。最近的研究已经证明,所有流量中至少61%是由机器人产生的。这些机器人消耗重要的资源以及用于真正网络用户的带宽,这可能导致真实用户的等待时间的增加。

刮屏已经进行了很长一段时间。但是,直到最近,这种行为的受害者才开始反应。有些人声称不公平的商业行为和侵犯版权的行为。

许多网站所有者纷纷在其网页上撰写使用政策,禁止侵略性的侵权行为。不幸的是,他们不能执行这些政策,所以问题似乎不会很快消失。

多年前,eBay推出了一个API,允许好的刮板访问您的数据。但是,这并没有阻止恶意收集信息用于竞争优势。唯一真正的防御可以通过利用阻止非人类访问者访问您的网站的技术来获得。这允许真正的用户访问您的网站,同时阻止爬虫造成损害。

其他有效的对抗屏幕抓取的方法是通过使用诸如IP信誉智能,欺骗IP源检测,请求 - 响应行为分析,实时威胁级别评估和地理位置执法。

. - high low clothing
December 7, 2017