有一个网页在加载时会随机使用表格/控件/谷歌广告。但是,该集合是封闭的-根据我的测试,至少存在三种可能的变体,其中两种非常普遍,而第三种非常罕见。
我希望能够根据每个变体对该网页进行分类。我尝试分析每个变体的html源,但是根据Python字符串等于和Python difflib,所有变体的html都完全相同。似乎没有任何信息指定将Google广告或控件放置在何处。
例如,考虑具有两个框的图片,一个红色框(称为框A)和一个蓝色框(称为框B)。盒子本身永远不会改变位置,但是占据它们位置的东西却会改变。
现在考虑两种可能的变体,每次加载/打开网页时都选择其中一种。
变体1:假设有50%的时间,google广告位于框A(红色框),因此网站控件位于框B(蓝色框)。
变体2:假设也有50%的时间,google广告位于框B(蓝色框),因此网站控件位于框A(红色框)。
因此,如果我加载网页,如何根据其变化对其进行分类?
如果每次的HTML绝对相同,则可能是在客户端使用javascript进行了变体。
答案取决于您所说的“分类”。如果您只想知道在页面的任何给定负载下小部件的位置,您可能必须使用Selenium之类的东西,实际上可以在浏览器中打开页面并运行javascript,而不仅仅是获取HTML源代码。然后,您将需要使用Selenium评估一些可检测窗口小部件位置的JavaScript。selenium
python有一个非常简单易用的模块。考虑将其连接到PhantomJS,因此您不必打开浏览器窗口。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句