我如何从JAVA页面的“页脚”部分中的任何网页中检索“与我们联系”链接。
例如,找到页脚元素,或具有id =“ footer”或具有页脚类的元素?
我曾尝试使用JSOUP检索网页中的所有链接,然后.*contact.*
在其中运行regex 。但是我不能100%确定从这种方法获取的链接是网站的“与我们联系”页面。
第2季
还有其他健壮的方法吗?或者我可以同时使用页脚链接和已经完成的方法来推断某个页面是否一定是与我们联系的页面?
但是我不能100%确定所获取的链接...
您将永远无法确定。
对于给定的随机HTML页面,您想找到“联系我们”链接。这种工作对人类来说是微不足道的。对于计算机来说,这是一个巨大的挑战。
在您的情况下,我可以看到一些选择:
选项1:众包
检查平台是否提供API。
+ work done by human
+ dynamically adapt to unknown pattern
- cost money
- We suck at repetitive tasks
选项2: IA(专利检索)
+ Automated task
+ Can perform a repetitive task long time
- May take time to built a robust solution
- Risk of false positive or complete miss
选项3:使用Jsoup
此选项是一个永无止境的任务。您必须始终为Jsoup提供新的模式。我建议您使用一个监视系统来告诉您网站何时逃脱了任何已知的模式。
+ Automated task
+ Can perform a repetitive task long time
- Take time for studying, discovering, adding new patterns
- Risk of false positive or complete miss
选项4:以上三个选项的混合
您可以在目标网站上使用这三个选项。
+ Reduce chances of false positive or complete misses
+ More confident final result
- Take time for studying, discovering, adding new patterns
- Cost money
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句