我有两个网站,现在我手里有数据,我想对这些数据进行分析
我有两个产品名称(品牌+产品名称),我只想提取品牌名称
http://www.thehut.com/jeans-clothing/men/clothing/brave-soul-men-s-cardiff-jeans-denim/10741907.html
在上面的网站中,产品名称为
Brave Soul Men's Swansea Jeans - Denim
品牌名称是
Brave Soul
所以我只想要
Brave Soul
亚马逊网站链接
http://www.amazon.in/gp/product/B00L8WT2UI
同样,在上述网站中,产品名称为
Apple iPhone 5c (White, 8GB)
品牌名称是
Apple
所以我想要输出像
Brave Soul
Apple
您尝试获取的信息实际上并不存在。
如果您使用两个字符串,两个字符串都可以有任意数量的空格,然后将它们与一个空格连接在一起,那么就不再可能明确地告诉哪个空格将两个字符串连接在一起,以及哪个空格是字符串的一部分。
因此,您有几种选择:
首先,有没有说在每个产品很多空间,所以你可以只是尽量做好一切准备:品牌Brave
和产品Soul Men's Swansea Jeans - Denim
,然后品牌Brave Soul
和产品Men's Swansea Jeans - Denim
,然后品牌Brave Soul Men's
和产品Swansea Jeans - Denim
,所以对其他3种可能性。
其次,如果您可以从其他位置抓取所有品牌名称的列表并将其存储在set
(或数据库表等)中,则可以在对亚马逊的相对缓慢的Web请求中尝试所有可能性之前,对其进行预过滤。例如,如果你把所有的品牌的名单,只是检查这当中Brave
,Brave Soul
,Brave Soul Men's
,Brave Soul Men's Swansea
,等有实际的品牌,只有测试这些。
同时,这仍然不是完美的,因为几乎可以肯定情况是模棱两可的。例如,有一个品牌Apple
,也有一个品牌Apple Records
,那么当您尝试拆分时会发生什么Apple Records Master Collection
?您有两种有效的可能性,而不仅仅是一种。您所能做的就是设计代码以某种方式处理它(并进行正确的单元测试)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句