如何从产品名称中提取品牌

穆纳拉然

我有两个网站,现在我手里有数据,我想对这些数据进行分析

我有两个产品名称(品牌+产品名称),我只想提取品牌名称

http://www.thehut.com/jeans-clothing/men/clothing/brave-soul-men-s-cardiff-jeans-denim/10741907.html

在上面的网站中,产品名称为

Brave Soul Men's Swansea Jeans - Denim

品牌名称是

Brave Soul

所以我只想要

Brave Soul

亚马逊网站链接

http://www.amazon.in/gp/product/B00L8WT2UI

同样,在上述网站中,产品名称为

Apple iPhone 5c (White, 8GB)

品牌名称是

Apple

所以我想要输出像

Brave Soul
Apple
阿巴内特

您尝试获取的信息实际上并不存在。

如果您使用两个字符串,两个字符串都可以有任意数量的空格,然后将它们与一个空格连接在一起,那么就不再可能明确地告诉哪个空格将两个字符串连接在一起,以及哪个空格是字符串的一部分。

因此,您有几种选择:

首先,有没有在每个产品很多空间,所以你可以只是尽量做好一切准备:品牌Brave和产品Soul Men's Swansea Jeans - Denim,然后品牌Brave Soul和产品Men's Swansea Jeans - Denim,然后品牌Brave Soul Men's和产品Swansea Jeans - Denim,所以对其他3种可能性。

其次,如果您可以从其他位置抓取所有品牌名称的列表并将其存储在set(或数据库表等)中,则可以在对亚马逊的相对缓慢的Web请求中尝试所有可能性之前,对其进行预过滤。例如,如果你把所有的品牌的名单,只是检查这当中BraveBrave SoulBrave Soul Men'sBrave Soul Men's Swansea,等有实际的品牌,只有测试这些。

同时,这仍然不是完美的,因为几乎可以肯定情况是模棱两可的。例如,有一个品牌Apple,也有一个品牌Apple Records,那么当您尝试拆分时会发生什么Apple Records Master Collection您有两种有效的可能性,而不仅仅是一种。您所能做的就是设计代码以某种方式处理它(并进行正确的单元测试)。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章