在Google Analytics(分析)中,我有一个(长长的)关键字列表,人们在搜索引擎中使用这些关键字来查找我的网站。我想找到“核心关键词”,假设的例子:
java online training
learning java
scala training
training for java
online training java
learn scala programming
理想的结果是:“ java”,“在线培训”,“培训”,“ scala”和“学习”。
困难似乎是检测完整的短语,忽略常见词(例如)并处理变体(学习)。
是否有一个库可以做到这一点(最好是针对JVM)?还是我可以自己实现合适的算法?
这是术语或关键字提取问题。我进行了搜索,结果发现Kea看起来非常符合您的需求。
您可以通过以下算法实现幼稚的解决方案:
就像您说的那样,停用词会出现问题。您可以执行一些简单的操作,例如使用停用词词典,也可以执行诸如术语频率-反向文档频率之类的操作,这可以帮助您自动识别非常频繁的术语。KEA将为您做到这一点,最好先研究一下。
希望有帮助!
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句