如何对搜索引擎关键字进行聚类?

Stephanos:

在Google Analytics(分析)中,我有一个(长长的)关键字列表,人们在搜索引擎中使用这些关键字来查找我的网站。我想找到“核心关键词”,假设的例子:

java online training
learning java
scala training
training for java
online training java
learn scala programming

理想的结果是:“ java”,“在线培训”,“培训”,“ scala”和“学习”。

困难似乎是检测完整的短语,忽略常见词(例如)并处理变体(学习)。

是否有一个库可以做到这一点(最好是针对JVM)?还是我可以自己实现合适的算法?

sjr:

这是术语或关键字提取问题。我进行了搜索,结果发现Kea看起来非常符合您的需求。

您可以通过以下算法实现幼稚的解决方案:

  • 在文档中生成具有所需短语长度的ngram列表(选择任意短语长度限制,例如3或4)
  • 将ngram放入一个多
  • 按照程度或计数的顺序遍历多重集的条目,也许带有任意截止值

就像您说的那样,停用词会出现问题。您可以执行一些简单的操作,例如使用停用词词典,也可以执行诸如术语频率-反向文档频率之类的操作,这可以帮助您自动识别非常频繁的术语。KEA将为您做到这一点,最好先研究一下。

希望有帮助!

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章