头脑风暴:将 txt 电子邮件解析为结构化对象(JSON 等)

用户3753342

对于我的论文项目,我将处理大量电子邮件。我需要提取所有头字段并将它们通过管道传输到各种数据结构中,最好是像 JSON 这样有点通用的数据结构。

现在,我一直在研究这个问题,并找到了很多半途而废的解决方案。我不想让你告诉我怎么做,只是把一些想法摆在桌面上。

现在我的计划是使用 python 来解析头字段。我选择 python 是因为它很好而且很容易,而且我有过使用它的经验。此外,许多图书馆。问题是 python 官方电子邮件处理在重复字段中不能很好地工作,这对我来说很重要。特别是对于标题“已接收:”,因为它允许跟踪跨多个邮件服务器的电子邮件旅行。

官方图书馆会忽略多个字段,而只存储第一个-.-”

有任何想法吗?你会如何解决这个问题?

海浪

这个答案可能对你有帮助:problem with email parsing with python and multiple Received records

电子邮件的 python 文档。getitem () 说:

请注意,如果命名字段在消息的标题中多次出现,则将不确定返回哪个字段值。使用 get_all() 方法获取所有现存命名头的值。

因此,使用 e.get_all(i) 而不是 e[i] 来获取 Received: 标头的所有值。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章