mongo db中嵌入式文档中的条件聚合

普拉蒂克·博特拉(Pratik Bothra)

我在mongodb中陷入聚合。前提是我必须获取特定时间范围内特定广告的数据。

因此,假设我要查询4月22日至4月24日范围内的广告,这是我应该得到的,来自source2的支出总和以及来自source1的收入,会话,跳动等。

[{   "_id" : ObjectId("560bbd5dfabc614611000e95"),
    "spend": 470,
    "revenue": 440,
    "sessions": 3
},....

]

这是我正在尝试的查询,该查询可以为我提供正确的数据,但是却要花很长时间-只需22秒即可完成24秒。

db.getCollection('tests').aggregate([{
  $match: {
    ad_account_id: 40
  }
}, {
  "$unwind": "$source1"
}, {
  "$unwind": "$source2"
}, {
  "$group": {
    "_id": "$internal_id",
    "transactionrevenue": {
      "$sum": {
        "$cond": [{
          "$and": [{
            "$gte": [
              "$source1.created_at", ISODate("2015-04-22T00:00:00.000Z")
            ]
          }, {
            "$lte": [
              "$source1.created_at", ISODate("2015-04-25T00:00:00.000Z")
            ]
          }]
        }, "$source1.transactionrevenue", 0]
      }
    },
    "sessions": {
      "$sum": {
        "$cond": [{
          "$and": [{
            "$gte": [
              "$source1.created_at", ISODate("2015-04-22T00:00:00.000Z")
            ]
          }, {
            "$lte": [
              "$source1.created_at", ISODate("2015-04-25T00:00:00.000Z")
            ]
          }]
        }, "$source1.sessions", 0]
      }
    },
    "spend": {
      "$sum": {
        "$cond": [{
          "$and": [{
            "$gte": [
              "$source2.created_at", ISODate("2015-04-22T00:00:00.000Z")
            ]
          }, {
            "$lte": [
              "$source2.created_at", ISODate("2015-04-25T00:00:00.000Z")
            ]
          }]
        }, "$source2.spend", 0]
      }
    }
  },
}]);

问题是如何多次放松,如何在source1中获得多个事物的总和,而不必一次又一次地进行聚合?它需要24秒才能完成22个条目。...请建议我应该索引什么(我没有索引),并且如果平均4mb的文档大小表明架构有问题?

即使在mongodb中通常认为聚合速度更快,map的缩小效果会更好吗?

如果您认为文档设计有误,那么我们就在进行迁移时,请大家耳目一新。现在纠正问题要好得多,而不是以后。

这是一个样本文件

{
    "_id" : ObjectId("560bbd5dfabc614611000e95"),
    "internal_id": 1,
    "created_at" : ISODate("2015-04-21T00:50:02.593Z"),
    "updated_at" : ISODate("2015-09-15T12:20:39.154Z"),
    "name" : "LookalikeUSApr21_06h19m",
    "ad_account_id" : 40,
    "targeting" : {
        "age_max" : 44,
        "age_min" : 35,
        "genders" : [ 
            1
        ],
        "page_types" : [ 
            "desktopfeed"
        ]
    },
    "auto_optimization" : false,
    "source1" : [ 
        {
            "id" : 119560952,
            "created_at" : ISODate("2015-04-23T12:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "transactionrevenue" : 320,
            "sessions" : 1,
            "bounces" : 1
        }, 
        {
            "id" : 119560955,
            "created_at" : ISODate("2015-05-01T12:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "transactionrevenue" : 230,
            "sessions" : 10,
            "bounces" : 1
        }, 
        {
            "id" : 119560954,
            "created_at" : ISODate("2015-04-23T10:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "transactionrevenue" : 120,
            "sessions" : 2,
            "bounces" : 1
        }, 
        {
            "id" : 119560953,
            "created_at" : ISODate("2015-04-25T12:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "transactionrevenue" : 100,
            "sessions" : 3,
            "bounces" : 2
        }
    ],
    "source2" : [ 
        {
            "id" : 219560952,
            "created_at" : ISODate("2015-04-22T12:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "spend" : 300
        }, 
        {
            "id" : 219560955,
            "created_at" : ISODate("2015-04-23T12:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "spend" : 170
        }, 
        {
            "id" : 219560954,
            "created_at" : ISODate("2015-04-25T10:35:09.467Z"),
            "updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
            "spend" : 450
        }
    ]
}
布雷克七

您应该做的第一件事是为source1source2数组的“ created_at”字段添加索引通过简单地查询所选文档中存在的这些可能的匹配项,您可能会减少很多可能的结果并大大提高速度。

接下来的主要改进是将数组和过滤器合并为一个,尤其是处理之前$unwind这将节省大量周期并在阵列中扩展文档。

此外,它将为您提供正确的总数。当您使用$unwind两个数组时,一个数组的详细信息将通过第二个数组中的项数重复出现。对于首先“解卷”的数组内容,这会给您不正确的结果。您始终可以单独进行操作,但最好将它们合并为一个:

db.getCollection('tests').aggregate([
    { "$match": {
        "ad_account_id": 40,
        "$or": [
            { 
                "source1": {
                    "$elemMatch": {
                        "created_at": { 
                            "$gte": new Date("2015-04-22"),
                            "$lte": new Date("2015-04-25")
                        }
                    }
                }
            },
            { 
                "source2": {
                    "$elemMatch": {
                        "created_at": { 
                            "$gte": new Date("2015-04-22"),
                            "$lte": new Date("2015-04-25")
                        }
                    }
                }
            }
        ]
    }},
    { "$project": {
        "_id": 0,
        "internal_id": 1,
        "source": {
            "$setDifference": [
                { "$map": {
                    "input": { "$setUnion": [ "$source1", "$source2" ] },
                    "as": "source",
                    "in": {
                        "$cond": [
                            { "$and": [
                                { "$gte": [ "$$source.created_at", new Date("2015-04-22") ] },
                                { "$lte": [ "$$source.created_at", new Date("2015-04-25") ] }
                            ]},
                            "$$source",
                            false
                        ]
                    }
                }},
                [false]
            ]
        }
    }},
    { "$unwind": "$source"},
    { "$group": {
        "_id": "$internal_id",
        "transactionrevenue": { "$sum": { "$ifNull": [ "$source.transactionrevenue", 0 ] } },
        "sessions": { "$sum": { "$ifNull": [ "$source.sessions", 0 ] } },
        "spend": { "$sum": { "$ifNull": [ "$source.spend", 0 ] } }
    }}
])

这将给您的样本结果:

{ "_id" : 1, "transactionrevenue" : 440, "sessions" : 3, "spend" : 470 }

因此,很可能是伟大的体系结构暗示了此处要做的事情,在常规应用程序中将数组组合成单个数组是非常明智的。如果必须区分两种不同类型的项目,则始终可以为“类型”添加另一个字段,但是几乎所有处理都应受益于单个数组。

除此以外,该查询的主要课程是,您始终总是$match首先过滤掉尽可能多的内容。虽然初始$match阶段当然不能从不满足条件的数组中删除项目,但重要的是可以“匹配文档”因为您不想处理完全没有该信息的文档。这总是会增加时间。

除了合并数组之外的第二部分是,基本上出于相同的原因,您希望在可能的情况下展开数组之前过滤掉所有内容,因为您不想处理不需要的项目。

简短的课程,请先进行过滤以减少您要处理的内容。条件总和很好,但实际上仅应用于内容的选择,而不是原始过滤。从根本上讲,这是要先清除不想要的数据,而不仅仅是忽略它们。处理更少并更快地进行。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章