SQLalchemy：迭代 + 计数和 func.count() 结果之间的差异

Einar 发表于 Dev

独自的

我有一系列这样定义的类（注意：它们通过扩展了一个已经存在的数据库automap，所以对下面列的引用可能不会反映这里的类）：

class VariantAssociation(Base):

    __tablename__ = "sample_variant_association"

    vid = Column(Integer, ForeignKey("variants.variant_id"),
                primary_key=True, index=True)
    sid = Column(Integer, ForeignKey("samples.sample_id"),
                primary_key=True, index=True)

    vdepth = Column(Integer, index=True)
    valt_depth = Column(Integer, index=True)
    gt = Column(Text)
    gt_type = Column(Integer)
    fraction = Column(Float, index=True)

    variant = relationship("Variant", back_populates="samples")
    sample = relationship("Samples", back_populates="variants")


class Variant(Base):

    __tablename__ = "variants"

    variant_id = Column(Integer, primary_key=True)
    info = deferred(Column(LargeBinary))

    samples = relationship("VariantAssociation",
                        back_populates="variant")

    def __repr__(self):

        data = "<Variant {chrom}:{start}-{end} {gene} {ref}/{alt} {type}>"

        return data.format(chrom=self.chrom,
                        start=self.start,
                        end=self.end,
                        gene=self.gene,
                        ref=self.ref,
                        alt=self.alt,
                        type=self.type)


class Samples(Base):

    __tablename__ = "samples"

    sample_id = Column(Integer, primary_key=True, index=True)
    name = Column(Text, index=True)
    variants = relationship("VariantAssociation",
                            back_populates="sample")

它们组装在一个相当复杂的查询中，但在这里精简了：

query = session.query(Variant).join(VariantAssociation.variant_id).join(Samples)
query = query.filter(VariantAssociation.vdepth >= 60)

现在，我想计算两列的组合：ref和alt。

我认为这很简单：

query = query.with_entities(Variant.ref, Variant.alt, 
    func.count()).distinct().group_by(gemini.Variant.ref, gemini.Variant.alt)

其中产生（一行示例）：

('A', 'C', 308)

但是，如果我只是迭代查询并计数：

from collections import defaultdict, Counter
counts  = defaultdict(Counter)
for row in query.with_entities(Variant.ref, Variant.alt):
    counts[f"{row.ref}>{row.alt}"].update(["present"])

给我

'A>C': Counter({'present': 155})

近一半的我发现通过count。我知道后者是正确的，而不是前者。但我想使用前者，因为后者可能非常慢（大型 SQLite 数据库）。

我是否错误地设置了计数？

编辑：根据要求，完整查询count（包括来自数据库本身的更多过滤器）

SELECT DISTINCT variants.ref AS variants_ref, variants.alt AS variants_alt, count(*) AS count_1 
FROM variants JOIN sample_variant_association ON variants.variant_id = sample_variant_association.vid JOIN
samples ON samples.sample_id = sample_variant_association.sid 
WHERE sample_variant_association.gt_type != ? AND variants.impact NOT IN (?, ?, ?, ?) AND
sample_variant_association.vdepth >= ? AND sample_variant_association.fraction >= ? AND variants.chrom NOT IN (?,
?) AND variants.aaf_1kg_eur < ? AND variants.type = ? AND sample_variant_association.fraction >= ? AND
sample_variant_association.vdepth >= ? GROUP BY variants.ref, variants.alt

还有一个用于迭代的：

    SELECT DISTINCT variants.ref AS variants_ref, variants.alt AS variants_alt 
FROM variants JOIN sample_variant_association ON variants.variant_id = sample_variant_association.vid JOIN
samples ON samples.sample_id = sample_variant_association.sid 
WHERE sample_variant_association.gt_type != ? AND variants.impact NOT IN (?, ?, ?, ?) AND
sample_variant_association.vdepth >= ? AND sample_variant_association.fraction >= ? AND variants.chrom NOT IN (?,
?) AND variants.aaf_1kg_eur < ? AND variants.type = ? AND sample_variant_association.fraction >= ? AND
sample_variant_association.vdepth >= ?

编辑 2：我将此追溯到基本查询中重复的变体 ID 的存在：

query.with_entities(gemini.Variant.variant_id).count()
18288
query.with_entities(gemini.Variant.variant_id).distinct().count()
14437

所以这个问题与我最初的想法不同。以某种方式在循环中考虑了重复记录，但不考虑func.count().

独自的

使用子查询有效，首先删除重复项：

id_subquery = query.with_entities(Variant.variant_id).distinct().subquery()

然后获取实际数据：

c_query = session.query(Variant.ref, Variant.alt, func.count(1))
c_query = c_query.filter(Variant.variant_id.in_(id_subquery))
c_query = c_query.group_by(Variant.ref, Variant.alt)

c_query.first()
('A', 'C', 155)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-10

我来说两句

0 条评论

登录后参与评论

上一篇：嵌套的 IF、AND、OR 函数比较并给出结果 excel

SQLalchemy：迭代 + 计数和 func.count() 结果之间的差异

SQLalchemy：迭代 + 计数和 func.count() 结果之间的差异

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序