MongoDB数据库聚合之分组统计$group的用法详解

 更新时间:2024年06月24日 10:13:49   作者:原子星  
在MongoDB中聚合框架允许用户对数据进行处理和分析,以便进行统计计算、汇总以及更复杂的数据转换,这篇文章主要给大家介绍了关于MongoDB数据库聚合之分组统计$group的用法的相关资料,需要的朋友可以参考下

前言

MongoDB不像关系型数据库,普通的查询不支持汇总,要进行复杂的分组汇总,需要使用聚合管道,$group可以说是MongoDB聚合管道进行数据分析最常用的一个阶段。该阶段根据分组键值(组键)把文档分成若干组,每个唯一的键值对应一个文档。组键通常是一个或多个字段,也可以是表达式的结果。$group阶段输出的结果中,_id字段的值就是组键的值,输出文档中还可以包含汇总表达式的字段,汇总表达式的功能非常丰富,下面的列表会简单介绍,具体的使用方法可以参考详细说明。

$group的语法

{
 $group:
   {
     _id: <expression>, // 组键,就是分组的键值字段或表达式
     <field1>: { <accumulator1> : <expression1> },
     ...
   }
 }

字段说明:

字段说明
_id不可省略,通过_id表达式指定分组的依据,如果直接指定_id的值为null或常量,则把全部的输入文档汇总后返回一个文档
field可选,汇总表达式计算的结果
_id和field可以是任何合法的表达式。

分组汇总操作符

分组汇总操作符比较多,功能丰富且强大,这里简要介绍其用途,详细的用法后续再专文介绍。

操作符用途介绍
$accumulator返回累加结果
$addToSet把分组中不重复的表达式的值作为数组返回,注意数组的元素无序的,类似分组内的distinct
$avg返回数值的平均值。非数值会被忽略
$bottom按照指定的顺序返回分组中最后一个元素
$bottomN按照指定的顺序返回分组中最后N个元素字段的集合,如果分组元素数量小于N,则返回全部
$count返回分组内的元素数量
$first返回分组内第一个元素表达式的结果
$firstN返回分组内前n个元素的聚合。只有文档有序时才有意义
$last返回分组中最后一个文档的表达式的结果
$lastN返回分组内最后n个元素的聚合。只有文档有序时才有意义
$max返回每个分组表达式值的最大值
$maxN返回分组内最大的n个元素的集合
$median返回分组中的中位数
$mergeObjects返回分组合并后的文档
$min返回分组内表达式的最小值
$percentile返回与指定百分位数值相对应的值的数组
$push返回每个分组表达式值的数组
$stdDevPop返回标准差
$stdDevSamp返回样本标准差
$sum返回合计值,忽略空值
$top根据指定的顺序返回组内最前面的元素
$topN根据指定的顺序返回组内前N个元素的聚合

注意

  • $group使用内存不能超过100M,超过会报错。如果想要处理更多数据或者少用一些内存,可使用allowDiskUse选项把数据写入临时文件。
  • 当使用$first、$last等操作符时,可以考虑在参与排序的分组字段上添加索引,某些情况下,这些操作可以使用索引快速定位到相应的记录。

一些例子

统计数量

创建并插入数据:

db.sales.insertMany([
  { "_id" : 1, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("2"), "date" : ISODate("2014-03-01T08:00:00Z") },
  { "_id" : 2, "item" : "jkl", "price" : Decimal128("20"), "quantity" : Int32("1"), "date" : ISODate("2014-03-01T09:00:00Z") },
  { "_id" : 3, "item" : "xyz", "price" : Decimal128("5"), "quantity" : Int32( "10"), "date" : ISODate("2014-03-15T09:00:00Z") },
  { "_id" : 4, "item" : "xyz", "price" : Decimal128("5"), "quantity" :  Int32("20") , "date" : ISODate("2014-04-04T11:21:39.736Z") },
  { "_id" : 5, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("10") , "date" : ISODate("2014-04-04T21:23:13.331Z") },
  { "_id" : 6, "item" : "def", "price" : Decimal128("7.5"), "quantity": Int32("5" ) , "date" : ISODate("2015-06-04T05:08:13Z") },
  { "_id" : 7, "item" : "def", "price" : Decimal128("7.5"), "quantity": Int32("10") , "date" : ISODate("2015-09-10T08:43:00Z") },
  { "_id" : 8, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("5" ) , "date" : ISODate("2016-02-06T20:20:13Z") },
])

统计sales全部文档数量

相当于collection.find({}).count()

db.sales.aggregate( [
  {
    $group: {
       _id: null,
       count: { $count: { } }
    }
  }
] )

结果:

{ "_id" : null, "count" : 8 }

检索不同的值,等价于distinct

仍以上例的sales集合数据为例

db.sales.aggregate( [ { $group : { _id : "$item" } } ] )

结果:

{ "_id" : "abc" }
{ "_id" : "jkl" }
{ "_id" : "def" }
{ "_id" : "xyz" }

等价于:

db.sales.distinct("item")

按Item分组

下面的聚合先按照item进行分组,计算每个item销售总额,并且返回大于等于100的item。

db.sales.aggregate(
  [
    //阶段1
    {
      $group :
        {
          _id : "$item",
          totalSaleAmount: { $sum: { $multiply: [ "$price", "$quantity" ] } }
        }
     },
     //阶段2
     {
       $match: { "totalSaleAmount": { $gte: 100 } }
     }
   ]
 )

阶段1:$group阶段,根据item进行分组,并计算每个item的销售总额。

阶段2:$math阶段,过滤结果文档,只返回销售总额totalSaleAmount大于等于100的文档。

结果:

{ "_id" : "abc", "totalSaleAmount" : Decimal128("170") }
{ "_id" : "xyz", "totalSaleAmount" : Decimal128("150") }
{ "_id" : "def", "totalSaleAmount" : Decimal128("112.5") }

计算总数、合计和平均值

创建一个sales集合并插入记录:

db.sales.insertMany([
  { "_id" : 1, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("2"), "date" : ISODate("2014-03-01T08:00:00Z") },
  { "_id" : 2, "item" : "jkl", "price" : Decimal128("20"), "quantity" : Int32("1"), "date" : ISODate("2014-03-01T09:00:00Z") },
  { "_id" : 3, "item" : "xyz", "price" : Decimal128("5"), "quantity" : Int32( "10"), "date" : ISODate("2014-03-15T09:00:00Z") },
  { "_id" : 4, "item" : "xyz", "price" : Decimal128("5"), "quantity" :  Int32("20") , "date" : ISODate("2014-04-04T11:21:39.736Z") },
  { "_id" : 5, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("10") , "date" : ISODate("2014-04-04T21:23:13.331Z") },
  { "_id" : 6, "item" : "def", "price" : Decimal128("7.5"), "quantity": Int32("5" ) , "date" : ISODate("2015-06-04T05:08:13Z") },
  { "_id" : 7, "item" : "def", "price" : Decimal128("7.5"), "quantity": Int32("10") , "date" : ISODate("2015-09-10T08:43:00Z") },
  { "_id" : 8, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("5" ) , "date" : ISODate("2016-02-06T20:20:13Z") },
])

按照日期分组

下面的聚合管道计算2014年的销售总额、平均销量和销售数量

db.sales.aggregate([
  //阶段1
  {
    $match : { "date": { $gte: new ISODate("2014-01-01"), $lt: new ISODate("2015-01-01") } }
  },
  //阶段2
  {
    $group : {
       _id : { $dateToString: { format: "%Y-%m-%d", date: "$date" } },
       totalSaleAmount: { $sum: { $multiply: [ "$price", "$quantity" ] } },
       averageQuantity: { $avg: "$quantity" },
       count: { $sum: 1 }
    }
  },
  //阶段3
  {
    $sort : { totalSaleAmount: -1 }
  }
 ])

阶段1使用$math只允许2014年的数据进入下一阶段.

阶段2使用$group根据日期进行分组,统计每个分组的销售总额、平均销量和销售数量。

阶段3使用$sort按照销售总额进行降序排序

结果:

{
   "_id" : "2014-04-04",
   "totalSaleAmount" : Decimal128("200"),
   "averageQuantity" : 15, "count" : 2
}
{
   "_id" : "2014-03-15",
   "totalSaleAmount" : Decimal128("50"),
   "averageQuantity" : 10, "count" : 1
}
{
   "_id" : "2014-03-01",
   "totalSaleAmount" : Decimal128("40"),
   "averageQuantity" : 1.5, "count" : 2
}

按控制null分组

下面的聚合操作,指定分组_id为空,计算集合中所有文档的总销售额、平均数量和计数。

db.sales.aggregate([
  {
    $group : {
       _id : null,
       totalSaleAmount: { $sum: { $multiply: [ "$price", "$quantity" ] } },
       averageQuantity: { $avg: "$quantity" },
       count: { $sum: 1 }
    }
  }
 ])

结果:

{
  "_id" : null,
  "totalSaleAmount" : Decimal128("452.5"),
  "averageQuantity" : 7.875,
  "count" : 8
}

数据透视

创建books集合并插入数据

db.books.insertMany([
  { "_id" : 8751, "title" : "The Banquet", "author" : "Dante", "copies" : 2 },
  { "_id" : 8752, "title" : "Divine Comedy", "author" : "Dante", "copies" : 1 },
  { "_id" : 8645, "title" : "Eclogues", "author" : "Dante", "copies" : 2 },
  { "_id" : 7000, "title" : "The Odyssey", "author" : "Homer", "copies" : 10 },
  { "_id" : 7020, "title" : "Iliad", "author" : "Homer", "copies" : 10 }
])

根据作者对标题分组

下面的聚合操作将books集合中的数据透视为按作者分组的标题。

db.books.aggregate([
   { $group : { _id : "$author", books: { $push: "$title" } } }
 ])

结果

{ "_id" : "Homer", "books" : [ "The Odyssey", "Iliad" ] }
{ "_id" : "Dante", "books" : [ "The Banquet", "Divine Comedy", "Eclogues" ] }

根据作者对文档分组

db.books.aggregate([
   // 阶段1
   {
     $group : { _id : "$author", books: { $push: "$$ROOT" } }
   },
   // 阶段2
   {
     $addFields:
       {
         totalCopies : { $sum: "$books.copies" }
       }
   }
 ])

阶段1:分组$group,根据作者对文档进行分组,使用$$ROOT把文档作为books的元素。

阶段2:$addFields会在输出文档中添加一个字段,即每位作者的图书总印数。

结果:

{
  "_id" : "Homer",
  "books" :
     [
       { "_id" : 7000, "title" : "The Odyssey", "author" : "Homer", "copies" : 10 },
       { "_id" : 7020, "title" : "Iliad", "author" : "Homer", "copies" : 10 }
     ],
   "totalCopies" : 20
}

{
  "_id" : "Dante",
  "books" :
     [
       { "_id" : 8751, "title" : "The Banquet", "author" : "Dante", "copies" : 2 },
       { "_id" : 8752, "title" : "Divine Comedy", "author" : "Dante", "copies" : 1 },
       { "_id" : 8645, "title" : "Eclogues", "author" : "Dante", "copies" : 2 }
     ],
   "totalCopies" : 5
}

以上内容参考mongodb官方文档整理而来

总结

到此这篇关于MongoDB数据库聚合之分组统计$group的用法详解的文章就介绍到这了,更多相关MongoDB分组统计$group用法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • MongoDB可视化工具mongodb-compass

    MongoDB可视化工具mongodb-compass

    这篇文章介绍了MongoDB的可视化工具mongodb-compass,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • Centos7安装和卸载Mongodb数据库的方法

    Centos7安装和卸载Mongodb数据库的方法

    MongoDB是一个跨平台,面向文档的数据库,提供高性能,高可用性和易于扩展。MongoDB是工作在集合和文档上一种概念。下面通过本文给大家分享Centos7安装和卸载Mongodb数据库的方法,需要的朋友参考下吧
    2017-11-11
  • Windows或Linux系统中备份和恢复MongoDB数据的教程

    Windows或Linux系统中备份和恢复MongoDB数据的教程

    不得不说MongoDB的备份回复操作对比其他数据库来说真的算得上是简便的,无论是在Windows的命令行中或者是Linux里的脚本执行,这里我们就来看一下Windows或Linux系统中备份和恢复MongoDB数据的教程
    2016-06-06
  • mongodb添加arbiter节点的方法示例

    mongodb添加arbiter节点的方法示例

    这篇文章主要给大家分享了关于利用mongodb添加arbiter节点的方法示例,文中给出了详细的示例代码,相信对大家具有一定的参考价值,需要的朋友们下面来一起看看吧。
    2017-02-02
  • MongoDB运行状态监控、性能分析工具mongostat详解

    MongoDB运行状态监控、性能分析工具mongostat详解

    这篇文章主要介绍了MongoDB运行状态监控、性能分析工具mongostat详解,mongostat是mongdb自带的状态检测工具,在命令行下使用,它会间隔固定时间获取mongodb的当前运行状态,并输出,本文详细讲解了它的使用,需要的朋友可以参考下
    2015-07-07
  • SpringBoot系列之MongoDB Aggregations用法详解

    SpringBoot系列之MongoDB Aggregations用法详解

    MongoDB 中使用聚合(Aggregations)来分析数据并从中获取有意义的信息,本文重点给大家介绍SpringBoot系列之MongoDB Aggregations用法,感兴趣的朋友跟随小编一起看看吧
    2022-02-02
  • mongodb基础入门_动力节点Java学院整理

    mongodb基础入门_动力节点Java学院整理

    这篇文章主要为大家详细介绍了mongodb基础入门的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-08-08
  • 详解mongodb 主从配置

    详解mongodb 主从配置

    我研究过的nosql,memcache,redis,mongodb都是支持分布式的,生产环境中用过memcache,redis,性能稳定。mongodb是最接近关系型数据库的,不用花很多时间去构建数据库模型,将来我会用mongodb,看一下主从配置
    2014-07-07
  • centos8安装MongoDB的详细过程

    centos8安装MongoDB的详细过程

    MongoDB由MongoDB Inc开发,并根据SSPL(服务器端公共许可证)进行分发,是一个开源,跨平台,面向文档的数据库管理系统,本文重点给大家介绍centos8安装MongoDB的详细过程,感兴趣的朋友一起看看吧
    2021-10-10
  • 浅析MongoDB之安全认证

    浅析MongoDB之安全认证

    MongoDB是基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。默认情况下,MongoDB实例启动运行时是没有启用用户访问权限控制的,在实例本机服务器上都可以随意连接到实例进行各种操作,MongoDB不会对连接客户端进行用户验证
    2021-06-06

最新评论