Skip to content

Commit

Permalink
Update blog
Browse files Browse the repository at this point in the history
  • Loading branch information
lewiszlw committed Sep 9, 2024
1 parent 154fd93 commit e14db22
Showing 1 changed file with 1 addition and 1 deletion.
Original file line number Diff line number Diff line change
Expand Up @@ -92,7 +92,7 @@ DataFusion 会利用聚合算子的输入在 group keys 上的(部分/完全

**第一阶段判断是否跳过聚合计算时,为什么需要输入无任何在 group keys 上的排序特性?**

因为如果输入具有排序特性,那么可以利用排序特性来提前输出部分已聚合完毕的 group,这样不会因为高基数聚合导致需要在内存中维护巨大的哈希表。
因为如果输入具有排序特性,那么可以利用排序特性来提前输出部分已聚合完毕的 group,这样不会因为高基数聚合导致需要在内存中维护巨大的哈希表(Spill 也是同样地需要输入无任何在 group keys 上的排序特性)

**为什么 Spill(溢出到磁盘)仅发生在第二阶段(FinalPartitioned),而不会在第一阶段(Partial)发生?**

Expand Down

0 comments on commit e14db22

Please sign in to comment.