这篇文章主要介绍 MOE-Mixture of Experts,混合专家模型(一种 LLM 的 Bagging 方式),提高 LLM 的效果。 Paper List:

  1. Sparsely-Gated Mixture-of-Experts layer (MoE) 2017/01
  2. Switch Transformer 2021/01
  3. GLaM 2021/12
  4. ST-MoE 2022/02
  5. MoE Routing 2022/11

MoE Review Paper:

A REVIEW OF SPARSE EXPERT MODELS IN DEEP LEARNING

Switch Transformer

My idea