这篇文章主要介绍 MOE-Mixture of Experts,混合专家模型(一种 LLM 的 Bagging 方式),提高 LLM 的效果。 Paper List:
- Sparsely-Gated Mixture-of-Experts layer (MoE) 2017/01
- Switch Transformer 2021/01
- GLaM 2021/12
- ST-MoE 2022/02
- MoE Routing 2022/11
MoE Review Paper:
A REVIEW OF SPARSE EXPERT MODELS IN DEEP LEARNING