MOE

2024

MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs

December 31, 2024

FIDDLER: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

December 27, 2024

Accelerating Distributed MoE Training and Inference with Lina

June 6, 2024

OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models

June 5, 2024