Posts

2025

[Note] Attention Optimization

January 15, 2025

[Note] Transfomer

January 12, 2025

2024

MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs

December 31, 2024

[Note] Roofline Model

December 31, 2024

TwinPilots: A New Computing Paradigm for GPU-CPU Parallel LLM Inference

December 30, 2024

Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads

December 29, 2024

HETEGAN: Heterogeneous Parallel Inference for Large Language Models on Resource-Constrained Devices

December 28, 2024

FIDDLER: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

December 27, 2024

Accelerating Distributed MoE Training and Inference with Lina

June 6, 2024

OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models

June 5, 2024

Shuffling, Fast and Slow: Scalable Analytics on Serverless Infrastructure

January 27, 2024

[PCPP Note] Topic_7 Lock Free Data Structures

January 3, 2024

[PCPP Note] Topic_6 Performance and Scalability

January 3, 2024

2023

[PCPP Note] Topic_5 Performance Measurements

December 22, 2023

[PCPP Note] Topic_4 Testing

December 22, 2023

[PCPP Note] Topic_3 Shared Memory II

December 20, 2023

[PCPP Note] Topic_2 Shared Memory I

December 17, 2023

[PCPP Note] Topic_1 Intro to Concurrency and the Mutual Exclusion Problem

December 17, 2023

FalconDB: Blockchain-based Collaborative Database

October 25, 2023

September 9, 2023

September 9, 2023