🤖 Harold's Notes

Search

❯

❯

❯

❯

Literature

Apr 25, 20251 min read

PTQ

Accurate post training quantization with small calibration sets
Optimal Brain Compression: A framework for accurate post-training quantization and pruning
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
AWQ: Activation-Aware Weight Quantization for LLM Compression and Acceleration
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

Rotations

QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks
QuIP: 2-Bit Quantization of Large Language Models with Guarantees
QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs
SpinQuant: LLM Quantization with Learned Rotations

QAT

Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference
HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs
QLoRA: Efficient Finetuning of Quantized LLMs
Learned Step Size Quantization

Graph View

PTQ
Rotations
QAT

Backlinks

No backlinks found

Created with Quartz v4.2.3 © 2025