Awesome Direct Preference Optimization Papers and Source Codes

360-LLaMA-Factory: Plug-and-Play Sequence Parallelism for Long-Context SFT and DPO Without Rewriting Your Workflow 571

Training large language models (LLMs) on long sequences—whether for document-level instruction tuning, multi-modal reasoning, or complex alignment tasks—has long been…

01/05/2026Direct Preference Optimization, Long-Context Training, Supervised Fine-tuning