pdf

ASPEN: High-throughput LoRA fine-tuning of large language models using a single GPU

  • 2024-05-13
  • 1.19MB
  • Points it Requires : 2

Transformer-based large language models (LLMs) have shown excellent performance in different domains, especially when fine-tuned for specific domains. Recent studies have shown that the resources required for fine-tuning LLMs can be saved by parameter-efficient methods such as low-rank adaptation (LoRA). While LoRA effectively reduces the computational burden and resource requirements, it currently only supports single-job fine-tuning settings. In this paper, we introduce ASPEN, a high-throughput framework for fine-tuning LLMs. ASPEN uses the LoRA approach to efficiently train multiple jobs on a single GPU, leveraging shared pre-trained models and adaptive scheduling. ASPEN is compatible with transformer-based language models such as LLaMA and ChatGLM. Experiments show that ASPEN saves 53% of GPU memory when training multiple LLaMA-7B models on an NVIDIA A100 80GB GPU, and improves training throughput by about 17% compared to existing methods when training with various pre-trained models on different GPUs. An adaptive scheduling algorithm that prioritizes jobs and prevents out-of-memory issues improves turnaround time by 24% and reduces end-to-end training latency by 12%.

unfold

You Might Like

Uploader
念慈菴
 

Recommended ContentMore

Popular Components

Just Take a LookMore

EEWorld
subscription
account

EEWorld
service
account

Automotive
development
circle

About Us Customer Service Contact Information Datasheet Sitemap LatestNews


Room 1530, 15th Floor, Building B, No.18 Zhongguancun Street, Haidian District, Beijing, Postal Code: 100190 China Telephone: 008610 8235 0740

Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号
×