IT/AI

1Bit LLM 마이크로소프트 GPU가 아닌 CPU를 사용했다. (1Bit LLM from Microsoft)

뱁새유니버스 2024. 10. 22. 20:57

마이크로소프트 연구원들이 발표한 논문 <1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs>에 따르면 LLMs(Large Language Models)를 구동하는데 있어서 GPU자원이 필요했으나, bitnet.cpp라는 소프트웨어 스택을 통해 GPU가 아닌 CPU 자원을 사용하여 LLM의 추론을 사용할 수 있는 방법을 찾아냈다. 

이걸 software stack이라고 하는데 LLM을 구동하는데 필요한 소프트웨어 구성 요소 정도로 이해하면 된다.

M1 맥북에서 돌려보니 llama-8B모델을 추론하는데 CPU를 약 22% under로 사용하는 것을 확인할 수 있었다. 

 

실행문은 터미널에서 쉘로 동작시키면 된다. 

 

1. Clone the repo
git clone --recursive https://github.com/microsoft/BitNet.git
cd BitNet

2. Install the dependencies
# (Recommended) Create a new conda environment
conda create -n bitnet-cpp python=3.9
conda activate bitnet-cpp
pip install -r requirements.txt

3. Build the project
# Download the model from Hugging Face, convert it to quantized gguf format, and build the project
python setup_env.py --hf-repo HF1BitLLM/Llama3-8B-1.58-100B-tokens -q i2_s

# Or you can manually download the model and run with local path
huggingface-cli download HF1BitLLM/Llama3-8B-1.58-100B-tokens --local-dir models/Llama3-8B-1.58-100B-tokens
python setup_env.py -md models/Llama3-8B-1.58-100B-tokens -q i2_s

 

자세한 내용은 github를 참조하면 된다. 

 

https://github.com/microsoft/BitNet?tab=readme-ov-file

 

GitHub - microsoft/BitNet: Official inference framework for 1-bit LLMs

Official inference framework for 1-bit LLMs. Contribute to microsoft/BitNet development by creating an account on GitHub.

github.com

 

마이크로소프트 화이팅...!!

반응형