1Bit LLM 마이크로소프트 GPU가 아닌 CPU를 사용했다. (1Bit LLM from Microsoft)
by 뱁새유니버스마이크로소프트 연구원들이 발표한 논문 <1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs>에 따르면 LLMs(Large Language Models)를 구동하는데 있어서 GPU자원이 필요했으나, bitnet.cpp라는 소프트웨어 스택을 통해 GPU가 아닌 CPU 자원을 사용하여 LLM의 추론을 사용할 수 있는 방법을 찾아냈다.
이걸 software stack이라고 하는데 LLM을 구동하는데 필요한 소프트웨어 구성 요소 정도로 이해하면 된다.
M1 맥북에서 돌려보니 llama-8B모델을 추론하는데 CPU를 약 22% under로 사용하는 것을 확인할 수 있었다.
실행문은 터미널에서 쉘로 동작시키면 된다.
1. Clone the repo
git clone --recursive https://github.com/microsoft/BitNet.git
cd BitNet
2. Install the dependencies
# (Recommended) Create a new conda environment
conda create -n bitnet-cpp python=3.9
conda activate bitnet-cpp
pip install -r requirements.txt
3. Build the project
# Download the model from Hugging Face, convert it to quantized gguf format, and build the project
python setup_env.py --hf-repo HF1BitLLM/Llama3-8B-1.58-100B-tokens -q i2_s
# Or you can manually download the model and run with local path
huggingface-cli download HF1BitLLM/Llama3-8B-1.58-100B-tokens --local-dir models/Llama3-8B-1.58-100B-tokens
python setup_env.py -md models/Llama3-8B-1.58-100B-tokens -q i2_s
자세한 내용은 github를 참조하면 된다.
https://github.com/microsoft/BitNet?tab=readme-ov-file
마이크로소프트 화이팅...!!
'IT > AI' 카테고리의 다른 글
ONZO AI Agent 주식 정보를 연결했다. yahoo finance, AI비서, AI (1) | 2024.08.26 |
---|---|
ONZO AI Agent 아파트 실거래가를 연결했다. 부동산 매매 공공데이터포털, AI비서, AI (0) | 2024.08.18 |
ONZO AI Agent AI Agent 만들기 Llama Gemma Copilot (0) | 2024.08.05 |
LM studio를 설치해보자! GPT AI 인공지능 로컬 LLM (0) | 2024.07.28 |
사랑하는 나의 최애 노트앱 옵시디언 with LLM Copilot (2) | 2024.07.27 |
블로그의 정보
가슴이 웅장해지는 모든것
뱁새유니버스