뱁새유니버스

Ollama의 개념과 설치 및 사용방법 GGUF 허깅페이스 Huggingface

by 뱁새유니버스

1. 세줄요약

01. Ollama를 설치하여 LLM모델을 불러왔다.

02. Ollama Pull 명령어를 통해 모델을 불러온다.

03. GGUF파일 형태인 양자화 모델도 Modelfile을 통해 불러올 수 있다. 

2. 내용

(1) Ollama가 뭔가요?

2022년 12월, OpenAI가 ChatGPT 서비스를 출시한 이후 AI 관련 서비스들이 급격히 증가했습니다. 그 중 하나가 바로 Ollama입니다. Ollama는 개인정보 보호에 민감한 사용자들을 위해 설계된 Local LLM(Local Large Language Model) 도구입니다.

사용자들은 ChatGPT를 사용할 때 자신의 소중한 정보들이 외부 서버로 유출될까 우려하는 경우가 많은데, Ollama는 이러한 문제를 해결하기 위해 개발되었습니다.

Ollama는 로컬에서 실행할 수 있는 LLM 모델을 제공하여, 사용자들이 자신의 데이터를 외부 서버에 전송하지 않고도 AI 모델을 활용할 수 있게 합니다. 이는 특히 개인정보 보호가 중요한 환경에서 유용합니다. Ollama는 사용자의 데이터를 외부로 전송하지 않기 때문에 데이터 유출 위험을 줄이고, 사용자가 데이터를 완전히 통제할 수 있도록 합니다.

이러한 특징 덕분에 Ollama는 개인정보 보호를 우선시하는 사용자들에게 매우 유용한 도구로 자리 잡고 있습니다. Local LLM 모델을 통해 안전하고 효율적으로 AI 기술을 활용할 수 있는 Ollama는 AI 서비스 시장에서 주목받고 있는 솔루션 중 하나입니다.

(2) Ollama 설치하기

https://ollama.com/download

 

Download Ollama on macOS

Download Ollama on macOS

ollama.com

 

첫화면에서 Download버튼을 누르고 본인의 OS환경에 맞게 다운로드 받으면 됩니다. Mac, Windows, Linux 모두 가능합니다. 

(3) 모델도 쉽게 땡겨오지요~

MacOS기준으로 설명드리겠습니다.

터미널에서 ollama를 검색하면 그와 관련한 검색어들을 확인할 수 있습니다.

ollama list를 검색했는데 아래와 같은 모델들이 설치된 것을 확인할 수 있습니다. 

모델은 huggingface에서 아무거나 갖고 사용하시면 됩니다. 

https://ollama.com/library

 

library

Get up and running with large language models.

ollama.com

 

맥북 M1 기준으로는 7B까지 CPU를 사용하는게 알맞더라구요. 70B같은건 별도 GPU서버가 있어야합니다. 본인의 자원을 잘 확인하고 알맞는 모델을 다운로드 받아야합니다.

ollama pull qwen2라고 입력하면 기본 모델을 설치합니다.

(중요) 다른 application과 연동해서 사용할 경우 ollama 서버를 구동해야하는 경우가 있는데 이때 서버는 7B가 맥북에서 반응속도가 2분 3분되서 사용할 수준이 안되니 양자화된 모델을 사용하시길 권고드립니다. 저는 qwen-1.5B 양자화 모델을 사용하니까 딱 알맞더라구요.(반응시간 2~10초?정도였어요.)

그래서 qwen2 모델을 다 설치하셨으면 ollama run qwen2를 입력하시면 바로 해당 모델을 사용할 수 있습니다.

바로 대화가 가능한 것을 확인할 수 있습니다! 잘....모르겠지만(???) 아름다운 시네요!

(4) GGUF를 아시나요? 

GGUF는 Georgi Gerganov Unified Format의 약자입니다.  Georgi Gerganov라는 훌륭한 분께서 GGML을 사용하여 대규모 모델과실행프로그램이라고 생각하시면 됩니다.

복잡하니 한마디로 얘기하면 Ollama에 올릴 수 있는 4~5GB되는 CD구운 Deamon 파일같은거라고 생각하시면 됩니다.(??옛날사람??) Ollama에서 GGUF파일을 받아 실행시킬 수 있습니다. 이 얘길 왜하냐면 양자화된 모델 파일들은 GGUF 포맷이기 때문입니다. 

Huggingface에 가셔서 양자화된 모델들을 다운로드받습니다. 저는 qwen2-1_5b-instruct-q4_k_m.gguf 이 모델을 받았습니다.

아래 그림처럼 Huggingfacedㅔ 들어가시면 Q4_k, Q5, q4_k 이런식으로 오리지널 모델에서 양자화된 모델들을 추가로 양자화하여 올린 분들이 많습니다. 

Modelfile이 필요합니다. 

폴더에서 별도로 vim 또는 nano명령어를 통해 Modelfile을 만든 다음에 아래와 같이 입력해줍니다.

FROM 폴더위치/qwen2-1_5b-instruct-q4_k_m.gguf 

그 다음 명령어를 입력합니다.

ollama create qwen2-1_5b-instruct-q4_k_m.gguf -f Modelfile

 

저는 이미 만들었으니까 아래와 같이 existing layer, success라고 뜨네요.

아래처럼 입력하면 실행이 됩니다.

ollama run qwen2-1_5b-instruct-q4_k_m.gguf

참 쉽죠?!

3. 마치며

이번 시간은 Ollama를 설치하여 ollama pull을 통해 모델을 불러오는 방식과 Modelfile을 통해 GGUF파일을 불러오는 방식을 시도해보았습니다. 앞으로 다양한 모델들을 각자 자원에 맞게 잘 사용해보시길 바랍니다.

질문이 있으시면 언제든 댓글 남겨주세요! 답변드리겠습니다. 같이 공부합시다^^
이 글을 보는 모든 분들 오늘 하루가 행복하시길 바랍니다.
감사합니다.

반응형

블로그의 정보

가슴이 웅장해지는 모든것

뱁새유니버스

활동하기