245GB로 압축된 초대형 AI '키미 K2' 로컬 실행 가능해져... 상상 이상의 성능에 유저들 "놀랍다"

업데이트된 245GB 퀀트로 80% 크기 감소 달성
키미(Kimi) K2 초대형 언어모델이 245GB의 압축 버전으로 로컬 컴퓨터에서 실행 가능해졌다. 헤비급 AI 모델을 대폭 축소시켜 개인용 PC에서도 구동할 수 있게 만든 것이다. 7월 14일 레딧 'LocalLLaMA' 커뮤니티에 공개된 이 소식은 AI 개발자와 열성 사용자들 사이에서 큰 화제를 모으고 있다.
언슬로스(Unsloth) 팀에서 개발한 이번 압축 버전은 원본 대비 80%나 크기를 줄이는 데 성공했다. 특히나 381GB 크기의 'Unsloth dynamic Q2KXL' 버전은 플래피 버드와 헵타곤 게임이라는 까다로운 테스트에서도 단번에 성공하는 놀라운 성능을 보여줬다.
구동을 위한 시스템 요구사항
키미 K2를 로컬에서 실행하기 위해서는 몇 가지 특별한 설정이 필요하다. 우선 "-ot ".ffn.*exps.=CPU"" 파라미터를 통해 MoE 레이어를 시스템 RAM으로 오프로드해야 한다. 최상의 성능을 위해서는 RAM과 VRAM의 합이 최소 245GB 이상이어야 하지만, SSD나 디스크를 대안으로 사용할 수도 있다. 다만 이 경우 성능이 다소 저하될 수 있다.
현재로서는 기본 llama.cpp로는 키미 K2를 실행할 수 없으며, 특별히 수정된 버전이 필요하다. 유저들은 PR #14654가 적용된 GitHub 저장소나 언슬로스 팀이 포크한 버전을 사용해야 한다. 공식 지원은 향후 수일 내에 추가될 예정이다.
최적 설정값과 유저 반응
최적의 결과를 얻기 위해서는 온도(temperature) 파라미터를 0.6으로, 최소 확률(min_p)을 0.01로 설정할 것을 개발자 측에서 권장하고 있다. 자세한 정보는 언슬로스 공식 문서에서 확인할 수 있다.
레딧 커뮤니티에서 이 소식은 불과 하루 만에 240개 이상의 추천을 받으면서 뜨거운 반응을 얻고 있다. 특히 언슬로스 팀의 문서화 작업에 대한 찬사가 이어졌다.
한 유저는 "언슬로스 팀이 제공하는 문서의 품질에 진심으로 감사드립니다. 일류 작업을 제공할 뿐만 아니라, 분명히 많은 노력이 들어간 우수한 기술 문서로 뒷받침되고 있습니다. 정말 훌륭합니다"라고 언급했다.
이에 대해 언슬로스 팀은 "사람들이 세부 사항을 걱정하지 않고 바로 작업을 수행할 수 있도록 쉽게 만들기 위해 노력하고 있다"고 답변했다. 다만 "llama.cpp를 이미 어느 정도 사용할 줄 안다는 가정하에 작성되어 있어 완전 초보자에게는 친숙하지 않을 수 있다"는 점도 인정했다.
또한 다른 유저가 imatrix 파일 업로드를 요청하자 개발팀은 "변환 스크립트가 아직 진행 중이다"라며 곧 제공하겠다고 약속했다.
이번 키미 K2의 압축 버전 공개는 대규모 AI 모델의 접근성을 높이는 중요한 진전으로 평가받고 있다. 그동안 막대한 컴퓨팅 자원이 필요해 일반 사용자가 활용하기 어려웠던 최신 AI 기술이 점차 대중화되고 있는 것이다.
Comments ()