LLaMA
Meta AI는 DeepMind의 연구 결과에 영감을 얻어 추론 compute budget을 고려한 GPT-3(175B) 보다 더 작으면서 고성능 모델인 LLaMA을 발표하였다. Meta AI LLaMA의 간략한 특징은 다음과 같다.
- 4가지 버전 형태로 릴리즈 (6.7B, 13B, 32.5B, 65.2B)
- Model Parallelism: 6.7B(1-way), 13B(2-way), 32.5B(4-way), 65.2B(8-way)
- LLaMA(13B)이 GPT3(175B)보다 1/10 이상 모델 사이즈가 작지만 모든 벤치마크에서 GPT3(175B)를 압도하는 성능을 갖음
- 6.7B 모델은 Single GPU(V100)에 실행 가능함
- LLaMA(65B)은 DeepMind의 Chinchilla(70B)과 Google Research의 PaLM(540B)와 같은 LLM 만큼 경쟁력이 있음
- 공개 데이터만으로 학습됨
- 최신 모델들의 연구를 반영하여 Transformer 구조를 수정
지난 몇 주 동안 기술계의 화제는 마이크로소프트, 구글, OpenAI 등이 개발하고 배치한 언어 모델에 집중되어 왔습니다. 하지만 페이스북의 모회사인 메타는 이 분야에서 중요한 일을 계속하고 있으며 오늘 LLaMA라는 새로운 AI 언어 생성기를 출시할 예정입니다.
LLaMA는 ChatGPT나 빙과 같지 않습니다. 누구나 대화할 수 있는 시스템이 아닙니다. 오히려 Meta가 "이 중요하고 빠르게 변화하는 분야의 접근을 민주화"하기 위해 공유하고 있다고 말하는 연구 도구입니다 즉, 전문가들이 편견과 독성에서 단순히 정보를 구성하는 경향에 이르기까지 AI 언어 모델의 문제를 해결하는 데 도움을 주는 것입니다.
이를 위해 Meta는 대학, NGO 및 산업 연구소와 같은 그룹에 액세스 권한이 부여된 "연구 사용 사례에 초점을 맞춘 비상업적 라이센스"로 LLaMA(실제로 단일 시스템이 아닌 크기가 다른 모델의 4분의 1)를 출시하고 있습니다.
"우리는 학계 연구자, 시민 사회, 정책 입안자 및 산업계 전체 AI 커뮤니티가 책임감 있는 AI, 특히 책임감 있는 대형 언어 모델에 대한 명확한 지침을 개발하기 위해 협력해야 한다고 믿습니다."라고 회사는 게시물에 썼습니다. "우리는 지역사회가 LLaMA를 사용하여 무엇을 배우고 궁극적으로 구축할 수 있을지 기대하고 있습니다."
연구 논문에서 Meta는 LLaMA 모델의 두 번째 최신 버전인 LLaMA-13B가 "대부분의 벤치마크에서" OpenAI의 인기 있는 GPT-3 모델보다 성능이 우수한 반면, 가장 큰 LLaMA-65B는 DeepMind의 Chinchilla70B 및 Google의 PalM 540B와 같은 "최고의 모델과 경쟁"하다고 주장합니다. (이러한 이름의 숫자는 각 모델에 있는 수십억 개의 매개변수를 나타냅니다. 시스템 크기를 측정하고 정교함을 대략적으로 나타낸 것입니다. 단, 이 두 가지 특성이 반드시 일치하는 수준으로 확장되는 것은 아닙니다
LLaMA-13B는 교육을 받으면 단일 데이터 센터 등급의 Nvidia Tesla V100 GPU에서도 실행할 수 있습니다. 이는 이러한 시스템에서 테스트를 실행하려는 소규모 기관에는 반가운 소식이지만, 이러한 장비를 사용할 수 없는 단독 연구원에게는 큰 의미가 없습니다.
메타의 출시는 부분적으로 AI 챗봇을 둘러싼 화제 중 일부를 놓쳤기 때문에 주목할 만합니다. (하지만 마이크로소프트가 빙의 출시를 서두른 것에 대해 받은 비판과 자체 챗봇이 데모에서 오류를 범한 후 구글의 주가가 급락한 것을 고려할 때, 그것은 나쁜 것이 아닐 수 있습니다.)
메타는 실제로 과거에 자체적으로 접근 가능한 AI 챗봇을 출시했지만, 그 수신율은 그리 높지 않았습니다. 블렌더봇이라는 이름의 한 명은 단순한... 과학 논문을 쓰기 위해 고안된 Galactica라는 이름의 또 다른 Galactica는 계속해서 과학적인 헛소리를 생산한 지 불과 3일 만에 오프라인 상태가 되었습니다.
Meta는 LLaMA 4중주단과 함께 아마도 더 친절한 대접을 바라고 있을 것입니다.
"오늘 우리는 연구자들이 그들의 연구를 발전시키는 것을 돕기 위해 고안된 LLaMA라고 불리는 새로운 최첨단 AI 대형 언어 모델을 출시할 것입니다,"라고 CEO 마크 주커버그가 페이스북 게시물에서 말했습니다. "LLM은 텍스트를 생성하고, 대화를 나누고, 쓰여진 자료를 요약하고, 수학 정리를 풀거나 단백질 구조를 예측하는 것과 같은 더 복잡한 작업에서 많은 가능성을 보여주었습니다. Meta는 이 개방형 연구 모델에 전념하고 있으며, 우리는 AI 연구 커뮤니티에 우리의 새로운 모델을 제공할 것입니다
아래는 라마 모델의 평가 결과입니다. 이 결과를 보면 같은 모델 크기에서 라마가 경쟁력이 있고, 작은 모델도 잘 된다는 것을 볼 수 있습니다.
라마 13B가 GPT3보다 수치가 앞서고요. GPT3의 높은 성능을 생각해 보면 이런 수치가 모델의 성능을 완전히 드러내기에는 부족한 감이 있지만,
라마 모델이 학습이 잘 된 것은 이것으로 충분히 볼 수 있었습니다
'AI' 카테고리의 다른 글
AI 시대를 준비하는 각 국의 교육 사례 (0) | 2023.04.15 |
---|---|
AI와 미래의 어린이 교육 (0) | 2023.04.15 |
AI가 바꿔줄 미래에 대한 준비 [4탄] (0) | 2023.04.13 |
AI가 바꿔줄 미래에 대한 준비 [3탄] (0) | 2023.04.11 |
AI가 바꿔줄 미래에 대한 준비 [2탄] (0) | 2023.04.11 |