Textbooks Are All You Need 

 

초록

 

경쟁 모델보다 훨씬 작은 크기의 새로운 대규모 코드용 언어 모델인 phi-1을 소개합니다. phi-1은 웹에서 '교과서 수준의' 데이터(6B 토큰)와 GPT-3.5로 합성 생성된 교과서 및 연습 문제(1B 토큰)를 사용해 8개의 A100에서 4일간 학습된 13억 개의 파라미터를 가진 Transformer 기반 모델입니다. 이렇게 작은 규모에도 불구하고 phi-1은 HumanEval에서 50.6%, MBPP에서 55.5%의 합격률(pass@1 정확도)을 달성했습니다. 또한 코딩 연습 데이터 세트에 대한 미세 조정 단계 이전의 모델인 phi-1-base, 그리고 phi-1과 동일한 파이프라인으로 훈련된 3억 5천만 개의 파라미터를 가진 더 작은 모델인 phi-1-small과 비교했을 때 놀라운 신흥 속성을 보여주며 여전히 HumanEval에서 45%를 달성합니다.