출처: heart of the machine
빅 언어 모델은 여전히 상향 돌파가 가능하며, OpenAI는 이를 다시 한 번 입증했습니다.
오픈AI는 베이징 시간으로 9월 13일 자정, 어려운 문제를 구체적으로 해결하기 위해 설계된 새로운 AI 빅 모델 시리즈를 공식적으로 공개했습니다. 새로운 모델은 기존의 과학, 코드, 수학 모델보다 더 어려운 문제를 해결하는 범용 모델인 복잡한 추론이 가능한 획기적인 모델입니다.
이미지 src="https://img.jinse.cn/7295620_image3.png">
오픈AI는 오늘 새롭게 출시된 ChatGPT와 빅 모델 API가 이 시리즈의 첫 번째 모델이며, 현재 프리뷰 버전으로만 제공되고 있다고 밝혔습니다. -o1-preview. o1 외에도 현재 개발 중인 다음 업데이트에 대한 평가도 공개했습니다.
o1 모델은 단숨에 여러 가지 역대 기록을 세웠습니다.
우선, o1은 샘 알트먼부터 과학자들에게까지 OpenAI가 '과대 포장'해 온 대형 딸기 모델입니다. 이 모델은 진정한 범용 추론 능력을 갖추고 있습니다. 이 모델은 일련의 어려운 벤치마크에서 매우 강력한 것으로 나타났는데, GPT-4o보다 크게 향상되어 빅 모델의 상한선을 "판독 불가"에서 우수로 끌어올렸으며, 특별한 훈련 없이 수학 올림피아드 금메달에 직행하고, 심지어 박사급 과학 퀴즈에서 인간 전문가를 능가하는 성과를 거두기도 했습니다.
아웃만은 o1의 성능에는 여전히 결함이 있지만, 처음 사용했을 때 놀라게 될 것이라고 말했습니다.
이미지 src="https://img.jinse.cn/7295622_image3.png">
두 번째로, o1은 대형 모델 확장 대 성능 곡선에 상승세를 가져왔습니다. 과거 알파고의 집중 학습이 성공했을 때, 더 많은 컴퓨팅 파워를 부여할수록 더 많은 지능을 발휘하여 인간 수준을 뛰어넘었던 것을 빅 모델 공간에서 재현합니다.
즉, 방법론적으로 볼 때, o1 빅 모델은 언어 모델에 진정한 강화 학습을 적용할 수 있다는 것을 처음으로 증명한 것입니다.
이미지 src="https://img.jinse.cn/7295623_image3.png">
최초의 인공지능 소프트웨어 엔지니어인 데빈을 개발한 코그니션 AI는 지난 몇 주 동안 오픈AI와 긴밀히 협력하여 데빈을 사용한 o1의 추론 능력을 평가했다고 밝혔다. 그 결과, GPT-4o와 비교했을 때 다음과 같은 사실이 밝혀졌습니다. 그 결과, o1 모델 제품군은 코드를 처리하는 지능형 시스템에서 GPT-4o보다 크게 발전한 것으로 나타났습니다.
이미지 src="https://img.jinse.cn/7295624_image3.png">
마지막으로, 실제로 o1 온라인을 통해 ChatGPT는 질문에 대한 답을 바로 내뱉지 않고 충분히 생각한 후 대답할 수 있게 되었습니다. 인간 두뇌의 시스템 1과 시스템 2처럼 ChatGPT는 시스템 1(빠르고 자동적이며 직관적이고 오류가 발생하기 쉬운)만 사용하던 것에서 시스템 2(느리고 신중하며 의식적이고 신뢰할 수 있는)의 사고까지 사용할 수 있도록 진화했습니다. 이를 통해 이전에는 해결할 수 없었던 문제도 해결할 수 있게 되었습니다.
현재 ChatGPT의 사용자 경험을 살펴보면, 이는 작은 진전입니다. 간단한 프롬프트에서는 사용자가 큰 차이를 느끼지 못할 수도 있지만, 까다로운 수학이나 코드 질문을 하면 그 차이가 눈에 띄기 시작합니다. 더 중요한 것은 앞으로 나아갈 길이 보이기 시작했다는 점입니다.
요약하자면, 오늘 밤 OpenAI가 던진 폭탄은 이미 밤잠을 설치며 밤늦게까지 공부하고 있는 전체 AI 커뮤니티를 뒤흔들고 있습니다. 이제 OpenAI o1 빅 모델의 기술적 세부 사항을 살펴보겠습니다.
OpenAI o1의 작동 원리
기술 블로그 Learning to Reason with LLM에서 OpenAI는 o1 언어 모델 제품군에 대한 자세한 기술 소개를 제공합니다.
OpenAI o1은 복잡한 추론 작업을 수행하도록 강화 학습으로 훈련된 새로운 클래스의 언어 모델입니다. o1은 사용자에게 응답하기 전에 내부적으로 긴 사고의 사슬을 생성할 수 있는 것이 특징입니다. 즉, 모델도 사람처럼 응답하기 전에 문제에 대해 더 많은 시간을 생각해야 합니다. 훈련을 통해 사고 과정을 개선하고 다양한 전략을 시도하며 실수를 인식하는 방법을 배웁니다.
오픈AI의 테스트에서 후속 업데이트 시리즈의 모델은 물리학, 화학, 생물학의 까다로운 벤치마크 과제에서 박사 과정 학생과 비슷한 성능을 보였으며, 수학과 코딩에서도 뛰어난 성능을 보였습니다.
국제수학올림피아드(IMO) 예선 시험에서 GPT-4o는 문제의 13%만 정답을 맞힌 반면, o1 모델은 문제의 83%를 정답으로 맞혔습니다.
이 모델의 코딩 능력은 대회에서도 평가되었는데, 코드포스 대회에서 89번째 백분위수 안에 들었습니다.
OpenAI는 아직 초기 모델이기 때문에 웹에서 정보를 검색하고 파일과 이미지를 업로드하는 등 ChatGPT의 유용한 기능을 많이 갖추고 있지는 않다고 말합니다.
그러나 복잡한 추론 작업의 경우, 이는 중요한 진전이며 새로운 수준의 AI 기능을 나타냅니다. 이를 고려하여 OpenAI는 카운터를 1로 재설정하고 일련의 모델에 OpenAI o1이라는 이름을 붙였습니다.
요점은 OpenAI의 대규모 강화 학습 알고리즘이 고도로 데이터를 효율적으로 학습하는 동안 모델에 사고의 사슬을 사용하여 효율적으로 사고하는 방법을 가르친다는 것입니다. 즉, 강화 학습의 스케일링 법칙과 같은 것입니다.
OpenAI는 더 많은 강화 학습(훈련 중 계산)과 더 많은 사고 시간(테스트 중 계산)에 따라 o1의 성능이 계속 향상된다는 것을 발견했습니다. 그리고 이 접근 방식을 확장할 때의 한계는 대규모 모델을 사전 학습할 때의 한계와는 매우 다르며, OpenAI는 이에 대해서도 계속 연구하고 있습니다.
이미지 src="https://img.jinse.cn/7295625_image3.png">
평가
오픈AI는 GPT-4o 대비 추론 성능의 향상을 강조하기 위해 다양한 인간 테스트와 머신러닝 벤치마크 및 머신러닝 벤치마크를 통해 o1 모델을 테스트했습니다. 실험 결과, o1은 대부분의 추론 작업에서 GPT-4o보다 훨씬 뛰어난 성능을 보였습니다.
o1은 까다로운 추론 벤치마크에서 GPT-4o에 비해 상당한 개선 효과를 제공합니다.
o1이 GPT-4o보다 뛰어난 성능 제공 54/57개의 MMLU 하위 범주를 포함한 광범위한 벤치마크에서 GPT-4o보다 개선되었으며, 그 중 7개는 예시를 위해 표시되었습니다.
O1의 성능은 추론 집약적인 여러 벤치마크에서 인간 전문가와 비슷한 수준입니다. 최근의 프론티어 모델은 MATH와 GSM8K에서 매우 우수한 성능을 발휘하기 때문에 이러한 벤치마크는 더 이상 모델을 구별하는 데 유효하지 않습니다. 이에 따라 OpenAI는 미국에서 가장 똑똑한 고등학생을 테스트하기 위해 고안된 시험인 AIME에서 수학 성능을 평가했습니다.
공식 데모에서 o1-preview는 공주가 왕자보다 나이가 두 배이고 왕자는 현재 나이의 합이 절반일 때 공주가 왕자만큼 나이가 많다는 매우 어려운 추론 문제를 해결합니다. 왕자와 공주의 나이는 어떻게 될까요? 이 문제에 대한 모든 해결책을 제공하세요.
2024년 AIME 시험에서 GPT-4o는 평균 12%(1.8/15)만 문제를 푼 반면, o1은 각 문제에 대해 하나의 샘플만 있을 때 평균 74%(11.1/15), 64개의 샘플 중 합의에 도달했을 때 83%(12.5/15), 학습한 채점 기능을 사용했을 때 83%(12.5/15)의 정답률을 기록했습니다. 학습된 채점 함수를 사용하여 1000개의 샘플을 다시 정렬했을 때 93%(13.9/15). 13.9점은 미국 수학 올림피아드 컷오프보다 높은 상위 500위 안에 드는 점수로, 미국 수학 올림피아드 컷오프에 해당합니다.
OpenAI는 또한 화학, 물리학, 생물학 분야의 전문성을 테스트하는 고난도 지능 벤치마크인 GPQA 다이아몬드 벤치마크에서 o1을 평가했습니다. 인간과 모델을 비교하기 위해 OpenAI는 박사 학위를 가진 전문가를 고용해 GPQA 다이아몬드 벤치마크 질문에 답하도록 했습니다.
실험 결과, o1은 인간 전문가를 능가하는 성능을 보여 이 벤치마크에서 최초의 모델이 되었습니다.
이 결과는 o1이 모든 면에서 박사보다 더 뛰어나다는 것을 의미하는 것은 아니며, 단지 이 모델이 박사가 해결해야 하는 일부 문제를 더 잘 해결한다는 것을 의미합니다. 다른 여러 ML 벤치마크에서 o1은 새로운 SOTA를 달성했습니다.
시각적 지각을 활성화한 상태에서 o1은 MMMU 벤치마크에서 78.2%를 기록해 인간 전문가와 비교할 수 있는 최초의 모델이 되었습니다. o1은 또한 57개의 MMLU 하위 클래스 중 54개에서 GPT-4o보다 뛰어난 성능을 보였습니다.
사고의 체인(CoT: Chain of Thought)
어려운 질문에 답하기 전에 오랜 시간 생각하는 인간처럼, o1은 문제를 풀려고 할 때 생각의 연쇄를 사용합니다. 강화 학습을 통해 o1은 사고 연쇄를 연마하고 사용하는 전략을 개선하는 방법을 학습합니다. o1은 오류를 인식하고 수정하는 방법을 배우고 까다로운 단계를 더 간단한 단계로 나눌 수 있으며 현재 접근 방식이 작동하지 않을 때 다른 접근 방식을 시도하는 방법도 학습합니다. 이 과정을 통해 모델의 추론 능력이 크게 향상됩니다.
프로그래밍 능력
오픈AI는 o1을 초기화한 후 이를 기반으로 프로그래밍 기술을 추가로 훈련시켜 매우 강력한 프로그래밍 모델(o1-ioi)을 훈련시켰습니다. 이 모델은 2024년 국제 정보학 올림피아드(IOI) 문제에서 213점을 받아 상위 49%에 해당하는 점수를 기록했습니다. 이 모델은 2024 IOI의 인간 참가자와 동일한 조건, 즉 10시간 동안 6개의 어려운 알고리즘 문제를 풀고 문제당 50개만 제출해야 하는 조건에서 대회에 참가했습니다.
각 문제마다 특별히 훈련된 O1 모델이 여러 후보 답안을 샘플링한 후 시험 시간 선택 전략에 따라 50개의 답안을 제출합니다. 선택 기준에는 IOI 공개 테스트 사례, 모델 생성 테스트 사례, 학습된 채점 기능에 대한 성능이 포함됩니다.
연구 결과 이 전략이 효과적인 것으로 나타났습니다. 무작위로 직접 답을 제출할 경우 평균 점수가 156점에 불과해 이 전략이 경쟁 조건에서 최소 60점 이상의 가치가 있음을 시사하기 때문입니다.
OpenAI는 제출 제약 조건을 완화하면 모델 성능이 훨씬 더 향상된다는 사실을 발견했습니다. 문제당 10,000개의 제출이 허용되었다면, 테스트에 선택한 전략이 없더라도 이 모델은 금메달인 362.14점을 받았을 것입니다.
마지막으로 OpenAI는 모델의 코딩 능력을 입증하기 위해 Codeforces가 주최하는 경쟁 프로그래밍 대회를 시뮬레이션했습니다. 대회 규칙에 매우 근접한 평가가 사용되었으며 10개의 코드를 제출할 수 있었습니다. gPT-4o의 Elo 점수는 808점으로 인간 경쟁자 중 상위 11%에 속했습니다. 이 모델은 GPT-4o와 o1보다 훨씬 뛰어난 성능을 보였는데, Elo 점수가 1807점으로 경쟁자의 93%를 능가했습니다.
더 세밀하게 조정된 프로그래밍 대회를 더욱 세밀하게 조정한 결과, 2024년 국제정보올림피아드(IOI) 규칙에 따라 o1의 역량이 또 한 번 향상되고 상위 49%의 순위를 차지할 수 있게 되었습니다.
다음 공식 예제는 단 하나의 큐로 완전히 작동하는 게임을 작성할 수 있는 o1-preview의 프로그래밍 성능을 시각적으로 보여줍니다.
인간 선호도 평가
OpenAI는 시험과 학술적 벤치마크 외에도 o1-preview에 대한 인간의 선호도를 까다로운 개방형 문제에서 평가했습니다. 프롬프트에 대한 인간의 선호도를 평가했습니다.
이 평가에서 인간 트레이너는 익명으로 o1-preview 및 GPT-4o 프롬프트에 응답하고 선호하는 응답에 투표했습니다. 데이터 분석, 프로그래밍, 수학 등 추론이 많은 범주에서는 o1-preview가 GPT-4o보다 훨씬 더 인기가 높았습니다. 그러나 일부 자연어 작업에서는 o1-preview가 인기가 없어 모든 사용 사례에 적합하지 않음을 시사했습니다.
이미지 src="https://img.jinse.cn/7295631_image3.png">
보다 강력한 추론이 필요한 영역에서는 o1-preview가 선호됩니다. 도메인에서는 o1-preview가 선호됩니다.
보안
사고의 사슬(CoT) 추론은 보안과 정렬에 대한 새로운 사고 방식을 제공합니다.OpenAI는 모델 행동 정책을 추론 모델의 사고의 사슬에 통합하면 인간의 가치와 원칙을 효율적이고 강력하게 가르칠 수 있다는 사실을 발견했습니다. 원칙을 효율적이고 강력하게 가르칠 수 있다는 것을 발견했습니다. 모델에 자체 보안 규칙과 상황에 맞게 추론하는 방법을 가르침으로써 OpenAI는 추론 능력이 모델 견고성에 직접적인 도움이 된다는 증거를 발견했습니다. o1-preview는 중요한 탈옥 평가와 모델 보안 거부 경계를 평가하는 데 사용되는 가장 엄격한 내부 벤치마크에서 상당한 개선을 달성했습니다.
OpenAI는 사고 연쇄를 사용하면 1) 모델 사고를 명확하게 관찰할 수 있고 2) 보안 규칙에 대한 모델 추론이 배포 외 시나리오에서 더 강력해지기 때문에 보안과 정렬을 크게 개선할 수 있다고 주장합니다.
자체 개선 사항을 스트레스 테스트하기 위해 OpenAI는 배포 전에 자체 보안 준비 프레임워크에 기반한 일련의 보안 테스트와 레드팀 테스트를 실행했습니다. 그 결과 연쇄적 사고 추론이 평가 프로세스 전반에 걸쳐 기능을 개선하는 데 도움이 된다는 것이 밝혀졌습니다. 특히 OpenAI는 보상 해킹의 흥미로운 사례를 관찰했습니다.
보안 준비 프레임워크 링크: https://openai.com/safety/
숨겨진 생각의 사슬
OpenAI는 숨겨진 생각의 사슬이 모니터링 모델을 위한 특별한 기회를 제공한다고 믿습니다. 충실하고 명확하다고 가정하면, 숨겨진 사고 사슬을 통해 모델의 마음을 '읽고' 사고 과정을 이해할 수 있습니다. 예를 들어, 미래에는 사용자의 조작 징후가 있는지 사고 사슬을 모니터링하고 싶을 수 있습니다.
그러나 이를 위해서는 모델이 자신의 생각을 변경되지 않은 형태로 자유롭게 표현해야 하므로 사고 사슬에 정책 준수나 사용자 선호도를 학습시킬 수 없으며, OpenAI는 사용자가 일관되지 않은 사고 사슬을 직접 볼 수 없도록 하고자 하지 않습니다.
따라서 사용자 경험, 경쟁 우위, 사고 사슬 모니터링 옵션 등 여러 가지 요소를 고려한 끝에 OpenAI는 사용자에게 원본 사고 사슬을 보여주지 않기로 결정했으며, 이 결정에 단점이 있다는 것을 알고 있으므로 모델에 사고 사슬에서 유용한 아이디어를 답변에 재현하도록 학습시켜 이를 부분적으로 보완하기 위해 노력하고 있습니다. 한편, o1 모델 제품군의 경우 OpenAI는 모델이 생성한 사고 사슬의 요약을 보여줍니다.
오1은 AI 추론의 최첨단 수준을 크게 높였다고 해도 과언이 아닙니다. openAI는 반복적인 과정을 통해 이 모델의 개선된 버전을 출시할 계획이며, 이러한 새로운 추론 기능이 모델을 인간의 가치 및 원칙과 통합하는 능력을 향상시킬 것으로 기대합니다. openAI는 o1과 그 후속 모델이 과학, 프로그래밍, 수학 및 관련 분야에서 AI의 새로운 사용 사례를 열어줄 것으로 믿습니다.
OpenAI는 o1과 그 후계자들이 과학, 프로그래밍, 수학 및 관련 분야에서 AI를 위한 더 많은 새로운 사용 사례를 창출할 것이라고 믿습니다. OpenAI o1-mini
o1은 일련의 모델입니다. 이번에 OpenAI는 미니 버전인 OpenAI o1-mini도 함께 출시하며, 회사 블로그에서는 프리뷰와 미니 버전에 대해 "개발자에게 보다 효율적인 솔루션을 제공하기 위해 프로그래밍에 특히 좋은 더 빠르고 저렴한 추론 모델인 OpenAI o1-mini도 출시한다"고 정의하고 있습니다. 전체적으로 o1-mini는 o1-preview보다 80% 저렴합니다.
o1과 같은 대규모 언어 모델은 대규모 텍스트 데이터 세트에 대해 사전 학습되기 때문에 광범위한 세계 지식을 보유하고 있음에도 불구하고 실제 애플리케이션에서는 비용이 많이 들고 속도가 느릴 수 있습니다.
반면, o1-mini는 사전 학습 중 STEM 추론에 최적화된 더 작은 모델입니다. o1과 동일한 고성능 강화 학습(RL) 파이프라인을 사용하여 훈련한 후, o1-mini는 많은 유용한 추론 작업에서 비슷한 성능을 달성하면서도 훨씬 더 비용 효율적입니다.
예를 들어, 인텔리전스 및 추론이 필요한 벤치마크에서 o1-mini는 o1-preview 및 o1에 비해 우수한 성능을 보입니다. 그러나 STEM이 아닌 사실적 지식이 필요한 작업에서는 성능이 떨어집니다.
이미지 src="https://img.jinse.cn/7295633_image3.png">
수학 능력: 고등학교 AIME 수학 대회에서 o1-mini(70.0%)는 o1(74.4%)과 비슷한 수준이었지만 훨씬 저렴하고 o1-preview(44.6%)와 o1-mini보다 성능이 뛰어났습니다. 프리뷰(44.6%)보다 높았습니다. O1-mini 점수(약 11/15문제)는 미국 고등학생 중 상위 500명 정도에 속합니다.
코딩 능력: Codeforces 대회 웹사이트에서 o1-mini의 Elo 점수는 1650점으로 o1(1673점)과 비슷하고 o1-preview(1258점)보다 높습니다. 또한 o1-mini는 휴먼에벌 코딩 벤치마크와 고등학교 사이버 보안 깃발 뺏기(CTF) 챌린지에서도 좋은 성적을 거두었습니다.
STEM: o1-mini는 GPQA(과학) 및 MATH-500과 같이 추론이 필요한 여러 학업 벤치마크에서 GPT-4o보다 우수한 성능을 보였으며, o1-mini는 다음에서 GPT-4o보다 우수한 성능을 보였습니다. 반면 MMLU와 같은 작업은 광범위한 세계 지식의 부족으로 인해 GPT-4o만큼 성능이 좋지 않으며 GPQA 벤치마크에서 o1-preview보다 뒤처집니다.
인간 선호도 평가: OpenAI는 인간 평가자가 여러 도메인에 걸친 까다로운 개방형 프롬프트에서 o1-mini와 GPT-4o를 비교할 수 있도록 합니다. o1-preview와 마찬가지로 추론 집약적인 도메인에서는 o1-mini가 GPT-4o보다 선호되지만 언어 중심적인 도메인에서는 o1-mini가 GPT-4o보다 선호되지 않습니다.
이미지 src="https://img.jinse.cn/7295636_image3.png">
속도 수준에서 OpenAI는 한 단어 추론 문제에 대한 GPT-4o, o1-mini, o1-preview의 답변을 비교했습니다. 그 결과 GPT-4o는 오답을, o1-mini와 o1-preview는 정답을, 그리고 o1-mini는 약 3~5배 빠르게 답을 도출해냈습니다.
OpenAI o1은 어떻게 사용하나요?
ChatGPT Plus 및 팀(개인 및 팀) 사용자는 회사의 챗봇 제품인 ChatGPT에서 바로 o1 모델을 사용할 수 있습니다. 단, o1-preview 또는 o1-mini 중 하나를 수동으로 선택하여 사용할 수 있지만 사용자 접근이 제한됩니다.
현재 각 사용자는 o1-preview에 주당 30개, o1-mini에 주당 50개의 메시지만 보낼 수 있습니다.
예, 적은 양이죠! 하지만 OpenAI는 사용자가 사용할 수 있는 횟수를 늘리고, 주어진 프롬프트에 적합한 모델을 ChatGPT가 자동으로 선택하도록 하기 위해 노력하고 있다고 말합니다.
이미지 src="https://img.jinse.cn/7295638_image3.png">
기업 및 교육 사용자의 경우 다음 주에야 두 모델을 모두 사용할 수 있습니다.
오픈AI는 API 액세스와 관련하여 API 사용 레벨 5에 도달한 개발자는 해당 모델을 사용하여 즉시 앱 프로토타이핑을 시작할 수 있지만, 속도 제한이 20 RPM으로 제한된다고 말합니다. API 사용량 레벨 5란 무엇인가요? 간단히 말해, 1,000달러 이상을 지출하고 한 달 이상 유료 사용자였다는 것을 의미합니다. 아래 차트를 참조하세요:
OpenAI는 두 모델에 대한 API 호출에는 함수 호출, 스트리밍, 시스템 지원 메시지 등이 포함되지 않는다고 말합니다. OpenAI는 이러한 한계를 개선하기 위해 노력 중이라고 밝혔습니다.
미래
OpenAI는 앞으로 모델 업데이트 외에도 웹 브라우징, 파일 및 이미지 업로드 등의 기능을 추가하여 이러한 모델을 더욱 유용하게 만들 것이라고 말합니다.
"새로운 o1 모델 제품군 외에도 GPT 모델 제품군을 지속적으로 개발하여 출시할 계획입니다."
참조:
https://openai.com/index/introducing-openai-o1-preview/
https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
https://openai.com/index/learning-to-reason-with-llms/
https://x.com/sama/status/ 1834283100639297910