출처: 퀀텀
과학에 대한 AI의 기여를 떠올리면 지난해 노벨상을 수상한 구글 딥마인드의 단백질 접기 프로그램인 알파폴드를 떠올릴 수 있습니다.
오픈AI는 이제 단백질 공학 모델을 구축하는 등 과학 분야에도 진출하고 있다고 말합니다.
이 회사는 일반 세포를 줄기세포로 변형시킬 수 있는 단백질을 구상할 수 있는 언어 모델을 개발했으며, 이미 인간을 쉽게 이겼다고 말합니다.
이 연구는 생물학적 데이터에 초점을 맞춘 OpenAI의 첫 번째 모델이며, 이 회사가 자사 모델이 예상치 못한 과학적 결과를 제공할 수 있다고 공개적으로 주장한 것은 이번이 처음입니다. 따라서 AI가 실제 발견을 할 수 있는지 여부를 판단하기 위한 단계이며, 일각에서는 이를 '일반 인공지능'을 향한 주요 시험으로 보고 있습니다.
지난 주 OpenAI의 CEO인 샘 알트먼은 자신의 회사가 범용 AI를 구축하는 방법을 알고 있다고 "확신한다"며 "초지능 도구는 인간이 스스로 할 수 있는 것 이상으로 과학적 발견과 혁신을 극적으로 가속화할 수 있다"고 덧붙였습니다. 범위가 넓습니다."
단백질 공학 프로젝트는 1년 전 샌프란시스코에 본사를 둔 오랜 연구 회사인 Retro Biosciences가 OpenAI에 협업을 제안하면서 시작되었습니다.
협력은 우연이 아니었습니다. OpenAI의 CEO인 샘 알트먼은 Retro에 1억 8천만 달러(한화 약 1,318억 원)의 개인 자금을 제공한 것으로 알려졌습니다.
(출처: OpenAI)
Retro의 목표는 인간의 정상 수명을 10년 연장하는 것입니다. 이를 위해 이 회사는 소위 야마나카 인자 또는 유도만능줄기세포를 연구합니다. 이것은 인간의 피부 세포에 첨가하면 신체의 다른 조직을 생성할 수 있는 세포 유형인 젊어 보이는 줄기세포로 전환하는 단백질 그룹입니다.
레트로와 알토스 랩과 같은 많은 자금을 지원받는 회사의 연구원들은 이 현상을 동물 회춘, 인간 장기 생성 또는 대체 세포 제공의 가능한 출발점으로 보고 있습니다.
그러나 이러한 세포 '리프로그래밍'은 그다지 효율적이지 않습니다. 몇 주가 걸리며 실험실 접시에서 처리된 세포 중 재생에 이르는 세포는 1% 미만입니다.
OpenAI의 새로운 모델인 GPT-4b 마이크로는 단백질 인자의 기능을 향상시키기 위해 재설계하는 방법을 제안하도록 훈련되었습니다. OpenAI에 따르면, 연구진은 이 모델의 제안을 사용하여 적어도 일부 예비 측정에 따르면 야마나카 신야 인자 두 가지의 효율성을 50배 이상 높일 수 있었습니다.
"전반적으로 이 단백질들은 과학자들이 직접 생산한 것보다 더 나은 것으로 보입니다."라고 OpenAI의 연구원 존 홀먼은 말합니다.
홀먼은 OpenAI의 아론 잭, 레트로의 리코 메니와 함께 이 모델의 주요 개발자였습니다.
외부 과학자들은 결과가 발표될 때까지는 실제 결과인지 아닌지 알 수 없을 것이라고 회사 측은 말합니다. 또한 이 모델은 아직 정식 제품 출시가 아닌 맞춤형 데모로 남아 있어 더 널리 사용되지는 않았습니다.
"이 프로젝트는 우리가 과학에 기여하는 데 진지하게 임하고 있다는 것을 보여주기 위한 것입니다."라고 잭은 말합니다. "하지만 이러한 기능이 별도의 모델로 나올지, 아니면 우리의 주요 추론 모델에 통합될지는 아직 결정되지 않았습니다."
이 모델은 단백질의 모양을 예측하는 구글의 알파폴드와는 다르게 작동하며, 야마나카 신야 인자는 비정상적으로 부드럽고 구조화되지 않은 단백질이기 때문에 대규모 언어 모델에 적합한 다른 접근 방식이 필요했다고 OpenAI는 말했습니다.
모델은 여러 종의 단백질 서열 샘플과 어떤 단백질이 상호 작용하는 경향이 있는지에 대한 정보를 기반으로 학습되었습니다. 데이터는 크지만 OpenAI의 주력 챗봇을 위한 학습 데이터의 일부에 불과하므로 GPT-4b는 중앙화된 데이터 세트를 사용하는 '소규모 언어 모델'의 예라고 할 수 있습니다.
레트로 과학자들은 모델을 확보한 후 야마나카 신야 단백질을 재설계할 수 있는 방향으로 모델을 조정하려고 했습니다. 사용된 프롬프트 전략은 사용자가 챗봇에게 일련의 예시와 함께 답변을 제공함으로써 질문을 한 다음, 봇이 응답할 수 있는 예시를 제공하는 '작은 샘플 크기' 접근 방식과 유사합니다.
유전공학자들은 실험실에서 분자 진화를 유도할 수 있는 수단을 가지고 있지만, 일반적으로 제한된 수의 가능성만 테스트할 수 있습니다. 그리고 평균 길이의 단백질도 거의 무한대에 가까운 방식으로 변형될 수 있습니다(단백질은 수백 개의 아미노산으로 구성되어 있고 각각 20개의 변종이 가능하기 때문입니다).
그러나 OpenAI의 모델은 종종 단백질의 아미노산 중 3분의 1을 변경할 수 있는 제안을 제공합니다.
"우리는 즉시 이 모델을 실험실에 투입했고 실제 결과를 얻었습니다."라고 Retro의 최고 경영자인 조 베이츠 라크로아는 말합니다. 그는 이 모델이 매우 좋은 아이디어이며 상당수의 사례에서 기존 야마나카 신야 인자보다 개선되었다고 덧붙였습니다.
하버드 대학교의 노화 연구 전문가이자 Retro의 고문인 바딤 글래디셰프는 줄기세포를 만드는 더 나은 방법이 필요하다고 말했습니다. "우리에게 매우 유용할 것입니다. [피부 세포는 재프로그래밍하기 쉽지만 다른 세포는 그렇지 않습니다."라고 그는 말합니다. "그리고 새로운 종에서 재프로그래밍하는 것은 일반적으로 극적으로 달라서 아무것도 얻을 수 없습니다."
AI 모델이 일반적으로 그렇듯이 GPT-4b가 어떻게 추측에 도달했는지는 정확히 밝혀지지 않았습니다. 베이츠-라크루아는 "알파고가 바둑에서 최고의 인간 선수를 이겼지만 그 이유를 알아내는 데 오랜 시간이 걸린 것과 같습니다."라고 말합니다. "우리는 여전히 알파고가 무엇을 하는지 알아내려고 노력하고 있으며, 알파고를 적용하는 방식에 있어서도 표면만 긁어모았다고 생각합니다."
OpenAI 최고 경영자 샘 알트먼(사진 출처: TechCrunch, CC BY 2.0, 위키미디어 커먼즈 경유)
오픈AI는 이번 협업에 금전적 거래는 없었다고 밝혔습니다. 그러나 이 연구가 Retro(최대 투자자는 알트만)에 도움이 될 수 있기 때문에, 이 소식은 OpenAI CEO의 부업에 대해 더 많은 의문을 제기할 수 있습니다.
작년에 월스트리트 저널은 민간 기술 스타트업에 대한 알트만의 광범위한 투자가 "불투명한 투자 제국"에 해당하며, 일부 회사가 다음과 거래하고 있기 때문에 "잠재적인 갈등이 점점 더 많이 발생하고 있다"고 말했습니다. OpenAI.
레트로 입장에서는 알트만, OpenAI, 그리고 일반적인 AI 경쟁에 참여한다는 것만으로도 인지도를 높이고 직원 채용과 자본 조달 능력을 향상시킬 수 있습니다. 벳시 라크루아는 이 초기 단계의 회사가 현재 자금 조달 단계에 있는지에 대한 질문에는 답하지 않았습니다.
오픈AI는 알트먼이 이번 투자에 직접 관여하지 않았으며, 알트먼의 다른 투자에 따라 결정을 내린 적이 없다고 말했습니다.