출처:Empower Labs
최근 로봇의 발전은 어떤가요?
최근 지능형 로봇에 대한 연구가 활발해지면서 새로운 데모가 여기저기서 등장하고 있습니다.
12월 중순에 테슬라가 2세대 옵티머스를 공개했는데, 이 로봇은 산업 제품이 아닌 순수 프로토타입이지만 꽤 잘 만들어졌습니다. 우주비행사 모양의 이 옵티머스는 시연에서 세련된 운동 능력을 뽐냈습니다. 머스크는 옵티머스가 인간 크기와 모양으로 설계된 이유는 인간이 하기 싫은 일을 대신할 수 있도록 인간 인력을 원활하게 대체하기 위해서라고 말했습니다.
테슬라의 로봇은 모두 공상 과학 산업이며 제작 비용이 많이 들지만, 아마도 이런 이미지가 테슬라의 로봇을 더욱 매력적으로 보이게 하는 것일지도 모릅니다. 어쩌면 이러한 이미지 때문에 "모든 것이 당연한 것"이라는 기대감을 주는 것일 수도 있습니다. 사실, 테슬라는 응용 시나리오를 너무 많이 보여주지 않았기 때문에 사람들은 그저 "오"라고 생각하는 것 같습니다. 하지만 1월에 발표된 다음 두 로봇을 보고 많은 사람들이 진심 어린 "어?"를 연발했습니다.
첫 번째는 스탠퍼드 대학교 연구팀이 발표한 모바일 알로하입니다. 이 프로젝트가 많은 관심을 받은 이유는 아마도 요리, 고양이 놀리기, 빨래하기 등 로봇의 실용적인 시나리오를 제시했기 때문일 것입니다. 사실 이 프로젝트의 가장 큰 혁신은 저가의 하드웨어(가정용으로는 여전히 매우 비싼 3만 달러 이상)를 사용하여 인간의 기술을 학습하는 자율적이고 이동 가능한 양손 로봇(비록 인간처럼 보이지는 않지만)을 구현한다는 것입니다. 예를 들어, 요리를 할 때 한 번만 조작하면 일반적인 동작을 기억하는 등 학습 과정은 다소 중간 정도인 것으로 보입니다. 이 시점에서 한 번에 냄비를 잡을 수는 없을 것 같지만 놀라운 점은 팔에 달린 카메라를 통해 수십 번 더 자율적으로 훈련하면 정말 잘 잡을 수 있다는 것입니다.
그림은 이어서 휴머노이드 로봇 피규어 01이 커피를 만드는 영상을 공개했습니다. 이 로봇은 "커피 만들어줘"라는 사람의 음성 명령을 듣고 캡슐 커피 메이커를 이용해 능숙하게 커피 한 잔을 만들어내는데, 피규어가 이를 '휴머노이드 로봇의 ChatGPT 순간'이라고 표현한 이유는 다음과 같습니다. 이는 대규모 언어 모델을 사용하여 사람의 음성 명령을 이해했기 때문이 아니라 단순히 사람의 행동을 관찰하여 모방을 통해 커피를 만드는 기술을 학습했기 때문이며, 사람에게 주는 충격의 정도에 있어서는 ChatGPT와 비교할 수 없는 성과입니다.01은 커피 머신을 사용하는 사람을 시각적으로 관찰하여 작업 행동에 대한 이해를 쌓은 후 오류를 수정하는 여러 번의 자율 학습 세션을 통해 기술을 습득했습니다. 이는 AI 기반의 범용 휴머노이드 로봇에 대한 큰 가능성을 보여줍니다.
빌 게이츠의 모든 가정에 로봇
2007년 <사이언티픽 아메리칸> 창간호에 빌 게이츠의 기고문이 실렸는데, 아마 표지 헤드라인이었던 것 같습니다. 기사의 제목은 "모든 가정에 로봇이 있다"였습니다.
기사에서 빌 게이츠는 30년 전 마이크로소프트를 설립했을 때와 마찬가지로 로봇공학의 기회에 대해 흥분된 마음을 표현했습니다. Microsoft: 업계에 획기적인 기술이 등장했지만 전문가 수준의 상업용 기계는 여전히 소수의 대기업이 독점하고 있습니다. 스타트업과 괴짜들이 흥미로운 것들을 만들어내고 있었지만, 너무 파편화되어 있어 공통된 표준이나 개발 도구가 없었습니다. 그래서 빌 게이츠는 이 문제만 해결되면 로봇이 수백만 가정에 보급될 것이라고 대담하게 예측했습니다.
그래서 Microsoft는 당시 이를 추진하기 위해 과감하게 투자하여 로봇 사업부를 설립하고 Microsoft Robotics Studio를 출범시킴으로써 PC 시대에 달성한 성공을 재현할 준비를 마쳤습니다.
이 기사에서 빌 게이츠는 고전적인 DARPA 2004 크로스 컨트리 챌린지를 인용합니다. 인터넷을 발명하고 140마일이 넘는 모하비 사막을 완전 자율 주행 차량으로 횡단하는 것을 목표로 이 레이스를 후원한 바로 그 전설적인 DARPA입니다. 대회 첫해에는 최고의 참가자들이 겨우 7마일을 달리는 데 그쳤고, 두 번째 해에는 5대의 차량이 완주에 성공하여 말 그대로 끝까지 달리는 데 성공했습니다. 이 대회는 로봇공학의 발전 속도를 보여주는 좋은 예입니다. 또한 빌 게이츠에게는 자신감의 원천이기도 합니다.
당시 마이크로소프트의 노력은 개발 도구 수준이었습니다. 센서, 모터, 서보 메커니즘 등 하드웨어의 성능은 치솟고 가격은 내려가고 있었지만, 개발 단계에서는 이를 구동하기 위해 각 하드웨어에 맞는 프로그램을 직접 작성해야 했습니다. 또한 당시의 저사양 프로세서로 여러 센서의 데이터를 실시간으로 처리하는 것도 어려운 일이었습니다. Microsoft의 해결책은 드라이버에 대한 표준을 만들고 멀티스레딩 기능을 제공하는 것이었습니다. Microsoft는 .NET 마이크로 프레임워크까지 출시했습니다. .NET 기술을 아는 학생이라면 로봇 개발 도구에 이렇게 큰 킬러 기능을 넣는다는 것이 얼마나 대단한 일인지 상상할 수 있을 것입니다. 로봇 개발자는 메모리 및 스레드 스케줄링과 같은 골치 아픈 작업 없이 로직을 직접 작성하기만 하면 됩니다.
그러나 우리가 이미 알고 있는 사실, 로봇 공학에 대한 Microsoft의 노력은 효과가 없었고, 전체 로봇 사업부도 2014년 조직 개편을 통해 완전히 해체되었습니다. 제가 간헐적으로 관찰한 바로는 주된 이유는 비용과 애플리케이션 때문인 것 같습니다. 결국, 지금까지도 우리는 집에서 로봇 팔을 구입하려면 상당한 돈을 모아야 하고, 로봇 팔로 무엇을 할지도 모릅니다.
로봇을 위한 ChatGPT의 순간?
타임라인을 현재로 돌려보면, 모바일 알로하와 그림 01 모두 센서( 카메라든 원격으로 작동하는 관절이든)를 통해 동작을 학습하고 자율적인 훈련 피드백을 통해 실제로 마스터할 수 있음을 보여줍니다. 뿐만 아니라 이러한 일련의 동작을 하나의 스킬로 만들어 자연스러운 대화를 통해 호출할 수 있습니다. 이러한 스킬은 프로그래밍을 전혀 하지 않고도 유사한 로봇에 쉽게 복제할 수 있습니다.
로봇의 능력이 새로운 차원으로 발전하고 있는 것처럼 보입니다. 또한 많은 사람들이 "봇도 ChatGPT와 같은 파괴적 혁신의 순간에 도달한 것일까요?"라고 한목소리로 외치기도 했습니다.
빌 게이츠가 예측했던 10년 전과 비교했을 때 오늘날의 로봇은 몇 가지 새로운 진전을 이루었습니다.
1. 더 다재다능한 로봇. 빌 게이츠의 눈에 비친 로봇은 특정 작업을 수행할 수만 있다면 어떤 형태든 될 수 있습니다. 필자가 직접 로봇 그룹 혼합 회의 시간에 로봇의 시연을 보았는데, 로봇이 줄을 타고 기어가는 모습도 볼 수 있었습니다. 그러나 이제 로봇은 가정 장면의 기술을 가질 수 있으며 이러한 기술은 복사 및 확산 될 수 있습니다. 그리고 로봇의 디자인 자체는 인간형에 가까울 뿐만 아니라 다양한 범용 작업을 수행하기 위해 사람을 대체하는 경향이 있습니다.
2. 자연스러운 인터랙션 양식. 멀티모달 LLM 증강을 통해 로봇은 이제 사람의 음성 명령을 이해하고 카메라와 같은 입력을 통해 학습할 수 있으며, 이는 머신러닝 분야의 큰 발전이며 개발 및 사용의 어려움을 크게 줄여줍니다.
3. 비용이 더욱 절감됩니다. 모바일 알로하가 발표한 하드웨어 비용은 여전히 3만 달러 이상이지만, 이는 모바일 베이스가 포함된 가격입니다. 로봇 팔만 계산하면 하이엔드 기기로 보기는 어려울 것 같습니다. 모바일 독은 "전기 자동차라고 생각하지 말고 차세대 범용 모바일 독으로 생각하라"는 논리로 최근 테슬라에 투자한 것처럼 차세대 핫 아이템 중 하나가 될 수 있습니다.
김 팬은 엔비디아의 수석 과학자이자 OpenAI의 첫 번째 인턴 출신으로 이 분야의 가장 유명한 유명 인사 중 한 명입니다. 그는 얼마 전 트윗을 통해 로봇공학이 2024년에 가장 큰 핫스팟이 될 것이라고 생각하는 이유를 설명했습니다.
그러나 이 열광적인 트윗에서도 짐은 "범용 물리적 AI 로봇"은 아직 3년 정도 남았다고 주장합니다.
저는 이에 대해 조심스럽게 낙관적인데, 많은 진전을 보았기 때문에 낙관적이고, Microsoft가 해온 일 때문에 조심스럽습니다.
그러나 한 가지 확실한 것은 정말 매우 흥미진진하다는 것입니다.