하버드-구글 협업, 차세대 AI 교육을 위한 백만 권의 책 출시
하버드 University는 Google과 협력하여 AI 학습을 발전시키기 위해 100만 권의 공개 도메인 도서 데이터 세트를 공개했습니다.
이 다양한 컬렉션은 여러 장르와 언어, 그리고 디킨스, 단테, 셰익스피어와 같은 상징적인 작가들의 작품을 아우르며, 그들의 작품이 대중적인 영역에 들어온 지 오래되었기 때문입니다.
이 이니셔티브는 일반적으로 AI 학습 데이터와 관련된 높은 비용을 해결하여 AI 개발의 혁신을 촉진하는 데 귀중한 자원이 될 것입니다.
거대 기술 기업들이 이니셔티브를 지원했습니다.
하버드 기관 데이터 이니셔티브(IDI)는 Google의 광범위한 도서 스캔 프로젝트에서 얻은 포괄적인 데이터 세트를 제공하기 위한 획기적인 노력을 주도하고 있습니다,Google 도서.
이 컬렉션은 체코어 수학 교과서부터 웨일스어 포켓 사전까지 다양한 텍스트를 아우르며 AI 학습을 위한 풍부한 지식을 제공합니다.
지난 3월에 처음 공개된 IDI는 'AI를 위한 신뢰할 수 있는 법률 데이터 통로'를 만들겠다는 계획을 발표했지만, 목요일에 정식으로 출범할 때까지 후속 조치는 거의 이루어지지 않았습니다.
거대 기술 기업인 Microsoft와OpenAI 이 이니셔티브는 대기업뿐만 아니라 대규모 언어 모델을 학습하고자 하는 연구소 및 AI 스타트업이 고품질의 공개적으로 액세스 가능한 데이터를 사용할 수 있도록 하기 위해 고안되었습니다.
IDI의 전무이사 그렉 레퍼트는 이 데이터 세트가 경쟁의 장을 평준화하여 막대한 교육 비용에 직면한 소규모 기업의 장벽을 낮추는 것을 목표로 한다고 강조했습니다.
또한 데이터 세트의 품질과 정확성을 보장하기 위해 엄격한 검토를 거치고 있다고 확신했습니다.
아직 더 필요한 리소스
레퍼트, 잠재력을 비교하며하버드 의 데이터 세트를 오픈소스 Linux 운영 체제의 데이터 세트와 비교하면서, 이 이니셔티브의 성공은 자원과 전문 지식, 그리고 이 이니셔티브가 도전하고자 하는 바로 그 기업의 '마법 같은 도움'의 조합에 달려 있다고 지적합니다.
이 데이터 세트에는 스캔한 백만 권의 책이 포함되어 있습니다.Google 의 도서 프로그램은 모든 책을 스캔하는 지금은 야심찬 프로젝트인 구글의 초창기 디지털 타임캡슐로 여겨지는데, 한때는 디스토피아적이라기보다는 기발해 보였던 목표입니다.
레퍼트는 데이터 세트의 잠재력을 낙관하며 스타트업과 대기업 모두에게 유용한 자원이 될 것으로 기대하지만, 퍼질라와 같은 비평가들은 이를 대기업이 제너레이티브 AI 경쟁에서 우위를 유지하기 위한 교묘한 수단으로 보고 있습니다.
2022년 11월 ChatGPT가 출시되면서 전 세계적으로 유사한 AI 모델을 개발하려는 움직임이 촉발되었고, 이러한 시스템을 개선하기 위한 데이터에 대한 수요가 증가했습니다.
그러나 이러한 데이터 기근으로 인해 월스트리트 저널과 뉴욕 타임즈와 같은 주요 언론사가 소송을 제기하는 등 법적 문제가 제기되었습니다.OpenAI 동의 없이 데이터를 사용했다는 이유로 퍼플렉서티를 고소했습니다.
AI 개발이 가속화됨에 따라 오픈 액세스와 지적 재산권 간의 균형은 여전히 중요하고 논쟁의 여지가 있는 문제입니다.