Nguồn: AI Faner
Tám nhân viên của Google tình cờ gặp nhau và cùng viết bài báo mang tính đột phá "Converter". Đột phá công nghệ này đã thay đổi hoàn toàn lĩnh vực nhân tạo trí thông minh, đặc biệt là trong việc hiểu và tạo ra văn bản giống con người.
Vào mùa xuân năm 2017, một bài báo khoa học có tựa đề "Sự chú ý là tất cả những gì bạn cần" đã được xuất bản, tám tác giả có chữ ký đều là người của Google, mặc dù một thành viên đã từ chức vào thời điểm đó. Khi tác giả cấp cao Noam Shazeer nhìn thấy bản thảo đầu tiên, ông đã rất ngạc nhiên khi thấy tên của mình được liệt kê đầu tiên, điều này dường như có nghĩa là đóng góp của ông là quan trọng nhất. Về vấn đề này, ông nói: “Tôi chưa hề cân nhắc kỹ vấn đề này”.
Trong giới học thuật, việc sắp xếp tên các tác giả luôn là vấn đề cân bằng tế nhị - tên ai đặt trước, tên ai đặt trước? đặt nó cuối cùng. Đặc biệt là trong tình huống như thế này khi mọi người đều để lại dấu ấn riêng trong nỗ lực thực sự của cả nhóm. Trong lúc gấp rút hoàn thành bài báo, cuối cùng nhóm nghiên cứu đã quyết định phá vỡ quy ước và không xếp hạng những người đóng góp. Họ đã thêm dấu hoa thị và chú thích cuối trang bên cạnh mỗi tên: "Người đóng góp bình đẳng" và lưu ý rằng "thứ tự xếp hạng là ngẫu nhiên". Bài báo sau đó đã được trình bày tại một hội nghị trí tuệ nhân tạo uy tín, nơi nó đã khơi dậy một cuộc cách mạng.
Tên: NOAM SHAZEER / Nghề nghiệp: Đồng sáng lập Vai trò AI & CEO
Bây giờ, khi tờ báo Chú ý sắp kỷ niệm 7 năm thành lập, nó đã đạt được vị thế huyền thoại. Các tác giả của bài viết này bắt đầu từ một công nghệ trí tuệ nhân tạo đang bùng nổ - mạng lưới thần kinh - và đưa nó lên một tầm cao mới: họ đã tạo ra một hệ thống kỹ thuật số mạnh mẽ đến mức dường như nó sở hữu trí thông minh của người ngoài hành tinh. Kiến trúc này, được gọi là "máy biến áp", đã trở thành sức mạnh bí ẩn đằng sau tất cả các sản phẩm AI tuyệt vời, bao gồm ChatGPT và trình tạo đồ thị Dall-E và Midjourney.
Shazeer nói đùa rằng nếu anh ấy biết tờ báo sẽ trở nên nổi tiếng như thế nào, anh ấy "có lẽ đã lo lắng hơn về việc sắp xếp thứ tự danh sách tác giả." Ngày nay, cả tám tác giả đều đã trở thành những người nổi tiếng vi mô. Llion Jones (ngẫu nhiên xếp thứ năm) cho biết: "Có người nhờ tôi chụp ảnh tự sướng vì tôi từng tham gia một bài báo."
Tên: LLION JONES/Nghề nghiệp: Đồng sáng lập SAKANA AI
“Nếu không có bộ chuyển đổi, tôi không nghĩ chúng ta sẽ có được ngày hôm nay Nó sẽ ở đây”, nhà khoa học AI nổi tiếng thế giới Geoffrey Hinton cho biết, mặc dù ông không phải là tác giả của bài báo. Anh ấy đang đề cập đến thời đại đầy biến đổi mà chúng ta đang sống, nơi các công ty như OpenAI đang xây dựng các hệ thống mà ở một khía cạnh nào đó còn vượt qua cả sản lượng của con người.
Tất cả tám tác giả này sau đó đã rời Google. Giờ đây, họ cũng như hàng triệu người khác, đang sử dụng công nghệ mà họ tạo ra vào năm 2017 theo một cách nào đó. Tôi đã phỏng vấn tám tác giả của "Transformer" để cố gắng ghép lại bức tranh đầy đủ về bước đột phá này - một tập hợp sự khéo léo của con người đã tạo ra một cỗ máy cuối cùng có thể tự kết thúc.
Câu chuyện về Kẻ chuyển đổi bắt đầu với cái tên thứ tư trong danh sách: Jakob Uszkoreit. Cha của anh, Hans Uszkoreit, là một nhà ngôn ngữ học máy tính nổi tiếng. Hans bị cầm tù ở Đông Đức trong 15 tháng vào cuối những năm 1960 vì phản đối việc Liên Xô xâm lược Tiệp Khắc. Sau khi ra tù, anh trốn sang Tây Đức và học máy tính và ngôn ngữ học ở Berlin. Sau đó, ông đến Hoa Kỳ và làm việc tại Viện SRI ở Menlo Park, California, vào khoảng thời gian Jakob được sinh ra. Cuối cùng, gia đình trở về Đức, nơi Jakob theo học đại học.
Tên: JAKOB USZKOREIT / Nghề nghiệp: Đồng sáng lập và CEO của CEO INCEPTIVE
Mặc dù ban đầu anh ấy không có ý định tập trung vào ngôn ngữ nhưng khi bắt đầu học cao học, anh ấy đã thực tập tại văn phòng Mountain View của Google và gia nhập nhóm dịch thuật của công ty. Anh từ bỏ kế hoạch học tiến sĩ và quyết định vào năm 2012 tham gia nhóm tại Google làm việc trên một hệ thống có thể trả lời câu hỏi của người dùng trực tiếp trên trang tìm kiếm mà không chuyển hướng người dùng đến các trang web khác. Vào thời điểm đó, Apple vừa phát hành Siri, một trợ lý ảo hứa hẹn sẽ cung cấp câu trả lời một lần trong các cuộc trò chuyện thông thường và các giám đốc điều hành của Google cho rằng Siri có thể đe dọa lưu lượng tìm kiếm của họ. Họ bắt đầu chú ý hơn đến đội bóng mới của Uszkoreit.
"Đây là một sự hoảng loạn giả tạo," Uszkoreit nói. Siri không thực sự đe dọa Google. Nhưng anh ấy hoan nghênh cơ hội nghiên cứu sâu hơn về các hệ thống nơi máy tính nói chuyện với con người. Vào thời điểm đó, các mạng thần kinh tái phát—từng là lĩnh vực ngoài rìa của giới học thuật—đột nhiên bắt đầu vượt xa các phương pháp kỹ thuật AI khác. Các mạng này bao gồm nhiều lớp, qua đó thông tin được truyền đi nhiều lần để xác định phản hồi tốt nhất.
Mạng nơ-ron đã đạt được thành công lớn trong các lĩnh vực như nhận dạng hình ảnh và phong trào phục hưng AI bất ngờ xuất hiện. Google đang điên cuồng điều chỉnh lực lượng lao động của mình để áp dụng những công nghệ này. Các công ty muốn xây dựng các hệ thống tạo ra phản hồi giống con người—như tự động hoàn thành các câu trong email hoặc tạo các chatbot dịch vụ khách hàng tương đối đơn giản.
Tuy nhiên, lĩnh vực này còn gặp nhiều hạn chế. Mạng thần kinh tái diễn gặp khó khăn khi xử lý các khối văn bản dài. Ví dụ, để hiểu “hai cú đánh” trong câu “Joe là một cầu thủ bóng chày, sau bữa sáng ngon lành, anh ấy đi đến công viên và nhận được hai cú đánh”, mẫu ngôn ngữ cần nhớ thông tin về bóng chày. Về mặt con người, nó phải tập trung.
Giải pháp vào thời điểm đó là một công nghệ được gọi là "bộ nhớ ngắn hạn dài" (LSTM), cho phép các mô hình ngôn ngữ xử lý các chuỗi văn bản lớn hơn và phức tạp hơn. Nhưng máy tính vẫn xử lý các chuỗi này một cách tuần tự nghiêm ngặt - từng từ một - và bỏ qua các manh mối ngữ cảnh có thể xuất hiện sau này trong văn bản. Uszkoreit cho biết: “Cách tiếp cận mà chúng tôi đang áp dụng về cơ bản là một biện pháp tạm thời”. "Chúng tôi thực sự không thể có được những thứ phù hợp để hoạt động trên quy mô lớn."
Khoảng năm 2014, anh bắt đầu nghĩ ra một cách tiếp cận khác mà anh gọi là sự tập trung vào bản thân. Mạng này có thể dịch một từ bằng cách tham khảo bất kỳ phần nào khác của văn bản. Những phần khác này có thể giúp làm rõ ý nghĩa của từ và giúp hệ thống tạo ra bản dịch tốt. Ông nói: “Nó thực sự tính đến mọi thứ và cung cấp cho bạn một cách hiệu quả để xem xét nhiều đầu vào cùng một lúc và sau đó đưa ra thứ gì đó theo một cách khá chọn lọc”. Mặc dù các nhà khoa học AI cẩn thận không nhầm lẫn giữa ẩn dụ mạng lưới thần kinh với cách bộ não sinh học thực sự hoạt động, Uszkoreit dường như tin rằng việc tự tập trung có một số điểm tương đồng với cách con người xử lý ngôn ngữ.
Uszkoreit tin rằng các mô hình tự chú ý có thể nhanh hơn và hiệu quả hơn các mạng thần kinh tái phát. Cách nó xử lý thông tin cũng rất phù hợp với các chip xử lý song song được sản xuất hàng loạt nhằm hỗ trợ sự bùng nổ của máy học. Thay vì áp dụng cách tiếp cận tuyến tính (xem từng từ một cách tuần tự), nó áp dụng cách tiếp cận song song hơn (xem nhiều từ cùng một lúc). Uszkoreit nghi ngờ rằng nếu thực hiện đúng, bạn có thể chỉ sử dụng tính năng tự tập trung để đạt được kết quả tốt hơn.
Không phải ai cũng nghĩ ý tưởng này sẽ thay đổi thế giới, kể cả cha của Uszkoreit, người đã giành được hai Giải thưởng Nghiên cứu của Khoa Google trong khi con trai ông làm việc cho công ty. Jakob Uszkoreit cho biết: “Mọi người hoài nghi về điều này vì nó loại bỏ tất cả các kiến trúc thần kinh hiện có”. Nói lời tạm biệt với mạng lưới thần kinh tái phát? Đây là dị giáo! "Bố tôi và tôi đã có những cuộc trò chuyện tại bàn ăn tối, nơi mà chúng tôi thực sự không nhìn thấy nhau." Uszkoreit đã thuyết phục một số đồng nghiệp thử nghiệm việc tập trung vào bản thân. Công việc của họ cho thấy nhiều hứa hẹn và họ đã xuất bản một bài báo về nó vào năm 2016. Uszkoreit muốn đẩy mạnh nghiên cứu của họ hơn nữa—các thí nghiệm của nhóm chỉ sử dụng những phần rất nhỏ của văn bản—nhưng không có cộng tác viên nào của ông quan tâm. Thay vào đó, giống như những người đánh bạc, họ rời sòng bạc với những chiến thắng khiêm tốn, áp dụng những bài học đã học được vào nhiều lĩnh vực khác nhau của Google, bao gồm cả tìm kiếm và cuối cùng là quảng cáo. Về nhiều mặt, đó là một thành công đáng kinh ngạc, nhưng Uszkoreit không muốn dừng lại ở đó.
Uszkoreit tin rằng việc tập trung vào bản thân có thể đảm nhận những nhiệm vụ lớn hơn. Anh ấy sẽ trình bày tầm nhìn của mình cho bất kỳ ai chịu lắng nghe, và thậm chí cả một số người không lắng nghe, phác thảo nó trên một tấm bảng trắng trong tòa nhà ở số 1945 Đường Charleston ở rìa phía bắc khuôn viên của Google.
Một ngày năm 2016, Uszkoreit đang ăn trưa với một nhà khoa học tên Illia Polosukhin tại Google Cafe. Polosukhin, sinh ra ở Ukraine, đã làm việc tại Google được gần ba năm. Anh ấy được phân công vào một nhóm trả lời các câu hỏi do miền tìm kiếm trực tiếp đặt ra. Mọi chuyện thực sự không diễn ra tốt đẹp. Polosukhin nói: “Để trả lời điều gì đó trên Google.com, bạn cần thứ gì đó rất rẻ và hiệu quả”. "Bởi vì ngươi chỉ có mili giây để phản hồi." Khi Polosukhin bày tỏ lời phàn nàn, Uszkoreit đã không ngần ngại nghĩ ra giải pháp. "Anh ấy đề nghị, tại sao không sử dụng khả năng tự tập trung?" Polosukhin nói.
Tên: ILLIA POLOSUKHIN/Nghề nghiệp: Đồng sáng lập NEAR< /strong>
Polosukhin đôi khi cộng tác với đồng nghiệp Ashish Vaswani. Sinh ra ở Ấn Độ và lớn lên ở Trung Đông, Vaswani đến Đại học Nam California để lấy bằng Tiến sĩ từ một nhóm ưu tú về dịch máy. Sau đó, anh chuyển đến Mountain View để gia nhập Google—cụ thể là một tổ chức mới có tên Google Brain. Ông mô tả bộ não là "một nhóm cấp tiến" và tin rằng "mạng lưới thần kinh sẽ nâng cao hiểu biết của con người". Nhưng anh ấy vẫn đang tìm kiếm một dự án lớn để thực hiện. Nhóm của ông làm việc cạnh Tòa nhà 1945, còn được gọi là Tòa nhà 1965, và ông đã nghe nói về ý tưởng tập trung vào bản thân. Đó có phải là một dự án không? Anh ấy đồng ý tiếp tục.
Ba nhà nghiên cứu đã làm việc cùng nhau để soạn thảo một tài liệu thiết kế có tiêu đề "Transformers: Lặp lại việc tự tập trung và xử lý nhiều nhiệm vụ khác nhau". Họ đã chọn cái tên "Transformer" từ "ngày đầu tiên", Uszkoreit nói. Ý tưởng là cơ chế này sẽ biến đổi thông tin mà nó nhận được, cho phép hệ thống trích xuất càng nhiều hiểu biết càng tốt - hoặc ít nhất là tạo ấn tượng về nó. Ngoài ra, Uszkoreit còn có những kỷ niệm đẹp khi chơi với đồ chơi nhân vật hành động Hasbro khi còn nhỏ. “Tôi có hai món đồ chơi Transformers nhỏ khi còn nhỏ,” anh nói. Tài liệu kết thúc bằng hình ảnh hoạt hình về sáu chiếc Transformers bắn tia laze vào nhau trên địa hình đồi núi.
Tên: ASHISH VASWANI/Nghề nghiệp: Đồng sáng lập ESENTIAL AI Còn CEO
Câu mở đầu bài viết cũng có phần ngạo mạn: "Chúng tôi vĩ đại".
Đầu năm 2017, Polosukhin rời Google để khởi nghiệp công ty riêng. Đến lúc đó, những cộng tác viên mới đã tham gia. Một kỹ sư Ấn Độ tên là Niki Parmar làm việc ở Ấn Độ cho một công ty phần mềm Mỹ và sau đó chuyển đến Hoa Kỳ. Cô nhận bằng thạc sĩ tại USC vào năm 2015 và được tất cả các công ty công nghệ lớn tuyển dụng. Cô ấy đã chọn Google. Khi bắt đầu làm việc, cô gia nhập Uszkoreit và nỗ lực cải thiện các biến thể mô hình cho Google Tìm kiếm.
Một thành viên mới khác là Llion Jones. Sinh ra và lớn lên ở xứ Wales, anh yêu thích máy tính “vì nó không bình thường”. Tại Đại học Birmingham, anh tham gia một khóa học về AI và bắt đầu tò mò về mạng lưới thần kinh như một di tích lịch sử. Anh lấy bằng thạc sĩ vào tháng 7 năm 2009 và sống bằng tiền trợ cấp trong vài tháng vì không thể tìm được việc làm trong thời kỳ suy thoái. Anh tìm được việc làm tại một công ty địa phương và sau đó nộp đơn vào Google như một “hành động tuyệt vọng”. Anh ấy nhận được công việc và làm việc tại Google Research, nơi người quản lý của anh ấy là Polosukhin.
Một ngày nọ, Jones nghe nói về khái niệm tập trung vào bản thân từ một đồng nghiệp tên Mat Kelcey, người sau này gia nhập nhóm chuyển đổi. (Sau đó, Jones gặp Kelcey và giới thiệu sơ lược cho anh ấy về dự án chuyển đổi. Kelcey không mua nó. "Tôi nói với anh ấy, 'Tôi không chắc nó sẽ hiệu quả', về cơ bản đó là dự đoán sai lầm lớn nhất trong cuộc đời tôi," Kelcey nói ngay bây giờ.)
Tên: NIKI PARMAR / Nghề nghiệp: ESSENTIAL Co -người sáng lập AI
Công việc của Transformer đã thu hút các nhà nghiên cứu khác của Google Brain, những người cũng đang cố gắng cải thiện các mô hình ngôn ngữ lớn. Làn sóng thứ ba này bao gồm nhà khoa học máy tính lý thuyết gốc Ba Lan Łukasz Kaiser và thực tập sinh Aidan Gomez của ông. Gomez lớn lên ở một ngôi làng nông nghiệp nhỏ ở Ontario, Canada, nơi gia đình anh khai thác cây phong vào mỗi mùa xuân để lấy xi-rô cây phong.
Khi còn là sinh viên Đại học Toronto, anh đã yêu thích AI ngay từ cái nhìn đầu tiên và gia nhập nhóm học máy-phòng thí nghiệm của Geoffrey Hinton. Anh ấy bắt đầu liên hệ với những người đã viết những bài báo thú vị tại Google để tìm ý tưởng mở rộng công việc của họ. Kaiser đã cắn câu và mời anh ta vào thực tập. Phải đến nhiều tháng sau, Gomez mới biết những đợt thực tập này là dành cho nghiên cứu sinh tiến sĩ chứ không phải sinh viên đại học như anh.
Kaiser và Gomez sớm nhận ra rằng việc tập trung vào bản thân có vẻ là một giải pháp đầy hứa hẹn, triệt để hơn cho vấn đề mà họ đang giải quyết. Gomez nói: “Chúng tôi đã thảo luận một cách có ý thức về việc liệu chúng tôi có muốn hợp nhất hai dự án hay không”. Câu trả lời là có.
Nhóm Transformer bắt đầu xây dựng một mô hình tự tập trung để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác. Họ đo hiệu suất của nó bằng cách sử dụng một tiêu chuẩn gọi là BLEU, so sánh kết quả đầu ra của máy với công việc của người dịch. Ngay từ đầu, mô hình mới của họ đã làm rất tốt. Uszkoreit cho biết: “Chúng tôi đã đi từ chỗ không có bằng chứng về khái niệm đến việc có thứ gì đó ít nhất có thể so sánh được với các lựa chọn thay thế tốt nhất cho LSTM vào thời điểm đó”. Nhưng so với trí nhớ dài hạn thì "nó không tốt hơn".
Họ đạt đến trạng thái ổn định — cho đến một ngày năm 2017, Noam Shazeer tình cờ nghe được về dự án của họ. Shazeer là một nhân viên kỳ cựu của Google -- anh ấy gia nhập công ty vào năm 2000 -- và là một huyền thoại nội bộ, bắt đầu với công việc của anh ấy trên các hệ thống quảng cáo ban đầu của công ty. Shazeer đã nghiên cứu về deep learning được 5 năm và gần đây bắt đầu quan tâm đến các mô hình ngôn ngữ lớn. Nhưng những mô hình đó đã không thể tạo ra những cuộc trò chuyện trôi chảy mà ông nghĩ là có thể thực hiện được.
Như Shazeer nhớ lại, anh ấy đang đi ngang qua không gian làm việc của Kaiser ở hành lang Tòa nhà 1965. Anh thấy mình đang nghe một cuộc thảo luận sôi nổi. "Tôi nhớ Ashish đã nói về ý tưởng sử dụng khả năng tự tập trung và Niki thực sự hào hứng với điều đó. Tôi nghĩ, ồ, đó có vẻ là một ý tưởng tuyệt vời. Đây có vẻ như là một nhóm vui vẻ, thông minh đang thực hiện một số điều đầy hứa hẹn." " Shazeer nhận thấy các mạng nơ-ron tái diễn hiện tại thật "khó chịu" và nghĩ: "Hãy thay thế chúng!"
Việc bổ sung Shazeer vào nhóm là chìa khóa. Uszkoreit cho biết: “Các cơ chế lý thuyết hoặc trực quan này, chẳng hạn như tự tập trung, luôn đòi hỏi phải thực hiện rất cẩn thận, thường là bởi một số ít ‘pháp sư’ có kinh nghiệm để thể hiện bất kỳ dấu hiệu nào của sự sống”. Shazeer ngay lập tức bắt đầu thực hiện phép thuật của mình. Anh ấy quyết định viết phiên bản mã của riêng mình cho nhóm Transformer. “Tôi lấy ý tưởng cơ bản và tự mình thực hiện nó,” anh nói.
Thỉnh thoảng anh ấy hỏi Kaiser một câu hỏi, nhưng chủ yếu, anh ấy nói, anh ấy "chỉ làm việc đó một lúc rồi quay lại và nói, 'Nhìn này, nó đã thành công.'" Sử dụng "Magic" ” , “giả kim thuật” và “chuông và còi” để mô tả điều gì đó mà anh ấy đã đưa hệ thống lên một tầm cao mới.
"Điều đó đã gây ra một cơn sốt," Gomez nói. Họ có động lực và họ cũng muốn đáp ứng thời hạn sắp tới là ngày 19 tháng 5 để xuất bản các bài báo tại sự kiện AI lớn nhất trong năm, hội nghị Hệ thống xử lý thông tin thần kinh vào tháng 12. Ngày nộp bài. Khi mùa đông chuyển sang mùa xuân ở Thung lũng Silicon, tốc độ thử nghiệm tăng nhanh. Họ đã thử nghiệm hai mẫu máy biến áp: một mẫu được sản xuất với 12 giờ huấn luyện và một phiên bản mạnh hơn, có tên là Big, được huấn luyện trong ba ngày rưỡi. Họ bắt đầu dịch từ tiếng Anh sang tiếng Đức.
Mô hình cơ sở vượt trội hơn tất cả các đối thủ cạnh tranh - và Big đã đạt được điểm BLEU, đánh bại kỷ lục trước đó một cách dứt khoát đồng thời hiệu quả hơn về mặt tính toán. “Chúng tôi đã làm được điều đó, nhanh hơn bất kỳ ai,” Parmar nói. “Và đó mới chỉ là sự khởi đầu, vì các con số vẫn tiếp tục cải thiện.” Khi Uszkoreit biết tin, anh ấy đã ăn mừng bằng cách lấy ra một chai sâm panh cũ mà anh ấy vẫn giữ trong chiếc xe tải mạo hiểm leo núi của mình.
Trong hai tuần cuối cùng trước thời hạn, nhóm đã làm việc với tốc độ điên cuồng. Mặc dù một số thành viên trong nhóm chính thức vẫn có bàn làm việc ở Tòa nhà 1945, nhưng họ chủ yếu làm việc ở Tòa nhà 1965 vì có máy pha cà phê espresso tốt hơn trong căn bếp siêu nhỏ. “Mọi người hầu như không ngủ,” Gomez, một thực tập sinh, bận rộn sửa lỗi đồng thời tạo ra các hình ảnh và sơ đồ của bài báo, nhớ lại. Trong những dự án như vậy, các thí nghiệm cắt bỏ thường được thực hiện—loại bỏ một số bộ phận nhất định để xác minh rằng các bộ phận còn lại đủ để hoàn thành nhiệm vụ.
"Chúng tôi đã thử mọi cách kết hợp có thể giữa các thủ thuật và mô-đun—cái gì hiệu quả và cái gì không. Chúng tôi liên tục thử và thay thế," Gomez nói. "Tại sao mô hình lại hoạt động theo cách phản trực giác này? Ồ, bởi vì chúng ta đã quên thực hiện việc che chắn một cách chính xác. Bây giờ nó hoạt động được chứ? Được rồi, vậy hãy chuyển sang mô hình tiếp theo. Tất cả các thành phần này mà bây giờ chúng ta gọi là máy biến áp. Tất cả đều là sản phẩm của mức cao này." -tốc độ, quá trình thử và sai lặp đi lặp lại." Với sự trợ giúp của việc triển khai mã của Shazeer, các thí nghiệm cắt bỏ đã tạo ra "những kết quả hơi đáng kinh ngạc", Jones nhận xét. "Noam là một phù thủy."
Vaswani nhớ mình đã dành cả đêm trên ghế văn phòng trong khi nhóm đang làm việc trên một tờ báo. Anh nhìn chằm chằm vào tấm rèm ngăn cách chiếc ghế dài với phần còn lại của căn phòng, bị thu hút bởi những hoa văn trên đó trông giống như các khớp thần kinh và tế bào thần kinh. Gomez đã ở đó và Vaswani nói với anh ấy rằng công việc họ đang làm sẽ vượt ra ngoài phạm vi dịch máy. Ông nói: “Cuối cùng, giống như bộ não con người, bạn cần phải thống nhất tất cả các phương thức này – lời nói, âm thanh, hình ảnh – dưới một kiến trúc duy nhất”. “Tôi có linh cảm mạnh mẽ rằng chúng tôi đang khám phá điều gì đó tổng quát hơn.” Tuy nhiên, ở cấp cao nhất của Google, công việc này được xem chỉ là một dự án AI thú vị khác. Các tác giả được hỏi liệu người giám sát của họ có thường xuyên gọi họ đến để cập nhật tiến độ dự án hay không và câu trả lời rất khiêm tốn. Nhưng “chúng tôi biết đây có thể là một vấn đề khá lớn”, Uszkoreit nói. "Điều đó khiến chúng tôi thực sự bị ám ảnh bởi một câu ở cuối bài báo."
Câu đó báo trước điều gì có thể xảy ra tiếp theo—việc áp dụng mô hình máy biến áp về cơ bản cho mọi hình thức biểu đạt của con người. Họ viết: “Chúng tôi rất vui mừng về tương lai của các mô hình dựa trên sự chú ý”. "Chúng tôi dự định mở rộng máy biến áp để giải quyết các vấn đề liên quan đến phương thức đầu vào và đầu ra ngoài văn bản" và nghiên cứu "hình ảnh, âm thanh và video".
Một buổi tối vài ngày trước thời hạn, Uszkoreit nhận ra rằng họ cần một tiêu đề. Jones chỉ ra rằng nhóm đã từ chối một công nghệ cơ bản: sự chú ý. The Beatles từng đặt tiêu đề cho một bài hát là "All You Need Is Love". Tại sao không đặt tên cho bài báo là "Sự chú ý là tất cả những gì bạn cần"?
"Tôi là người Anh," Jones nói. "Thật sự chỉ mất năm giây suy nghĩ, không ngờ họ lại sử dụng được."
Họ tiếp tục thu thập kết quả thí nghiệm cho đến thời hạn. Parmar nói: "Năm phút trước khi chúng tôi nộp báo, các con số tiếng Anh và tiếng Pháp xuất hiện. Tôi đang ngồi trong căn bếp siêu nhỏ ở Tòa nhà 1965 và nhận được con số cuối cùng". Họ chỉ còn hai phút và vội vã gửi đi. nó.
Google, giống như hầu hết các công ty công nghệ khác, đã nhanh chóng nộp đơn xin cấp bằng sáng chế tạm thời cho sản phẩm này. Lý do không phải là ngăn cản người khác sử dụng các ý tưởng mà là để xây dựng danh mục bằng sáng chế của họ nhằm mục đích phòng thủ. (Triết lý của công ty là "Nếu công nghệ tiến bộ, Google sẽ thu được lợi ích.")
Khi nhóm Transformer nghe phản hồi từ những người đánh giá ngang hàng của hội nghị, phản ứng đã có nhiều chiều hướng khác nhau. Parmar nói: “Một người là tích cực, một người cực kỳ tích cực và một người là ‘Điều này ổn thôi’”. Các bài viết đã được chấp nhận trình bày trong buổi áp phích buổi tối.
Đến tháng 12, tờ báo bắt đầu gây xôn xao dư luận. Cuộc họp kéo dài bốn giờ của họ vào ngày 6 tháng 12 có rất nhiều nhà khoa học muốn tìm hiểu thêm. Các tác giả nói về nó cho đến khi giọng họ khàn đi. 22h30, khi cuộc họp kết thúc vẫn còn một nhóm người. Uszkoreit nói: “An ninh phải bảo chúng tôi rời đi. Có lẽ khoảnh khắc hài lòng nhất đối với ông là khi nhà khoa học máy tính Sepp Hochreiter đến khen ngợi công trình này - một lời khen khá đáng khen vì Hochreiter là người đồng phát minh ra bộ nhớ dài hạn mà bộ chuyển đổi vừa giới thiệu. được lựa chọn trong hộp công cụ AI.
Những người thay đổi không ngay lập tức chiếm lĩnh thế giới hay thậm chí là Google. Kaiser kể lại rằng vào khoảng thời gian bài báo được xuất bản, Shazeer đã đề xuất với các giám đốc điều hành của Google rằng công ty nên từ bỏ toàn bộ chỉ mục tìm kiếm của mình và đào tạo một mạng lưới khổng lồ với các máy biến áp—về cơ bản, sử dụng các máy biến áp để thay đổi cách Google tổ chức thông tin. Vào thời điểm đó, ngay cả Kaiser cũng cho rằng ý tưởng này thật nực cười. Giờ đây, sự hiểu biết thông thường cho rằng đó chỉ là vấn đề thời gian.
Một công ty khởi nghiệp có tên OpenAI đã nắm bắt cơ hội nhanh hơn. Ngay sau khi bài báo được xuất bản, nhà nghiên cứu chính của OpenAI là Ilya Sutskever – người biết nhóm Transformer từ những ngày còn ở Google – đã đề xuất rằng nhà khoa học Alex Radford của nhóm nên xem xét ý tưởng này. Kết quả là những sản phẩm GPT đầu tiên đã ra đời. Như Giám đốc điều hành OpenAI, Sam Altman đã nói với tôi vào năm ngoái: “Khi giấy biến thế xuất hiện, tôi không nghĩ có ai ở Google nhận ra tầm quan trọng của nó”. Uszkoreit nói: “Chúng tôi thấy rõ rằng bộ chuyển đổi có thể làm được những điều thực sự đáng kinh ngạc”. "Bây giờ, bạn có thể hỏi, tại sao Google không ra mắt ChatGPT vào năm 2018? Trên thực tế, chúng tôi có thể có GPT-3 hoặc thậm chí 3,5 vào năm 2019, có thể là năm 2020. Câu hỏi thực sự là không, họ có thấy nó không? Câu hỏi là, Tại sao chúng tôi không làm bất cứ điều gì với những thực tế mà chúng tôi đã thấy? Câu trả lời rất phức tạp."
Nhiều nhà phê bình công nghệ chỉ ra sự chuyển đổi của Google từ một sân chơi tập trung vào đổi mới sang cơ chế quan liêu tập trung vào lợi nhuận . Như Gomez đã nói với Financial Times, "Họ đã không hiện đại hóa. Họ không áp dụng công nghệ." Nhưng đối với một công ty khổng lồ có công nghệ dẫn đầu ngành trong nhiều thập kỷ và tạo ra lợi nhuận khổng lồ, điều này cần rất nhiều can đảm. Google đã bắt đầu tích hợp máy biến áp vào các sản phẩm vào năm 2018, bắt đầu với các công cụ dịch thuật của mình. Cùng năm đó, nó đã giới thiệu một mô hình ngôn ngữ dựa trên máy biến áp mới, BERT, được áp dụng để tìm kiếm vào năm sau.
Tên: AIDAN GOMEZ/Nghề nghiệp: Đồng sáng lập và CEO của Giám đốc điều hành COHERE
Nhưng những thay đổi hậu trường này có vẻ rụt rè so với những bước nhảy vọt của OpenAI và sự tích hợp táo bạo của Microsoft các hệ thống dựa trên máy biến áp vào dòng sản phẩm của mình. Khi tôi hỏi Giám đốc điều hành Sundar Pichai vào năm ngoái tại sao công ty của ông không phải là công ty đầu tiên tung ra mô hình ngôn ngữ lớn như ChatGPT, ông đã lập luận rằng trong trường hợp này, Google thấy việc để người khác dẫn đầu là có lợi. Ông nói: “Tôi không chắc lắm liệu nó có thành công như hiện tại hay không. Thực tế là, một khi mọi người thấy nó hoạt động như thế nào, chúng tôi có thể làm được nhiều hơn thế”.
Không thể phủ nhận rằng cả tám tác giả của bài báo đều đã rời Google. Công ty Near của Polosukhin đã xây dựng một blockchain có token có vốn hóa thị trường khoảng 4 tỷ USD. Parmar và Vaswani trở thành đối tác kinh doanh vào năm 2021, đồng sáng lập Adept (trị giá 1 tỷ USD) và hiện đang điều hành công ty thứ hai có tên Essential AI (đầu tư 8 triệu USD).
Sakana AI của Llion Jones có trụ sở tại Tokyo được định giá 200 triệu USD. Sau khi Shazeer rời đi vào tháng 10 năm 2021, ông đồng sáng lập Character AI (trị giá 5 tỷ USD). Thực tập sinh Aidan Gomez đồng sáng lập Cohere có trụ sở tại Toronto (trị giá 2,2 tỷ USD) vào năm 2019. Công ty công nghệ sinh học Inceptive của Jakob Uszkoreit được định giá 300 triệu USD. Tất cả các công ty này (trừ Near) đều dựa trên công nghệ chuyển đổi.
Tên: LUKASZ KAISER / Nghề nghiệp: Nhà nghiên cứu tại OPENAI
Kaiser là người duy nhất chưa thành lập công ty. Anh ấy gia nhập OpenAI và trở thành người phát minh ra công nghệ mới có tên Q*, công nghệ mà Altman nói năm ngoái sẽ "đẩy bỏ bức màn ngu dốt và thúc đẩy biên giới khám phá về phía trước." (Khi tôi cố gắng giải thích điều này trong Khi Kaiser được hỏi về trong một cuộc phỏng vấn, nhà báo của OpenAI suýt nhảy qua bàn để ngăn anh ta lại.)
Google có nhớ những kẻ đào ngũ này không? Tất nhiên, ngoại trừ những người khác đang chuyển từ công ty sang các công ty khởi nghiệp AI mới. (Pichai nhắc nhở tôi, khi tôi hỏi anh ấy về sự ra đi của Transformer, OpenAI, con cưng của ngành đó, cũng đã chứng kiến sự đào tẩu: “Không gian AI rất, rất năng động,” anh ấy nói.) Nhưng điều Google có thể tự hào là nó đã tạo ra một nền tảng hỗ trợ Một môi trường để theo đuổi những ý tưởng độc đáo. Parmar cho biết: “Theo nhiều cách, Google đã đi trước xu hướng - họ đã đầu tư vào những bộ óc phù hợp và tạo ra một môi trường nơi chúng tôi có thể khám phá và vượt qua các giới hạn”. "Không có gì ngạc nhiên khi phải mất thời gian để được chấp nhận. Google bị đe dọa nhiều hơn."
Nếu không có môi trường đó: sẽ không có công cụ chuyển đổi. Các tác giả không chỉ là nhân viên của Google, họ còn làm việc trong cùng một văn phòng. Những cuộc gặp gỡ tình cờ ở hành lang và những cuộc trò chuyện nhỏ trong bữa trưa đã dẫn đến những khoảnh khắc quan trọng. Đội ngũ cũng rất đa dạng về văn hóa. Sáu trong số tám tác giả sinh ra bên ngoài Hoa Kỳ; những người còn lại là con của hai người Đức có thẻ xanh tạm thời ở California và một người Mỹ có gia đình chạy trốn sự đàn áp suốt một thế hệ.
Uszkoreit phát biểu từ văn phòng của ông ở Berlin rằng đổi mới tất cả là ở những điều kiện phù hợp. “Đó là việc tập hợp những người thực sự hào hứng với điều gì đó vào đúng thời điểm trong cuộc sống của họ,” anh nói. "Nếu bạn có được điều này và bạn cảm thấy vui vẻ khi làm việc đó cũng như đang giải quyết đúng vấn đề - và bạn thật may mắn - điều kỳ diệu sẽ xảy ra."
Ngoài ra còn có mối quan hệ giữa Uszkoreit và người nổi tiếng của anh ấy cha Điều gì đó kỳ diệu đã xảy ra. Sau tất cả những cuộc tranh luận trên bàn ăn tối, Hans Uszkoreit, con trai ông cho biết, hiện đã đồng sáng lập một công ty đang xây dựng các mô hình ngôn ngữ lớn. Tất nhiên, một bộ chuyển đổi được sử dụng.