Năm 2012, Elpida, một nhà sản xuất DRAM hàng đầu thế giới, chính thức tuyên bố phá sản. Là một công ty từng là chuẩn mực trong ngành công nghiệp bán dẫn của Nhật Bản, Elpida đã tích hợp các công nghệ cốt lõi của ba gã khổng lồ—NEC, Hitachi và Mitsubishi—nhưng ngay cả với sự can thiệp của chính phủ, công ty vẫn không thể đảo ngược sự suy thoái của mình. Gánh nặng khoản nợ khổng lồ 430 tỷ yên, công ty đã nộp đơn xin bảo hộ phá sản và cuối cùng được Micron Technology mua lại với giá 200 tỷ yên. Sau khi tích hợp và sáp nhập, công ty đã hoàn toàn rút khỏi ngành. Nhìn lại sự phát triển của ngành, Intel, Texas Instruments và Motorola đều tham gia thị trường DRAM, nhưng sau đó đều rút lui. Toàn bộ ngành công nghiệp bộ nhớ bán dẫn của Nhật Bản đã trải qua giai đoạn từ đỉnh cao đến sụp đổ chỉ trong chưa đầy hai mươi năm. Sau đó, các công ty Hàn Quốc nổi lên. Samsung và SK Hynix, dựa vào trợ cấp của chính phủ và các cuộc chiến giá cả khốc liệt, đã càn quét thị trường toàn cầu, loại bỏ không gian tồn tại của tất cả các đối thủ cạnh tranh. Micron Technology nổi lên như người sống sót cuối cùng và vẫn là công ty duy nhất tại Hoa Kỳ có khả năng sản xuất quy mô lớn các chip nhớ tiên tiến. Công ty này, có trụ sở chính tại Boise, Idaho, từ lâu vẫn nằm trong bóng tối của Nvidia và TSMC, không tham gia vào thiết kế GPU hay sản xuất chip logic. Tuy nhiên, với sự bùng nổ nhu cầu về sức mạnh tính toán AI, một nút thắt vật lý tồn tại hàng thập kỷ ngày càng trở nên rõ ràng: thời gian các đơn vị tính toán chờ truyền dữ liệu giờ đây đã vượt quá thời gian dành cho chính quá trình tính toán. Vấn đề nan giải này của ngành không thể giải quyết bằng cách tối ưu hóa phần mềm mà chỉ có thể được giải quyết thông qua những đột phá về công nghệ phần cứng—chính xác là lĩnh vực cốt lõi mà Micron đã phát triển trong bốn mươi năm qua. Những hạn chế cốt lõi của tính toán AI: Bức tường bộ nhớ trở thành vấn đề phổ biến trong ngành. Theo kiến trúc von Neumann, GPU, TPU và bộ nhớ chính hoạt động độc lập về mặt vật lý. Các đơn vị tính toán có SRAM dung lượng nhỏ tích hợp sẵn làm bộ nhớ đệm trên chip, trong khi trọng số mô hình lớn và dữ liệu đầu vào chủ yếu được lưu trữ trong DRAM ngoài chip. Dữ liệu cần được truyền giữa các vùng thông qua một lớp trung gian dưới dạng tín hiệu điện. Lấy ví dụ một mô hình ngôn ngữ lớn với 70 tỷ tham số, ở độ chính xác FP16, chỉ riêng trọng số của mô hình đã cần khoảng 140GB bộ nhớ vật lý. Hiện nay, các card tính toán AI cao cấp phổ biến có dung lượng bộ nhớ từ 80GB đến 192GB, có nghĩa là các mô hình lớn chỉ có thể được chia nhỏ trên nhiều card để hoạt động cộng tác. Trong thập kỷ qua, sức mạnh tính toán của chip đã đạt được bước nhảy vọt theo cấp số nhân, nhưng băng thông bộ nhớ, bị hạn chế bởi số lượng chân vật lý, tần số tín hiệu và giới hạn tản nhiệt, lại tụt hậu xa so với sự phát triển của sức mạnh tính toán. Khi hiệu năng tính toán vượt quá dung lượng cung cấp bộ nhớ, các đơn vị tính toán sẽ trở nên nhàn rỗi và chờ đợi, dẫn đến sự sụt giảm đáng kể trong việc sử dụng phần cứng. AI được chia thành hai kịch bản cốt lõi: huấn luyện và suy luận, với logic cơ bản khác nhau đáng kể. Giai đoạn huấn luyện tập trung vào xử lý song song quy mô lớn, với cùng một dữ liệu được truy cập lặp đi lặp lại trong bộ nhớ cache của lõi tính toán, dẫn đến cường độ tính toán cao. Nút thắt cổ chai cốt lõi tập trung vào tốc độ tính toán hơn là bộ nhớ, khiến nó trở thành một kịch bản tính toán chuyên sâu điển hình, nơi lợi thế về sức mạnh tính toán của NVIDIA được tận dụng tối đa. Giai đoạn suy luận có logic hoàn toàn khác. Các mô hình ngôn ngữ lớn dựa vào cơ chế tự hồi quy để tạo ra văn bản từng token một. Để tránh việc tính toán lại điểm chú ý lịch sử, hệ thống cần xây dựng cơ chế bộ nhớ đệm KV trong bộ nhớ video. Lấy ví dụ với độ dài ngữ cảnh là 4096, một yêu cầu của người dùng chiếm khoảng 1,34GB bộ nhớ video; sau khi trừ đi dung lượng do trọng số mô hình chiếm dụng, chỉ còn lại 20GB cho bộ nhớ đệm KV sau khi trừ đi dung lượng do hai chip A100 chiếm dụng, chỉ có thể hỗ trợ tối đa 14 yêu cầu đồng thời. Cường độ tính toán của giai đoạn suy luận cực kỳ thấp, và hiệu suất hoàn toàn bị giới hạn bởi băng thông bộ nhớ, khiến nó trở thành một tác vụ tốn nhiều bộ nhớ. Tốc độ truyền vật lý của HBM trực tiếp quyết định giới hạn trên của thông lượng nghiệp vụ. Từ góc độ tiêu thụ năng lượng, việc đọc mỗi bit dữ liệu từ HBM ngoài chip tiêu thụ khoảng 10-20 pJ/bit, trong khi một phép toán dấu phẩy động FP16 chỉ tiêu thụ 0,1 pJ. Mức tiêu thụ năng lượng của việc truyền dữ liệu gấp 100 đến 200 lần so với tính toán. Trong các kịch bản suy luận quy mô lớn, nếu chế độ truy cập bộ nhớ không được tối ưu hóa, một lượng lớn năng lượng trong trung tâm dữ liệu sẽ bị tiêu thụ trong quá trình truyền dữ liệu trên bus thay vì các hoạt động logic thực tế. Điều này đã trở thành động lực cốt lõi thúc đẩy Micron tiếp tục nghiên cứu sâu công nghệ HBM. Nguyên tắc cơ bản về công nghệ của Micron và định vị chuỗi cung ứng AI: Micron là một nhà sản xuất thiết bị tích hợp (IDM) điển hình, tự phát triển và tự sản xuất toàn bộ chuỗi từ thiết kế chip, sản xuất wafer, đóng gói và kiểm thử. Các nhà máy sản xuất wafer của Micron tập trung vào lĩnh vực chip nhớ, không phải CPU hay GPU, mà tập trung vào nghiên cứu và phát triển cũng như sản xuất các sản phẩm bộ nhớ và bộ nhớ flash. Về cơ cấu doanh thu, DRAM đóng góp hơn 70% doanh thu, bộ nhớ flash NAND chiếm 20-30%, và bộ nhớ flash NOR chiếm tỷ lệ tương đối nhỏ. DRAM là thành phần cốt lõi của các module bộ nhớ đa năng, NAND là phương tiện quan trọng cho ổ cứng thể rắn, và bộ nhớ flash NOR chủ yếu được sử dụng trong thiết bị điện tử ô tô và thiết bị công nghiệp, đảm nhiệm chức năng thực thi nhanh mã khởi động. Thị trường ngách này sở hữu giá trị không thể thay thế. Về cơ cấu kinh doanh, Micron chia hoạt động kinh doanh thành bốn phân khúc chính: mạng điện toán cho trung tâm dữ liệu và máy chủ, kinh doanh thiết bị đầu cuối di động cho điện thoại thông minh, kinh doanh ổ cứng thể rắn (SSD) cho lưu trữ cấp doanh nghiệp và kinh doanh hệ thống nhúng cho ngành ô tô và công nghiệp. Trong chuỗi cung ứng AI, NVIDIA chịu trách nhiệm thiết kế GPU, TSMC xử lý việc sản xuất wafer, và mặc dù Micron không tham gia vào hai giai đoạn này, nhưng lại là nhà cung cấp linh kiện cốt lõi không thể thiếu cho các card tăng tốc AI. Chip logic GPU đơn thuần không thể hỗ trợ hoạt động của các mô hình lớn; điểm nghẽn hiệu năng trong các kịch bản suy luận nằm ở băng thông bộ nhớ. Do đó, GPU của NVIDIA cần được tích hợp chặt chẽ với bộ nhớ băng thông cao HBM. Micron, cùng với SK Hynix và Samsung, là những nhà cung cấp HBM cốt lõi. Sản phẩm của họ được tích hợp với GPU thành các mô-đun điện toán AI hoàn chỉnh bằng cách sử dụng công nghệ đóng gói tiên tiến CoWoS của TSMC. GPU tương đương với bộ não của sức mạnh điện toán AI, trong khi HBM là kênh truyền dữ liệu tốc độ cao; cả hai đều không thể thiếu. Về mặt logic cạnh tranh, Nvidia xây dựng lợi thế cạnh tranh dựa trên kiến trúc và hệ sinh thái, trong khi Micron liên tục cải tiến công nghệ xử lý và công nghệ đóng gói xếp chồng để thiết lập các rào cản trong ngành. Mỗi thế hệ nâng cấp băng thông của HBM đều dựa trên công nghệ TSV (Through Silicon Via) chính xác hơn và các lớp xếp chồng cao hơn, dẫn đến rào cản gia nhập kỹ thuật cực kỳ cao. DRAM: Cơ sở hạ tầng đằng sau sức mạnh tính toán AI Trong kiến trúc máy tính truyền thống, DRAM, với vai trò là bộ nhớ chính, giải quyết hoàn hảo sự khác biệt về tốc độ giữa ổ cứng dung lượng lớn, tốc độ thấp và CPU tốc độ cao với bộ nhớ đệm nhỏ. Trong quá trình thực thi chương trình, hệ thống tải dữ liệu từ ổ cứng vào DRAM, và CPU hoàn thành các thao tác đọc và ghi dữ liệu với độ trễ ở mức nano giây và băng thông cực cao. Nhân hệ thống và các tiến trình nền nằm trong DRAM theo thời gian thực. DRAM có đặc điểm là mất dữ liệu khi tắt nguồn, và các tụ điện bên trong có dòng rò rỉ tự nhiên, yêu cầu làm mới liên tục để duy trì lưu trữ dữ liệu. Một đơn vị cơ bản bao gồm một transistor ghép nối với một tụ điện. Bước vào kỷ nguyên AI, hình thức ứng dụng và logic nhu cầu của DRAM đã được tái cấu trúc hoàn toàn. Cốt lõi tính toán đã chuyển từ CPU sang GPU, và DRAM không còn bị giới hạn ở dạng mô-đun bộ nhớ DDR trên bo mạch chủ nữa. Thay vào đó, nó có dạng bộ nhớ băng thông cao HBM, được xếp chồng theo chiều dọc bằng công nghệ TSV (Through Silicon Vias), và được đóng gói cùng với GPU trong một lớp trung gian silicon. Hiện nay, giá trị cốt lõi của DRAM tập trung vào hai khía cạnh: thứ nhất, tải trọng số mô hình lớn; một mô hình 70 tỷ tham số ở định dạng FP16 yêu cầu 140GB dung lượng lưu trữ, và tất cả phải được tải vào HBM trước khi suy luận; thứ hai, sử dụng bộ nhớ đệm KV động; các mô hình lớn tạo ra văn bản yêu cầu lưu trữ ngữ cảnh lịch sử, và độ dài ngữ cảnh càng lớn thì mức sử dụng bộ nhớ càng cao, hạn chế khả năng xử lý đồng thời của một máy chủ cao cấp duy nhất. Các kịch bản huấn luyện tiêu tốn nhiều bộ nhớ GPU hơn đáng kể. Bên cạnh các tham số mô hình, cần phải lưu trữ nhiều lớp kết quả tính toán trung gian, và trình tối ưu hóa bổ sung thêm mức sử dụng dữ liệu, dẫn đến yêu cầu bộ nhớ gấp ba đến bốn lần so với các kịch bản suy luận. Do hạn chế về bộ nhớ, tốc độ tăng trưởng sức mạnh tính toán của GPU vượt xa tốc độ lặp lại băng thông bộ nhớ. Trong quá trình suy luận, GPU thường xuyên ở trạng thái nhàn rỗi. Việc nâng cấp băng thông HBM trực tiếp quyết định giới hạn trên của thông lượng máy chủ suy luận AI, đây là logic cơ bản đằng sau việc Micron tăng cường đầu tư vào nghiên cứu và phát triển HBM. Thị trường DRAM toàn cầu bị chi phối bởi ba tập đoàn độc quyền: Samsung, SK Hynix và Micron, cùng nhau nắm giữ khoảng 95% thị phần. Mỗi công ty đều có những thế mạnh cốt lõi riêng. Về công nghệ sản xuất tiên tiến, Micron dẫn đầu ngành, liên tục đạt được sản xuất hàng loạt DRAM mật độ cao thế hệ tiếp theo từ các nút 1-alpha, 1-beta đến 1-gamma. Điều này dẫn đến sản lượng chip trên một tấm wafer cao hơn, chi phí sản xuất trên mỗi bit thấp hơn và lợi thế biên lợi nhuận gộp đáng kể. Các quy trình của Samsung dưới 14nm đã gặp phải các nút thắt về năng suất, làm chậm tốc độ cải tiến của hãng. Tiến bộ công nghệ sản xuất của SK Hynix nằm ở cùng cấp độ với Micron. Thị trường HBM (Hybrid Machine Model) lại cho thấy một sự tương phản rõ rệt. SK Hynix nắm giữ vững chắc vị trí dẫn đầu ngành, chiếm hơn 50% thị phần. Samsung là nhà cung cấp độc quyền cho các GPU cao cấp của NVIDIA, tận dụng công nghệ đóng gói MR-MUF để đạt được lợi thế tuyệt đối trong việc tản nhiệt và kiểm soát năng suất nhờ xếp chồng nhiều lớp. Micron, với tư cách là nhà cung cấp đến sau, đã bỏ qua HBM3 và chuyển thẳng sang HBM3E, tận dụng lợi thế về hiệu quả năng lượng để gia nhập chuỗi cung ứng của NVIDIA. Hãng sử dụng quy trình đóng gói TC-NCF, khó sản xuất hơn, dẫn đến năng lực sản xuất và thị phần thấp hơn so với SK Hynix. Samsung đã thất bại trong các bài kiểm tra của NVIDIA ở giai đoạn HBM3 và HBM3E do các vấn đề về nhiệt và tiêu thụ điện năng, bỏ lỡ cơ hội phát triển bộ nhớ AI. Hiện tại, hãng đang đặt cược vào HBM4 để cố gắng vượt qua các đối thủ cạnh tranh. Hiệu quả năng lượng đã trở thành yếu tố khác biệt của Micron. Ở cùng băng thông, mức tiêu thụ điện năng của HBM của Micron thấp hơn 20% đến 30% so với các đối thủ. Mặc dù sự khác biệt trên mỗi card có vẻ nhỏ, nhưng việc triển khai quy mô lớn trong các trung tâm dữ liệu với hàng chục nghìn card có thể giảm đáng kể chi phí điện và làm mát. Trong khi đó, quy trình 1-gamma LPDDR5X của hãng đạt tốc độ 9,6Gbps với mức tiêu thụ điện năng giảm 30%, đáp ứng hoàn hảo yêu cầu về thời lượng pin của các mô hình AI cục bộ trên thiết bị di động. Về năng lực sản xuất, Samsung duy trì vị trí dẫn đầu nhờ quy mô tuyệt đối, cho phép hãng kiểm soát thị trường thông qua cuộc chiến giá cả. Micron, với năng lực sản xuất thấp nhất, tránh cạnh tranh giá cả đồng nhất, tập trung vào chiến lược công nghệ cao cấp và đảm bảo vị thế thị trường thông qua công nghệ xử lý hàng đầu và hiệu quả năng lượng. Bên cạnh DRAM và HBM, bộ nhớ flash NAND và NOR tạo nên đường cong tăng trưởng thứ hai của Micron. Trong thị trường bộ nhớ flash NAND, Micron duy trì vị trí thứ tư đến thứ năm trên toàn cầu, với thị phần từ 10% đến 15%. Trong lĩnh vực bộ nhớ flash NOR, Micron đã từ bỏ thị trường tiêu dùng cấp thấp, tập trung vào các ứng dụng cao cấp dành cho ô tô và công nghiệp. Hãng dẫn đầu tiêu chuẩn giao diện tốc độ cao Octal xSPI, và các sản phẩm của hãng đã đạt chứng nhận an toàn ASIL-D cao nhất. Dựa vào các nhà máy sản xuất wafer riêng, công ty đảm bảo nguồn cung dài hạn trong hơn mười năm, giữ chân các khách hàng cốt lõi trong ngành ô tô và công nghiệp, tránh được cuộc chiến giá cả khốc liệt và thu được lợi nhuận cao trong ngành nhờ độ tin cậy và hiệu suất. Logic định giá của Micron và so sánh với các công ty cùng ngành: Giá cổ phiếu hiện tại của Micron vào khoảng 600 đô la, với tỷ lệ P/E là 21,44 và vốn hóa thị trường khoảng 650 tỷ đô la. Phạm vi giá mục tiêu 12 tháng của các ngân hàng đầu tư Phố Wall là từ 400 đến 675 đô la, với mức trung bình gần 500 đô la, cho thấy sự định giá thấp tổng thể. Trong lịch sử, chip nhớ là một ngành công nghiệp có tính chu kỳ cao. Sự bùng nổ của ngành công nghiệp thúc đẩy việc mở rộng năng lực sản xuất, dẫn đến tình trạng dư thừa công suất và giá cả giảm mạnh, trong khi thị trường thường chỉ định tỷ lệ P/E từ 8 đến 10. Định giá của Micron đã tăng vọt gần đây, chủ yếu là do việc tái cấu trúc cơ cấu doanh thu của HBM: bộ nhớ DDR truyền thống rất dễ bị ảnh hưởng bởi sự biến động cung cầu của thị trường, trong khi HBM sử dụng mô hình sản xuất dựa trên hợp đồng, đã ký kết các thỏa thuận cung cấp dài hạn, không thể hủy bỏ với các khách hàng hàng đầu như Nvidia trước khi bắt đầu sản xuất. Đến năm 2026, toàn bộ công suất của HBM đã được bán hết, chuyển doanh thu từ sự biến động theo chu kỳ sang thu nhập ổn định, dựa trên hợp đồng. Thị trường đã định nghĩa lại Micron là nhà cung cấp cơ sở hạ tầng AI, dẫn đến sự gia tăng tương ứng trong bội số định giá của công ty. Hơn nữa, cùng với sự hỗ trợ về chính sách và tài chính, với tư cách là nhà sản xuất bộ nhớ tiên tiến duy nhất tại Mỹ, Micron được hưởng lợi từ Đạo luật Chip và xu hướng nội địa hóa chuỗi cung ứng, thu hút đầu tư liên tục từ các tổ chức và tạo ra một khoản phí bảo hiểm thanh khoản. So với các đối thủ cạnh tranh, SK Hynix có tỷ lệ P/E chỉ là 12,17. Mặc dù nắm giữ hơn một nửa thị phần HBM và liên kết với chuỗi cung ứng cao cấp của Nvidia, tỷ lệ cổ tức và mua lại cổ phiếu của công ty lại thấp do cấu trúc quản trị của các tập đoàn đa ngành Hàn Quốc. Hơn nữa, với gần 40% công suất sản xuất DRAM thông thường đặt tại dây chuyền sản xuất ở Vô Tích, Trung Quốc, công ty bị hạn chế bởi lệnh cấm xuất khẩu thiết bị ra nước ngoài, ngăn cản việc cải tiến quy trình và đối mặt với rủi ro tiềm tàng về việc di dời công suất và giảm giá trị tài sản, do đó định giá của công ty liên tục bị kìm hãm. Tỷ lệ P/E của Samsung Electronics là 34,18 không phải là mức định giá cao mà là kết quả của sự sụt giảm lợi nhuận ròng. Hoạt động kinh doanh của Samsung bao gồm nhiều lĩnh vực khác nhau như bộ nhớ, sản xuất wafer, điện thoại thông minh và màn hình hiển thị. Mảng kinh doanh sản xuất wafer của công ty đã đầu tư mạnh vào việc theo đuổi các quy trình tiên tiến, nhưng tỷ suất lợi nhuận vẫn thấp, dẫn đến thua lỗ liên tục kéo giảm lợi nhuận ròng của tập đoàn. Giá cổ phiếu của công ty vẫn ổn định nhờ sự hỗ trợ từ các quỹ trong nước, do đó đẩy tỷ lệ P/E lên cao. Logic cốt lõi đằng sau sự lạc quan của các tổ chức đối với Micron rất rõ ràng: tăng thị phần doanh thu HBM thúc đẩy tăng biên lợi nhuận gộp; Các thỏa thuận cung ứng dài hạn đảm bảo sự ổn định doanh thu; việc chuyển dịch năng lực sản xuất sang HBM làm giảm nguồn cung DRAM thông thường, hỗ trợ tăng giá trên toàn bộ dòng sản phẩm; và quy trình 1-gamma bước vào giai đoạn hoàn vốn đầu tư sau khi sản xuất hàng loạt, dẫn đến sự cải thiện liên tục về dòng tiền tự do. Điều quan trọng cần lưu ý là chu kỳ của ngành công nghiệp bộ nhớ chưa hoàn toàn biến mất; nó chỉ được làm phẳng hơn nhờ các hợp đồng HBM dài hạn. Nếu đầu tư vào cơ sở hạ tầng AI chậm lại và HBM4 của Samsung đạt được sự vượt trội về công nghệ, thì bối cảnh cung cầu của ngành có thể sẽ được định hình lại.
Tiêu chí đánh giá lõi HBM và công nghệ kết nối thế hệ tiếp theo CXL
Mỗi nhà sản xuất trong ngành đều nhấn mạnh những lợi thế của sản phẩm HBM của riêng mình. Cốt lõi của việc đánh giá chất lượng HBM nằm ở ba thông số chính:
Thứ nhất, tốc độ chân (pin rate), quyết định băng thông truyền dữ liệu. HBM dựa vào hàng nghìn vi điểm tiếp xúc (micro-bump) để kết nối với GPU. Tốc độ chân thể hiện tốc độ truyền dữ liệu mỗi giây trên mỗi kênh. Chiều rộng bus tiêu chuẩn trong ngành được cố định ở mức 1024 chân, và tổng băng thông tuân theo một công thức chuyển đổi cố định. HBM3E của Micron được đánh giá ở mức 9,2Gbps, với băng thông đơn stack khoảng 1,2TB/s, vượt trội so với mức trung bình từ 8,0 đến 8,5Gbps của các sản phẩm cạnh tranh.
Tuy nhiên, tốc độ tăng lên đi kèm với nguy cơ tiêu thụ điện năng cao hơn và biến dạng tín hiệu. Việc thay đổi điện áp thường xuyên tạo ra nhiệt, và tốc độ quá cao có thể dẫn đến hỏng tín hiệu, ảnh hưởng đến sự ổn định truyền dữ liệu. Thứ hai, có chỉ số hiệu quả năng lượng, được đo bằng pJ/bit; giá trị càng thấp thì khả năng kiểm soát năng lượng càng tốt.
HBM và GPU được đóng gói chung, và việc tiêu thụ điện năng quá mức sẽ làm trầm trọng thêm áp lực tản nhiệt, buộc GPU phải giảm tốc độ xung nhịp và sức mạnh tính toán. Micron, dựa trên quy trình 1-beta và thiết kế điện áp thấp, đạt được hiệu suất năng lượng cao hơn khoảng 30% so với các đối thủ cạnh tranh, giảm đáng kể chi phí điện và làm mát cho trung tâm dữ liệu. Thứ ba, điện trở nhiệt và công nghệ đóng gói cũng là những lợi thế cạnh tranh cốt lõi của SK Hynix. Sự tăng nhiệt độ được xác định bởi cả mức tiêu thụ điện năng và điện trở nhiệt. Cấu trúc xếp chồng nhiều lớp của HBM khiến việc dẫn nhiệt trở nên khó khăn, và vật liệu lấp đầy giữa các lớp ảnh hưởng trực tiếp đến điện trở nhiệt. Ngành công nghiệp chủ đạo được chia thành hai quy trình chính: TC-NCF và MR-MUF. Micron và Samsung sử dụng quy trình TC-NCF, dễ bị hình thành bọt khí dư và có điện trở nhiệt tương đối cao trong quá trình cán màng. Quy trình MR-MUF của SK Hynix sử dụng chất độn lỏng để lấp đầy các khoảng trống, loại bỏ cặn bọt khí và dẫn đến điện trở nhiệt thấp hơn. Điện trở nhiệt cao sẽ gây ra phản ứng dây chuyền: nhiệt độ môi trường tăng sẽ đẩy nhanh sự rò rỉ tụ điện DRAM, buộc bộ điều khiển bộ nhớ phải thường xuyên làm mới dữ liệu và làm giảm băng thông hiệu quả. Đồng thời, quy trình đóng gói quyết định giới hạn trên của số lớp xếp chồng; càng nhiều lớp, càng khó thích ứng với ứng suất cơ học và giãn nở nhiệt, và áp lực kiểm soát năng suất càng tăng theo cấp số nhân. Nghiên cứu dữ liệu kỹ thuật HBM của nhà sản xuất chỉ cần tập trung vào ba điểm: điện áp thử nghiệm cho tốc độ danh nghĩa, số lớp xếp chồng và dung lượng trên mỗi chip, và nhà cung cấp lõi của người dùng cuối. Thử nghiệm và chấp nhận của khách hàng là sự xác minh cuối cùng về sức mạnh kỹ thuật. CXL: Chiến trường tiếp theo cho việc gộp bộ nhớ cụm AI Trong khi HBM giải quyết nút thắt cổ chai băng thông trong một GPU duy nhất, khi các cụm AI mở rộng lên hàng nghìn GPU, việc phân bổ tài nguyên bộ nhớ không hiệu quả và bộ nhớ đệm không nhất quán giữa các thiết bị trở thành những vấn đề nan giải mới. Công nghệ CXL ra đời để giải quyết vấn đề này. Bộ nhớ trung tâm dữ liệu truyền thống bị ràng buộc vật lý với một máy chủ duy nhất, khiến việc chia sẻ giữa các thiết bị trở nên bất khả thi. Điều này thường dẫn đến tình trạng tắc nghẽn bộ nhớ, trong đó một số nút có bộ nhớ đệm KV đầy và các nút khác có bộ nhớ nhàn rỗi, với tỷ lệ tắc nghẽn trong ngành cao tới 20% đến 30%, gây lãng phí vốn đáng kể. Đồng thời, dữ liệu bộ nhớ đệm CPU và GPU không đồng bộ. Các phương pháp đồng bộ hóa phần mềm truyền thống gặp phải vấn đề độ trễ cao, tổn thất hiệu năng đáng kể, yêu cầu điều chỉnh mã thủ công và khả năng chịu lỗi thấp. Nguyên nhân gốc rễ của những vấn đề nêu trên nằm ở những hạn chế của giao thức PCIe, chỉ phù hợp với việc truyền dữ liệu khối lớn và thiếu cơ chế nhất quán bộ nhớ cache. Giao thức CXL, dựa trên logic lớp vật lý PCIe được tái cấu trúc, đặc biệt tối ưu hóa ngữ nghĩa bộ nhớ và tính nhất quán bộ nhớ cache. Nó dựa vào phần cứng để tự động duy trì các dấu hiệu trạng thái bộ nhớ cache, hoàn thành việc đồng bộ hóa dữ liệu trong nano giây mà không cần sự can thiệp của hệ thống hoặc mã. Nó áp dụng định dạng truyền FLIT cố định, đơn giản hóa quá trình phân tích cú pháp dữ liệu và giảm đáng kể độ trễ truy cập bộ nhớ từ xa xuống còn 170 đến 250 nano giây. Hơn nữa, CXL có thể xây dựng một vùng bộ nhớ dùng chung thông qua một bộ chuyển mạch, thoát khỏi sự ràng buộc vật lý của một máy chủ duy nhất và phân bổ động các tài nguyên bộ nhớ nhàn rỗi trong micro giây, giải quyết hoàn toàn vấn đề tắc nghẽn bộ nhớ. Micron đã ra mắt mô-đun mở rộng bộ nhớ CXL Loại 3, được xây dựng trên quy trình DDR5 độc quyền của hãng, tạo thành một cặp cao-thấp với HBM: HBM tập trung vào các kịch bản băng thông cực cao và độ trễ thấp cho các card đơn; CXL được thiết kế để mở rộng bộ nhớ dung lượng lớn trên nhiều node, hỗ trợ gộp tài nguyên ở cấp độ TB. Trong triển khai công nghiệp, dữ liệu nóng được giữ lại trên HBM cục bộ, trong khi dữ liệu lạnh có ngữ cảnh dài được chuyển sang nhóm bộ nhớ CXL. Cơ chế tìm nạp trước giúp che giấu độ trễ truyền tải, tạo điều kiện thuận lợi cho việc triển khai các mô hình ngữ cảnh cực dài với hàng triệu token. Về cấu trúc thị trường, thị trường HBM đang ngày càng cạnh tranh, trong khi việc mở rộng bộ nhớ CXL vẫn còn ở giai đoạn đầu, với bối cảnh ngành chưa được xác định rõ. Micron, với tư cách là nhà cung cấp giải pháp lưu trữ thuần túy, không có gánh nặng lịch sử, và mô-đun CXL sử dụng công nghệ DDR5 tiêu chuẩn, loại bỏ nhu cầu xếp chồng và đóng gói phức tạp. Áp lực về năng suất và năng lực sản xuất có thể kiểm soát được, mang lại cho nó lợi thế tiên phong tiềm năng trên thị trường. Các vấn đề kinh tế và nút thắt công nghệ cơ bản của ngành: Các nhà máy sản xuất wafer DRAM tiên tiến có giá từ 15 tỷ đến 20 tỷ đô la, với một máy in thạch bản EUV duy nhất có giá hơn 200 triệu đô la. Thêm vào đó là khoản đầu tư vào hệ thống cung cấp điện và làm mát hỗ trợ, và xét đến chu kỳ khấu hao 5 năm của thiết bị, chi phí khấu hao hàng ngày là rất lớn. Tỷ lệ sử dụng thiết bị cần được duy trì trên 95% để giảm chi phí sản xuất. Khi nhu cầu giảm, các nhà sản xuất khó có thể giảm sản lượng và chỉ có thể chịu đựng áp lực và tung ra các cuộc chiến giá cả. Đây là nguyên nhân cơ bản dẫn đến tính chu kỳ mạnh mẽ của ngành công nghiệp bộ nhớ. Chi phí cao của HBM cũng bắt nguồn từ những hạn chế vật lý. Nhiều lớp chip DRAM được xếp chồng lên nhau theo chiều dọc; một lỗi ở bất kỳ lớp nào cũng khiến toàn bộ mô-đun không thể sử dụng được, và năng suất giảm theo cấp số nhân với số lớp xếp chồng. Ngay cả với năng suất trên một tấm wafer là 95% và năng suất liên kết giữa các lớp là 99%, năng suất tổng thể của HBM3E 8 lớp chỉ khoảng 61%, và năng suất của HBM4 12 lớp là dưới 50%. Công nghệ đóng gói bằng chất lỏng của SK Hynix và việc tăng năng suất quy trình của Micron về cơ bản nhằm mục đích cải thiện năng suất tổng thể và giảm chi phí đơn vị. Tuy nhiên, việc tăng năng suất và mở rộng công suất không thể được đẩy nhanh, điều này quyết định rằng giá HBM khó có thể giảm đáng kể trong ngắn hạn. Công nghệ điện toán trong bộ nhớ (PIM), được đề xuất cách đây hai mươi năm, vẫn chưa đạt được thương mại hóa quy mô lớn, chủ yếu do mâu thuẫn trong các quy trình vật lý. Các bóng bán dẫn DRAM yêu cầu dòng rò thấp và điện áp ngưỡng cao để đảm bảo lưu trữ điện tích, dẫn đến tốc độ chuyển mạch chậm hơn; các chip logic CPU và GPU theo đuổi điện áp ngưỡng thấp và tần số chuyển mạch cao, dẫn đến dòng rò cao hơn. Hai yêu cầu quy trình này vốn dĩ mâu thuẫn nhau. Việc nhúng các đơn vị tính toán vào DRAM một cách cưỡng bức sẽ dẫn đến sức mạnh tính toán thấp hơn đáng kể so với GPU, và nhiệt lượng sinh ra trong quá trình tính toán sẽ làm tăng tốc độ rò rỉ tụ điện, ảnh hưởng đến độ tin cậy của dữ liệu. Giải pháp thỏa hiệp hiện tại trong ngành là tích hợp sức mạnh tính toán AI nhẹ vào chip cơ bản ở đáy của HBM (Bộ nhớ tích hợp phần cứng), sử dụng quy trình logic tiên tiến của TSMC để tránh các hạn chế của quy trình DRAM. Tuy nhiên, điều này vẫn còn xa so với điện toán trong bộ nhớ thực sự. Về lâu dài, logic cạnh tranh cốt lõi của Micron rất rõ ràng: tận dụng quy trình 1-gamma để giảm chi phí trên mỗi bit, đảm bảo sức mạnh định giá thông qua lợi nhuận cao của HBM, và làm giảm sự biến động của chu kỳ ngành bằng các hợp đồng cung ứng dài hạn. Tuy nhiên, ngành công nghiệp vẫn phải đối mặt với những nút thắt cấu trúc. Việc thu nhỏ mặt phẳng DRAM đang tiến gần đến giới hạn vật lý, tổn thất năng suất khi xếp chồng 3D tăng lên theo số lớp, và không có con đường đột phá thương mại ngắn hạn nào cho điện toán trong bộ nhớ. Cạnh tranh trong ngành trong tương lai sẽ không còn dựa vào lợi thế của một công nghệ nút duy nhất, mà là cạnh tranh toàn diện về kỹ thuật năng suất, quy trình đóng gói và khả năng tích hợp hệ thống. Đây là rào cản vững chắc được xây dựng bởi các ông lớn trong ngành lưu trữ thông qua hàng thập kỷ tích lũy công nghệ. Phân tích ngành cho thấy một chu kỳ lặp đi lặp lại trong ngành công nghiệp chip: sức mạnh tính toán không đủ dẫn đến kích thước chip tăng lên, từ đó hạn chế năng suất; chuyển sang kiến trúc kết nối dẫn đến sự chậm trễ trong truyền dữ liệu; xếp chồng chip giải quyết được các thách thức về kết nối, nhưng lại tạo ra các vấn đề về tản nhiệt, làm giảm năng suất hơn nữa. Cuối cùng, cuộc cạnh tranh khốc liệt nhất trong ngành công nghiệp chip sẽ quay trở lại với khoa học vật liệu, và các kết nối quang học, vật liệu bán dẫn hai chiều, cùng các kiến trúc điện toán đột phá có thể trở thành những hướng đi cốt lõi để vượt qua các giới hạn vật lý hiện có.