"Dữ liệu là dầu mỏ mới" - cụm từ này đã bị lạm dụng quá mức trong cộng đồng AI. Nhưng trong quan điểm chính thống, dường như nó hoàn toàn không liên quan gì đến những người bình thường như chúng ta - đó là một cuộc chơi vốn dành cho các gã khổng lồ công nghệ, một cuộc cạnh tranh về card đồ họa và hàng nghìn tỷ thông số kỹ thuật. Tuy nhiên, sau một hồi suy ngẫm, tôi nhận ra ẩn dụ này là một la bàn rất hữu ích cho việc ứng dụng AI của chúng ta. I. Một ẩn dụ bị hiểu sai nghiêm trọng Bởi vì trong quan điểm chính thống, "dữ liệu" mà họ nói đến là toàn bộ internet, Wikipedia - hàng petabyte dữ liệu; "công nghệ lọc dầu" là hàng chục nghìn card đồ họa H100 cộng với một nhóm các nhà khoa học kiếm được hàng triệu đô la mỗi năm; và "sản phẩm cuối cùng" là một mô hình Thượng đế toàn tri và toàn năng như GPT-5. Logic này chắc chắn đúng trong kinh doanh, nhưng vấn đề là - về cơ bản nó đang nói: Đừng tham gia, bạn không thể có mặt. Chúng ta, những người bình thường, bị loại thẳng ra khỏi cuộc chơi. Tệ hơn nữa, có một phiên bản khác của câu chuyện này khiến tôi vô cùng phẫn nộ: Dữ liệu là dầu mỏ mới, và dữ liệu người tiêu dùng của chúng ta là các mỏ dầu của Venezuela; trong khi Meituan, Alibaba và TikTok giống như Trump ở Mỹ. Họ vô tình (hoặc thực sự cố ý) đến đây để khai thác dữ liệu của chúng ta, lấy nó miễn phí, tinh chế nó thành "xăng 98 octane" (các thuật toán chính xác, phân biệt giá dựa trên dữ liệu lớn), và sau đó ép buộc bán lại cho chúng ta. Kết quả là: chúng ta trở thành những kẻ ngốc - không chỉ cung cấp nguyên liệu thô miễn phí, mà còn bị bán đứng và phải đếm tiền cho các nền tảng của họ. Trong phiên bản này của câu chuyện, chỉ có những gã khổng lồ là người chơi. Chúng ta thiếu lượng dữ liệu khổng lồ, vốn và khả năng đào tạo một mô hình lớn. Do đó, "dữ liệu là dầu mỏ mới" trở thành một khẩu hiệu nghe có vẻ ấn tượng nhưng hoàn toàn vô dụng đối với cá nhân, thậm chí có phần đáng ghê tởm.
Thứ hai, một góc nhìn khác có thể giải quyết vấn đề này
Tôi nghĩ sự đồng thuận này có vấn đề. Chúng ta cần nhìn nhận nó từ một góc độ khác.
Nếu chúng ta cứ khăng khăng áp dụng khái niệm "dữ liệu là dầu mỏ mới" cho người dân bình thường, thì vấn đề không còn là "liệu sự tương đồng này có đúng không?", mà là: Chính xác thì điều này hướng dẫn công việc của tôi như thế nào?
Ngành công nghiệp dầu mỏ rất mạnh mẽ vì nó có một chuỗi logic rất rõ ràng và không thể tránh khỏi: Tìm kiếm mỏ dầu (thăm dò) → Xây dựng nhà máy lọc dầu (chế biến) → Tiêu chuẩn hóa sản phẩm (xăng) → Xây dựng kênh phân phối (trạm xăng) → Bán cho người dùng. Đối với những người bình thường như chúng ta, "dầu mỏ dữ liệu" của kỷ nguyên AI cũng cần được phân tích tỉ mỉ theo các bước này. Thiếu sót dù chỉ một mắt xích cũng sẽ ngăn cản nỗi lo lắng về AI của bạn chuyển hóa thành năng suất; nó chỉ trở thành sự hao mòn tinh thần từ việc "lướt tin tức + lưu liên kết + xem người khác làm giàu". Dưới đây, tôi sẽ phân tích logic này để những người bình thường có thể tiến hành.
III. Bước một: Các mỏ dầu ở đâu? — Tìm "mỏ vàng thu nhỏ" xung quanh bạn
Trong các ngành công nghiệp truyền thống, bạn phải đến những nơi như Ả Rập Xê Út và Nga để tìm dầu. Nhưng với phương pháp của chúng tôi, các mỏ dầu thực sự nằm ngay trong tầm tay bạn. Tôi nghĩ có ít nhất hai loại chính.
1. Dữ liệu cá nhân riêng tư: Sân sau của chính bạn
Đây là loại dữ liệu dễ bị bỏ qua nhất, nhưng lại ổn định nhất. Nó không cần phải có quy mô lớn, nhưng cần phải cực kỳ thuần khiết.
Ví dụ: quy trình làm việc của bạn, logic đằng sau các quyết định của bạn, những sai lầm bạn đã gặp phải (đánh giá thất bại) và những quy tắc bất thành văn bạn đã học được trong nhiều năm trong ngành.
Ví dụ: quy trình làm việc của bạn, logic đằng sau các quyết định của bạn, những sai lầm bạn đã mắc phải (đánh giá thất bại) và những quy tắc bất thành văn bạn đã học được trong nhiều năm trong ngành.
Ví dụ: dấu vết kỹ thuật số của bạn: ghi chú, cơ sở mã, bản nháp, email… tất cả từ mười năm qua đều được tính. Giá trị của điều này nằm ở chỗ nó hoàn toàn thuộc về bạn. Một “bản sao kỹ thuật số cá nhân” hay “chuyên gia lĩnh vực” được đào tạo bằng dữ liệu này không thể được thay thế bằng bất kỳ mô hình lớn đa năng nào. Nếu bạn không sử dụng máy tính nhiều trong công việc và cuộc sống trong 5 năm qua, chỉ dựa vào điện thoại di động, bạn khó có thể trở thành nhà sản xuất AI và sẽ mãi là người tiêu dùng AI. Nếu bạn thực sự muốn kiếm tiền từ AI, tôi nghĩ bạn cần mua một chiếc máy tính. Tại sao? Bởi vì nếu không có máy tính, bạn khó có thể tích lũy dữ liệu một cách có hệ thống, khiến bạn trở thành một “quốc gia nghèo dầu mỏ” hoàn toàn. Đừng mong đợi đạt được điều gì đáng kể từ vài bức ảnh trong album điện thoại của bạn hoặc hàng chục gigabyte tin nhắn thoại và nhật ký trò chuyện thông thường trên WeChat—quá nhiều tạp chất, cấu trúc quá kém; bạn không thể tinh chế xăng lên đến 92 octane, tốt nhất bạn chỉ thu được 29 octane. 2. Mỏ vàng dữ liệu công cộng: Xây dựng "Đội ngũ khám phá" của bạn Loại thứ hai là dữ liệu mà mọi người đều có thể xem, nhưng 99% người chỉ "tiêu thụ" chứ không phải "khám phá": X.com, tài khoản chính thức WeChat, arXiv, YouTube… đây là "biển công cộng" của thời đại dữ liệu. Internet, đặc biệt là mạng xã hội, đang xuống cấp quá nhanh. Tôi dám nói rằng hơn 50%, thậm chí có thể hơn 90% nội dung là AGRC (Nội dung rác do AI tạo ra). Những người này đang sử dụng AI để sản xuất hàng loạt những thứ vô nghĩa, trực tiếp gây ô nhiễm vỏ trái đất. Nếu bạn không nhận thức được điều này khi thực hiện thăm dò địa chất, bạn sẽ chỉ đào được toàn rác. Tệ hơn nữa: nếu bạn đưa rác vào não hoặc cho AI, sản phẩm cuối cùng cũng chỉ là rác, và thậm chí có thể làm tắc nghẽn nhà máy lọc dầu của bạn. Vì vậy, để đảm bảo bạn không đào được AGRC (Trái đất độ phân giải cao mang tính học thuật), tôi đề nghị bạn tạo ra một **"tổ hợp nguồn cảm hứng"** được lựa chọn kỹ lưỡng. Nhưng lưu ý: chỉ đọc thôi là chưa đủ; đó chỉ là tích trữ dầu thô. Bạn cần học **quy trình xử lý dầu thô sơ cấp**—xử lý từng nguồn bằng AI, biến chúng thành nhiên liệu mà máy có thể đọc được: **Những kiến thức chuyên sâu (Sách)**: Đây là nền tảng. Hãy lập danh sách đọc hàng năm, bao gồm các tác phẩm kinh điển và văn học chuyên ngành. **Phương pháp tích hợp AI**: Đừng chỉ đọc một cách vô thức. Luôn sử dụng Gemini hoặc ChatGPT để hỗ trợ việc đọc; sau khi đọc xong một chương, hãy để nó thảo luận và đặt ra những câu hỏi kích thích tư duy. Sau khi đọc, bạn phải tạo ghi chú đọc điện tử và đưa chúng vào AI; đây là cơ sở kiến thức thực sự của bạn. Khu vực khám phá tiên phong (Bài báo và báo cáo): Thường xuyên duyệt arXiv hoặc Google Scholar. Tổ chức một "buổi ăn trưa đọc báo" hàng tuần và buộc bản thân phải giải quyết một bài báo. Phương pháp tích hợp AI: Không thể đọc hết văn bản thô? Hãy đưa trực tiếp file PDF vào NotebookLM hoặc ChatGPT, để nó tóm tắt các lập luận và dữ liệu cốt lõi, biến "những kiến thức khó hiểu" thành "những kiến thức hữu ích" để sử dụng sau này. Dòng chảy bề mặt (Tin tức và Thông tin): Sử dụng RSS hoặc luồng thông tin tùy chỉnh. Tôi lướt qua các tiêu đề tin tức và chỉ thu thập những tiêu đề thực sự ấn tượng. Phương pháp tích hợp AI: Đừng chỉ lưu các liên kết. Sao chép nội dung và để AI giúp bạn gắn thẻ, trích xuất từ khóa và phân loại để lưu trữ trong phần mềm ghi chú của bạn. Nếu không, nó sẽ chỉ bị bỏ phí. Các lĩnh vực bổ trợ (Podcast và Bài giảng): Nghe TED Radio Hours trên đường đi làm. Hãy tự ép mình tham dự một hoặc hai buổi tọa đàm trực tiếp mỗi tháng. Phương pháp tích hợp AI: Khi bạn nghe thấy những ý tưởng hay, đừng chỉ gật đầu. Sử dụng Whisper để chuyển bản ghi âm thành văn bản, sau đó để AI sắp xếp nó thành các ghi chú có cấu trúc. Âm thanh không thể được khôi phục, nhưng văn bản thì có thể. Giếng dầu năng suất cao (Mạng xã hội): Theo dõi một nhóm các chuyên gia thực thụ trên Twitter/X. Thường xuyên làm sạch danh sách người theo dõi của bạn và bỏ theo dõi những người đăng bài spam hoặc nội dung tiêu cực. Phương pháp tích hợp AI: Khi bạn thấy một chuỗi bài đăng hay, hãy sao chép trực tiếp và đưa nó cho AI để phân tích các lỗi logic hoặc tích hợp quan điểm của nó vào hệ thống kiến thức của bạn. Nghiên cứu thực địa (Quan sát cuộc sống, Điều tra thực địa): Cố gắng thực hành "quan sát cuộc sống với những câu hỏi trong đầu". Đây là loại dữ liệu trực quan mà các trình thu thập dữ liệu web AI không thể truy cập. Phương pháp tích hợp AI: Khi cảm hứng đến, đừng gõ; hãy nói trực tiếp, sau đó để AI sắp xếp nó thành nhật ký. Hãy để AI giúp bạn chuyển những suy nghĩ ngẫu nhiên thành những hiểu biết logic. Chúng ta phải trau dồi thói quen sẵn sàng cầm điện thoại lên và nói ra rất nhiều thứ. Sáu nguồn này là "mỏ dầu hỗn hợp" của bạn. Chỉ khi đầu vào của bạn đa dạng, phong phú và đã được AI xử lý ban đầu thì những gì bạn tinh chế mới tránh được sự sáo rỗng. Thứ tư, bước thứ hai: Thiết bị tinh chế ở đâu? —Đừng chỉ tập trung vào các mô hình lớn. Sau khi tìm thấy dầu, bước tiếp theo là tinh chế nó. Truyền thông chính thống liên tục thúc giục bạn mua card đồ họa, nhưng đối với một cá nhân, nhà máy lọc dầu thực sự là bộ phần mềm của riêng bạn cộng với kỹ năng tư duy. 1. Mô hình lớn chỉ là một "lò hơi". Có tư cách thành viên ChatGPT Plus sẽ không làm bạn trở nên tuyệt vời. Nó giống như việc mua một cái nồi hơi và đứng cạnh nó nhìn nó tỏa sáng—nhưng bạn không sử dụng nó. ChatGPT, DeepSeek và các mô hình lớn khác về cơ bản là các đơn vị năng lượng cơ bản, là nền tảng. Chúng có thể đốt cháy, nhưng điều đó không có nghĩa là bạn có thể sản xuất dầu. 2. Một nhà máy lọc dầu thực sự là một "hệ thống công cụ cá nhân" Một nhà máy lọc dầu cá nhân hiệu quả cần các thành phần sau: Đường ống (chuỗi công cụ): VS Code, Python, Kỹ năng, v.v. Quy trình (phương pháp luận): Đây là rào cản cốt lõi. Đó là cách bạn viết các Lời nhắc, cách bạn xây dựng cơ sở kiến thức RAG và cách bạn khiến một số Tác nhân (kỹ năng) làm việc cùng nhau. Điều quan trọng không bao giờ là "mô hình mạnh đến mức nào", mà là: cách bạn tương tác với AI, cách bạn chuyển đổi kinh nghiệm ngầm của mình thành các hướng dẫn mà AI có thể hiểu. "Hệ thống kỹ thuật cá nhân" này là nhà máy lọc dầu của bạn, chứ không phải bản thân mô hình. Thứ năm, bước thứ ba: sản phẩm không phải là mục đích cuối cùng, bán nó mới là trận chiến thực sự. Đây là mắt xích tàn khốc nhất trong toàn bộ chuỗi. PetroChina chỉ cần vận chuyển dầu đến các trạm xăng, và chủ sở hữu ô tô sẽ tự nhiên xếp hàng. Nhưng trong kỷ nguyên AI, việc thương mại hóa và bán hàng trở nên vô cùng khó khăn. 1. "Xăng" được tinh chế bởi AI cực kỳ không theo tiêu chuẩn. Những gì bạn tạo ra bằng cách sử dụng "dữ liệu cá nhân" + "mô hình lớn" rất có thể không phải là xăng phổ quát, mà là: Một kịch bản Python mà chỉ bạn mới có thể sử dụng; một bài viết được định dạng độc đáo; một báo cáo được xử lý bởi AI sau khi khám bệnh và trải qua các cuộc kiểm tra; và tư vấn pháp lý được cá nhân hóa. Những thứ này không phổ quát, không được tiêu chuẩn hóa và phụ thuộc rất nhiều vào từng trường hợp cụ thể. 2. Câu hỏi lớn thực sự: Bán cho ai? Vì vậy, trước khi bắt đầu, bạn cần tự hỏi: Tôi sẽ bán những gì mình tạo ra cho ai? Đây thực chất là một cách ngược lại để chứng minh loại dầu nào chúng ta muốn tinh chế. Bán cho chính mình (sử dụng cá nhân): Tiết kiệm thời gian là kiếm tiền; đây là vòng khép kín dễ dàng nhất để đạt được. Bán cho doanh nghiệp (B2B): Đóng gói Prompt hoặc quy trình làm việc của bạn thành một giải pháp. Điều này đòi hỏi kỹ năng bán hàng trước cực kỳ mạnh mẽ (khả năng thuyết phục). Bán cho số đông (B2C): Phát triển nó thành một ứng dụng hoặc chuyên mục nội dung. Điều này phụ thuộc vào khả năng phân phối lưu lượng truy cập của bạn. Thực tế: Trong kỷ nguyên AI, việc tinh chế (tạo nội dung) ngày càng dễ dàng, nhưng việc xây dựng các trạm xăng (phân phối và bán hàng) lại khó khăn hơn bao giờ hết. Thứ sáu, đừng quên bảo vệ môi trường: Đừng để chất thải xỉ chôn vùi bạn. Quá trình lọc dầu truyền thống tạo ra chất thải xỉ, nước thải và khí thải. Nếu không xử lý, nhà máy lọc dầu thậm chí sẽ không kiếm được tiền trước khi người dân bị chết vì khói thải. Điều tương tự cũng áp dụng cho việc tinh chế dữ liệu; **"ô nhiễm mạng"** cực kỳ nghiêm trọng và cần một "bộ phận bảo vệ môi trường" để dọn dẹp thường xuyên. 1. Dọn dẹp "phế liệu công cụ" lỗi thời: AI đang phát triển với tốc độ chóng mặt. "Top 10 trang web điều hướng AI bạn phải sử dụng vào năm 2025" mà bạn đã đánh dấu tháng trước có thể có năm trang đã ngừng hoạt động trong tuần này; các thông số vẽ AI mà bạn đang làm việc hôm nay có thể trở nên lỗi thời bởi "tạo hình chỉ bằng một cú nhấp chuột" vào ngày mai. Đừng trở thành "kẻ nhặt rác mạng", tích trữ một đống công cụ lỗi thời mà bạn không nỡ vứt đi. Gỡ cài đặt những gì cần gỡ cài đặt, bỏ theo dõi những gì cần bỏ theo dõi. Công cụ được tạo ra để sử dụng, không phải để tôn thờ. Tích trữ các công cụ lỗi thời giống như chất đống phế liệu gỉ sét ở nhà; nó chỉ làm bạn chậm lại. 2. Loại bỏ những "vỏ dữ liệu" đã bị vắt kiệt. Nhiều người mắc phải "hội chứng sóc": họ tải xuống mọi tệp PDF họ thấy, thu thập mọi video họ xem và lấp đầy ổ cứng của mình bằng hàng terabyte dữ liệu, nghĩ rằng họ sở hữu cả thế giới. Đó không phải là kiến thức; đó là rác thải. Cách tiếp cận thực sự thân thiện với môi trường là sử dụng AI để trích xuất "tinh túy" từ các tệp PDF, video và bài báo dài - tạo tóm tắt, trích dẫn các câu nói quan trọng và chuyển đổi chúng thành ghi chú của bạn. Sau khi trích xuất, hãy loại bỏ các tệp gốc (hoặc lưu trữ chúng vào kho lưu trữ lạnh). Sự chú ý của bạn là một nguồn tài nguyên cực kỳ quý giá và có hạn; đừng để những tệp thô này tiêu tốn băng thông của bạn. Chỉ giữ lại "nhiên liệu tinh chế", loại bỏ "vỏ rỗng của dầu thô" - đó chính là một nhà máy lọc dầu hiệu quả cao. 3. Cắt bỏ những "hóa đơn ma cà rồng zombie" Nỗi lo lắng về AI đã dẫn chúng ta đến nhiều việc làm dại dột, dại dột nhất là: vội vàng chi tiền để mua cảm giác an toàn. Đăng ký các lớp học, mua khóa học, tham dự sự kiện, mua gói thành viên Plus… chi phí đều rất lớn. Tệ hơn nữa, một khi bạn đăng ký nhiều thứ (loại tính phí hàng tháng), bạn thường quên hủy. Tôi từng mua một máy chủ để thử nghiệm, và nó đã ở đó ít nhất ba năm. Mỗi tháng, nó âm thầm trừ tiền từ tài khoản của tôi, ẩn giữa một đống hóa đơn, và tôi không hề hay biết—tôi chỉ sử dụng nó vào ngày thử nghiệm. Tôi cũng đã mua một cách bốc đồng ChatGPT, Gemini, Claude, Perplexity… một loạt các gói đăng ký tự động gia hạn, và cả một số API nữa. Và điều gì đã xảy ra? Hầu hết thời gian chúng chỉ bám bụi. Thật lãng phí! Đây đều là những thứ mà "bảo vệ môi trường" phải dọn dẹp. Nếu không, trước khi bạn thậm chí tinh chế được dầu có thể bán được, tài nguyên của bạn sẽ bị đánh cắp bởi sự ô nhiễm này. Thứ bảy, một vài lời cuối cùng: Bản đồ hành động. Khi chúng ta bóc tách lớp vỏ hào nhoáng của câu nói "dữ liệu là dầu mỏ mới", nó không còn là câu chuyện tư bản chủ nghĩa xa vời nữa, mà là một lộ trình rõ ràng cho người bình thường. Trong thời đại này, nếu bạn muốn chiến thắng, hãy nhanh chóng kiểm tra "bảng cân đối kế toán" của mình: Dự trữ: Bạn vẫn đang lướt Douyin (TikTok) sao? Hay bạn đã chủ động tích lũy dữ liệu chất lượng cao thông qua "Nguồn cảm hứng" + hỗ trợ AI? (Hãy nhớ tránh rác AGRC)
Năng lực: Bạn có bộ công cụ và phương pháp riêng (nhà máy lọc dầu) không, và bạn đang lọc loại dầu nào?
Kênh phân phối: Bạn đã suy nghĩ kỹ chưa? Chính xác thì bạn định bán những sản phẩm không tiêu chuẩn mà bạn lọc cho ai? Điều này có thể được sử dụng để xác minh công suất, cho dù bạn đang tinh chế dầu 92 octane hay 98 octane.
Bảo vệ Môi trường: Bạn đã tích lũy nhiều rác kỹ thuật số chưa? Bạn đã kiểm tra sao kê thẻ tín dụng và hủy các đăng ký không hoạt động chưa? Cuối cùng, một lời khuyên: hãy quên những tin tức với hàng tỷ tham số đi. Hãy bắt đầu ngay hôm nay—mua một chiếc máy tính, xây dựng "nguồn cảm hứng" của bạn, khoan giếng dầu siêu nhỏ đầu tiên, bán nó cho chính mình trước, và phát triển một công cụ tự động hóa giúp củng cố công việc của bạn thành một công việc mà AI là động lực chính và bạn là động lực phụ. Thực ra, tôi cũng khá bối rối. Tôi đã mày mò với AI hơn ba năm rồi, mà vẫn chưa phát triển được gì. Tôi chỉ phát triển được một AI để quản lý danh sách việc cần làm và một AI để quản lý ghi chú đọc của mình. Tôi vẫn đang tự hỏi, mình còn có thể phát triển thêm gì nữa?