Tại sao DeepSeek khiến thế giới chấn động?
Trước tiên, một số bối cảnh: Hiện tại, việc đào tạo các mô hình AI hàng đầu đang rất tốn kém. OpenAI, Anthropic, v.v. chi hơn 100 triệu đô la chỉ cho tính toán. Họ cần các trung tâm dữ liệu khổng lồ với hàng nghìn GPU trị giá 40.000 đô la. Giống như cần cả một nhà máy điện để vận hành một nhà máy.
DeepSeek vừa xuất hiện và nói "LOL nếu chúng ta làm điều này với giá 5 triệu đô la thì sao?" Và họ không chỉ nói suông - họ THỰC SỰ LÀM điều đó. Các mô hình của họ khớp hoặc đánh bại GPT-4 và Claude trong nhiều nhiệm vụ. Thế giới AI (như những đứa con tuổi teen của tôi nói) đã bị rung chuyển.
Làm sao? Họ đã suy nghĩ lại mọi thứ từ đầu. AI truyền thống giống như viết mọi con số với 32 chữ số thập phân. DeepSeek thì giống như "nếu chúng ta chỉ sử dụng 8 thì sao? Nó vẫn đủ chính xác!" Bùng nổ - ít hơn 75% bộ nhớ cần thiết.
Sau đó là hệ thống "nhiều mã thông báo" của họ. AI thông thường đọc như một học sinh lớp một: "Con... mèo... ngồi..." DeepSeek đọc toàn bộ cụm từ cùng một lúc. Nhanh hơn gấp 2 lần, chính xác 90%. Khi bạn xử lý hàng tỷ từ, điều này QUAN TRỌNG.
Nhưng đây là phần thực sự thông minh: Họ đã xây dựng một "hệ thống chuyên gia". Thay vì một AI khổng lồ cố gắng biết mọi thứ (giống như một người vừa là bác sĩ, luật sư VÀ kỹ sư), họ có các chuyên gia chuyên biệt chỉ thức dậy khi cần thiết.
Các mô hình truyền thống? Tất cả 1,8 nghìn tỷ tham số đều hoạt động MỌI LÚC. DeepSeek? Tổng cộng 671 tỷ nhưng chỉ có 37 tỷ hoạt động cùng một lúc. Giống như có một đội ngũ lớn nhưng chỉ gọi các chuyên gia mà bạn thực sự cần cho từng nhiệm vụ.
Kết quả thật đáng kinh ngạc:
- Chi phí đào tạo: 100 triệu đô la → 5 triệu đô la
- GPU cần thiết: 100.000 → 2.000
- Chi phí API: rẻ hơn 95%
- Có thể chạy trên GPU chơi game thay vì phần cứng trung tâm dữ liệu
"Nhưng khoan đã," bạn có thể nói, "phải có một cái bẫy chứ!" Đó là phần thú vị - tất cả đều là mã nguồn mở. Bất kỳ ai cũng có thể kiểm tra công việc của họ. Mã là công khai. Các tài liệu kỹ thuật giải thích mọi thứ. Đó không phải là phép thuật, chỉ là kỹ thuật cực kỳ thông minh.
Tại sao điều này lại quan trọng? Bởi vì nó phá vỡ mô hình "chỉ những công ty công nghệ lớn mới có thể tham gia vào AI". Bạn không cần một trung tâm dữ liệu trị giá hàng tỷ đô la nữa. Một vài GPU tốt có thể làm được điều đó.
Đối với Nvidia, điều này thật đáng sợ. Toàn bộ mô hình kinh doanh của họ được xây dựng dựa trên việc bán GPU siêu đắt với biên lợi nhuận 90%. Nếu mọi người đột nhiên có thể làm AI bằng GPU chơi game thông thường... thì bạn thấy vấn đề rồi đấy.
Và đây là điều đáng chú ý: DeepSeek đã làm điều này với một nhóm < 200 người. Trong khi đó, Meta có những nhóm mà riêng khoản bồi thường đã vượt quá toàn bộ ngân sách đào tạo của DeepSeek... và mô hình của họ không tốt bằng.
Đây là một câu chuyện gián đoạn kinh điển: Những người đương nhiệm tối ưu hóa các quy trình hiện có, trong khi những người phá vỡ suy nghĩ lại về cách tiếp cận cơ bản. DeepSeek đã hỏi "nếu chúng ta chỉ làm điều này thông minh hơn thay vì ném thêm phần cứng vào thì sao?"
Những tác động là rất lớn:
- Phát triển AI trở nên dễ tiếp cận hơn
- Sự cạnh tranh tăng lên đáng kể
- "Mạch hào" của các công ty công nghệ lớn trông giống như vũng nước hơn
- Yêu cầu về phần cứng (và chi phí) giảm mạnh
Tất nhiên, những gã khổng lồ như OpenAI và Anthropic sẽ không đứng yên. Họ có thể đã triển khai những cải tiến này. Nhưng hiệu quả đã thoát khỏi bình - không thể quay lại cách tiếp cận "chỉ cần ném thêm GPU vào".
Suy nghĩ cuối cùng: Cảm giác như đây là một trong những khoảnh khắc mà chúng ta sẽ nhìn lại như một điểm uốn. Giống như khi PC khiến máy tính lớn ít liên quan hơn hoặc khi điện toán đám mây thay đổi mọi thứ.
AI sắp trở nên dễ tiếp cận hơn nhiều và ít tốn kém hơn nhiều.