Chatbot mới từ Deepseek, người mạnh dạn tuyên bố: "Xin chào, tôi được tạo ra để bạn có thể hỏi bất cứ điều gì và nhận được câu trả lời thậm chí có thể làm bạn ngạc nhiên", đã tạo ra những làn sóng đáng kể trong ngành công nghiệp AI. Phần giới thiệu này không chỉ thu hút sự chú ý mà còn góp phần vào việc giảm giá cổ phiếu lớn nhất của NVIDIA, cho thấy tác động của Deepseek trên thị trường.
Hình ảnh: Ensigame.com
Mô hình AI của Deepseek nổi bật do kiến trúc và phương pháp đào tạo sáng tạo của nó. Hãy đi sâu vào các công nghệ chính làm cho nó khác biệt:
Dự đoán đa điểm (MTP) : Phương pháp này cho phép mô hình dự đoán nhiều từ cùng một lúc bằng cách phân tích các phân đoạn khác nhau của một câu. Điều này không chỉ tăng độ chính xác mà còn hiệu quả của mô hình, làm cho nó trở thành một công cụ mạnh mẽ để hiểu và tạo văn bản.
Hỗn hợp các chuyên gia (MOE) : Deepseek V3 sử dụng một kiến trúc tinh vi với 256 mạng thần kinh, kích hoạt tám mạng cho mỗi nhiệm vụ xử lý mã thông báo. Cách tiếp cận này tăng tốc đáng kể đào tạo AI và tăng cường hiệu suất tổng thể, làm cho nó trở thành một tính năng nổi bật của công nghệ của họ.
Sự chú ý tiềm ẩn đa đầu (MLA) : Cơ chế này tập trung vào các phần quan trọng nhất của câu, trích xuất các chi tiết chính nhiều lần. Bằng cách làm như vậy, MLA làm giảm nguy cơ thiếu thông tin quan trọng, cho phép AI nắm bắt các chi tiết sắc thái trong dữ liệu đầu vào một cách hiệu quả.
Deepseek, một công ty khởi nghiệp nổi tiếng của Trung Quốc, tuyên bố đã phát triển mô hình AI cạnh tranh này với chi phí tương đối thấp. Họ khẳng định rằng đào tạo mạng lưới thần kinh Deepseek V3 mạnh mẽ chỉ tốn 6 triệu đô la và chỉ sử dụng 2048 bộ xử lý đồ họa.
Hình ảnh: Ensigame.com
Tuy nhiên, các nhà phân tích từ Semianalysis đã phát hiện ra rằng các hoạt động của Deepseek liên quan đến một cơ sở hạ tầng tính toán lớn hơn nhiều. Họ ước tính rằng Deepseek sử dụng khoảng 50.000 GPU phễu NVIDIA, bao gồm 10.000 đơn vị H800, 10.000 H100 và GPU H20 bổ sung, trải rộng trên một số trung tâm dữ liệu. Các tài nguyên này được sử dụng để đào tạo, nghiên cứu và mô hình tài chính của AI, với tổng khoản đầu tư của công ty vào các máy chủ đạt khoảng 1,6 tỷ đô la và chi phí hoạt động ở mức 944 triệu đô la.
Deepseek là một công ty con của Quỹ phòng hộ Trung Quốc Flyer, công ty đã thành lập nó như một bộ phận tập trung AI riêng vào năm 2023. Không giống như nhiều công ty khởi nghiệp dựa vào điện toán đám mây, Deepseek sở hữu các trung tâm dữ liệu của mình, giúp kiểm soát hoàn toàn việc tối ưu hóa mô hình AI và triển khai đổi mới nhanh hơn. Tình trạng tự tài trợ của công ty giúp tăng cường tốc độ nhanh nhẹn và ra quyết định.
Hình ảnh: Ensigame.com
Hơn nữa, Deepseek thu hút tài năng hàng đầu từ các trường đại học hàng đầu Trung Quốc, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm. Mặc dù có những khoản đầu tư đáng kể này, yêu cầu đào tạo mô hình mới nhất của công ty chỉ với 6 triệu đô la có vẻ không thực tế, vì con số này chỉ chiếm mức sử dụng GPU trong quá trình đào tạo trước và loại trừ các chi phí đáng kể khác như nghiên cứu, tinh chỉnh mô hình, xử lý dữ liệu và cơ sở hạ tầng.
Kể từ khi thành lập, Deepseek đã đầu tư hơn 500 triệu đô la vào phát triển AI. Cấu trúc nhỏ gọn của nó cho phép nó thực hiện các đổi mới AI một cách nhanh chóng và hiệu quả, không giống như các công ty lớn hơn, quan liêu hơn.
Hình ảnh: Ensigame.com
Ví dụ của Deepseek minh họa rằng một công ty AI độc lập, được tài trợ tốt có thể cạnh tranh với những người khổng lồ trong ngành. Mặc dù thành công của công ty được thúc đẩy bởi các khoản đầu tư đáng kể, những đột phá kỹ thuật và một nhóm mạnh mẽ, khái niệm về "ngân sách cách mạng" cho sự phát triển mô hình AI có thể được nói quá. Tuy nhiên, chi phí của Deepseek vẫn thấp hơn đáng kể so với các đối thủ cạnh tranh, chẳng hạn như 100 triệu đô la chi cho việc đào tạo ChATGPT4O so với 5 triệu đô la của Deepseek cho R1.
Tuy nhiên, nó vẫn rẻ hơn so với các đối thủ cạnh tranh.