← Tất cả phân tíchMô hình mới

Model mở giá rẻ đã bám sát frontier — khi nào DN Việt nên đổi khỏi API model Mỹ

2026-06-08

Tuần này có một câu làm tôi dừng tay: trả tiền cao cho model Mỹ giờ là "kinh tế OnlyFans" — bạn trả vì gắn bó tâm lý, không phải vì nó hơn hẳn về kỹ thuật.

Câu đó nằm trong một bài viral trên Hacker News (132 điểm, leoveanu.com, 06.06.2026) lập luận rằng Qwen 3.7 Max đã thu hẹp gần hết khoảng cách với model phương Tây, trong khi rẻ hơn nhiều lần khi gọi qua OpenRouter. Tác giả dẫn chênh lệch chỉ số Artificial Analysis 57 so với 58 — một điểm. (Con số do tác giả nêu, chưa kiểm chứng độc lập — tôi giữ nguyên cảnh báo đó.)

Cùng ngày, một tin khác: DeepSeek đứng đầu bảng phần mềm "trending" của Ramp tháng 6/2026, khi chính các doanh nghiệp Mỹ đổ xô tìm AI giá rẻ (the-decoder, 08.06.2026). Khi người Mỹ còn đi săn model Trung Quốc cho rẻ, thì câu hỏi này nóng gấp đôi với túi tiền DN Việt.

Tôi đang vận hành thật một bot CSKH chạy trên Claude. Nên với tôi đây không phải tin để đọc cho vui — nó là một quyết định ngân sách có thật.

Tóm tắt cho người bận

  • Model mở giá rẻ (Qwen, DeepSeek, MiniMax) đã đủ tốt cho phần lớn việc CSKH — không còn là "đồ chơi rẻ tiền" của 2024.
  • Khoảng cách năng lực với model Mỹ thu hẹp còn rất nhỏ trên benchmark, nhưng benchmark không phải sản phẩm của bạn — cái quyết định là model đó xử lý đúng tình huống thật của khách bạn hay không.
  • Tiết kiệm chi phí token là thật, nhưng chi phí token hiếm khi là khoản lớn nhất của một bot nhỏ. Đừng tối ưu nhầm chỗ.
  • Lời khuyên của tôi: không đổi cả hệ thống. Đổi từng phần — và chỉ đổi khi có lý do cụ thể, không vì một dòng tin.

Vì sao tin này đáng quan tâm với người build ở VN

Có một sự thật ít người nói: với người Việt, model mở Trung Quốc còn lợi hơn so với người Mỹ. Qwen hỗ trợ tiếng Việt và các ngôn ngữ châu Á tốt, giá API thấp hơn nhiều GPT/Claude, và phần lớn phiên bản mở weight — tức bạn có thể tải về tự host (theo trang chủ Qwen, qua bản tin AI nội bộ tôi theo dõi).

Điều đó mở ra hai con đường mà một năm trước còn xa xỉ:

  1. Gọi model rẻ qua API (OpenRouter, hoặc API của hãng) — đổi vài dòng cấu hình, chi phí mỗi tin nhắn giảm mạnh.
  2. Tự host model mở trên VPS — không trả tiền theo token nữa, dữ liệu khách không rời máy của bạn. Đây là điểm cộng lớn cho bài toán riêng tư với spa, phòng khám, nơi xử lý thông tin cá nhân.

Nghe rất hấp dẫn. Nhưng tôi đã ngồi với cả hai con đường, và đây là phần báo chí không kể.

Góc builder: bot spa của tôi có nên bỏ Claude không?

Bot CSKH của tôi không phải một con chatbot hỏi-đáp. Nó là một vòng lặp agent có tool use: đọc tin khách, tra cứu bảng giá/dịch vụ, đặt lịch, biết khi nào im lặng nhường người thật. Bên dưới còn có prompt caching để khối kiến thức cố định không phải tính tiền lại mỗi lượt, và cơ chế tách câu trả lời thành nhiều "bong bóng" cho tự nhiên trên Messenger.

Khi tôi cân nhắc đổi sang model rẻ, ba thứ này quyết định, không phải con số benchmark:

1. Chất lượng tool use, không phải chất lượng văn. Phần khó nhất của bot không phải viết câu mượt — model nào giờ cũng viết mượt. Phần khó là gọi đúng công cụ, đúng tham số, đúng lúc: khi nào tra giá, khi nào đặt lịch, khi nào dừng lại gọi người. Một model rẻ có thể nói chuyện rất duyên nhưng gọi sai tool một lần là khách mất buổi hẹn. Một điểm benchmark chênh lệch có thể giấu một khoảng cách lớn ở đúng kỹ năng này. Đây là chỗ phải tự test, không tin bảng xếp hạng.

2. Prompt caching — khoản tiết kiệm thật của tôi đến từ kiến trúc, không từ giá model. Chi phí lớn nhất của bot không phải đơn giá token, mà là bạn nạp lại bao nhiêu token mỗi lượt. Tôi đã giảm chi phí mạnh chỉ bằng cách cache khối kiến thức cố định — không đổi model. Nếu bạn chưa làm caching mà đã vội đổi sang model rẻ để tiết kiệm, bạn đang tối ưu nhầm chỗ: dọn nhà trước khi đổi xe.

3. Tự host không "miễn phí" — nó đổi hóa đơn API lấy hóa đơn vận hành. Tự host model mở trên VPS nghe như hết tốn tiền token. Thực tế bạn nhận về: tiền thuê GPU/VPS đủ mạnh, thời gian dựng và vá, và trách nhiệm uptime. Bot CSKH chết lúc 10h tối là mất khách thật. Với một con bot lượng tin vừa phải, trả API model tốt thường rẻ hơn tổng chi phí tự host — cho đến khi quy mô đủ lớn hoặc yêu cầu riêng tư đủ ngặt thì cán cân mới lật.

Vậy khung quyết định của tôi là gì

Tôi không đổi cả hệ thống. Tôi chia bài toán ra:

  • Việc dễ, lượng lớn (phân loại tin, trả FAQ, tóm tắt hội thoại): cho model rẻ làm. Sai cũng ít hại, mà tiết kiệm cộng dồn rõ.
  • Việc khó, ít lượng (quyết định gọi tool, xử lý khiếu nại, ranh giới nhường người): giữ model mạnh. Đây là chỗ một lỗi = mất khách.
  • Tự host: chỉ tính đến khi lượng tin đủ lớn để token thành khoản lớn thật, hoặc khách bắt buộc dữ liệu không được rời máy. Còn lại, API là lựa chọn tỉnh táo.

Cách này gọi là định tuyến theo model — không cưới một model, mà chọn đúng model cho đúng việc. Tin tuần này không bảo bạn "bỏ model Mỹ". Nó cho bạn một đòn bẩy thương lượng: giờ bạn có lựa chọn rẻ thật sự đủ tốt, nên hãy dùng nó ở nơi nó thắng, và đừng trả giá cao theo quán tính.

Cái bẫy duy nhất cần tránh: đổi model vì một dòng tin, không vì một con số đo trên chính khách của bạn. Trước khi đổi bất cứ thứ gì, hãy lấy 30–50 hội thoại thật, cho cả hai model chạy, rồi tự chấm. Bảng xếp hạng của người khác không trả lời được câu hỏi của bạn.

Chọn model là một quyết định kiến trúc — và kiến trúc là phần tách "con bot demo" khỏi "con bot bán được tiền hằng tháng". Đó đúng là thứ tôi dạy từ con bot đầu tiên trong mini-course miễn phí: dựng cho chạy đúng trước, rồi mới tối ưu cho rẻ.


Nguồn tham khảo (qua bản tin AI nội bộ tôi theo dõi hằng ngày): leoveanu.com (06.06.2026, HN 132/190), the-decoder.com (08.06.2026). Chỉ số benchmark 57 vs 58 là con số tác giả bài gốc nêu, chưa kiểm chứng độc lập.

Nhận bài thực chiến qua email

Mỗi tuần một bài về cách đưa AI vào doanh nghiệp thật. Miễn phí, huỷ bất cứ lúc nào.