Tự host LLM để giữ data on-prem — khi nào đáng, khi nào là tự hành xác

Tuần này có một bức ảnh viral trong giới kỹ thuật: một anh nhét con Tesla V100 16GB mua secondhand vào case PC gaming, rồi chạy Llama 3 70B ngay trên bàn làm việc. 273 điểm Hacker News, 167 bình luận kỹ thuật (blog.tymscar.com, qua bản tin AI nội bộ tôi theo dõi, 01.06.2026).

Cùng tuần, một loạt AI workspace tự host lên top: Odysseus — kiểu "Notion + ChatGPT + RAG" cắm thẳng Ollama, và họ hàng cũ là AnythingLLM, Open WebUI. Thông điệp ngầm rất hấp dẫn cho DN Việt: bạn có thể có một con AI riêng, chạy trên máy của mình, dữ liệu khách không bao giờ rời khỏi cửa.

Tôi đang tự host thật trên VPS để chạy một bot CSKH. Nên tôi xin nói thẳng phần mà các bài hướng dẫn lắp GPU không kể: tự host không phải mẹo tiết kiệm cuối tuần. Nó là một quyết định kiến trúc — chọn sai, bạn đổi một hóa đơn rõ ràng lấy một mớ trách nhiệm mờ.

Tóm tắt cho người bận

Phần cứng giờ rẻ thật: GPU datacenter cũ (V100 16GB) đủ chạy model mở cỡ 70B Q4 local. Rào cản kỹ thuật của tự host đã thấp hơn nhiều so với một năm trước.
Lý do thật để tự host không phải tiết kiệm token — mà là giữ data on-prem: với spa, phòng khám, kế toán, dữ liệu khách là thông tin cá nhân nhạy cảm, và PDPL 2025 đang siết.
Cái giá bạn nhận về không nằm trên hóa đơn: tiền GPU/điện, thời gian dựng-vá, và trách nhiệm uptime — bot chết lúc 10h tối là mất khách thật.
Khung của tôi: gọi API là mặc định tỉnh táo; tự host chỉ đáng khi luật hoặc hợp đồng bắt data không được rời máy, hoặc quy mô đủ lớn để cán cân lật.

Tự host giải đúng bài toán nào

Đừng tự host vì nó "ngầu" hay vì ghét trả tiền theo token. Tự host giải đúng một bài toán: dữ liệu nhạy cảm không được rời hạ tầng bạn kiểm soát.

Với khách của tôi — spa, phòng khám — đây không trừu tượng. Bot đọc tin nhắn khách cả ngày: số điện thoại, lịch sử dịch vụ, có khi cả tình trạng sức khỏe. Khi bạn gọi API của một hãng nước ngoài, dữ liệu đó đi qua máy chủ người khác. Với PDPL 2025 (Luật Bảo vệ dữ liệu cá nhân) đang siết chuyện chuyển dữ liệu cá nhân ra ngoài, có những khách sẽ hỏi thẳng: "dữ liệu của tôi có rời khỏi Việt Nam không?" Lúc đó "chúng tôi tự host, data nằm trên máy chủ trong nước" là một câu bán hàng có giá trị thật.

Còn nếu khách bạn không có ràng buộc đó, và bạn tự host chỉ để tiết kiệm — bạn đang trả lời nhầm câu hỏi.

Góc builder: kiến trúc tự host thật ra gồm gì

Bài báo khoe chạy Llama 3 70B trên V100 chỉ là một mảnh của hệ thống. Chạy được model trong terminal khác xa với "có một sản phẩm AI tự host bán được". Một stack tự host tối thiểu cho DN gồm bốn lớp, và mỗi lớp là một việc thật:

1. Lớp suy luận (inference) — nơi model chạy. Đây là phần các bài hướng dẫn tập trung: Ollama hoặc vLLM nạp model mở, GPU lo phần tính. Phần này giờ dễ nhất. Nhưng nhớ: 16GB VRAM ép bạn dùng bản lượng tử hóa (Q4) của model 70B — nhẹ đi nghĩa là mất một phần độ chính xác. Với việc tool use đòi gọi đúng công cụ đúng tham số, cái mất đó có thể đắt.

2. Lớp tri thức (RAG) — nơi AI biết về doanh nghiệp bạn. Đây là chỗ Odysseus / AnythingLLM ghi điểm: chúng gói sẵn vector store + cơ chế nạp tài liệu, để model trả lời dựa trên bảng giá, quy trình, FAQ của bạn. Đây mới là phần tạo ra giá trị — model trần không biết spa của bạn bán gì. Và đây cũng là phần bạn phải tự bảo trì khi tài liệu thay đổi.

3. Lớp điều phối (orchestration) — vòng lặp agent + tool use. Phần khó nhất, và phần các AI workspace dựng sẵn không làm thay bạn được: logic khi nào tra giá, khi nào đặt lịch, khi nào im lặng nhường người thật. Một workspace tự host cho bạn cái khung chat, không cho bạn con bot biết việc.

4. Lớp vận hành — phần vô hình ngốn người nhất. Uptime, backup, vá lỗi, giám sát khi GPU treo, xử lý khi model nạp lỗi. Trên VPS thật tôi học được rằng đây mới là khoản chi thật của tự host: không phải tiền, mà là sự chú ý của bạn. Hãng API trả tiền cho cả một đội SRE lo việc này; tự host nghĩa là cái đội đó là bạn.

Ai hợp tự host, ai nên tránh xa

Sau khi ngồi với cả hai con đường, đây là cách tôi chia:

Hợp tự host:

DN có ràng buộc pháp lý/hợp đồng rõ ràng về dữ liệu không được rời máy (y tế, tài chính, khách tổ chức yêu cầu).
Lượng tin đủ lớn để hóa đơn token API thành khoản đáng kể hằng tháng.
Có người thật chịu trách nhiệm vận hành — không phải bạn kiêm thêm lúc nửa đêm.

Nên tránh xa (cứ gọi API đi):

Bot nhỏ, lượng tin vừa phải — API model tốt gần như luôn rẻ hơn tổng chi phí tự host khi tính cả công.
Đội một người, chưa có quy trình backup/giám sát — tự host là cách nhanh nhất để có một sản phẩm chết lúc bạn đang ngủ.
Tự host chỉ để "tiết kiệm token" mà chưa làm caching ở phía API — bạn đang dọn nhà nhầm phòng.

Có một con đường giữa mà tôi thấy ít người nói: tự host trên VPS có GPU thuê theo giờ trong nước, thay vì mua GPU đặt ở văn phòng. Bạn vẫn giữ được câu chuyện "data trên máy chủ tôi kiểm soát, trong nước", nhưng không ôm cục tài sản phần cứng và rủi ro hỏng hóc. Đó là chỗ tôi đang đứng — và nó là sự dung hòa tỉnh táo hơn cả "gọi API hãng ngoại" lẫn "đút V100 vào case".

Vậy nên làm gì tuần này

Đừng đi mua GPU vì một bức ảnh viral. Hãy hỏi đúng một câu trước: khách của tôi có yêu cầu data không được rời máy không?

Nếu không — gọi API, tập trung vào sản phẩm. Tự host lúc này là tự hành xác.
Nếu có — thì tự host không còn là lựa chọn cho vui, nó là yêu cầu. Lúc đó bắt đầu từ lớp 4 (vận hành) ngược lên, không phải từ lớp 1 (mua GPU) xuôi xuống.

Tự host hay gọi API đều là quyết định kiến trúc — và kiến trúc là phần tách "con bot demo nghịch cuối tuần" khỏi "con bot bán được tiền hằng tháng". Đó đúng là thứ tôi dạy từ con bot đầu tiên trong mini-course miễn phí: dựng cho chạy đúng và đặt đúng chỗ trước, rồi mới tính chuyện đưa nó về nhà mình.

Nguồn tham khảo (qua bản tin AI nội bộ tôi theo dõi hằng ngày): blog.tymscar.com (01.06.2026, HN 273), github.com/.../odysseus (HN 105) — cùng họ với AnythingLLM, Open WebUI. PDPL 2025 = Luật Bảo vệ dữ liệu cá nhân Việt Nam.

Tự host LLM để giữ data on-prem — khi nào đáng, khi nào là tự hành xác

Tóm tắt cho người bận

Tự host giải đúng bài toán nào

Góc builder: kiến trúc tự host thật ra gồm gì

Ai hợp tự host, ai nên tránh xa

Vậy nên làm gì tuần này

Cùng danh mục · Công cụ & kỹ thuật

"Search as Code": để model tự viết pipeline tra cứu — builder Việt nên mừng hay nên dè?

Coding agent — một builder làm được khối lượng của cả team (và cái bẫy đi kèm)

Multi-agent orchestration — khi nào builder VN nên dùng, khi nào là hố token

Nhận bài thực chiến qua email