Field note

Chúng tôi mã nguồn mở Kite: framework agent cho production, coi LLM là thành phần không đáng tin

Thien Nguyen · Jun 30, 2026

Năm 2026 ai cũng có một bản demo agent. Nhưng rất ít đội có agent dám đặt trước mặt một khách hàng trả tiền, một auditor, hay một bệnh nhân. Khoảng cách giữa "chạy được trong notebook" và "chạy đúng mọi lần, an toàn, và giải thích được nó đã làm gì" là nơi đa số dự án agent lặng lẽ chết, và đó chính là khoảng cách chúng tôi xây Kite để khép lại.

Chúng tôi vừa mã nguồn mở nó: github.com/beevr-labs/Kite. Viết bằng Python, giấy phép MIT, và chỉ cách bạn một câu lệnh pip install kite-agent. Đây là bài viết thành thật về lý do nó tồn tại và những gì chúng tôi học được.

Vấn đề Kite giải quyết

Chúng tôi làm phần mềm production cho các ngành chịu quản lý chặt, nên cứ va vào cùng một bức tường: các framework agent phổ biến rất tốt cho bản prototype nhưng rất mệt khi lên production. Để có agent đầu tiên chạy được trong LangChain hay AutoGen đã là cả một dự án cấu hình, và khi xong rồi bạn vẫn phải tự gắn thêm những phần thực sự quan trọng lúc chạy thật: guardrail, retry, idempotency, observability, đánh giá. Chúng tôi cứ dựng đi dựng lại đúng bộ khung đó cho từng khách hàng. Kite là framework mà giá như chúng tôi đã bắt đầu cùng: có quan điểm rõ ràng về an toàn, nhanh để có agent chạy, và đủ nhỏ để đọc hết.

Quyết định thiết kế gốc rễ: coi LLM là không đáng tin

Đây là ý tưởng cốt lõi. Trong Kite, mô hình đề xuất hành động, nó không tự thực thi. Một kernel được kiểm soát đứng giữa agent và thế giới thật, kiểm tra mọi hành động được đề xuất theo policy trước khi bất cứ điều gì chạy. Vì vậy khi agent quyết định gọi agent.run("rm -rf /"), kernel từ chối thay vì để ổ đĩa của bạn lãnh hậu quả.

Nghe thì đơn giản. Nhưng nó thay đổi hoàn toàn mức độ yên tâm khi bạn trao cho agent những công cụ thật. Mô hình trở thành một bộ lập kế hoạch mà bạn có thể nhốt trong hộp cát, chứ không phải một tiến trình cầm sẵn thông tin đăng nhập của bạn. Với bất kỳ ai chạy agent trên dữ liệu nhạy cảm hay hạ tầng thật, ranh giới đó là khác biệt giữa một bản demo và một thứ thực sự triển khai được.

Những gì có sẵn ngay

Năm mẫu suy luận (reasoning pattern), chọn theo từng agent: ReAct (nghĩ, làm, quan sát), ReWOO (lập kế hoạch trước rồi chạy các bước song song, Kite đo nhanh hơn khoảng 2 lần), Tree of Thoughts (khám phá nhiều hướng), Plan-Execute (chia nhỏ và lập lại kế hoạch khi thất bại), và Reflective (tạo, tự phê bình, cải thiện).
Các nguyên thủy an toàn cho production: circuit breaker chặn lỗi lan dây chuyền, kill switch (theo từng agent hoặc toàn cục) để dừng mọi thứ ngay khi cần, và idempotency gắn theo operation ID để một hành động bị retry không tính phí khách hàng hai lần.
Retrieval không phải đồ chơi: HyDE, lai BM25 cộng vector, khử trùng lặp MMR, và rerank.
A/B test prompt với khoảng tin cậy thống kê trên lưu lượng thật, vì "prompt mới thấy ổn hơn" không phải tiêu chí để triển khai.

Trông nó thế nào

Cách nhanh nhất là dùng bộ sinh. Mô tả agent, nhận về một file chạy được:

pip install kite-agent
export GROQ_API_KEY=your_key
kite generate "research assistant that searches and summarizes" --out agent.py
python agent.py

Hoặc dựng trực tiếp bằng Python và chọn mẫu suy luận:

from kite import Kite

ai = Kite()
agent = ai.create_agent(name="Bot", agent_type="react")
result = await agent.run("user request")

Theo số liệu của chính Kite, thời gian để có agent đầu tiên là dưới một phút (so với khoảng 30 phút cho LangChain và 20 phút cho AutoGen trong bài đo của họ) và thời gian khởi động nguội khoảng 50ms (so với khoảng 2s và 1s). Hãy xem đây là con số do nhóm tác giả tự đo, không phải kiểm toán độc lập, nhưng ý đồ thiết kế thì rõ: đưa bạn tới một agent an toàn, chạy được, thật nhanh.

Những gì chúng tôi học khi chạy agent trên production

Mô hình chỉ chiếm khoảng 10% công việc. 90% còn lại là công cụ, retry, guardrail, idempotency và đánh giá. Một mô hình tốt hơn không cứu bạn khỏi việc thiếu một cái kill switch.
Phần lớn "lỗi agent" thực ra là lỗi IO trá hình. Một công cụ chập chờn, một side effect bị lặp, một lần ghi dở dang. Observability và idempotency gần như luôn thắng việc tinh chỉnh prompt thêm một vòng.
Khung "thành phần không đáng tin" giúp bạn tự do, không phải gò bó. Khi kernel là cái nói có hay không, bạn thôi sợ trao cho agent những năng lực thật.

Vì sao chúng tôi mã nguồn mở

Trong một lĩnh vực đầy hộp đen, "bạn được đọc mã" là một lợi thế chứ không phải sự cho không. Chúng tôi xây AI production cho các ngành chịu quản lý, và cách chúng tôi giành niềm tin của một người mua kỹ thuật là để họ tự soi phần khó nhất trong stack của mình, thay vì tin vào một bài pitch.

Kite dùng giấy phép MIT và nằm ở github.com/beevr-labs/Kite. Hoan nghênh issue và PR. Nếu bạn đang xây AI cấp production hoặc ràng buộc tuân thủ và muốn một đối tác lo trọn 90% việc nhàm chán, đây là cách chúng tôi làm việc.

Bạn đang dùng gì để xây agent chạy production, và thứ gì cứ hỏng hoài? Tôi thật sự tò mò Kite sẽ giúp được và không giúp được ở đâu.

Làm việc với chúng tôi ← Tất cả bài viết