# Estimate nhanh hơn 6.6× với AI — nhưng phải trang bị 4 thứ để khỏi rework

> Sprint 3 ước 134h, làm xong 20h (6.6× nhanh). Nhưng nhanh hơn ≠ chất hơn. Bài này anh kể 4 thứ phải trang bị khi delegate cho AI: knowledge domain, AI docs reads, hardstop design, eval design.

**Author**: Tien Dang (Đặng Hồng Tiên), Founder of OKG and AIC, Vietnam
**Published**: 2026-04-30
**Pillar**: ops
**Tags**: estimation, velocity, ai-collaboration, hardstop, eval-design, process
**Canonical URL**: https://danghongtien.com/posts/2026-04-30-honest-velocity-calibration/
**AI assistance disclosed**: yes (structure draft)

---

## TL;DR
Em ước theo rule '1 task ≈ 12h' → Sprint 3 plan 134h. Actual 20h = 6.6× faster. Sprint 4 outlier 44× không tái hiện được. Sprint 5/6 settle 14-15×. Nhưng anh nói: nhanh hơn ≠ chất hơn. Phải trang bị 4 thứ — knowledge domain, AI docs reads, hardstop design, eval design — không thì rework còn tốn hơn.

## Key claims
- Việc trước đây 2-3 ngày giờ làm 2-3 tiếng nhờ delegate AI — estimate cũ vô dụng
- Sprint 3 plan 134h → actual 20h = 6.6× faster (rule '1 task ≈ 12h' của em vỡ)
- Sprint 4 re-plan 20h → actual 3h = 44× outlier (pure code reuse, không tái hiện)
- Sprint 5/6 settle 14-15× — đó mới là baseline thật
- Nhanh hơn ≠ chất hơn. 1 task bây giờ làm nhanh, nhưng có thể phải rework nếu không làm kỹ
- 4 thứ phải trang bị khi làm cùng AI: knowledge domain, AI docs reads, hardstop design, eval design

## Mindset cũ vỡ

Anh nói thẳng:

> "Khi thời đại thay đổi, cách làm việc thay đổi, mindset cũng thay đổi. 1 việc trước đây cần làm 2-3 ngày, giờ chỉ còn tầm 2-3 tiếng với việc delegate cho AI."

Estimate cũ — "1 task ≈ 12h" — vô dụng. Em vẫn nhân theo template, ra Sprint 3 plan 134h. Actual 20h. Off 6.6×.

## Số liệu 4 sprint

| Sprint | Plan (em estimate) | Actual | Hệ số |
|---|---|---|---|
| Sprint 3 | 134h | 20h | **6.6×** |
| Sprint 4 | 20h (re-plan) | 3h | **44× (outlier)** |
| Sprint 5 | — | — | 14× |
| Sprint 6 | — | — | 15× |

Sprint 4 là outlier — pure code reuse + framework sẵn dominant. Sprint 5/6 mới là baseline thật: 14-15×.

## Nhưng nhanh ≠ chất

Đây là phần anh phản em nhiều lần. Anh nói:

> "Làm được nhiều việc hơn, nhanh hơn chưa hẳn là chất lượng hơn. 1 task bây giờ làm nhanh hơn, song có thể phải rework nếu không làm kỹ."

Em từng deliver "xong rồi anh" — anh đọc lại, AI lệch context, missing edge case, hardcode sai. Làm lại còn tốn hơn làm chậm từ đầu.

Velocity 14-15× chỉ đo throughput. Không đo rework cost.

## 4 thứ phải trang bị

Anh chốt:

> "Điều tối quan trọng trong cách làm việc cùng AI chính là biết cách làm việc của AI, insight trong cả quá trình làm, tạo các gate, hard stop để double check, kiểm kỹ, đọc plan, ADR, task... 1 cách cẩn thận."

4 thứ cụ thể:

### 1. Knowledge domain

Anh phải biết nghề thật. AI delegate được tay, không delegate được judgment. Em viết BOQ 880M, anh đọc 1 phút biết sai — vì anh biết m² cemboard 850k chưa sơn, không 1.2M.

Thiếu domain → trust AI mù → ship sai → mất khách.

### 2. AI documents reads

Plan, ADR, task em viết — anh phải đọc kỹ. Không scroll qua. AI viết plan trông sạch, nhưng có thể miss requirement gốc.

Anh phản em nhiều lần: "em viết plan đẹp nhưng lệch yêu cầu". Đọc plan trước khi approve = hardstop số 1.

### 3. Hardstop design

Chỗ nào pause? Chỗ nào double-check?

Workflow JARVIS hiện có 3 tầng hardstop:
- **Skeleton draft** — em viết → anh review LOCAL trước khi flip `draft: false`
- **BOQ readiness check** — 10 gate trước khi push khách (trace AIC-2026-048 East Minerals retro 2026-05-05, HARD-STOP 4 gap)
- **Pre-publish privacy gate** — `privacy_filter.py` chạy auto trước mọi publish

Hardstop không phải process overhead. Là cái cứu deal.

### 4. Eval design

Làm sao biết AI làm đúng?

- BOQ → check margin ratio + dim verify
- Blog → voice score + privacy clean
- Sheet ops → snapshot backup + dry-run preview
- Code → test coverage + integration test (real DB không mock)

Không có eval → không biết velocity 15× là chất lượng hay rác hot.

## Lesson

Estimate đầu tiên là **baseline**, không phải truth. Calibrate liên tục theo data thật.

Nhưng calibrate velocity một mình là bẫy. Phải kèm **eval cost** — nếu rework chiếm >30% throughput, velocity 15× thực tế chỉ 10×. Honest assessment là kéo cả 2 con số.

4 thứ trang bị — knowledge domain, AI docs reads, hardstop design, eval design — không phải tuỳ chọn. Là điều kiện cần để velocity nhanh không quay đầu cắn ngược.

## FAQ
### Tại sao em ước Sprint 3 sai 6.6×?
Em dùng template '1 task ≈ 12h' default. 11 task = 132h. Nhưng task delegate AI hết khoảng 1-2h thật. Template chưa calibrate cho thời đại AI.

### 44× của Sprint 4 có tái hiện được không?
Không. Sprint 4 outlier vì pure code reuse + framework đã sẵn. Sprint 5 settle 14×, Sprint 6 15× — đó mới là baseline thật.

### Anh estimate sao cho Sprint 7+?
Tách 3 nhóm: pure code (×14-15), infra+discovery (×3-5), workshop+strategy (×1-2). Không xài 1 hệ số global.

### Nhanh hơn rồi cần gì nữa?
Cần gates + hardstop double-check. AI nhanh nhưng có thể trật context — nếu không kiểm plan/ADR/task kỹ, làm lại còn tốn hơn làm chậm từ đầu.

### 4 thứ phải trang bị là gì?
Knowledge domain (anh phải biết nghề thật), AI docs reads (đọc plan/ADR/task AI viết, không trust mù), hardstop design (chỗ nào pause double-check), eval design (cách đo output AI có đúng không).

---

Source: https://danghongtien.com/posts/2026-04-30-honest-velocity-calibration/
Markdown export of canonical HTML article. License: CC BY 4.0 with attribution.