
Tôi đã miệt mài với việc lập trình bằng AI trong nhiều tháng, và khi Grok 4 ra mắt, tôi không thể cưỡng lại việc thử sức với Claude 4 Opus. Sử dụng cùng 15 tác vụ phức tạp liên quan đến race condition, deadlock và multi-file refactoring trong một cơ sở mã Rust khoảng 28 nghìn dòng mã, tôi đã so sánh chúng với nhau.

Tóm lại là gì? Grok 4 là một công cụ mạnh mẽ để xác định các lỗi phức tạp, khó tìm như deadlock trong một tokiodự án Rust bất đồng bộ phức tạp. Nó rẻ hơn đáng kể trên mỗi tác vụ nhưng đôi khi có thể bỏ qua các hướng dẫn tùy chỉnh. Claude 4 Opus, tuy đắt hơn, nhưng lại dễ sử dụng và đáng tin cậy hơn, đặc biệt là khi bạn cần nó tuân theo các quy tắc cụ thể.
Lưu ý: Grok có mức giới hạn tỷ lệ thấp đến mức khó chịu.
Phương pháp thử nghiệm và thiết lập kỹ thuật
Tôi đã thử nghiệm cả hai mô hình này trong các dự án Rust thực tế mà tôi đang thực hiện, tập trung vào những thứ thực sự quan trọng với tôi: tìm lỗi, dọn dẹp mã và sử dụng công cụ đúng cách. Cả hai đều có cùng một lời nhắc để đảm bảo công bằng.

Trải nghiệm Grok 4 trên Forge ngay hôm nay! So sánh tốc độ và khả năng săn lỗi của nó với Claude 4 Opus. Đăng ký Forge ngay !
Thông số kỹ thuật môi trường thử nghiệm
Cấu hình phần cứng:
MacBook Pro M2 Pro, RAM 16GB
Mạng: Kết nối 500Mbps
Môi trường phát triển: VS Code, với Forge chạy trên Terminal tích hợp để tương tác với AI
Cấu hình API:
Thông số kỹ thuật của nhiệm vụ:
15 nhiệm vụ liên quan đến các vấn đề đồng thời, tái cấu trúc mã và sửa lỗi
Hỗn hợp các ngữ cảnh nhỏ (dưới 128 nghìn mã thông báo) và ngữ cảnh lớn hơn lên đến 200 nghìn mã thông báo
Quy tắc tùy chỉnh cho các mẫu thiết kế, sử dụng thư viện và sử dụng các khẳng định Pretty trong các bài kiểm tra, v.v.
Cửa sổ ngữ cảnh: 200.000 mã thông báo
Chi phí đầu vào: ~$15/1 triệu token
Chi phí đầu ra: ~$75/1 triệu token
Gọi công cụ: Hỗ trợ gốc
Cửa sổ ngữ cảnh: 128.000 mã thông báo (có hiệu lực, với chi phí tăng gấp đôi)
Chi phí đầu vào: ~$3/1 triệu token (tăng gấp đôi sau 128 nghìn)
Chi phí đầu ra: ~$15/1 triệu token (gấp đôi sau 128 nghìn)
Gọi công cụ: Hỗ trợ gốc

Hình 1: So sánh tốc độ và chi phí giữa 15 nhiệm vụ
Phân tích hiệu suất: Kết quả định lượng
Số liệu thực hiện
Hệ métClaude 4 OpusGrok 4Ghi chúThời gian phản hồi trung bình13–24 giây9–15 tuổiGrok nhanh hơn gấp 2 lần cho mỗi yêu cầuThành công chỉ với một lời nhắc8/159/15Cả hai đều đạt 15/15 sau khi theo dõiChi phí trung bình cho mỗi nhiệm vụ13 đô la Mỹ4,5 đô la MỹGrok rẻ hơn cho các bối cảnh nhỏĐộ chính xác của công cụ gọi~99% (1614/1630)~99% (1785/1803)Gần như hoàn hảo cho cả haiĐộ chính xác khi gọi công cụ XML83%78%Opus tốt hơn một chútPhát hiện lỗiBỏ lỡ điều kiện đua/bế tắcĐã phát hiện tất cảGrok mạnh hơn trong đồng thờiTuân thủ quy tắcXuất sắcTốt (bị bỏ qua trong 2/15)Opus tuân thủ các quy tắc tùy chỉnh tốt hơn
Mẫu thử nghiệm : 15 nhiệm vụ, lặp lại 3 lần để đảm bảo tính nhất quán
Mức độ tin cậy : Cao, dựa trên xác minh thủ công
Tốc độ và hiệu quả: Grok's Edge với một cú bắt bóng

Grok 4 nhanh hơn hẳn, 9-15 giây so với 13-24 giây của Opus. Điều này khiến các lần lặp lại nhanh chóng trở nên mượt mà hơn nhiều. Nhưng sau đó, tôi cứ liên tục chạm đến giới hạn tốc độ của xAI sau mỗi vài yêu cầu. Nó biến phiên thử nghiệm đáng lẽ chỉ nhanh chóng thành một cơn ác mộng dừng lại và chờ đợi. Tôi thậm chí còn không thể có được dữ liệu thời gian rõ ràng vì liên tục bị bóp băng thông.
Phân tích chi phí: Tiết kiệm theo quy mô...

Grok 4 có giá trung bình 4,50 đô la cho mỗi nhiệm vụ, trong khi Opus là 13 đô la. Đây là một lợi thế lớn cho các nhiệm vụ nhỏ. Tuy nhiên, giá của Grok tăng gấp đôi sau khi đạt 128 nghìn token. Giá của Opus vẫn giữ nguyên.
Cấu trúc giá của Grok trông như thế này trong thực tế:

Hình 3: Giá chuẩn Grok 4 cho các bối cảnh dưới 128 nghìn mã thông báo
Khi bạn bật "giá ngữ cảnh cao hơn" (tự động áp dụng cho ngữ cảnh lớn hơn), chi phí sẽ tăng gấp đôi:

Hình 4: Giá Grok 4 cho các ngữ cảnh trên 128 nghìn mã thông báo - lưu ý mức giá gấp đôi
Độ chính xác và khả năng: Nơi Grok tỏa sáng (và trượt dốc)

Grok 4 đã gây ấn tượng với tôi khi phát hiện ra một deadlock trong thiết lập dựa trên tokio::RwLock mà Opus hoàn toàn bỏ sót. Trong một tác vụ, Grok đã phát hiện ra một lỗi drop luồng tinh vi khiến panic hook không thể thực thi trong khối bất đồng bộ Rust. Opus đã bỏ qua một lỗi.
Cả hai đều đạt độ chính xác 99% khi gọi công cụ, gần như lúc nào cũng chọn đúng công cụ với các đối số hợp lệ. Việc chuyển sang thiết lập dựa trên XML đã làm giảm độ chính xác: Opus đạt 83%, Grok đạt 78%. Khá ổn, nhưng chưa hoàn hảo.
Việc tuân thủ quy tắc mới là điều thú vị. Các quy tắc tùy chỉnh của tôi (được tinh chỉnh trong nhiều tháng bằng bảng điều khiển eval của Anthropic) hoạt động hoàn hảo với Opus. Grok đã bỏ qua chúng hai lần trong số 15 tác vụ. Có thể là do tôi đã tối ưu hóa các quy tắc này dành riêng cho các mô hình Claude, nhưng nó vẫn làm gián đoạn luồng công việc của tôi khi xảy ra sự cố.
Về khả năng hoàn thành chỉ với một yêu cầu, Grok nhỉnh hơn với 9/15 so với 8/15 của Opus. Với hướng dẫn tiếp theo, cả hai đều hoàn thành xuất sắc mọi nhiệm vụ, cho thấy cả hai đều có năng lực, nhưng Grok có thể "làm" nhanh hơn ngay từ đầu.
Sự thất vọng và những hệ lụy trong thế giới thực

Việc giới hạn tốc độ trên Grok thật sự rất khó chịu. Tôi gửi yêu cầu, nhận được phản hồi tốt, rồi lại gặp bế tắc trong vài phút tiếp theo. Nó hoàn toàn phá hỏng động lực thử nghiệm của tôi.
Về mặt hành vi mô hình, Opus tỏ ra "ngoan ngoãn" hơn, tuân thủ nghiêm ngặt các quy tắc mà không hề thay đổi. Grok thì táo bạo hơn, đôi khi bỏ qua các ràng buộc để tìm ra cách tiếp cận tốt hơn. Sự sáng tạo đó giúp ích cho việc tìm lỗi nhưng có thể dẫn đến việc vượt phạm vi trong môi trường làm việc nhóm.
Phần kết luận
Sau tất cả những điều này, tôi nghiêng về Grok 4 cho các tác vụ phức tạp chỉ vì tiết kiệm chi phí và tốc độ, cộng thêm khả năng phát hiện lỗi cực nhanh. Nó hoàn thành nhiều tác vụ hơn ngay lần thử đầu tiên và chạy rẻ hơn, ngay cả khi giới hạn tốc độ khiến tôi phát điên. Opus đáng tin cậy và tuân thủ các quy tắc một cách nhất quán, khiến nó trở thành lựa chọn an toàn hơn khi bạn cần kết quả có thể dự đoán được và không muốn gặp bất ngờ.
Cuối cùng, giá trị của Grok 4 đã thuyết phục tôi về nhu cầu cụ thể của mình, nhưng chắc chắn bạn nên tự mình trải nghiệm cả hai. Mỗi cái đều có điểm mạnh riêng tùy thuộc vào mục đích xây dựng của bạn.
Nguồn: dev.to