Kiến trúc mạng Gonka: Sprint, Transfer Agents, DiLoCo

Gonka không chỉ là 'GPU trong đám mây'. Đây là một mạng lưới blockchain hoàn chỉnh với đồng thuận riêng, xác minh tính toán và đào tạo phân tán. Hãy cùng xem xét các thành phần chính.

Transfer Agents: cổng giữa client và GPU

Transfer Agents – thành phần then chốt của kiến trúc Gonka, đóng vai trò là cổng thông minh giữa khách hàng và ML-node. Khi người dùng gửi yêu cầu AI, nó không được chuyển trực tiếp đến GPU, mà đến Transfer Agent – một node trung gian chuyên biệt, quyết định GPU nào sẽ xử lý yêu cầu này.

Quá trình diễn ra như sau: khách hàng thực hiện một yêu cầu POST /v1/chat/completions tiêu chuẩn thông qua API tương thích với OpenAI. Transfer Agent kiểm tra chữ ký mật mã của yêu cầu, xác định mô hình cần thiết và tìm một ML-node trống với các đặc tính phù hợp. Mỗi ML-node khi đăng ký công bố các tham số của nó: các mô hình nó hỗ trợ, dung lượng VRAM, băng thông hiện tại và tải. Transfer Agent sử dụng dữ liệu này để cân bằng tải – các tác vụ được phân phối đồng đều, chứ không tích tụ trên một node.

Để đảm bảo khả năng chịu lỗi, nhiều Transfer Agents hoạt động đồng thời trong mạng. Nếu một trong số chúng gặp sự cố – khách hàng tự động chuyển sang Transfer Agent khác. Mỗi Transfer Agent công bố địa chỉ của nó thông qua điểm cuối /v1/identity, cho phép các node và khách hàng tự động phát hiện lẫn nhau. Transfer Agents cũng quản lý hàng đợi yêu cầu: nếu tất cả các node đều bận, yêu cầu sẽ được xếp vào hàng đợi với ưu tiên dựa trên phí. Đây là một kiến trúc gợi nhớ CDN, nhưng dành cho các tính toán AI – phân tán, có khả năng chịu lỗi và không có một điểm kiểm soát duy nhất.

Sprint: đồng thuận thông qua suy luận thực tế

Sprint là Transformer PoW 2.0, một sự đồng thuận độc đáo của Gonka, khác biệt cơ bản so với tất cả các giao thức blockchain hiện có. Trong Bitcoin, các thợ đào tiêu tốn 26 GW điện năng để tính toán các băm SHA-256 vô nghĩa — mục đích duy nhất của chúng là chứng minh rằng năng lượng đã được tiêu thụ. Trong Ethereum Proof of Stake hoàn toàn từ bỏ công việc tính toán — các validator chỉ khóa token, hy sinh tính phân cấp để đổi lấy hiệu quả năng lượng. Sprint đưa ra một con đường thứ ba.

Trong Sprint, mỗi phép tính là một yêu cầu AI thực tế. Người dùng gửi một lời nhắc “viết một hàm Python” → GPU tạo ra câu trả lời thông qua mạng thần kinh Qwen3-235B → suy luận này đồng thời phục vụ người dùng và xác nhận khối trong blockchain. Kết quả: 99% tài nguyên mạng được sử dụng cho công việc hữu ích (suy luận AI), và chỉ 1% — để đảm bảo an ninh mã hóa. Để so sánh: trong Bitcoin, 100% năng lượng được sử dụng cho an ninh, 0% — cho công việc hữu ích.

Hoạt động của mạng được tổ chức theo các kỷ nguyên. Trong mỗi kỷ nguyên, Transfer Agents phân phối các tác vụ AI giữa các ML-node. Khi kỷ nguyên kết thúc, một khối được hình thành, chứa bằng chứng về công việc đã hoàn thành. Phần thưởng được phân phối tỷ lệ thuận với đóng góp của mỗi node — GPU càng xử lý nhiều yêu cầu, nó càng nhận được nhiều GNK. Điều này tạo ra một động lực thị trường: các host cạnh tranh để thực hiện các tác vụ, tối ưu hóa hiệu suất và giảm chi phí suy luận cho người dùng.

DiLoCo: huấn luyện mô hình phân tán

DiLoCo — công nghệ đào tạo phân tán mô hình AI giải quyết một vấn đề cơ bản: làm thế nào để đào tạo mạng thần kinh trên hàng tỷ tham số khi GPU nằm ở các quốc gia khác nhau và được kết nối bằng Internet thông thường, chứ không phải NVLink tốc độ cao trong một trung tâm dữ liệu?

Cách tiếp cận đào tạo truyền thống đòi hỏi sự đồng bộ hóa các tham số sau mỗi bước — điều này chỉ có thể thực hiện được với tốc độ kết nối hàng trăm gigabit/giây, tức là bên trong một cụm NVIDIA. DiLoCo tái định nghĩa quy trình: các node đồng bộ hóa tham số khoảng 1000 bước một lần, chứ không phải sau mỗi bước. Giữa các lần đồng bộ hóa, mỗi node tự đào tạo cục bộ trên tập dữ liệu con của riêng mình. Điều này làm giảm yêu cầu về băng thông ba bậc, giúp việc đào tạo qua Internet gần như có thể thực hiện được.

Tối ưu hóa hoạt động trên hai cấp độ: cục bộ, mỗi node sử dụng AdamW — một bộ tối ưu hóa tiêu chuẩn cho các bộ biến đổi. Toàn cầu, khi đồng bộ hóa, động lượng Nesterov được áp dụng — một thuật toán "dự đoán" hướng cập nhật và tăng tốc độ hội tụ. Kết quả: các mô hình có 30–50 tỷ tham số có thể được đào tạo trên các cụm 8xH100, phân tán trên khắp hành tinh, mà không cần máy chủ trung tâm. Để so sánh: đào tạo GPT-4 yêu cầu hàng nghìn GPU trong một trung tâm dữ liệu duy nhất với khoản đầu tư hàng tỷ đô la. DiLoCo có khả năng cho phép đạt được kết quả tương đương trên cơ sở hạ tầng phân tán Gonka.

Tại sao điều này lại quan trọng? Đào tạo là phần tốn kém nhất của AI. Các công ty như OpenAI chi hàng trăm triệu cho một chu kỳ đào tạo. DiLoCo cho phép Gonka theo thời gian đào tạo các mô hình của riêng mình bằng sức mạnh của mạng — mà không cần xây dựng trung tâm dữ liệu trị giá hàng tỷ. Điều này làm cho Gonka không chỉ là một mạng suy luận, mà là một nền tảng AI đầy đủ với tích hợp dọc.

PoC V2: xác minh tính trung thực của các node

PoC V2 – cơ chế xác minh đảm bảo rằng mỗi ML-node thực sự đã thực hiện phép tính, chứ không phải trả về dữ liệu rác ngẫu nhiên. Điều này vô cùng quan trọng: nếu không có xác minh, kẻ tấn công có thể đăng ký một "node" trả về các câu trả lời giả mạo và nhận thưởng mà không tốn một watt GPU nào.

Cơ chế hoạt động thông qua kiểm tra chéo. Mạng ngẫu nhiên chọn 1–10% tác vụ và gửi chúng để một node khác thực hiện lại. Nếu kết quả khớp – cả hai node đều nhận được phần thưởng. Nếu kết quả không khớp – một quy trình trọng tài (tranh chấp) bắt đầu. Node thua cuộc sẽ mất 20% tiền đặt cọc (stake), số tiền này được phân phối cho những người tham gia trung thực. Hình phạt này khiến việc gian lận không có lợi về kinh tế: lợi nhuận tiềm năng từ các câu trả lời giả mạo ít hơn đáng kể so với rủi ro mất tiền đặt cọc.

Tốc độ xác minh được đảm bảo bởi BLS-chữ ký – một nguyên thủy mật mã cho phép tổng hợp nhiều chữ ký thành một và xác minh nó trong vòng chưa đầy 10 mili giây. Điều này có nghĩa là việc kiểm tra tính trung thực không làm chậm hoạt động của mạng – người dùng nhận được câu trả lời mà không bị chậm trễ, và việc xác minh diễn ra song song.

Đối với các tác vụ đào tạo mô hình (thông qua DiLoCo), một cơ chế bổ sung được sử dụng – Proof-of-Learning. Mỗi node ghi lại các hàm băm trọng số mô hình và trạng thái của bộ tối ưu hóa tại mỗi checkpoint vào blockchain. Điều này tạo ra một dấu vết kiểm toán bất biến: bất kỳ ai cũng có thể kiểm tra xem việc đào tạo có thực sự diễn ra hay không, và các trọng số không bị thay đổi. Việc xác minh hai cấp độ này – PoC V2 cho suy luận, Proof-of-Learning cho đào tạo – khiến Gonka trở thành một trong những mạng AI phi tập trung an toàn nhất, đã vượt qua kiểm toán của CertiK.

Gonka là một hạ tầng blockchain đầy đủ: Transfer Agents định tuyến các yêu cầu, Sprint kết hợp đồng thuận với suy luận AI, DiLoCo đào tạo các mô hình phân tán, và PoC V2 đảm bảo tính trung thực.

Nhà phát triển: Cách kiếm GNK →

Muốn tìm hiểu thêm?

Khám phá các phần khác hoặc bắt đầu kiếm GNK ngay bây giờ.

Thử AI thông qua Gonka →