Phân tích sự bất thường ngắn hạn liên tiếp trong hai đêm của lớp nhận thức chung Ethereum
Gần đây, lớp nhận thức chung của Ethereum đã xuất hiện sự cố tạm thời, gây ra sự quan tâm rộng rãi trong ngành. Bài viết này sẽ tiến hành phân tích sâu về sự kiện này.
Tóm tắt sự kiện
Vào các tối 11 và 12 tháng 5, lớp nhận thức chung của Ethereum đã xuất hiện sự cố tạm thời. Phân tích cho thấy, điều này chủ yếu do một số nút khách hàng lớp nhận thức chung của Ethereum bị quá tải, dẫn đến nút xác thực (Validator) bị ngừng hoạt động và ngoại tuyến. Điều này đã trực tiếp ảnh hưởng đến việc bỏ phiếu Epoch, khiến nó không thể đạt được ngưỡng 2/3 cần thiết, dẫn đến lớp nhận thức chung không thể xác nhận tính cuối cùng.
Điều đáng chú ý là, mặc dù có sự bất thường, mạng Ethereum đã tự phục hồi trở lại bình thường trong thời gian ngắn. Điều này thể hiện sự kiên cường và khả năng tự sửa chữa của thuật toán nhận thức chung PoS của Ethereum.
Chi tiết sự kiện
Trong trường hợp bình thường, trạng thái mạng đồng thuận PoS của Ethereum sẽ được xác nhận trong 2 Epoch (Finalized). Tuy nhiên, trong hai sự kiện diễn ra vào tuần trước, việc xác nhận Epoch đã bị trì hoãn:
Ngày 11 tháng 5: Epoch đã bị trì hoãn 3 Epoch, khoảng 20 phút.
Ngày 12 tháng 5: Epoch đã bị trì hoãn 8 Epoch, khoảng 51 phút.
Mặc dù Epoch không thể được xác định đúng thời gian, mạng Ethereum vẫn tiếp tục tạo ra các khối và xử lý giao dịch. Tuy nhiên, do tỷ lệ bỏ phiếu của các nút xác thực không đủ, Epoch không thể đạt được mức độ bảo đảm an ninh đồng thuận của mạng PoS Ethereum.
Cần lưu ý rằng, trong sự kiện thứ hai, do sự chậm trễ trong việc xác nhận vượt quá ngưỡng đã định, cơ chế Inactivity leak của thuật toán nhận thức chung Ethereum đã được kích hoạt. Điều này dẫn đến việc khoảng 28 ETH bị tịch thu và khoảng 50 ETH chưa được phát hành.
Phân tích nguyên nhân
Nguyên nhân trực tiếp gây ra hai sự kiện này là do một số loại nút khách hàng tầng nhận thức chung Ethereum bị quá tải, dẫn đến các nút xác thực bị ngừng hoạt động và không thể thực hiện bỏ phiếu nhận thức chung một cách bình thường. Cụ thể là:
Khi nút nhận được chứng thực ( chỉ đến khối cũ Attestation ), cần phải tính toán lại trạng thái chuỗi tín hiệu để xác thực các chứng thực này, quá trình này cần rất nhiều tài nguyên CPU và bộ nhớ.
Khi nhận được nhiều chứng kiến chỉ vào các khối cũ cùng một lúc, tài nguyên của nút bị tiêu hao, dẫn đến nút xác thực bị sập và ngoại tuyến.
Mặc dù các vấn đề này có thể được giải quyết thông qua bộ nhớ cache dựa trên chứng kiến chỉ đến khối, nhưng do quy mô nút xác minh tăng lên và sự xuất hiện của một lượng lớn các chứng thực như vậy, dẫn đến bộ nhớ cache của các triển khai khách hàng gặp sự cố bị vỡ.
Hiện tại, các khách hàng của lớp nhận thức chung Teku và Prysm đã phát hành phiên bản vá để giải quyết vấn đề này. Phiên bản vá sẽ lọc bỏ những chứng cứ cũ, khi chứng cứ chỉ ra một Slot cũ hoặc nút chưa bao giờ thấy Checkpoint sẽ bị bỏ qua.
Ưu điểm thiết kế của Ethereum
Trong sự kiện này, Ethereum đã thể hiện những lợi thế thiết kế của nó:
Đa dạng khách hàng: Thiết kế thực hiện của các khách hàng khác nhau là khác nhau, ngay cả khi một số khách hàng gặp vấn đề, cũng sẽ không ảnh hưởng đến hoạt động bình thường của các khách hàng khác.
Thiết kế thuật toán Gasper: Tách biệt sản xuất khối và xác nhận, ngay cả khi việc xác nhận khối bị cản trở, việc sản xuất khối cũng không dừng lại, đảm bảo tính khả dụng của mạng.
Kinh nghiệm và bài học
Đa dạng khách hàng vẫn cần được cải thiện: Hiện tại, sự đa dạng của các khách hàng Ethereum vẫn còn có không gian để nâng cao, đặc biệt là các khách hàng ở tầng thực thi tập trung vào Geth, chiếm tới 61%, có rủi ro tiềm ẩn.
Cần hoàn thiện cơ chế chuyển đổi khách hàng: Khi một khách hàng gặp sự cố, việc chuyển đổi an toàn sang khách hàng hoạt động bình thường vẫn là một thách thức.
Nhận thức chung giám sát cần được tăng cường: Cần có dịch vụ tương tự như Safe Head để liên tục giám sát trạng thái thời gian thực của mạng Ethereum PoS, kịp thời phát hiện và cảnh báo bất thường.
Tăng cường giáo dục người dùng: Giới thiệu cơ chế nhận thức chung PoS của Ethereum, tránh để người dùng phát sinh sự hoảng loạn không cần thiết.
Lớp ứng dụng cần chuẩn bị đối phó: Các ứng dụng như Layer2, sàn giao dịch, Oracle cần xử lý đúng cách các tình huống mạng không ổn định, chẳng hạn như kéo dài thời gian xác nhận hoặc tạm dừng dịch vụ.
Tóm tắt
Sự kiện này đã cho thấy tính linh hoạt và khả năng tự sửa chữa của thuật toán nhận thức chung PoS của Ethereum, đồng thời cũng phơi bày một số khía cạnh cần cải thiện. Trong tương lai, hệ sinh thái Ethereum cần tiếp tục đầu tư vào sự đa dạng của khách hàng, giám sát mạng, giáo dục người dùng, v.v. để nâng cao tính ổn định và độ tin cậy của toàn mạng.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Điều tra sự cố tầng nhận thức chung của Ethereum: Phân tích nguyên nhân và ảnh hưởng của hai đêm gián đoạn ngắn.
Phân tích sự bất thường ngắn hạn liên tiếp trong hai đêm của lớp nhận thức chung Ethereum
Gần đây, lớp nhận thức chung của Ethereum đã xuất hiện sự cố tạm thời, gây ra sự quan tâm rộng rãi trong ngành. Bài viết này sẽ tiến hành phân tích sâu về sự kiện này.
Tóm tắt sự kiện
Vào các tối 11 và 12 tháng 5, lớp nhận thức chung của Ethereum đã xuất hiện sự cố tạm thời. Phân tích cho thấy, điều này chủ yếu do một số nút khách hàng lớp nhận thức chung của Ethereum bị quá tải, dẫn đến nút xác thực (Validator) bị ngừng hoạt động và ngoại tuyến. Điều này đã trực tiếp ảnh hưởng đến việc bỏ phiếu Epoch, khiến nó không thể đạt được ngưỡng 2/3 cần thiết, dẫn đến lớp nhận thức chung không thể xác nhận tính cuối cùng.
Điều đáng chú ý là, mặc dù có sự bất thường, mạng Ethereum đã tự phục hồi trở lại bình thường trong thời gian ngắn. Điều này thể hiện sự kiên cường và khả năng tự sửa chữa của thuật toán nhận thức chung PoS của Ethereum.
Chi tiết sự kiện
Trong trường hợp bình thường, trạng thái mạng đồng thuận PoS của Ethereum sẽ được xác nhận trong 2 Epoch (Finalized). Tuy nhiên, trong hai sự kiện diễn ra vào tuần trước, việc xác nhận Epoch đã bị trì hoãn:
Mặc dù Epoch không thể được xác định đúng thời gian, mạng Ethereum vẫn tiếp tục tạo ra các khối và xử lý giao dịch. Tuy nhiên, do tỷ lệ bỏ phiếu của các nút xác thực không đủ, Epoch không thể đạt được mức độ bảo đảm an ninh đồng thuận của mạng PoS Ethereum.
Cần lưu ý rằng, trong sự kiện thứ hai, do sự chậm trễ trong việc xác nhận vượt quá ngưỡng đã định, cơ chế Inactivity leak của thuật toán nhận thức chung Ethereum đã được kích hoạt. Điều này dẫn đến việc khoảng 28 ETH bị tịch thu và khoảng 50 ETH chưa được phát hành.
Phân tích nguyên nhân
Nguyên nhân trực tiếp gây ra hai sự kiện này là do một số loại nút khách hàng tầng nhận thức chung Ethereum bị quá tải, dẫn đến các nút xác thực bị ngừng hoạt động và không thể thực hiện bỏ phiếu nhận thức chung một cách bình thường. Cụ thể là:
Khi nút nhận được chứng thực ( chỉ đến khối cũ Attestation ), cần phải tính toán lại trạng thái chuỗi tín hiệu để xác thực các chứng thực này, quá trình này cần rất nhiều tài nguyên CPU và bộ nhớ.
Khi nhận được nhiều chứng kiến chỉ vào các khối cũ cùng một lúc, tài nguyên của nút bị tiêu hao, dẫn đến nút xác thực bị sập và ngoại tuyến.
Mặc dù các vấn đề này có thể được giải quyết thông qua bộ nhớ cache dựa trên chứng kiến chỉ đến khối, nhưng do quy mô nút xác minh tăng lên và sự xuất hiện của một lượng lớn các chứng thực như vậy, dẫn đến bộ nhớ cache của các triển khai khách hàng gặp sự cố bị vỡ.
Hiện tại, các khách hàng của lớp nhận thức chung Teku và Prysm đã phát hành phiên bản vá để giải quyết vấn đề này. Phiên bản vá sẽ lọc bỏ những chứng cứ cũ, khi chứng cứ chỉ ra một Slot cũ hoặc nút chưa bao giờ thấy Checkpoint sẽ bị bỏ qua.
Ưu điểm thiết kế của Ethereum
Trong sự kiện này, Ethereum đã thể hiện những lợi thế thiết kế của nó:
Đa dạng khách hàng: Thiết kế thực hiện của các khách hàng khác nhau là khác nhau, ngay cả khi một số khách hàng gặp vấn đề, cũng sẽ không ảnh hưởng đến hoạt động bình thường của các khách hàng khác.
Thiết kế thuật toán Gasper: Tách biệt sản xuất khối và xác nhận, ngay cả khi việc xác nhận khối bị cản trở, việc sản xuất khối cũng không dừng lại, đảm bảo tính khả dụng của mạng.
Kinh nghiệm và bài học
Đa dạng khách hàng vẫn cần được cải thiện: Hiện tại, sự đa dạng của các khách hàng Ethereum vẫn còn có không gian để nâng cao, đặc biệt là các khách hàng ở tầng thực thi tập trung vào Geth, chiếm tới 61%, có rủi ro tiềm ẩn.
Cần hoàn thiện cơ chế chuyển đổi khách hàng: Khi một khách hàng gặp sự cố, việc chuyển đổi an toàn sang khách hàng hoạt động bình thường vẫn là một thách thức.
Nhận thức chung giám sát cần được tăng cường: Cần có dịch vụ tương tự như Safe Head để liên tục giám sát trạng thái thời gian thực của mạng Ethereum PoS, kịp thời phát hiện và cảnh báo bất thường.
Tăng cường giáo dục người dùng: Giới thiệu cơ chế nhận thức chung PoS của Ethereum, tránh để người dùng phát sinh sự hoảng loạn không cần thiết.
Lớp ứng dụng cần chuẩn bị đối phó: Các ứng dụng như Layer2, sàn giao dịch, Oracle cần xử lý đúng cách các tình huống mạng không ổn định, chẳng hạn như kéo dài thời gian xác nhận hoặc tạm dừng dịch vụ.
Tóm tắt
Sự kiện này đã cho thấy tính linh hoạt và khả năng tự sửa chữa của thuật toán nhận thức chung PoS của Ethereum, đồng thời cũng phơi bày một số khía cạnh cần cải thiện. Trong tương lai, hệ sinh thái Ethereum cần tiếp tục đầu tư vào sự đa dạng của khách hàng, giám sát mạng, giáo dục người dùng, v.v. để nâng cao tính ổn định và độ tin cậy của toàn mạng.