Tại sao lstm giải quyết được độ dốc biến mất?

Mục lục:

Tại sao lstm giải quyết được độ dốc biến mất?
Tại sao lstm giải quyết được độ dốc biến mất?
Anonim

LSTM giải quyết vấn đề bằng cách sử dụng cấu trúc gradient phụ gia độc đáo bao gồm truy cập trực tiếp vào các kích hoạt của cổng quên, cho phép mạng khuyến khích hành vi mong muốn từ gradient lỗi bằng cách sử dụng cập nhật cổng thường xuyên vào mọi bước của quá trình học tập.

LSTM giải quyết gradient bùng nổ như thế nào?

Một câu trả lời rất ngắn gọn: LSTM tách trạng thái ô (thường được ký hiệu là c) và lớp / đầu ra ẩn (thường được ký hiệu là h), và chỉ cập nhật phụ gia cho c, điều này làm cho bộ nhớ trong c ổn định hơn. Do đó, gradient chảy qua c được giữ lại và khó biến mất(do đó, gradient tổng thể khó biến mất).

Làm cách nào để giải quyết vấn đề gradient biến mất?

Giải pháp: Giải pháp đơn giản nhất là sử dụng các chức năng kích hoạt khác, chẳng hạn như ReLU, không gây ra một đạo hàm nhỏ. Mạng dư là một giải pháp khác, vì chúng cung cấp các kết nối còn lại thẳng đến các lớp trước đó.

LSTM giải quyết vấn đề gì?

LSTM. LSTM (viết tắt của bộ nhớ ngắn hạn dài) chủ yếu giải quyết vấn đề vấn đề độ dốc biến mất trong lan truyền ngược. LSTM sử dụng cơ chế kiểm soát quá trình ghi nhớ. Thông tin trong LSTM có thể được lưu trữ, viết hoặc đọc qua các cổng đóng mở.

Tại sao LSTM lại ngăn không cho chuyển màu của bạn biến mất chế độ xem từ đường chuyền ngược?

Lý do cho điều này là vì, để thực thi luồng lỗi liên tục này, tính toán gradient đã được cắt bớt để không chảy ngược trở lại đầu vào hoặc các cổng ứng viên.

Đề xuất: