LSTM(Long short time memory) : 기초 이해

LSTM(Long Short-Term Memory)은 시계열 데이터의 예측, 자연어 처리, 음성 인식, 이미지 분류 등에서 중요한 역할을 하는 모델 중 하나입니다. 이 글에서는 LSTM의 개념, 동작 원리 등에 대해 상세히 알아보겠습니다.


1. LSTM이란?

1.1 RNN의 한계

 

RNN(Recurrent Neural Network)은 이전의 입력 데이터를 기억해 다음 출력 값을 결정하는 모델입니다. 하지만 RNN은 입력 데이터의 길이가 길어지면 그래디언트 소실 문제(Gradient Vanishing Problem)가 발생하여 이전의 정보를 제대로 기억하지 못하는 문제가 있습니다.

 


1.2 LSTM의 개념

 

LSTM은 RNN의 그래디언트 소실 문제를 해결하기 위해 고안된 모델입니다. LSTM은 이전 정보를 오랫동안 기억할 수 있는 메모리 셀을 가지고 있으며, 이를 통해 긴 시퀀스 데이터를 처리할 수 있습니다.

 


1.3 LSTM의 구조

 

아래 이미지는 LSTM의 메모리 셀 구조 이미지입니다. LSTM의 메모리 셀은 입력값과 이전 상태에 따라 값을 업데이트 하고, 새로운 상태를 출력합니다. 그러나 차이점은 셀의 값을 얼마나 기억할지 결정하는 것이 가능한 게이트를 가지고 있어서 필요한 정보만 기억하도록 제어할 수 있습니다. 메모리 셀 안에는 상태 정보를 변경하는 게이트를 가지고 있습니다. 입력 게이트(Input Gate), 망각 게이트 (Forget Gate), 출력 게이트 (Output Gate) 세 가지 게이트와 Cell State로 구성되어 있습니다. 

 

LSTM의 구조 이미지

 


2. LSRM의 동작 원리

2.1 Cell State (셀 상태)

 

Cell State는 LSTM에서 중요한 개념 중 하나입니다. 이전 상태에서 현재 상태까지 유지되는 정보의 흐름을 나타내며, 이를 통해 LSTM은 오래된 정보를 기억하고 새로운 정보를 적절하게 갱신할 수 있습니다. 셀 상단에 cell State가  있으며 Cell state는 자기 자신에게 피드백됩니다. Cell state는 망각 게이트와 입력 게이트에서 두 번의 변화를 겪습니다. 그 결과가 다음 입력으로 들어가는 값 Ct입니다. 

 

Cell State 이미지

 


2.2 Forget Gate (망각 게이트)

 

망각 게이트는 이전 셀 상태의 정보를 지울 것인지 말 것인지를 결정합니다. 망각 게이트가 만들어내는 신호는 ft입니다. 이 값을 계산하기 위해서 사용되는 활성화 함수는 Sigmoid 함수입니다. 그래서 신호는 아래와 같이 계산할 수 있습니다. Sigmoid 함수의 특성에 따라서 값은 0 ~ 1사이의 값을 가지게 됩니다. 값이 0이라면 셀 상태 정보는 0이되어 사라지고 1이면 그대로 전달 됩니다.

 

Forget Gate(망각 게이트) 수식 이미지

 

Forget Gate(망각 게이트) 이미지

 


2.3 Input Gate (입력 게이트)

 

입력 게이트는 새로운 정보를 어떻게 반영할 것인가에 대한 결정을 내립니다. 이를 통해 LSTM은 기존 정보와 새로운 정보를 적절하게 조합하여, 더 정확한 예측을 수행할 수 있습니다. 입력 게이트는 시그모이드 함수와 탄젠트 함수가 있습니다. 두 개의 함수를 만드는 이유는 다음과 같습니다. 탄젠트 함수는 RNN에서 사용되는 출력 계산 방법과 동일합니다. 시그모이드는 함수는 후보 값을 얼마나 전달할지 결정을 내리는 값입니다. 시그모이드 함수이므로 0~1사이의 값을 가집니다.  이 두 값을 곱해서 셀 상태에 더하면 최종적으로 다음 단계를 위해 보내는 셀 상태 ct가 결정됩니다.

 

Input Gate (입력 게이트) 수식 이미지

 

Input Gate (입력 게이트) 이미지

 


2.4 Output Gate (출력 게이트)

 

출력 게이트는 셀 상태 값에 탄젠트 함수를 적용한 값을 출력으로 사용합니다. 그러나 값을 그대로 출력으로 사용하지 않고 출력이 얼마나 중요한지 조절하기 위해 은닉 상태와 현재 입력에 대해 시그모이드 함수를 적용해 0 ~ 1사이 값을 만든 후 출력하고자 하는 신호와 곱해 크기를 조절한 후 출력을 합니다. 

 

Output Gate (출력 게이트) 수식 이미지

 

Output Gate (출력 게이트) 이미지

 


3. LSTM 코드

import tensorflow as tf
import matplotlib.pyplot as plt
from tensorflow.keras.datasets import imdb
from tensorflow.keras.preprocessing import sequence

# Load the IMDB dataset
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=10000)

# Pad the sequences to the same length
max_len = 500
x_train = sequence.pad_sequences(x_train, maxlen=max_len)
x_test = sequence.pad_sequences(x_test, maxlen=max_len)

# Build the model
model = tf.keras.Sequential()
model.add(tf.keras.layers.Embedding(10000, 128))
model.add(tf.keras.layers.LSTM(128, dropout=0.2, recurrent_dropout=0.2))
model.add(tf.keras.layers.Dense(1, activation='sigmoid'))

# Compile the model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# Train the model
history = model.fit(x_train, y_train, batch_size=32, epochs=10, validation_data=(x_test, y_test))

# Plot the loss and accuracy results
plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])
plt.title('Model Loss')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend(['Train', 'Validation'], loc='upper right')
plt.show()

plt.plot(history.history['accuracy'])
plt.plot(history.history['val_accuracy'])
plt.title('Model Accuracy')
plt.ylabel('Accuracy')
plt.xlabel('Epoch')
plt.legend(['Train', 'Validation'], loc='lower right')
plt.show()

 


4. FAQs

Q1. LSTM이 무엇인가요?

 

LSTM은 RNN(Recurrent Neural Network)의 일종으로, 시계열 데이터를 처리하거나 시퀀스 정보를 사용해 작업을 수행하는 데 사용됩니다. 이 모델은 장기 의존성 문제(long-term dependencies)를 해결할 수 있으며, 따라서 긴 시퀀스 데이터를 처리하는 데 적합합니다.

 

Q2. LSTM의 구조는 어떻게 되나요?

 

LSTM은 기본적으로 셀(cell)과 게이트(gate)로 구성됩니다. 셀은 시퀀스 데이터를 저장하고, 게이트는 셀의 상태를 조작합니다. LSTM은 input gate, forget gate, output gate 등으로 이루어져 있으며, 각 게이트는 시그모이드 함수와 하이퍼볼릭 탄젠트 함수 등의 활성화 함수를 사용합니다.

 

Q3. LSTM을 어떻게 활용할 수 있나요?

 

LSTM은 주로 자연어 처리(Natural Language Processing, NLP) 분야에서 사용됩니다. 예를 들어, 기계 번역, 문서 요약, 감성 분석, 텍스트 생성 등이 있습니다.

 

Q4. LSTM의 장단점은 무엇인가요?

 

LSTM의 장점으로는 장기 의존성 문제를 해결할 수 있다는 것입니다.  또한 다양한 시퀀스 데이터를 처리하는 데 적합하며, 기존의 RNN 모델과 비교하여 기울기 소실(vanishing gradient) 문제를 해결할 수 있습니다. 단점으로는 계산 비용이 높고, 모델 구조가 복잡하다는 것입니다.