Machine Learning
-
LLM 트랜스포머 동작 흐름 (2) DecodingMachine Learning 2025. 6. 20. 21:38
개요디코더의 입력Decoder Self-Attention $(Masked)$인코더의 출력과 cross-attention $(encoder-decoder attention)$FFN단어 생성먼저 인코더의 출력을 간단하게 정리하면 각 입력 토큰의 문맥이 반영된 벡터들이고, 각 벡터가 특정 차원$(768)$으로 형태로 존재한다.1. 디코더의 입력디코더의 입력은 디코더의 결과가 다시 입력으로 들어가는 구조이고,최초의 입력은 시작 토큰이 들어가게 된다.학습 시 $(teacher forcing)$: 정답 문장을 한 토큰씩 시프트해서 입력Target: 나는 피자를 좋아해디코더 입력: 나는 피자를 ...디코더 출력: 나는 피자를 좋아해예측은 예측대로 해서 오차 비교해서 파라미터를 학습하고, 다음 토큰의 입력은 모델 예측..
-
LLM 트랜스포머 동작 흐름 (1) EncodingMachine Learning 2025. 5. 18. 00:22
개요토크나이징 및 임베딩셀프 어텐션멀티 헤드 어텐션Positional EncodingResidualFFN1. 토크나이징 및 임베딩자연어가 입력되면 가장 먼저 토큰 단위로 쪼갠다. 이 과정을 토크나이징이라고 한다.각 토큰은 고유 ID를 가지게 된다.언어별로 다르지만 영어는 보통 1단어 당 1~2토큰으로 표현되고,한글은 1단어가 더 많은 토큰으로 쪼개지는 경우가 많다.쪼개진 토큰은 임베딩 벡터로 변환된다.비슷한 의미의 토큰이 비슷한 벡터로 변환되는데, 이는 임베딩 모델을 통해서 이뤄진다.임베딩 모델은 king - queen, man - woman의 차이가 유사하게,king - man , queen - woman 의 벡터가 유사하도록 학습된다. 토큰 ID를 가지고 임베딩 벡터로 변환하기 때문에 호환이 안 되는..
-
Back Propagation 오차역전법Machine Learning 2024. 6. 8. 15:23
Back Propagation을 이해해보자.Back Propagation 오차역전법우리가 관심있는 것은 각 w (weight) 에 대한 L (Loss) 의 편도함수를 전부 구하는 것이다.이때 naive 하게 일일이 각 w 에 대한 L 편미분을 일일이 구하는 것은 가능하지만 계산 비용이 무척 많이 들게 된다. 그래서 쉽게 계산하기 위해 나온 방법이 Back Propagation키 포인트는 다음 두 가지가 있음.1. w에 대한 L의 편미분은 델타값 (편미분 값인데 계산이 용이하도록 치환한 값) 과 연관되어 있음2. 각 층의 델타값은 내 다음 층의 델타값으로 구할 수 있음. 즉 l+1 -> l 구하는 방법은 다음과 같다.1. Foward Propagation으로 각 층의 출력을 모두 계산한다.2. 가장 마지..