[텍스트 마이닝] 9. Text Classification 2

게시 2025/10/30 업데이트 2025/12/12

By 김성진

32 분읽는 시간

p10. 제한된 레이블로 학습하기 (Learning with limited labels)

지금까지 우리는 레이블이 있는 데이터(labeled data) 를 사용하여
분류기(classifier)를 학습하는 방법 에 대해 논의하였다.
- 각 입력 텍스트 $ x $ 마다, 해당하는 클래스 레이블 $ y $ 가 주어진다고 가정하였다.
그러나 현실에서는 모든 데이터 인스턴스에 레이블이 존재할까?
이제 우리는 레이블이 부족한 데이터(scarcity of labeled data) 상황에서
이를 어떻게 다루는지를 살펴볼 것이다.

감정 분류(Sentiment classification) 예시

입력 텍스트	감정 레이블(Sentiment label)
문서 1	Positive
문서 2	Negative
문서 3	?
문서 4	…
문서 5	?

p11. 제한된 레이블로 학습하기 (Learning with limited labels)

지금까지 우리는 레이블이 있는 데이터(labeled data) 를 사용하여
분류기(classifier)를 학습하는 방법 에 대해 논의하였다.
- 각 입력 텍스트 $x$ 마다, 해당하는 클래스 레이블 $y$ 가 주어진다고 가정하였다.
그러나 현실에서는 모든 데이터 인스턴스에 레이블이 존재할까?

이제 우리는 레이블이 부족한 데이터(scarcity of labeled data) 를
어떻게 다루는지를 살펴볼 것이다.

준지도 학습(Semi-supervised learning)
- “레이블이 없는 데이터를 어떻게 효과적으로 활용할 수 있을까?”
  (How can we effectively leverage unlabeled data?)
다중 작업 학습(Multi-task learning)
- “하나의 작업에 레이블이 부족하다면,
  관련된 다른 작업으로부터 신호를 가져올 수 있을까?”
  (If one task doesn’t have enough labels, can we borrow signals from related tasks?)
적대적 학습(Adversarial learning)
- “레이블이 있는 데이터와 없는 데이터가 서로 다른 분포에서 왔다면 어떻게 할까?”
  (What if labeled and unlabeled data come from different distributions?)

p12. 준지도 학습 (Semi-supervised learning)

참고:
이 섹션의 많은 그림은 Mr. Baixu Chen과 Dr. Kevin Clark의 슬라이드에서 인용되었다.

p13. 레이블 가용성에 따른 학습 유형 (Learning types according to label availability)

지도 학습 (Supervised learning)
\[\mathcal{D}_l = \{(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\}\]
- 모든 학습 샘플에는 정답 레이블 (ground-truth labels) 이 존재한다.
- 제한점 (Limitation):
  레이블링(labeling)은 사람의 노력 (human effort) 을 필요로 하며
  (종종 전문가의 지식이 요구됨),
  매우 큰 규모의 레이블된 데이터셋을 확보하기 어렵다.
준지도 학습 (Semi-supervised learning)
\[\mathcal{D}_l = \{(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\}\] \[\mathcal{D}_u = \{x_1, x_2, \ldots, x_m\}\]
- 일부 샘플만 정답 레이블 을 가지고 있으며,
  $m \gg n$ 이다.
- 장점 (Advantage):
  레이블이 없는 데이터 (unlabeled samples) 를 수집하는 것은
  사람이 직접 레이블을 지정한 데이터 (human-labeled data) 를 모으는 것보다 훨씬 쉽다.

p14. 준지도 학습 (Semi-Supervised Learning, SSL)

목표 (Goal):
학습 과정에서 레이블된 데이터(labeled data) 와
비레이블 데이터(unlabeled data) 를 모두 사용하는 것이다.
- 레이블된 데이터는 직접적인 감독 (direct supervision) 을 제공한다.
- 비레이블 데이터는 적절한 기법과 함께 사용될 때
  모델이 더 잘 일반화 (generalize better) 하도록 돕는다.

p15. 준지도 학습 (Semi-Supervised Learning, SSL)

목표 (Goal):
학습 과정에서 레이블된 데이터(labeled data) 와
비레이블 데이터(unlabeled data) 를 모두 사용하는 것이다.
- 레이블된 데이터는 직접적인 감독 (direct supervision) 을 제공한다.
- 비레이블 데이터는 적절한 기법과 함께 사용될 때
  모델이 더 잘 일반화 (generalize better) 하도록 돕는다.

p16. 준지도 학습 (Semi-Supervised Learning, SSL)

목표 (Goal):
학습 과정에서 레이블된 데이터 (labeled data) 와
비레이블 데이터 (unlabeled data) 를 모두 사용하는 것이다.
- 레이블된 데이터는 직접적인 감독 (direct supervision) 을 제공한다.
- 비레이블 데이터는 적절한 기법과 함께 사용될 때
  모델이 더 잘 일반화 (generalize better) 하도록 돕는다.
핵심 가정 (Key assumptions)
1. 매끄러움 가정 (Smoothness assumption)
  - 입력 공간에서 서로 가까운 데이터 포인트들은
    같은 레이블 (same label) 을 가져야 한다.
  - “비슷하게 보이면, 실제로도 비슷하다 (If they look similar, they are similar).”
2. 저밀도 가정 (Low-density assumption)
  - 클래스 간의 좋은 결정 경계 (decision boundary) 는
    데이터가 많은 영역을 피해야 한다.
  - “결정 경계는 밀도가 낮은 영역을 통과해야 한다
    (Boundaries should pass through low-density areas).”

p17. 준지도 학습 (Semi-Supervised Learning, SSL)

두 가지 주요(그리고 기초적인) 접근법 (Two main and foundational approaches)

🟩 1. 의사 레이블링 (Pseudo Labeling) ← 이번 슬라이드에서 다룸

모델이 자신감(confidence)이 높은 예측을 사용하여
비레이블 데이터(unlabeled data) 에 레이블을 할당(assign labels) 하도록 한다.
신뢰도가 높은 예측(confident predictions)은
모델이 유사한 레이블된 데이터(labeled examples) 로부터 이미 학습한 패턴과
대부분 일치한다.

2. 일관성 정규화 (Consistency Regularization)

같은 입력(same input) 에 작은 변화(small changes) 를 주더라도
모델은 일관된 예측(consistent prediction) 을 해야 한다.
- 예: 벡터에 작은 노이즈를 추가하거나 단어를 약간 변경하는 경우
이 접근법은 결정 경계(decision boundary) 가
저밀도 영역(low-density regions) 에 위치하도록 유도한다.

🔹 이번 장에서는 의사 레이블링 (Pseudo Labeling) 에 초점을 맞춘다.
다음 장에서 일관성 정규화 (Consistency Regularization) 를 다룬다.

p18. 의사 레이블링 (Pseudo Labeling)

핵심 아이디어 (Key idea):
모델이 자신감(confidence) 있는 예측을 활용하여
비레이블 데이터(unlabeled data) 에 레이블을 부여(assign labels) 하도록 한다.
훈련 과정에서 (During training)
레이블된 데이터(labeled data)로 학습한 모델은
특정 비레이블 샘플(certain unlabeled samples)에 대해 자신감(confident) 을 갖게 된다.
- 이러한 자신감(confidence)은 모델이 이미 유사한 레이블된 샘플(similar labeled examples) 을
  학습한 경험에서 비롯된다.
- 이런 예측 결과(predictions)는 의사 레이블(pseudo-labels) 로 재사용되어
  추가 학습에 활용될 수 있다.

그림 설명:
파란색과 주황색 점은 클래스(class)를,
‘+’, ‘▽’ 기호는 레이블된 데이터(labeled data) 를 나타낸다.
데이터 $a$ 는 결정 경계(decision boundary)로부터 멀리 떨어져 있어
높은 확신(confidence) 을 가지며,
데이터 $b$ 는 경계 근처에 있어 낮은 확신(confidence) 을 가진다.

질문:
두 소프트맥스 결과 중 어느 쪽을 더 신뢰할 수 있을까?

그림 설명: 각 데이터($a$, $b$)의 모델 소프트맥스 출력(softmax output) 을 보여준다.
데이터 $a$ 는 한 클래스($\hat{y}_1$)에 대해 매우 높은 확률을 가지므로
의사 레이블로 신뢰할 만하다,
반면 데이터 $b$ 는 여러 클래스에 확률이 분산되어 불확실성이 크다.

p19. 의사 레이블링 과정 (Pseudo Labeling: Process)

Step 1: 레이블된 데이터로 학습 (Train with labeled data)

소량의 레이블된 데이터(labeled data) 로 시작한다.
모델을 지도 학습(supervised way) 방식으로 학습시킨다.

Step 2: 비레이블 데이터에 대한 예측 (Predict labels for unlabeled data)

학습된 모델을 비레이블 데이터(unlabeled data) 에 적용한다.
예측 결과로부터 신뢰도(confidence) 가 서로 다른 예측 확률(max probability)을 얻는다.

Step 3: 의사 레이블 데이터 생성 (Generate pseudo-labeled data)

높은 신뢰도(high-confidence) 를 가지는 예측만을 의사 레이블(pseudo-label) 로 선택한다.
이 데이터를 진짜 레이블된 샘플(true labeled samples) 처럼 취급한다.

Step 4: 모델 재학습 (Retrain the model)

원래의 레이블된 데이터(labeled data) 와
새로 생성된 의사 레이블 데이터(pseudo-labeled data) 를 함께 사용하여
모델을 다시 학습시킨다.

p20. 의사 레이블링: 자기 학습 (Pseudo Labeling: Self-Training)

의사 레이블로 학습함으로써, 모델은 점진적으로 비레이블 데이터에 대한 더 많은 지식을 얻게 된다.
자기 학습(Self-training):
의사 레이블링 과정을 반복하여 이 지식을 전파(propagate this knowledge) 하고 감독(supervision) 을 확장한다.
- 자기 학습(Self-training) = 반복적 의사 레이블링(Iterative pseudo-labeling)

p21. 의사 레이블링: 자기 학습 (Pseudo Labeling: Self-Training)

의사 레이블로 학습함으로써, 모델은 점진적으로 비레이블 데이터(unlabeled data) 에 대한 더 많은 지식을 얻게 된다.
자기 학습(Self-training):
의사 레이블링 과정을 반복하여 이 지식을 전파(propagate this knowledge) 하고 감독(supervision)을 확장한다.
- 자기 학습(Self-training) = 반복적 의사 레이블링(Iterative pseudo-labeling)

알고리즘 1. 의사 레이블링을 이용한 자기 학습(Self-training with Pseudo-Labeling)

입력(Input): 레이블된 데이터셋 $D_l$, 비레이블 데이터셋 $D_u$, 신뢰 임계값(confidence threshold) $\tau$
출력(Output): 학습된 모델 $f$
기본 모델 $f$ 를 $D_l$ 에서 학습한다.
수렴하지 않은 동안 while 루프 실행:
- $D_u$ 내의 샘플에 대해 모델 $f$ 를 사용하여 의사 레이블(pseudo-labels) 예측
- 신뢰도가 높은(high-confidence) 예측만 선택:
  $D_p = \{ (x, \hat{y}) \mid \max f(x) \ge \tau \}$
- 학습 데이터셋 업데이트: $D_l \leftarrow D_l \cup D_p$
- 확장된 $D_l$ 로 모델 $f$ 업데이트
while 루프 종료
$f$ 반환(return)

p22. 의사 레이블링: 요약 (Pseudo Labeling: Summary)

의사 레이블링은 비레이블 데이터(unlabeled data) 를 활용하기 위한 단순하고 효과적인 방법(simple and effective way) 이다.
그러나 모델의 예측은 사람이 직접 단 레이블(human annotations) 만큼 정확하지 않다(not as accurate).
- 최악의 경우, 의사 레이블링은 오히려 레이블된 데이터만 사용하는 것보다 더 나쁜 성능(performance) 을 낼 수도 있다.
- 소수 클래스(minority class, 주황색) 의 레이블이 제한적인 경우,
  모델은 전체 공간에서 정확한 예측을 수행하는 데 어려움을 겪는다.
- 의사 레이블은 비레이블 데이터의 일부 패턴만(partial patterns) 포착할 수도 있다.

제한점(Limitations)

오류 전파(Error propagation): 잘못된 의사 레이블이 학습 과정에서 오류를 강화시킨다.
과잉 확신(Overconfidence): 모델이 자신의 잘못된 예측에 대해서도 과도하게 확신하게 될 수 있다.

p23. 준지도 학습 (Semi-Supervised Learning, SSL)

두 가지 주요(그리고 기초적인) 접근법 (Two main and foundational approaches)

1. 의사 레이블링 (Pseudo Labeling)

모델이 자신감(confidence)이 높은 예측을 사용하여
비레이블 데이터(unlabeled data) 에 레이블을 할당(assign labels) 하도록 한다.
신뢰도가 높은 예측(confident predictions)은
모델이 유사한 레이블된 데이터(labeled examples) 로부터 이미 학습한 패턴과
대부분 일치한다.

🟨 2. 일관성 정규화 (Consistency Regularization) ← 이번 슬라이드에서 다룸

같은 입력(same input) 에 작은 변화(small changes) 를 주더라도
모델은 일관된 예측(consistent prediction) 을 해야 한다.
- 예: 벡터에 작은 노이즈를 추가하거나 단어를 약간 변경하는 경우
이 접근법은 결정 경계(decision boundary) 가
저밀도 영역(low-density regions) 에 위치하도록 유도한다.

🔹 이번 장에서는 일관성 정규화 (Consistency Regularization) 에 초점을 맞춘다.
이전 장에서는 의사 레이블링 (Pseudo Labeling) 을 다뤘다.

p24. 일관성 정규화 (Consistency Regularization)

핵심 아이디어 (Key idea)
같은 입력(same input) 에 작은 변화(small changes) 를 주더라도
모델은 일관된 예측(consistent prediction) 을 해야 한다.
- 작은 섭동(perturbation, 예: 노이즈 추가, 데이터 증강 등)을 적용해도
  예측(prediction)은 안정적으로 유지되어야 한다.
- 즉, 서로 가까운 데이터 포인트(nearby data points) 는
  유사한 예측(similar predictions) 을 가져야 한다.

빨강 (red): 레이블된 데이터 (labeled data)
파랑 (blue): 레이블된 데이터 (labeled data)
검정 (black): 비레이블 데이터 (unlabeled data)
모델은 원 안에 있는 모든 포인트에서 유사한 예측(similar predictions) 을 해야 하며,
겹치는 원(overlapped circles) 은 서로 비슷한 예측을 갖게 된다.
이렇게 되면 모델의 결정 경계(decision boundary) 는
저밀도 영역(low-density region) 에 형성된다.

p25. 일관성 정규화 (Consistency Regularization)

핵심 아이디어 (Key idea)
같은 입력(same input) 에 작은 변화(small changes) 를 주더라도
모델은 일관된 예측(consistent prediction) 을 해야 한다.
- 작은 섭동(perturbation)을 추가한다. (예: 노이즈, 증강) → 예측은 안정적으로 유지되어야 한다.
구체화 (Instantiation):
\[\mathcal{L} = \mathcal{L}_{sup}(D_l) + \lambda \mathcal{L}_{cons}(D_u)\] \[\mathcal{L}_{cons} = \mathbb{E}_{x \in D_l \cup D_u} [ \| f(x; \theta) - f(\tilde{x}; \theta) \|^2 ]\]
$ x $: 원래 입력 (original input),
$ \tilde{x} $: 섭동이 추가된 입력 (perturbed input)
섭동을 추가하는 방법 (How to add perturbations):
- 임베딩에 작은 랜덤 노이즈 추가
- 단어 드롭아웃(word dropout) 또는 마스킹(masking)
- 데이터 증강(data augmentation, 예: 회전(rotation), 자르기(crop) 등)
- 그 외 여러 가지 방법

p26. 일관성 정규화: 통찰 (Consistency Regularization: Insights)

✓ 정규화는 모델이 데이터를 암기하지 않도록 하여 과적합(overfitting)을 방지한다.

구체화 (Instantiation):
\[\mathcal{L} = \mathcal{L}_{sup}(D_l) + \lambda \mathcal{L}_{cons}(D_u)\] \[\mathcal{L}_{cons} = \mathbb{E}_{x \in D_l \cup D_u} [ \| f(x; \theta) - f(\tilde{x}; \theta) \|^2 ]\]
$ x $: 원래 입력 (original input),
$ \tilde{x} $: 섭동이 추가된 입력 (perturbed input)
통찰 1 (Insight 1):
원래 입력과 섭동된 입력에 대해
예측된 확률 분포(predicted probability distributions) 가
유사하도록 강제한다.
- 모델은 섭동된 입력에서 자연스럽게 신뢰도가 낮아지는 경향이 있다.
- 그 결과, 모델의 전반적인 신뢰도(confidence) 가 낮아진다.
- 정규화 효과 (Regularization effect):
  모델이 데이터를 단순히 외우는 것(과적합, overfitting)을 방지하고,
  과도한 자신감(overconfidence)을 갖지 않도록 한다.

p27. 일관성 정규화: 통찰 (Consistency Regularization: Insights)

구체화 (Instantiation):
\[\mathcal{L} = \mathcal{L}_{sup}(D_l) + \lambda \mathcal{L}_{cons}(D_u)\] \[\mathcal{L}_{cons} = \mathbb{E}_{x \in D_l \cup D_u} [ \| f(x; \theta) - f(\tilde{x}; \theta) \|^2 ]\]
$ x $: 원래 입력 (original input),
$ \tilde{x} $: 섭동된 입력 (perturbed input)
통찰 2 (Insight 2):
의사 레이블링(pseudo labeling) 은 신뢰도가 높은 샘플(high-confidence samples) 에만 의존하지만,
일관성 정규화(consistency regularization) 는 모든 비레이블 데이터(all unlabeled data) 를 사용한다.
- 이는 데이터셋의 훨씬 더 큰 부분을 활용할 수 있게 한다.

p28. 일관성 정규화: 시간적 앙상블 (Consistency Regularization: Temporal Ensemble)

하나의 실제적인 문제 (One practical issue):
학습 과정에서 모델은 종종 비레이블 데이터(unlabeled data) 에 대해
불안정한 예측(unstable prediction) 을 한다.
- 예측값은 섭동(perturbation)이 없더라도 에폭(epoch) 간에 변동한다.
- 섭동이 추가되면 이러한 불안정성은 더욱 심해지며,
  이는 전체 학습을 불안정하게 만든다.
→ 비레이블 데이터의 경우, 실제 정답 레이블(gold label)이 존재하지 않는다.
→ 모델의 예측은 매우 불안정해지기 쉽다!

[모델의 Softmax 출력 예시 (Softmax output from the model)]

p29. 일관성 정규화: 시간적 앙상블 (Consistency Regularization: Temporal Ensemble)

모델의 예측을 어떻게 안정화할 수 있을까?

✓ 모델 앙상블 (Model ensemble)

하나의 모델(single model)을 사용하는 대신,
여러 모델을 학습시키고 그들의 예측을 통합(aggregate) 한다.

이유 (Why?)

서로 다른 초기화(different initializations)는
서로 다른 수렴된 파라미터(converged parameters)를 만든다.
예측을 평균(averaging)함으로써 분산(variance) 이 줄어들며,
더 안정적이고 신뢰할 수 있는 예측(more stable & reliable prediction) 이 가능해진다.

p30. 일관성 정규화: 시간적 앙상블 (Consistency Regularization: Temporal Ensemble)

모델의 예측을 어떻게 안정화(stabilize)할 수 있을까?

✓ 시간적 앙상블 (Temporal ensemble)

여러 모델을 독립적으로 학습시키는 것은 비용이 많이 든다.
“하나의 모델만으로 비슷한 효과를 얻을 수 있을까?”
핵심 아이디어 (Key idea):
동일한 모델의 서로 다른 학습 시점(epoch) 에서의 예측값들을 통합(aggregate) 하는 것이다.
시간에 따라 예측을 평균(averaging)하면, 변동(fluctuation) 이 줄어들고
예측이 더 안정적이고 신뢰할 수 있게(stable & reliable) 된다.

p31. 일관성 정규화: 시간적 앙상블 (Consistency Regularization: Temporal Ensemble)

✓ 시간적 앙상블 (Temporal ensemble)

핵심 아이디어 (Key idea):
동일한 데이터에 대한 예측을 서로 다른 학습 시점(epoch) 에서 통합(aggregate) 한다.
구현 방식 (Instantiation):
모델 파라미터를 지수이동평균(Exponential Moving Average, EMA) 으로 앙상블한다.
\[\theta_{te}^{(t)} \leftarrow \alpha \theta_{te}^{(t-1)} + (1 - \alpha)\theta^{(t)}\]
$ \theta^{(t)} $: 학습 시점 $t$ 에서의 모델 파라미터
$ \theta_{te}^{(t)} $: 학습 시점 $t$ 에서의 시간적 앙상블 파라미터
$ \alpha $: 과거 지식을 얼마나 반영할지를 조절하는 하이퍼파라미터

시간적 앙상블은 학습 과정 동안 이전 모델 파라미터(past model parameters) 를 통합한다.
최신 모델(latest model)을 천천히 따라가면서(slowly follows),
에폭(epoch) 간의 예측 평균화(averaging predictions across epochs) 를 통해
훨씬 더 안정적인(stable) 결과를 얻는다.

시간적 앙상블 업데이트 프로세스(Temporal ensemble update process)

이전 앙상블 파라미터($\theta_{te}^{(t-1)}$)와
현재 모델 파라미터($\theta^{(t)}$)를
$\alpha$ 와 $(1 - \alpha)$ 가중합으로 결합하여
새로운 앙상블 파라미터($\theta_{te}^{(t)}$)를 생성한다.

p32. 일관성 정규화: 시간적 앙상블 (Consistency Regularization: Temporal Ensemble)

시간적 앙상블을 이용한 일관성 정규화 (Consistency regularization with temporal ensemble)

시간적 앙상블에서의 예측 $f(x; \theta_{te})$ 를 사용한다.
이는 더 신뢰할 수 있고 안정적인 가이드(more reliable and stable guidance) 를
비레이블 데이터(unlabeled data)에 제공한다.

\[\mathcal{L} = \mathcal{L}_{sup}(D_l) + \lambda \mathcal{L}_{cons}(D_u)\] \[\mathcal{L}_{cons} = \mathbb{E}_{x \in D_l \cup D_u} \left[ \| f(x; \theta_{te}) - f(\tilde{x}; \theta) \|^2 \right]\]

원래 버전 (The original version):
\[\mathcal{L}_{cons} = \mathbb{E}_{x \in D_l \cup D_u} \left[ \| f(x; \theta) - f(\tilde{x}; \theta) \|^2 \right]\]

알고리즘 2 시간적 앙상블을 이용한 일관성 정규화 (Consistency Regularization with Temporal Ensemble)

입력 (Input): 레이블된 데이터셋 $D_l$, 비레이블 데이터셋 $D_u$
출력 (Output): 학습된 모델 $f(\cdot; \theta)$
파라미터 $\theta$, 앙상블 파라미터 $\theta_{te}$ 초기화: $\theta_{te} \leftarrow \theta$
for epoch $t = 1$ to $T$ do
$D_l$ 에 대해 지도 학습 손실 $ \mathcal{L}_{sup} $ 계산
$D_u$ 에 대해 일관성 손실 $\mathcal{L}_{cons} = \| f(x_u; \theta_{te}) - f(\tilde{x}_u; \theta) \|^2$ 계산
$\mathcal{L} = \mathcal{L}_{sup} + \lambda \mathcal{L}_{cons}$ 최소화를 통해 $\theta$ 업데이트
앙상블 파라미터 업데이트: $ \theta_{te}^{(t)} \leftarrow \alpha \theta_{te}^{(t-1)} + (1 - \alpha)\theta^{(t)} $
end for
반환 (Return): $f(\cdot; \theta)$

p33. 일관성 정규화 (Consistency Regularization): 요약

핵심 아이디어:
동일한 입력(same input)에 작은 변화(small changes) 를 주더라도
모델은 일관된 예측(consistent predictions) 을 해야 한다.
장점 (Pros)
- 비레이블 데이터(unlabeled data)의 효율적 활용:
  작은 섭동(perturbations)만 필요하며, 다양한 비레이블 데이터에 적용 가능하다.
- 단순한 개념(Simple concept):
  기존 모델에 정규화 항(regularizer)으로 쉽게 추가할 수 있다.
단점 (Cons)
- 섭동 민감성(Perturbation sensitivity):
  효과는 노이즈(noise)나 데이터 증강(augmentation)의 선택에 따라 달라진다.
  - 연구자들이 여전히 활발히 연구 중인 주제이다.
- 약한 직접적 지도(Weak direct guidance):
  명시적인 레이블을 제공하지 않기 때문에
  결정 경계(boundary)가 여전히 불확실할 수 있다.

p34. 준지도 학습 (Semi-Supervised Learning, SSL): 요약

우리가 다룬 두 가지 주요(그리고 기초적인) 접근법

의사 레이블링 (Pseudo Labeling)
- 강점 (Strength): 실제 레이블(ground truth)과 같은 직접적인 학습 신호(direct training signal) 를 제공한다.
- 한계 (Limitation): 모델이 잘못된 예측에 대해 과도하게 확신(overconfident) 할 경우,
  오류를 증폭(amplify errors) 시킬 수 있다.
일관성 정규화 (Consistency Regularization)
- 강점 (Strength): 모델이 과도하게 확신(overconfident) 하는 것을 방지하는
  정규화 항(regularizer) 로 작용한다.
- 한계 (Limitation): 명시적인 레이블이 주어지지 않기 때문에
  약한 지도(weak guidance) 를 제공한다.

이 두 접근법은 상호 보완적인 관계(complementary relationship) 를 가진다.
- 의사 레이블링은 강하지만 잡음이 많은 신호(strong but noisy signals) 를 제공하며,
  일관성 정규화는 그것을 안정화(stabilizes them) 한다.
거의 모든 최신 SSL(state-of-the-art SSL)은
이 두 접근법을 하나의 전체적인 프레임워크(holistic framework) 로 결합한다.

p35. (선택) 준지도 학습(SSL)의 개요 (Overview of SSL)

이번 강의에서는 2017년에 발표된 Mean Teacher 까지를 다루었다.
이후의 거의 모든 연구들은 우리가 학습한 두 가지 접근법(의사 레이블링, 일관성 정규화)을 기반으로 발전하였다.

준지도 학습의 개요 (Overview of Semi-Supervised Learning)

Consistency Regularization (일관성 정규화)
- Ladder Net (2015)
- Π Model (2015)
- Mean Teacher (2017)
Pseudo Labeling (의사 레이블링)
- Pseudo Label (2013)
Other Techniques (기타 기법)
- Label Propagation (2019)
Mutual Learning (상호 학습)
- Co-training (1998)
- MMT, DivideMix (2020)
Holistic Methods (통합적 방법)
- MixMatch (2019)
- ReMixMatch, FixMatch, UDA, Noisy Student (2020)
- …

p36. 추천 읽을거리 (Recommended Readings)

기사 (Articles):
- 인공지능의 우주 – 준지도 학습 (The Universe of AI – Semi-supervised learning)
  - 한국어 버전: https://wikidocs.net/255169
  - 영어 버전: https://wikidocs.net/255197
논문 (Papers):
- 시간적 앙상블을 이용한 일관성 정규화 (Consistency regularization with temporal ensemble)
  - Mean teachers are better role models: 가중 평균된 일관성 목표(Weight-averaged consistency targets)가 준지도 학습된 심층 신경망의 성능을 향상시킨다, NeurIPS 2017
- (선택 사항, 본 강의 범위 밖)
  - 편향 제거된 자기 학습(Debiased Self-Training)을 통한 준지도 학습, NeurIPS 2022

대학원 수업, 텍스트 마이닝