[논문] Attention Is All You Need
논문 출처 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. Attention Is All You Need. Advances in Neural Information Processing Systems (Ne...
논문 출처 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. Attention Is All You Need. Advances in Neural Information Processing Systems (Ne...
p2. 강의 개요 거대 언어 모델(Large Language Model, LLM)은 폭발적인 성장을 거듦… 단순히 사용자의 간단한 질문에 답변하는 어시스턴트 수준을 넘어, 최근에는 모델 스스로 생각하고 추론하는 능력까지 갖추어…. 이러한 추론 능력의 발전과 함께 검색, 컴퓨터 조작, API 호출이나 코드 실행과 같은 다양한 도구를 활용하여 사용자를...
주성분 분석(Principal Component Analysis, PCA): 그림으로 보는 소개 이 노트북은 시각화를 곁들여 주성분 분석(PCA) 을 간단하고 예제 중심으로 소개한다. 합성된 2차원 데이터셋에서 시작하여 고차원 예제로 확장하고, NumPy/SVD 기반 구현과 표준 라이브러리 구현을 비교한다. 학습 목표 PCA를 단위 노름 제약...
p2. 단변량 가우시안 분포 (Univariate Gaussian distribution) 그래프 해석 세로축: 표본 값(instance value). 이 그래프는 평균이 $\mu = 1$, 표준편차가 $\sqrt{3}$ 인 단변량 가우시안 확률변수(univariate Gaussian RV)에서 생성된 여러 표본(in...
밀집 고정 표현 (Dense static representation) 간단히 하기 위해, 우리는 제품 설명(예: 제목, 특징)을 문서로 지칭한다. p13. 문맥에 의한 단어 표현 우리가 단어들을 벡터로 표현할 수 있다면, 어떤 텍스트든 그것들을 집계하여 벡터로 표현할 수 있다. 분포 가설 (Distrib...
p2. 신경망을 학습시키는 방법? 경사하강법(gradient descent), 확률적 경사하강법(SGD) 복습 계산 그래프(computation graphs) 사슬 구조를 통한 역전파(backprop through chains) 다층 퍼셉트론(MLPs)을 통한 역전파(backprop through MLPs) 유향 비순환 그래프(D...
p2. ElasticSearch Elastic 창시: 2012년, 4인의 멤버가 회사로 설립 2004년 샤이 배논(Shay Bannon) 요리 레시피 검색엔진을 개발 후 아파치 루씬(Apache Lucene)을 적용하려던 중 루씬이 가진 한계를 발견 루씬의 한계를 보완하기 ...
p7. 우리의 첫 번째 계획: 텍스트를 벡터로 표현하기 왜 벡터인가? 예를 들어, 우리 상점의 각 상품은 텍스트 설명을 가진다. (예: “Nike Air Force”, “Harry Potter book”) 사용자는 자연어 질의를 이용해 검색한다. (예: “농구에 가장 좋은 신발”, “Harry Potter 첫 번째...
p2. 질문 머신러닝의 진정한 목적은 무엇인가? 학습 세트(training set)에서의 오류를 최소화한다 보이지 않는 미래의 데이터(unseen future examples)에서 오류를 최소화한다 기계에 대해 배운다 (learn about machines) 경사하강법(gradient desc...
비선형 특성(Non-linear features) p6. 선형 예측기와 비선형 특성 질문(Q): 선형 분류기를 사용하여 원형인 결정 경계를 얻을 수 있을까? 네! (Yes!) 주의: ‘선형(linear)’은 가중치 벡터와 예측값 사이의 관계를 의미한다. (입력 $x...