본문 바로가기
반응형

AI/NLP5

샘플과 타깃의 인코딩 샘플을 머신러닝 알고리즘에 사용하려면 수치로 표현해야 한다. 입력인코딩 : 샘플과 타깃을 벡터나 텐서의 수치로 표현 🦊원-핫 표현 ( one-hot representation ) 0 벡터에서 시작해 문장이나 문서에 등장하는 단어에 상응하는 원소를 1로 설정한다. Time flies like an arrow Fruit flies like a banana 문장을 토큰으로 나누면 {time, fruit, flies, like, a, an, arrow, banana} 8개가 된다. 각 단어를 8차원 원-핫 벡터로 표현이 가능하다. 여기에서는 0과 1이 한 단어의 등장 여부를 나타낸다. 'like a banana'의 이진 인코딩은 [0,0,0,1,1,0,0,1] 이 된다. time fruit flies like .. 2022. 2. 9.
BERT로 네이버 영화 리뷰데이터 분류하기 실습 사전 학습된 BERT 모델을 이용하여, 네이버 영화 리뷰데이터 분류하기 http://yonghee.io/bert_binary_classification_naver/ BERT로 네이버 영화 리뷰데이터 분류하기 사전학습된 BERT 모델만 이용하여 다른 전처리 없이 문장 긍부정 분류를 할 수 있을지, 귀추가 주목됩니다. yonghee.io 를 참고하여 진행하였다. GPU가 있는 Ubuntu 서버, Conda 환경에서 실행하였다. 🦊네이버 영화 리뷰데이터 다운로드 git clone https://github.com/e9t/nsmc.git 🦊주요 패키지 불러오기 / train, test data 로드 import torch from transformers import BertTokenizer from transf.. 2022. 2. 4.
Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing 분류를 위한 BERT 모델 생성 transformers의 BertForSequenceClassification 모듈을 이용중 해당 문구가 떴다. Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertForSequenceClassification: ['cls.seq_relationship.weight', 'cls.predictions.transfor m.dense.weight', 'cls.predictions.transfor m.LayerNorm.bias', 'cls.predictions.transfor m.dense.bias', 'cls.seq_relationship.bi.. 2022. 2. 4.
NLP / 지도학습 🦊자연어처리 (NLP - Natural Language Process)란? 언어학 지식에 상관없이 텍스트를 이해하는 통계적인 방법을 사용해 실전 문제를 해결하는 기술. 여기서 텍스트의 '이해'는 주로 텍스트를 계산 가능한 표현으로 변환함으로써 이루어짐. 이 표현은 벡터, 텐서, 그래프, 트리 같이 이산적이거나 연속적으로 조합한 구조이다. 최근에는 딥러닝( Deep learning ) 이라는 머신러닝 기술이 발전을 거듭하여 여러 인공지능 작업에서 효과성을 입증받았다. 딥러닝은 계산 그래프와 수치 최적화 기술을 사용해 데이터에서 표현을 효과적으로 학습하는 기술이다. 🦊지도 학습 머신러닝에서 지도학습은 샘플에 대응하는 타깃(예측하는 값)의 정답을 제공하는 방식. 기계번역에서 샘플은 한 언어의 문장이고 타깃은 .. 2022. 1. 24.
자연어 처리 시작 스타트업, 대기업을 가리지 않고 대부분의 업체에서 이제 AI 는 거진 필수로 활용하려는 추세이다. 우리 회사도 AI기반 서비스를 추구하고 있고, 나는 기본적으로 웹백엔드 기반 신입개발자 이지만, 회사와 고려대 HiAI / KAIST 와의 협업으로 관련 회의에 참석하면서 주워듣는 용어들이 있었고, 올 해에는 직접 경험할 수 있도록 AI 개발 2팀에 편성되어 연구원이 되었다. 따라서 기본적인 AI, 그 중에서 자연어처리 대한 개념들이나 패러다임에 대해 공부를 해야한다. 회사에서 주로 해야하는것은 NLP(Natural Language Processing - 자연어 처리) 이고, 더 깊게 들어가면 STS, MRC, DEC 등이 있다. 내가 목표해야할 것은 현재 내가 아는선에서 얘기를 하자면 STS 및 MRC 관.. 2022. 1. 24.
반응형