아마존 댓글 분류 모델 (Word2vec / Doc2vec) - 이 댓글은 어느 카테고리의 댓글일까? w2v_classification_logistic_0512_3_ver1.0 여기는 단순히 데이터 파일을 5만건 단위로 읽어서 저장하는 부분¶ In [1]: # import pandas as pd # import gzip # def parse(path): # g = gzip.open(path, 'rb') # for l in g: # yield eval(l) # def getDF(path): # i = 0 # df = {} # for d in parse(path): # df[i] = d # i += 1 # return pd.DataFrame.from_dict(df, orient='index') In [6]: # df = getDF('/home/handsomejjong/Downloads/review/revie.. 더보기 5월15일 할 일. 1. 구글 vision API 환경구축하기 v2. 네트워크 통신으로 실시간 vision 사용 찾기 ->3. 댓글 분류 모델 최적화 시도 1. 에어컨 수리기사v2. 애기들 숙제범위 보내주기 v3. 스승의 은혜 v 1. 댓글 분류 모델 정리 2. TED 필사 더보기 5월 12일 To-do List 1. 시험지 만들기 ( v )2. 강의 ppt만들기 ( )3. 문제 풀어가기 1/2 ( ) 1. classification 모델 수정 ( v )2. vision api 활용 ( )3. 추천 알고리즘 base 구성 ( ) 1. TED 1/3 필사 하기 ( ) 1. Doc2Vec 로 각 리뷰를 학습시킨 후 2. Classifier로 scikit-learn 의 logistic regression 을 이용3. 20000건의 amazon review 학습결과 AUC 0.75로 꽤 괜찮게 나옴. (test 10000건)4. key_word로도 카테고리 분류 가능. 5. 자세한 예시는 데이버 분석 섹션에 올려둠. 더보기 이전 1 ··· 6 7 8 9 10 11 12 다음