본문 바로가기

빅데이터/Hadoop

(2)

[Hadoop] 하둡으로 TF-IDF 하둡으로 wordcount 말고 tf-idf를 진행해보았다. tf-idf는 어떤 단어가 특정 문서내 얼마나 중요한지 나타내는 통계적 수치이다. 자세한설명은 위키참조 https://en.wikipedia.org/wiki/Tf%E2%80%93idf 순서는 다음과 같이 진행한다. 1. hadoop mapreduce 2. tf-idf 코드 작성 3. tf-idf 예제 실행 및 결과 확인 1. hadoop mapreduce mapreduce job : 입력 데이터셋을 독립적인 청크로, 데이터를 의미있게 분할하는 작업 map : 입력 데이터가 로 변환된 자료구조 ex) wordcount의 경우 문서 내의 모든 단어를 으로 mapping 해주게 됨 reduce : map의 자료구조를 를 통해 연산하는 과정 ex) w..

[Hadoop] Hadoop 설치 + wordcount 예제 하둡을 써보았다. 17년도에 써봤는데 그때는 이것저것 해도 아무것도 몰랐는데 이번에 제대로 해보았다. 설치 guide --> https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html Pseudo-Distributed Operation : 이 모드로 설치했다. - Hadoop can also be run on a single-node in a pseudo-distributed mode where each hadoop daemon runs in a separate Java process 가이드대로 설치하니 크게 어려움은 없었다. 순서는 1. 리눅스 계정 생성 2. 자바 8 버전 설치 --> https:/..

이전 1 다음

티스토리툴바