본문 바로가기

빅데이터

(5)
google kubernetes engine으로 배포해보기 지난번에 했던 tweeter api + pub/sub + bigquery를 local말고 gke로 클라우드에 배포해보자 1. google cloud sdk 설치하기 2. 배포를 위한 docker 이미지 만들기 3. google kubernetes engine에 이미지를 올려 빌드하기 1. google cloud sdk 설치하기 cloud.google.com/sdk/docs/installGoogle Cloud SDK 설치 | Cloud SDK 문서이 페이지에는 Cloud SDK 설치를 선택하고 유지하기 위한 안내가 포함되어 있습니다. 설치 안내 참고: 프록시/방화벽을 사용하는 경우 자세한 설치 방법은 프록시 설정 페이지를 참조하세요. Linux Ccloud.google.com자세한 설치방법은 위의 링크와 ..
twitter api + google cloud pub/sub 사용해보기 twitter api로 원하는 키워드 검색하고 pub/sub에 적용해 보자 1. google cloud pub/sub 주제 만들기 2. twitter streaming data를 google cloud pub/sub에 publish 하기 3. google cloud function을 이용하여 biqqurey에 연동하기 1. google cloud pub/sub 주제 만들기 ** 프로젝트 만드는 방법 cloud.google.com/resource-manager/docs/updating-project?hl=ko 프로젝트 만들기 및 관리 | Resource Manager 문서 | Google Cloud Google Cloud 프로젝트는 API를 관리하고 결제를 사용 설정하며 공동작업자를 추가 및 삭제하고 Go..
python으로 twitter api 사용해보기 트위터 무료 API를 사용해보자! 1. API 키 받기 2. filter reamtime tweet을 써보자 1. API 키 받기 API 키를 받기 위해서는 트위터 ID로 developer apply를 받아야 한다. twitter developer : developer.twitter.com/en Use Cases, Tutorials, & Documentation Publish & analyze Tweets, optimize ads, & create unique customer experiences with the Twitter API, Twitter Ads API, & Twitter for Websites. Let's start building. developer.twitter.com 트위터에 devel..
[Hadoop] 하둡으로 TF-IDF 하둡으로 wordcount 말고 tf-idf를 진행해보았다. tf-idf는 어떤 단어가 특정 문서내 얼마나 중요한지 나타내는 통계적 수치이다. 자세한설명은 위키참조 https://en.wikipedia.org/wiki/Tf%E2%80%93idf 순서는 다음과 같이 진행한다. 1. hadoop mapreduce 2. tf-idf 코드 작성 3. tf-idf 예제 실행 및 결과 확인 1. hadoop mapreduce mapreduce job : 입력 데이터셋을 독립적인 청크로, 데이터를 의미있게 분할하는 작업 map : 입력 데이터가 로 변환된 자료구조 ex) wordcount의 경우 문서 내의 모든 단어를 으로 mapping 해주게 됨 reduce : map의 자료구조를 를 통해 연산하는 과정 ex) w..
[Hadoop] Hadoop 설치 + wordcount 예제 하둡을 써보았다. 17년도에 써봤는데 그때는 이것저것 해도 아무것도 몰랐는데 이번에 제대로 해보았다. 설치 guide --> https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html Pseudo-Distributed Operation : 이 모드로 설치했다. - Hadoop can also be run on a single-node in a pseudo-distributed mode where each hadoop daemon runs in a separate Java process 가이드대로 설치하니 크게 어려움은 없었다. 순서는 1. 리눅스 계정 생성 2. 자바 8 버전 설치 --> https:/..