본문 바로가기

연구/딥러닝

(4)
[강화학습] tensorflow2로 ddpg dqn에 이어 tf2로 ddpg를 작성해봤다. tf1이나 keras를 히용해서 ddpg를 작성했을 때 와 달리 tf2의 autograph 덕에 매우 편리했다. 특히 actor를 업데이트하는 부분에서 chain rule을 이용해서 업데이트 하는 부분이 코드로 먼가 깔끔하게 짤 수 있었다. ddpg 자체가 거의 dqn이 사용한 기법을(target network, replaybuffer) 활용했기 때문에 actor-critic만 잘 구현하면 쉽게 구현할 수 있다. 1. OUNoise ddpg 에서는 exploration을 위해서 OU noise를 사용한다. class OUNoise: def __init__(self, action_dimension, mu=0, theta=0.15, sigma=0.2): self..
[강화학습] tensorflow 2로 DQN 전에 tf1으로 dqn을 작성했다. tf2에서 제공하는 Eager execution + gradienttape 연습할겸 다시 짜봤다. env는 간단하게 cartpole 했다. 코드를 보자 1. replay buffer class ReplayBuffer: def __init__(self, buffer_size): self.buffer_size = buffer_size self.buffer = deque(maxlen=self.buffer_size) def sample(self, batch_size): size = batch_size if len(self.buffer) > batch_size else len(self.buffer) return random.sample(self.buffer, size) def ..
[Colab] Colab 빠르게 사용해보기 intro colab을 그냥 구글에서 gpu 공짜로 빌려준다더라~ 이정도만 알고 있어서.. 위급한 현재상황 선택지가 없었다. 서버 GPU부족 및 동시 실험진행을 위해서 Colab을 아주 간단하게 사용해 봤다. 실제로 주피터노트북도 사용해보지 않아서 주피터 노트북에서 파이썬 스크립트를 실행 시키기만 했다.. 이 방법의 난이도는 최하이다. 목차 1. colab 시작하기 2. google drive 마운트하기 3. 내 스크립트 실행하기 1. colab 시작하기 2. google drive 마운트하기 파일에 데이터셋을 직접 다운로드 한다던가 직접 업로드 할 수도 있지만, 세션이 종료되면 데이터셋을 또 다시 업로드 해야하는 번거로움이 있으니깐 google drive에 내 데이터셋을 올려서 마운트하자. 3. 내 스..
[cs294-112] 1.Supervised Learning of Behaviors ** CS294-112 강의 정리 Lecture 1. Definition sequential decision problems 2. Imitation learning: supervised learning for decision making a. direct imitation work? b. how can we make it work more often? 3. Case studies of recent work in (deep) imitation learning 4. What is missing from imitation learning Terminology & notation state sufficient kind of summary of what's going on in the world that you ..