일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- Traveling salesman problem
- multi task learning
- 도커 컨테이너
- 강화학습
- on-policy
- mmoe
- 파스칼케이스
- 확률공리
- 케밥케이스
- 배반사건
- Sarsa
- 산업공학
- 그리드월드
- 연합학습
- off-policy
- 스네이크케이스
- 도커 개념
- 카멜케이스
- 딥러닝
- 큐러닝
- Federated learning
- Metaheuristic
- 몬테카를로 학습
- q learning
- genetic algorithm
- routing problem
- Docker Image
- 헝가리안노테이션
- 코딩스타일
- 유전알고리즘
- Today
- Total
목록전체 글 (15)
SU Library

이런저런 일로 매우 한동안 너무 바빴어서 이제서야 포스팅을 해봅니다. 오늘은 Federated Learning (FL)이라는 개념에 대해 알아보고자합니다. 연합 학습(Federated Learning)은 각데이터를 공유하지 않고 탈중앙화 장치 또는 데이터 소스에서 머신 러닝 모델을 훈련하는 데 사용됩니다. 즉, 여러대의 디바이스들이 존재한다고 가정할때, 이들의 데이터가아닌 이들이 가진 가중치들을 서로 공유함으로써 글로벌 모델은 거시적인 인사이트를 얻고 이를 모든 디바이스들에게 공유하는 방식인 것입니다. 이는 다음과같은 이점들이 있습니다. 개인정보 보호 및 보안: 데이터를 로컬로써 유지하고, 사용자 개인정보와 같은 민감한 정보들에 대한 보호를 보증합니다.탈중앙화: 데이터를 중앙 집중화하지 않고도 여러 장..

MMoE(Multi-gate Mixture-of-Experts)는 멀티태스크 학습(Multi-task Learning)을 위한 모델로, 여러 개의 전문가(Experts) 네트워크와 각각의 태스크(Task)마다 개별적으로 학습되는 게이트(Gate) 네트워크를 포함합니다. 이는 다양한 태스크 간의 상호작용을 캐치하고 이를 학습하도록 설계되었습니다.그림에서 보듯 크게 Expert , Gate로 구성되어있고 이 모듈들을 활용하여 Shared-Bottom mul-task DNN 구조를 갖습니다.각각의 Experts는 일반적으로 feed-forward로 구성되어있고, 입력 데이터의 특징을 학습합니다. 또한, 각 태스크마다 별도의 Gate 네트워크가 존재합니다. Gate는 Experts를 통과한 값을 중합하여 최종 ..

강화학습을 공부하다보면 환경에 최적화된 에이전드$a$를 구축하는 것이 가장 큰 목표입니다. 여기서 에이전트의 행동을 결정하는데 기여하는 것이 정책이라는 $\pi$ 입니다. 또한, 매 에피소드마다 행동에 따른 결과 값을 리턴 값$r$이라 부릅니다. 이러한 최적 정책을 갖게하는 데 있어서 크게 On-policy와 Off-policy의 방법으로 나눠서 에이전트를 학습할 수 있습니다. 이 두방식은 학습과정에서 생성되는 데이터를 활용하여 최적의 정책을 구축하려는 궁극적인 목표는 동일하나 다음과 같은 두가지 차이점이 있습니다. On-policy 방법에서는 학습 과정에서 생성된 데이터를 이용하여 현재의 정책을 평가하고 개선합니다. 즉, 현재 정책에 따라 행동을 선택하고, 그 행동의 결과로 받은 보상과 다음 상태를 ..