일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 파스칼케이스
- 케밥케이스
- 연합학습
- 도커 개념
- q learning
- 강화학습
- routing problem
- Metaheuristic
- multi task learning
- 확률공리
- on-policy
- 도커 컨테이너
- Traveling salesman problem
- 헝가리안노테이션
- 스네이크케이스
- 유전알고리즘
- 카멜케이스
- Docker Image
- Federated learning
- Sarsa
- 산업공학
- mmoe
- genetic algorithm
- 코딩스타일
- 몬테카를로 학습
- 큐러닝
- 배반사건
- off-policy
- 그리드월드
- 딥러닝
- Today
- Total
목록인공지능 (5)
SU Library

이런저런 일로 매우 한동안 너무 바빴어서 이제서야 포스팅을 해봅니다. 오늘은 Federated Learning (FL)이라는 개념에 대해 알아보고자합니다. 연합 학습(Federated Learning)은 각데이터를 공유하지 않고 탈중앙화 장치 또는 데이터 소스에서 머신 러닝 모델을 훈련하는 데 사용됩니다. 즉, 여러대의 디바이스들이 존재한다고 가정할때, 이들의 데이터가아닌 이들이 가진 가중치들을 서로 공유함으로써 글로벌 모델은 거시적인 인사이트를 얻고 이를 모든 디바이스들에게 공유하는 방식인 것입니다. 이는 다음과같은 이점들이 있습니다. 개인정보 보호 및 보안: 데이터를 로컬로써 유지하고, 사용자 개인정보와 같은 민감한 정보들에 대한 보호를 보증합니다.탈중앙화: 데이터를 중앙 집중화하지 않고도 여러 장..

MMoE(Multi-gate Mixture-of-Experts)는 멀티태스크 학습(Multi-task Learning)을 위한 모델로, 여러 개의 전문가(Experts) 네트워크와 각각의 태스크(Task)마다 개별적으로 학습되는 게이트(Gate) 네트워크를 포함합니다. 이는 다양한 태스크 간의 상호작용을 캐치하고 이를 학습하도록 설계되었습니다.그림에서 보듯 크게 Expert , Gate로 구성되어있고 이 모듈들을 활용하여 Shared-Bottom mul-task DNN 구조를 갖습니다.각각의 Experts는 일반적으로 feed-forward로 구성되어있고, 입력 데이터의 특징을 학습합니다. 또한, 각 태스크마다 별도의 Gate 네트워크가 존재합니다. Gate는 Experts를 통과한 값을 중합하여 최종 ..

강화학습을 공부하다보면 환경에 최적화된 에이전드$a$를 구축하는 것이 가장 큰 목표입니다. 여기서 에이전트의 행동을 결정하는데 기여하는 것이 정책이라는 $\pi$ 입니다. 또한, 매 에피소드마다 행동에 따른 결과 값을 리턴 값$r$이라 부릅니다. 이러한 최적 정책을 갖게하는 데 있어서 크게 On-policy와 Off-policy의 방법으로 나눠서 에이전트를 학습할 수 있습니다. 이 두방식은 학습과정에서 생성되는 데이터를 활용하여 최적의 정책을 구축하려는 궁극적인 목표는 동일하나 다음과 같은 두가지 차이점이 있습니다. On-policy 방법에서는 학습 과정에서 생성된 데이터를 이용하여 현재의 정책을 평가하고 개선합니다. 즉, 현재 정책에 따라 행동을 선택하고, 그 행동의 결과로 받은 보상과 다음 상태를 ..

요즘 회사에서 강화학습 쪽으로 업무를 진행할 것 같아서, 대학원 때 이후로 덮어두었던 강화학습을 조금씩 다시 복습하며 공부하고 있습니다. 이번 포스팅에서는 환경의 정보가 없는 모델 프리(model free) 상황에서 자주 쓰이는 몬테카를로 학습에 대해 정리하겠습니다. 강화학습에 대한 첫 포스팅인만큼 policy, value, reward 등 생소한 이야기가 나올 수 있는데, 이는 추후에 따로 정리하겠습니다. 몬테카를로 학습이란?몬테카를로 방법은 확률론적 시뮬레이션을 기반으로 한 방법으로, 에이전트가 환경과 상호작용하며 얻은 경험(에피소드)을 분석하여 정책(policy)이나 가치 함수(value function)를 평가하고 개선하는 방법입니다. 에피소드가 모두 끝난 이후에 에피소드로부터 얻은 반환값(ret..

*시작하기에 앞서 스탠포드 대학의 CS224W강의를 듣고 제가 공부하고 이해한 것을 정리해놓은 것입니다. 그래프는 복잡한 세상을 표현하는 일반적인 수단중 하나입니다. 대표적으로 그래프로 표현될 수 있는 정보는 페이스북의 친구관계, 유튜브 알고리즘, 네플릭스 시청자 분석 등이 있지요. 뿐만 아니라 생물학의 단백질 구조, 이미지 내에서으 의 오브젝트의 관계 등등 생각보다 많은 것들을 그래프로 표현할 수 있습니다. 머신러닝 관점에서 그래프는 복잡한 도메인들을 관계그래프로써표한할 수 있는 풍부한 관계 구조를 가지고 있는 것이고, 우리는 이러한 관계를 모델링함으로서, 좋은 퍼포먼스를 얻는 것을 목표로 합니다. Ways to Analyze Networks 네트워크(그래프)를 분석하는 방법은 크게 다음과 같은 방법들..