일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 케밥케이스
- off-policy
- Sarsa
- 유전알고리즘
- Docker Image
- 헝가리안노테이션
- 카멜케이스
- on-policy
- 연합학습
- mmoe
- 도커 개념
- q learning
- 확률공리
- Federated learning
- routing problem
- 코딩스타일
- 스네이크케이스
- 몬테카를로 학습
- Traveling salesman problem
- 산업공학
- genetic algorithm
- Metaheuristic
- 도커 컨테이너
- 배반사건
- 큐러닝
- 강화학습
- 파스칼케이스
- 딥러닝
- multi task learning
- 그리드월드
- Today
- Total
목록분류 전체보기 (15)
SU Library

이런저런 일로 매우 한동안 너무 바빴어서 이제서야 포스팅을 해봅니다. 오늘은 Federated Learning (FL)이라는 개념에 대해 알아보고자합니다. 연합 학습(Federated Learning)은 각데이터를 공유하지 않고 탈중앙화 장치 또는 데이터 소스에서 머신 러닝 모델을 훈련하는 데 사용됩니다. 즉, 여러대의 디바이스들이 존재한다고 가정할때, 이들의 데이터가아닌 이들이 가진 가중치들을 서로 공유함으로써 글로벌 모델은 거시적인 인사이트를 얻고 이를 모든 디바이스들에게 공유하는 방식인 것입니다. 이는 다음과같은 이점들이 있습니다. 개인정보 보호 및 보안: 데이터를 로컬로써 유지하고, 사용자 개인정보와 같은 민감한 정보들에 대한 보호를 보증합니다.탈중앙화: 데이터를 중앙 집중화하지 않고도 여러 장..

MMoE(Multi-gate Mixture-of-Experts)는 멀티태스크 학습(Multi-task Learning)을 위한 모델로, 여러 개의 전문가(Experts) 네트워크와 각각의 태스크(Task)마다 개별적으로 학습되는 게이트(Gate) 네트워크를 포함합니다. 이는 다양한 태스크 간의 상호작용을 캐치하고 이를 학습하도록 설계되었습니다.그림에서 보듯 크게 Expert , Gate로 구성되어있고 이 모듈들을 활용하여 Shared-Bottom mul-task DNN 구조를 갖습니다.각각의 Experts는 일반적으로 feed-forward로 구성되어있고, 입력 데이터의 특징을 학습합니다. 또한, 각 태스크마다 별도의 Gate 네트워크가 존재합니다. Gate는 Experts를 통과한 값을 중합하여 최종 ..

강화학습을 공부하다보면 환경에 최적화된 에이전드$a$를 구축하는 것이 가장 큰 목표입니다. 여기서 에이전트의 행동을 결정하는데 기여하는 것이 정책이라는 $\pi$ 입니다. 또한, 매 에피소드마다 행동에 따른 결과 값을 리턴 값$r$이라 부릅니다. 이러한 최적 정책을 갖게하는 데 있어서 크게 On-policy와 Off-policy의 방법으로 나눠서 에이전트를 학습할 수 있습니다. 이 두방식은 학습과정에서 생성되는 데이터를 활용하여 최적의 정책을 구축하려는 궁극적인 목표는 동일하나 다음과 같은 두가지 차이점이 있습니다. On-policy 방법에서는 학습 과정에서 생성된 데이터를 이용하여 현재의 정책을 평가하고 개선합니다. 즉, 현재 정책에 따라 행동을 선택하고, 그 행동의 결과로 받은 보상과 다음 상태를 ..

요즘 회사에서 강화학습 쪽으로 업무를 진행할 것 같아서, 대학원 때 이후로 덮어두었던 강화학습을 조금씩 다시 복습하며 공부하고 있습니다. 이번 포스팅에서는 환경의 정보가 없는 모델 프리(model free) 상황에서 자주 쓰이는 몬테카를로 학습에 대해 정리하겠습니다. 강화학습에 대한 첫 포스팅인만큼 policy, value, reward 등 생소한 이야기가 나올 수 있는데, 이는 추후에 따로 정리하겠습니다. 몬테카를로 학습이란?몬테카를로 방법은 확률론적 시뮬레이션을 기반으로 한 방법으로, 에이전트가 환경과 상호작용하며 얻은 경험(에피소드)을 분석하여 정책(policy)이나 가치 함수(value function)를 평가하고 개선하는 방법입니다. 에피소드가 모두 끝난 이후에 에피소드로부터 얻은 반환값(ret..

프로그래밍 언어를 배우고 다른 개발자들과 함께 개발을 하다보면 항상 회자되는 이야기가 있습니다. 이는 바로 일관된 코딩스타일을 가져 생산성을 높히는것입니다. 이러한 암묵적인 약속을 세움으로써 협업하는 개발자들의 시각에서 코드 분석에 대한 이점을 가지고 더욱 견고한 코딩을 할 수 있는 것입니다. 표기법의 종류널리 통용되어 사용되고 있는 표기법은 카멜표기법 - Camel Case, 스네이크표기법 - Snake Case, 케밥표기법 - Kebab Case, 파스칼표기법 - Pascal Case, 헝가리안표기법 - Hungurian Notation 이 있습니다. 각 표기법은 다음과 같은 특징이 있습니다. 카멜표기법 - Camel Case 처음단어의 첫문자는 소문자, 다음단어의 첫문자는 대문자표기예시 ) us..

도커를 운영하다보면 다수의 컨테이너들이 생성되고 도커 명령어로 일일히 관리하기엔 너무 까다로워집니다. 이럴 때를 대비해 Docker Compose라는 기능이 있고 이를 통해 다수의 컨테이너를 손쉽게 관리할 수 있습니다. 앞선 포스팅들에서 다룬것같이 docker run 옵션들을 입력하는 대신 docker-compose.yml 파일에 컨테이너 실행 옵션들을 기록합니다. 도커 컴포즈의 경우 디렉토리 단위로 동작하는 특징이 있고, yaml 파일 작성 시space바 2칸을 사용해서 들여쓰기를 해야합니다. tab의 경우 도커 컴포즈가 인식을 못하기 때문에 작성시 유의해야하는 점이 있습니다. 먼저 wordpress라는 폴더를 생성하고 docker-compose.yml파일을 다음과같이 작성하겠습니다.mkdir ./..

지난 포스팅(컨테이너 개념정리)에서 살펴보았던 명령어docker run -it rockylinux:9 date는 rockylinux의 9버전 이미지를 실행하고 date라는 명령어를 실행합니다. 이렇게 이미지를 기반으로 실행된 컨테이너들은 서로 독립적인 관계로 서로가 서로에게 영향을 주지 않습니다. docker ps -a 예를 들면 rockylinux:9 이미지를 기반으로 실행된 8d5386861d9f 컨테이너 내부에서 date 명령어를 삭제하는 작업을 진행하였습니다. 8d5386861d9f에서는 date 명령어를 실행할 수 없는 상황이지만, 0e2fbc94bb2b에서는 date를 여전히 사용할 수 있습니다. 즉, 어떤 컨테이너에서 파일을 삭제해도, 다른 컨테이너에는 영향을 끼치지 않습니다. 이런점이 ..

도커의 컨테이너는 하나의 프로세스로 가상환경 파일시스템(도커 이미지의 메타데이터로 구성됨)을 기반으로 실행됩니다. 즉, 컨테이너는 특정환경을 구성하기 위한 정보를 가진 도커 이미지를 기반으로 실행된느 파일시스템 내에서 실행되는 프로세스로 다음과 같은 4개의 생애주기를 따릅니다. 컨테이너 생애주기생성 - docker run시작 - docker run종료 - docker kill, stop삭제 - docke rm [-f]그렇다면, 도커 컨테이너는 어떻게 실행이 되는 것일까요? 아래 명령어를 rockylinux:9.2버전의 셸로 진입합니다. docker run -it --rm rockylinux:9 bash추가되는 옵션으로 "-it"와 "--rm" 옵션이 추가되는 것을 확인할 수 있습니다.먼저 "-"는 짧은..
이번 포스팅에서는 앞선 포스팅 통계이론 - 조건부확률1에서 정리한 내용을 바탕으로 베이즈이론에 대한 소개와 증명을 다루는 내용을 포함하겠습니다. 전환률 공식: $$사건 B_1, B_2,..., B_k$$ 에 대하여 $$ B_i \cap B_j = \varnothing , i \neq j$$ 이고, $$ \bigcup_{i=1}^{k} B_i = S$$ 를 만족할 경우 $$P(A) = \sum_{i=1}^{n}P(B_i)P(A|B_i)$$ 가 성립한다. Proof. $$ P(A) = P(A \cap S) = P \left( A \cap \left( \bigcup_{i=1}^{k} B_i \right) \right) = \sum_{i=1}^{k} P(B_i)P(A|B_i) $$ 첫번째 가정은 사건 $B$는 ..

정말 오랜만에 글을 쓰네요. 6월 7일 디펜스이후로 열심히 블로그를 하려고했지만, 디펜스이후 치워야될 일들이 너무 불어나는 바람에... 바빠서 현실과 싸우는 중입니다. 그와중에 몇가지 정리된 사안들이 있어서 약간의 여유가 생긴지라, 그동안 배웠던 지식을 복습하고, 다시 정리하는 차원에서 대표적인 메타 휴리스틱 알고리즘인 Genetic Algorithm(GA)에 대해 작성하게 되었습니다. ㅎㅎ 최적화학문에 대한 첫 포스팅인 만큼 메타휴리스틱이 무엇인지, 이걸로 무엇을 할건지에 대해 간략히 설명하고 넘어가겠습니다. 메타 휴리스틱이란? 풀고자하는 문제의 최적해(정답)를 제한된 시간과 한정된 자원으로 풀기위한 알고리즘 입니다. 이는 선형계획모델 등 전통적인 최적화 기법으로 reasonable한 시간안에 풀기 어..