이미지 연산 # 이미지 덧셈cv2.add(image, 100)# 일괄적으로 모든 픽셀에 100을 더하기# 결과가 255보다 크면 255로, 255가 넘으면 255로 맞춰줌# 두 개의 이미지 더하기img1 = cv2.imread('chair.webp')img2 = cv2.imread('explosion.webp')cv2.add(chair, explosion)show(cv2.add(img1, img2))# 가중치를 곱하여 더하기(2:8로 더하고 일괄적으로 10 더함)cv2.addWeighted(chair, 0.2, explosion, 0.8, 0)# 이미지 뺄셈# 일괄적으로 모든 픽셀에 100을 빼기cv2.subtract(image, 100)# 결과가 0보다 작으면 0으로 만듦show(image + 100)# 두 개의 .. OpenCV 기초, 이미지 처리, 비디오 처리 import cv2# 파일 열기image_path = 'balloon.webp'image = cv2.imread(image_path)# 이미지 크기image.shape# 이미지를 이루는 점의 개수image.size# 직접 계산image.shape[0] * image.shape[1] * image.shape[2]# 넘파이로 계산import numpy as npnp.product(image.shape)# 자료형 보기image.dtype# 부동소수점 실수import structx = 20print('{:032b}'.format(struct.unpack('>I', struct.pack('>f', x))[0]))# 이미지 보기# 새 창을 띄워서 이미지 보기cv2.imshow('image 1', image) # 제.. 컴퓨터 비전 과업(Computer CV, Task) 컴퓨터 비전컴퓨터를 이용해 이미지로부터 의미 있는 정보를 추출하는 것생물의 시각에 해당하는 영역을 다루는 인공지능*의 분야사진, 동영상 등의 입력을 받아 처리더 나아가 새로운 이미지를 생성하는 것까지 포함교통, 의료, 스포츠, 제조 등 다양한 분야에 활용 컴퓨터 비전 과업과업(task): 머신러닝을 통해서 풀려고 하는 문제의 종류나 달성하려는 목표예시:이미지 분류물체 탐치광학 문자 인식자세 추정이미지 분리깊이 추정이미지 간 변환이미지 생성 파이썬으로 짜여진 오픈소스 패키지https://huggingface.co/ Hugging Face – The AI community building the future.The Home of Machine Learning Create, discover and colla.. [RL] Off-policy 정책경사 DDPG(Deep Deterministic Policy Gradient)Q함수와 정책을 동시에 학습하는 off-policy 학습 알고리즘연속적인 행동 공간이 있는 환경에서만 사용할 수 있음탐색을 위해 행동에 노이즈를 추가 Pendulum 환경진자의 끝에 토크를 가해서 최대한 위쪽으로 똑바로 세우는 문제상태: 진자 끝의 가로, 세로 위치, 각속도행동: 토크(-2 ~ +2)import gymnasium as gymenv = gym.make("Pendulum-v1", render_mode="rgb_array")# DDPG 실습import numpy as npfrom stable_baselines3 import DDPGfrom stable_baselines3.common.noise import NormalAct.. [RL] PPO 성능 붕괴(performance collapse)강화학습에서는 여러 가지 정책들을 탐색한 정책에 의해 생성되는 궤적을 이용해, 정책의 파라미터를 업데이트 TRPO(Trust Region Policy Optimization)정책 경사의 문제점 정책을 너무 많이 업데이트하면 최적 정책에서 멀어질 수 있음정책을 너무 적게 업데이트하면 최적 정책으로 수렴하는데 너무 오래걸림 TRPO기존의 정책에서 너무 멀리 벗어나지 않는 신뢰 영역을 계산신뢰 영역 내에서만 정책을 업데이트기존 정책과 새로운 정책의 차이는 쿨백-라이블러 발산으로 계산 PPO 실습# 병렬 환경from stable_baselines3.common.env_util import make_vec_envvec_env = make_vec_env("CartPo.. [RL] 경험 리플레이 경험 리플레이(Experience Replay)경험 샘플을 순서대로 학습시키면, 서로 독립적이지 않음리플레이 버퍼에 저장한 후, 일부를 무작위로 뽑아 Q함수 학습에 사용 stable-baselines의 리플레이 버퍼DQN과 같은 OffPolicyAlgorithm은 환경에 따라 자동으로 리플레이 버퍼를 지정리플레이 버퍼 클래스는 stable_baselines3.common.buffers에 정의경험을 고정된 크기의 버퍼에 축적버퍼가 가득 차면 오래된 경험부터 덮어 씀버퍼 크기는 알고리즘 클래스를 초기화할 때 buffer_size 인자로 설정 가능Per(Prioritized Experience Replay)경험리플레이(ER)는 모든 경험을 동일한 확률로 샘플링중요한 경험에 우선 순위를 주면 더 효율적일 것경험.. [RL] 정책경사 정책경사 Policy GradientDQN 등 가치 기반 강화학습은 가치를 정확히 추정하는 것이 목표여러 행동 중에 가치가 가장 높은 행동을 하는 것이 사용강화학습의 목표는 정책의 발견이므로, 굳이 가치를 정확히 추정할 필요는 없음행동 공간이 연속적인 경우에는 사용이 어려움확률론적 정책의 학습이 어려움 예) 가위 바위 보:모든 손의 가치는 같음예측 불가능하게 내는 것이 중요정책 경사는 가치를 추정하지 않고 성능이 극대화되도록 정책을 직접 개선수익이 높은 행동의 확률을 높이고, 수익이 낮은 행동의 확률을 낮춤 파라미터화 된 정책정책: 한 상태에서 할 행동을 정해놓은 것확률적 정책: 행동이 결정되어 있지 않고 각각의 행동이 확률 𝜋(𝑎|𝑠, 𝜃)을 따름확률은 파라미터 𝜃에 따라 달라짐인공신경망 모형.. [RL] 가치 기반 강화학습 (NFQ, DQN, 이중 DQN, DQNPolicy, 듀얼링) NFQ(Neural Fitted Q iteration)인공신경망을 강화학습의 함수 근사에 적용한 초기 알고리즘Fitted Value Iteration → Fitted Q Iteration → Neural FQI 로 발전배치(batch) 강화학습 : 데이터를 수집 후에 일괄적으로 학습하는 방식기본 아이디어 :환경과 상호작용을 통해 데이터를 만듦만들어진 데이터로 행동 가치 함수 Q를 신경망으로 학습위 과정의 반복 NFQ와 역전파 알고리즘지도학습에서는 데이터의 레이블을 예측강화학습에서 TD 목표(=보상+다음 상태의 수익)는 모델 자체에서 나옴다음 상태의 수익에 대한 추정치는 오차 역전파의 대상에서 제외해야함. 함수 근사의 문제1) 훈련의 불안정성2) iid 가정 위배 함수 근사의 문제에 대한 NFQ의 해결책.. pytorch 설치 안되는 경우 cmd>pip uninstall torch torchvision Proceed(Y/n)? Y pip install torch==2.3.0 torchvision===0.18.0 Successfully 강화학습, 딥러닝 사이트 추천 https://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=circle®Dataset=reg-plane&learningRate=0.03®ularizationRate=0&noise=0&networkShape=4,2&seed=0.13080&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=.. [RL] 시간차 학습, 동적계획법 시간차 학습(Temporal-Difference Learning)MC와 달리 에피소드 끝까지 가디릴 필요가 없음 → 매 step마다 학습 가능무한히 계속되거나 에피소드가 매우 긴 환경에서도 사용할 수 있음MC보다 V의 초기 추정치에 더 민감(큰 편향)재귀적 형태 시간차 학습의 심리-생물학적 의미시간차 학습은 행동주의 심리학의 일환인 강화 학습 이론에 기초행동이 긍정적인 결과(보상)를 초래하면 그 행동이 강화부정적인 결과(벌)를 초래하면 그 행동이 약화 TD오차 : 기대한 보상과 실제로 받은 보상 간의 차이( 기대수준보다 높은지 낮은지)도파민 뉴런의 반응이 TD오차에 기반 람다(λ)-수익n = ∞면(MC) 에피소드가 끝났을 때 모든 상태의 가치를 수정할 수 있으나 분산 이 크고, 끝날 때까지 기다려야 함.. [RL] MAB, Epsilon, 낙관적 초기화 Multi-Armed Bandit슬롯머신이 여러 개 있을 때 슬롯머신마다 터지는 비율이 다름, 어떤 슬롯머신을 당길 것인가MAB문제는 강화학습의 일종다음 상태로 전이가 없으므로, 지평=1 → 이번 행동의 결과는 이후 상태와 무관행동은 주어진 대안 중 하나를 선택하는 것 탐색-활용 교환(exploration-exploitation trade off)1) 탐색 : 새로운 시도를 해보는 것2) 활용 : 기존에 알려진 최선을 반복하는 것3) 탐색만 하는 전략 :- 모든 슬롯머신을 골고루 당겨본다. - 각 슬롯머신의 수익률을 가장 정확히 파악할 수 있음- 돈은 모든 슬롯머신의 평균만큼만 벌 수 있음4) 활용만 하는 전략- 슬롯머신을 하나 정해서 무조건 그것만 당겨본다. - 다른 슬롯머신의 수익률은 알 수 없음- .. 이전 1 2 3 4 ··· 6 다음