kjyong

On-device AI Computer Vision Engineer
https://www.linkedin.com/in/jayong-kim-60ba80121/

See All 컴퓨터비전 딥러닝 경량화 KnowedgeDistillation Diffusion

Reinforcement Learning from Human Feedback 1,2장

Reinforcement Learning from Human Feedback 1,2장

Adaptive Keyframe Sampling for Long Video Understanding

Adaptive Keyframe Sampling for Long Video Understanding

EventMemAgent: Hierarchical Event-Centric Memory for Online Video
Understanding with Adaptive Tool Use

EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use

CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Game

CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Game

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

Reinforcement Learning from Human Feedback 1,2장

Reinforcement Learning from Human Feedback 1,2장

Adaptive Keyframe Sampling for Long Video Understanding

Adaptive Keyframe Sampling for Long Video Understanding

EventMemAgent: Hierarchical Event-Centric Memory for Online Video
Understanding with Adaptive Tool Use

EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use

CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Game

CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Game

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

OpenVLA: An Open-Source Vision-Language-Action Model

OpenVLA: An Open-Source Vision-Language-Action Model

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

MagicVideo: Efficient Video Generation With Latent Diffusion Models

MagicVideo: Efficient Video Generation With Latent Diffusion Models

Video Diffusion Models (VDM)

Video Diffusion Models (VDM)

InstantID: Zero-shot Identity Preserving Generation in Seconds

InstantID: Zero-shot Identity Preserving Generation in Seconds

SnapFusion: Text-to-Image Diffusion Model on Mobile
Devices within Two Seconds

SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds

LoRA: Low-Rank Adaptation of Large Language Models

LoRA: Low-Rank Adaptation of Large Language Models

Textual Inversion: An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

Textual Inversion: An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

DreamBooth: Fine Tuning Text-to-Image Diffusion Models
for Subject-Driven Generation

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

LDM: High-Resolution Image Synthesis with Latent Diffusion Models

LDM: High-Resolution Image Synthesis with Latent Diffusion Models

VQ-VAE: Neural Discrete Representation Learning

VQ-VAE: Neural Discrete Representation Learning

컴퓨터비전

MAE와 MSE는 부호를 없애는데 어떻게 regression이 학습되는 걸까?

MAE와 MSE는 부호를 없애는데 어떻게 regression이 학습되는 걸까?

regression loss의 미분값에 대한 이해

왜 Re-Identification에서 GeM을 쓸까?

왜 Re-Identification에서 GeM을 쓸까?

GeM Pooling VS Max Pooling vs Average Pooling

컴퓨터비전딥러닝

[Knowledge Distillation] Learning from a Teacher using Unlabeled Data

[Knowledge Distillation] Learning from a Teacher using Unlabeled Data

Unlabelling 데이터를 활용하여 Teacher보다 똑똑한 Student 만들기

컴퓨터비전경량화딥러닝

kjyong

RSS·Powered by Inblog