본 연구는 물체들을 잡아내는 로봇 (Robotic Bin Picking) 을 위해 사람이 협동로봇을 통해 시연하고, 이때 측정된 2D/3D 이미지를 활용해 무작위로 분산된 물체 중 잡을수 있는 것을 찾아내기 위한 신경망 모델을 자동으로 학습할 수 있는 플랫폼을 개발했다. 해당 신경망 모델은 YOLOv5 (You Only Look Once) 로, 2D 이미지에서 대상 객체와 그 영역을 빠르게 찾아낼 수 있다. 이 결과로 제한된 영역에서 캡쳐된 3D 이미지를 통해 물체들 위에 2D 이미지를 투영 및 합성하여 신경망 모델을 학습했다. 또한 사람이 직접 협동 로봇 팔을 잡고 움직일 수 있는 직접 티칭 (Direct Teaching) 기능을 통해 로봇이 물체에 접근하고 잡아야 할 경로를 학습하였으며, 해당 물체의 3D 이미지 레퍼런스를 수집할 수 있으며, 수직 방향으로 캡쳐해 음영을 줄일 수 있다. 이후 두 3D 이미지를 비교해 로봇의 위치와 자세를 계산할 수 있다. 이러한 일련의 과정은 사람과 로봇이 협업하여 인공지능 모델을 학습시킨 것이며, 신경망 모델 학습을 위한 데이터 라벨링과 전처리 과정등을 획기적으로 줄일 수 있다.