안녕하세요! 휴린이 여러분(해보고 싶어서 해봤습니다)
얼마 전까지만 해도 'AI'라는 단어를 들으면 막연하게 어렵고, 저와는 상관없는 이야기처럼 느껴졌던 제가, 지금은 AI 분야로의 직무 전환을 꿈꾸며 한 걸음씩 나아가고 있습니다.
저는 13년차 Java 백엔드개발자로 근무 중인 직장인이랍니다!
말 그대로 'AI 알못'이었던 제가 AI의 매력에 푹 빠지게 된 계기 중 하나는 바로 '멀티모달(Multi-modal) 벡터화'라는 개념을 이해하면서부터였습니다.
오늘은 제가 AI의 세계에 발을 들이며 경험했던, 텍스트와 이미지를 AI가 어떻게 함께 이해하는지에 대한 이야기를 해보려 합니다.
1. AI, '숫자'로 세상을 이해한다는 깨달음
처음 AI를 공부할 때 가장 신기했던 점은, AI가 사실 모든 정보를 '숫자'로 바꿔서 처리한다는 것이었어요. 우리가 보는 사진, 읽는 글, 듣는 소리 모두 AI에게는 그저 숫자의 나열일 뿐이죠. 이 숫자의 나열을 우리는 '벡터(Vector)'라고 부르더군요.
처음엔 텍스트를 숫자로 바꾸는 법 (단어 하나하나를 숫자로 표현하는 '원-핫 인코딩'이나, 단어의 의미를 담은 '워드 임베딩' 같은 것들)을 배우면서 "오, 신기하다!" 했었죠. 이미지를 숫자로 바꾸는 것도 마찬가지고요. 픽셀 하나하나의 색깔 정보를 숫자로 표현하는 식으로요.
그런데 곧 의문이 들었습니다. "사람은 사진을 보면서 '이건 기차역 풍경이고, 저기 노란색 기차가 지나가네' 하고 이미지와 텍스트 설명을 동시에 떠올리는데, AI도 그렇게 할 수 있을까?"
2. '멀티모달 벡터화'라는 마법 같은 개념과의 만남
간단히 말해, 서로 다른 형태의 데이터(모달리티)를 AI가 함께 이해할 수 있도록 하나의 '공통된 숫자 언어'로 만드는 기술입니다. 특히 저는 텍스트와 이미지를 함께 벡터화하는 것에 큰 매력을 느꼈습니다.

예를 들어, 쇼핑몰에서 옷을 고를 때 사진만 보지 않고, '소재', '착용감', '사이즈' 같은 상세 설명을 함께 읽습니다. AI도 그래야만 특정 옷에 대한 완벽한 이해를 할 수 있겠죠. 멀티모달 벡터화는 바로 이런 인간적인 이해 방식에 AI를 가깝게 만드는 기술이었어요.
제가 알게 된 멀티모달 벡터화의 핵심은 다음과 같습니다.
- 따로 또 같이: 텍스트는 텍스트 전문 모델로, 이미지는 이미지 전문 모델로 각각 먼저 벡터로 변환합니다. 이때 각 모달리티의 특징과 의미가 벡터 안에 잘 담기도록 합니다.
- 하나의 공간에 정렬: 그리고 가장 중요한 부분! 이 두 개의 벡터(텍스트 벡터와 이미지 벡터)를 하나의 거대한 벡터 공간 안에 함께 배치합니다. 중요한 건, 이때 서로 연관성이 높은 텍스트와 이미지는 벡터 공간에서 가깝게 위치하도록 학습시킨다는 점입니다. 예를 들어, '활짝 웃는 강아지'라는 텍스트의 벡터와, 실제로 활짝 웃고 있는 강아지 사진의 벡터가 서로 옆에 붙어 있게 만드는 거죠.
- 위 첨부한 이미지를 설명 하면 의미가 유사한 것들이 비슷한 곳에 군집해있다는 내용을 설명한 이미지입니다.
chicken(text)과 chicken의 이미지가 서로 가까운 곳에 위치하는 것을 보실 수 있습니다.
이 개념을 이해했을 때, 이게 AI의 처음과 끝인건가 하는 생각에 더 깊게 파보기로 하였습니다.
3. AI 알못, 멀티모달의 무궁무진한 활용 가능성에 눈뜨다
멀티모달 벡터화가 가능해지면서, AI의 활용 범위는 상상 이상으로 넓어졌습니다. 'AI 알못'이었던 제가 봐도 너무나 놀랍고 흥미로운 적용 사례들이 많았습니다.
- 이미지 검색: "빨간색 스포츠카"라고 검색하면 단순히 '빨간색'이나 '스포츠카'라는 단어가 들어간 웹페이지만 찾는 게 아니라, 정말로 빨간색 스포츠카 사진을 찾아줍니다.
- 그림 그리는 AI, DALL-E: 텍스트를 이해하고 실제 이미지를 만들어내는 AI. 이 모든 게 멀티모달 벡터화 덕분이라는 것을 알았을 때, AI가 단순한 계산 기계가 아니라 창의적인 존재가 될 수 있다는 것을 처음으로 느꼈습니다.
- 이미지를 인식하고 자막을 생성: 시각 장애인을 위한 기술처럼, AI가 사진을 보고 "당신 앞에는 횡단보도가 있고, 신호등은 빨간색입니다"라고 텍스트로 설명해주는 것도 가능해집니다.
4. AI 직무 전환, 멀티모달 벡터화가 던진 화두
'AI 알못'이었던 제가 AI 직무 전환을 결심하고 공부하며 만난 멀티모달 벡터화는, AI가 단순히 숫자만 다루는 기술이 아니라 인간처럼 세상을 통합적으로 이해하려는 시도라는 것을 깨닫게 해준 중요한 전환점이었습니다.
복잡해 보이는 AI 기술 속에서도 이렇게 본질적이고 직관적인 개념들을 하나씩 알아가는 재미가 꽤 쏠쏠합니다. 저처럼 AI에 대해 막연한 두려움을 가지고 계셨다면, 멀티모달 벡터화처럼 AI가 세상을 이해하는 '원리'에 대해 먼저 알아보는 건 어떨까요? 분명 AI의 매력에 푹 빠지게 되실 겁니다!
다음 포스팅에서는 이어서 멀티모달 벡터화된 데이터를 실제로 어떻게 활용해서 AI 모델을 구축하는지에 대한 저의 학습 경험을 공유해 드릴게요.
현재 정말 흥미가 많이 가고 재미도 있어서 열심히 파보고 있고, 시간가는줄 모르는 회사생활을 하고 있답니다!
개인시간을 활용하여 공부도 열심히하고 있고요!
그럼 다음 포스팅에서 만나요
'본업' 카테고리의 다른 글
[AI] 검색증강(Retrieval-Augmented Generation) 핵심 요약 정리본 (4) | 2025.07.06 |
---|---|
[본업] AWS Bedrock Agent 개요: 1탄-AI 에이전트 구축의 가능성과 한계 (4) | 2025.06.28 |
[AI] 혁신의 핵심: Langchain과 LangGraph 완벽 분석 및 활용 가이드 (10) | 2025.06.26 |
[본업] 개발을 놓았던 내가, 다시 사무실을 계약한 이유 (14) | 2025.06.22 |
1탄: AWS Bedrock을 활용한 LLM 기반 AI 시스템 구축기 – 실무에서 경험한 고민과 해법 (4) | 2025.06.16 |