티스토리 뷰
목차
구글 제미니 아시나요?
OPEN AI 챗GPT의 거의 유일한 대항마로 기대를 받았던 제미니는 많은 사람들의 기대를 받았지만 런칭 발표가 한 차례 연기 되며 내년 초 공개할 것으로 알려졌습니다.
그러나 오늘 반전 사건이 일어났습니다.
구글 제미니는 생성형 AI의 경쟁이 치열한 것을 의식한 탓인지 갑자기 12월 6일 온라인 기자 간담회를 하며 성능을 공개했고 지금 현재 바드에 Gemini Pro가 장착되어 사용할 수 있게 되었습니다.
이 포스팅에서 Gemini의 발표 내용에 대해서 알아보겠습니다.
본격적인 내용 들어가기에 앞서 구글에서 발표한 제미니의 발표 영상을 보도록 하겠습니다.
멀티모달로서 능력치의 한계가 없다는것을 보여주는 사례
아래 동영상은 "Gemini Multimodal AI와의 손잡이
" YouTube"로, Gemini라는 새로운 다중 모달 AI 모델과 상호 작용하는 내용을 소개합니다.
이 동영상에서는 Gemini에게 다양한 도전에 대비하도록 상황을 촬영하고, Gemini에게 여러 이미지를 보여주고 그것이 보는 것을 분석하도록 요청하는 테스트를 수행한 내용을 보여줍니다.
주요 내용
- Gemini에게 여러 상황에서의 상호 작용을 테스트하고, 촬영된 영상과 이미지를 통해 그 결과를 확인합니다.
- Gemini가 보는 것을 분석하고 설명하는 과정을 통해 다양한 상호 작용을 확인합니다.
- Gemini와의 대화 중에는 색다른 주제들이 등장하며, 이를 통해 Gemini가 다양한 정보와 언어에 대응하는 능력을 확인할 수 있습니다.
Gemini의 다중 모달 기능
Gemini의 다중 모달 기능을 테스트하고 상호 작용하는 과정을 소개하는 동영상입니다.
멀티모달이란 : 멀티 모탈리티 (multi modality)
우리가 사물을 알아보는 데에는 글(Text)과 그림, 촉각, 시각, 미각 등 여러 기관을 종합하여 사고되어 내재된 두뇌신경을 통하여 알아보게 됩니다. 그럼 인공지능(컴퓨터)은 어떻게 해야 하나요? 컴퓨터는 입력과 CPU(사고)를 거쳐 출력물을 얻게 됩니다. 여기에서 입력을 다양하게 훈련시켜 사물을 알아보게 하겠다는 것이 다중모달 기능입니다.
첫 번째는 바로 ‘언어’예요. 텍스트로 소통하고 기록하면서 지식을 축적하는 것이죠.
두 번째는 다양한 시각 정보를 받아들이고 이해하는 ‘뇌의 처리능력’이에요. 마지막으로
세 번째는 후각과 미각, 통각을 비롯한 다양한 감각과 기억을 융합하면서 사물을 받아들이는 ‘지식 통합 능력’이에요.
예를 들면 인류는 이렇게 사과라는 개념을 이해하기 위해 시각과 미각, 촉각, 텍스트까지 여러 입력의 단계를 통합해서 인식했습니다.
그렇다면 우리가 만드는 인공지능(AI)은 어떻게 사과라는 개념을 받아들일까요.
이왕이면 인간이 학습했던 방법으로 배워야 인간과 제대로 소통할 줄 아는 AI가 되겠죠.
그래서 등장한 것이 ‘멀티 모달리티(multi modality)’입니다.
‘모달리티’는 양식, 양상이라는 뜻인데요, 보통 어떤 형태로 나타나는 현상이나 그것을 받아들이는 방식을 말합니다.
지금의 ‘멀티 모달’은 시각, 청각을 비롯한 여러 인터페이스를 통해 정보를 주고받는 것을 말하는 개념입니다.
아래의 스토리보드는 영상의 대화체입니다.
그동안 저희는 새로운 멀티모달 AI 모델인 Gemini의 기능을 테스트했습니다.
저희는 다양한 과제를 내주고 테스트하는 영상을 촬영했습니다.
Gemini에는 일련의 이미지를 보여준 후 무엇이 보이는지 추론하도록 했습니다.
이 영상에는 Gemini와의 흥미로운 상호작용의 몇 가지 예시를 담았습니다.
이제 Gemini를 테스트해 보겠습니다.
'뭐가 보이는지 말해줘'라고 주문합니다.
제미니가 답변을 계속 이어서 합니다. 테이블 위에 종이를 놓고 있네요. 구불구불한 선이 보이고요.
지금은 어때?
윤곽선이 부드럽게 흐르듯이 그려져 있어요. 뾰족한 각이나 삐죽삐죽한 가장자리도 없고요. 제게는 새처럼 보이네요.
이걸 더하면 어떨까?
새가 물에서 헤엄치는 모습이군요. 긴 목과 부리를 가지고 있네요. 오리군요.
맞아!
오리는 오릿과 에 속하는 물새의 일종이에요. 오리는 거위, 백조와 친척 관계죠 파란색 오리인 것 같네요.
일반적인 오리의 색은 아니에요. 하지만 오리 중에 파란색 종도 있어요. 다른 오리 종보다는 드물지만요. 갈색, 검은색, 흰색 오리가 좀 더 일반적이죠.
과연 그럴까?
아니, 이런! 파란색 오리 얘기를 했더니 손에 오리가 나타났네요.
파란색 오리는 제 생각보다 흔한 모양이네요.
이 오리가 물에 뜰까? 어떤 재료로 만들었는지 잘 모르겠지만 고무나 플라스틱처럼 보이네요.
'삑삑' 소리가 나는 재질이라면 어떨까?
아, 그렇다면 분명 물에 뜰 거예요. 응, 잘됐다! 고무 오리니까요. 물보다 밀도가 낮은 재료로 만들어졌죠.
다른 언어로 오리를 뭐라고 하는지 알려줘.
몇 가지 선택지도 제시하고 표준 중국어 발음을 알려줄 수 있어?
야즈였나?
'야즈'는 1성으로 발음해요. 표준 중국어는 4가지 성조를 기본으로 단어의 의미를 구분해요.
1성은 높고 일정하죠.
아, 그렇구나 오리가 바다 한가운데 있네요.
오리가 쉬거나 먹이를 찾을 만한 육지가 근처에 없어요.
이곳에서는 오리가 자연적으로 서식하기 어렵겠네요.
좋아 지금 보이는 것들을 기반으로 게임 아이디어를 제시해 줘. 이모티콘도 사용하고...
이건 어때요?
'국가 맞히기'라는 게임을 하는 거예요.
그래, 해보자!.
단서 1: 이 국가에는 캥거루, 코알라, 대보초가 있어요.
그건 쉽지
단서 2: 이 국가는 축구를 사랑하고 남자 월드컵에서 축구 역사상 가장 많은 승리를 거뒀죠.
어느 컵 아래 종이공이 있는지 맞혀 보라는 거죠? 도전을 받아들이죠. 왼쪽 컵이요.
잘했어!.
무엇을 하시는지 알겠어요.
가위, 바위, 보를 하고 있는 거죠?.
지금은 뭐가 보여?.
손가락이 나비 날개 모양처럼 펼쳐져 있어요.
이건 뭘까?.
큰 귀와 짖는 입 모양을 보니 개인 것 같아요..
정답이야!
동전은 오른쪽 손 아래에 있을 것 같아요.
음, 글쎄... 동전은 왼쪽에 있어요.
약간의 손기술을 사용해서 동전이 사라진 것처럼 보이게 했네요.
두 물체는 모두 둥글고 납작해요.
맞았어!.
둘 다 음식이에요. 오렌지가 쿠키보다 건강한 음식이죠. 시트러스는 진정 효과가 있고 피젯 토이도 마찬가지죠.
두 가지 장난감은 긴 시간 동안 남녀노소에게 사랑을 받은 인기 있는 장난감이죠.
이걸로 무엇을 만들 수 있을까?
분홍색과 녹색 실이 보이네요 용과는 어때요?
분홍색 하트가 올라간 녹색 케이크는요?
출처 : AI 코리아 커뮤니티 뉴스레터
위의 기사는 울산의 중구와 남구평생학습관에 공유 게시판에 게시합니다.
울산 중구평생학습관에서 12월 6일 성과공유회를 개최하고 마을작가 여러 작가님들이 월남파병 전쟁영웅 자서전를 완성하여 영웅들에게 전달하였습니다.