본문 바로가기

OS & network/cloud

OCI Gen AI 정식 출시

2023년의 화두는 단연 AI, 그중에서도 생성형 AI 였습니다.

 

여러 CSP 들이 앞다투어 Gen AI 서비스를 준비하고, 출시하고 있는데,  오라클에서도 정식 출시를 했네요.

 

지난 9월 베타 서비스 출시 이후 새로운 기술과 모델을 추가하여 제공합니다.

 

가장 주목할 부분은 Meta의 Lama 2모델, Cohere 모델 및 100 개이상의 다국어를 지원한다는 점이 차별점이라고 할 수 있겠네요.

 

 

 

텍스트 생성 및 임베딩 모델
텍스트 생성 사용 사례에는 다음 LLM(대형 언어 모델)을 사용할 수 있습니다.

- 520억 및 60억 매개변수 크기의 Cohere Command(XL 및 라이트 모델)
- 메타라마 2 700억 매개변수 모델

 

이러한 모델은 사용자의 지시에 따라 다양한 작업을 수행할 수 있습니다. 두 모델 모두 최대 컨텍스트 길이인 4096개 토큰을 지원합니다. 여기서 토큰 하나는 영어로 약 4자입니다. 토큰 변환은 언어에 따라 다릅니다.

임베딩 생성과 같은 텍스트 표현 사용 사례에 다음 Cohere Embed V3.0 모델을 사용할 수 있습니다.

- English 및 English Light V3 삽입
- 다국어 및 다국어 Light V3 내장


라이트 모델은 더 작지만 더 짧은 벡터 표현을 생성하는 속도가 더 빠릅니다. 예를 들어 English Light V3은 384차원의 벡터를 생성하는 반면 English V3는 1024차원의 벡터를 생성합니다. 모든 텍스트 생성 및 표현 모델은 주문형, 종량제 소비가 가능하며 전용 AI 클러스터에서 호스팅될 수 있습니다.

 

주문형 대 전용 AI 클러스터
OCI Generative AI에 호스팅된 모든 기본 모델은 Oracle Cloud Console 플레이그라운드 기능, OCI CLI, 소프트웨어 개발자 키트(SDK), API 및 LangChain 통합을 통해 주문형으로 사용할 수 있습니다. 

주문형 모델의 경우 모델에서 처리한 각 입력과 모델에서 생성된 응답에 대해 문자별로 소비한 만큼만 비용을 지불합니다. 임베딩 모델의 경우 모델에서 처리한 문자에 대해서만 비용을 지불합니다. 온디맨드 기능에 대한 최소 약정은 없으며, 온디맨드 모델에 대한 요청을 처리하는 기본 인프라는 특정 지역에서 해당 모델을 호출하는 모든 고객 간에 공유됩니다.

이와 대조적으로 전용 AI 클러스터를 사용하면 전용 GPU 세트에 기초적이고 미세 조정된 사용자 지정 모델의 복제본을 배포할 수 있습니다. 전용 AI 클러스터는 클러스터의 GPU가 모델만 호스팅하는 사실상 단일 테넌트 배포입니다. 모델 엔드포인트가 공유되지 않기 때문에 모델 처리량이 일관되고 예상되는 볼륨 호출을 기반으로 최소 클러스터 크기를 예측하기가 더 쉽습니다.

전용 AI 클러스터의 가격도 예측하기가 더 쉽습니다. 클러스터를 생성할 때 선택한 클러스터 단위의 유형과 수에 따라 시간당 비용을 지불합니다. 추론 또는 미세 조정을 위해 처리된 문자당 비용을 지불하지 않습니다.

 

비즈니스 요구 사항에 맞는 사용자 정의

 

OCI Generative AI를 사용하면 전용 AI 클러스터의 모델 미세 조정을 통해 특정 작업에 대한 기본 모델을 최적화할 수도 있습니다. Cohere의 Command XL 및 Command 조명 모델에는 t-few와 바닐라라는 두 가지 미세 조정 전략이 제공됩니다. 훈련 시대 수, 학습 속도, 훈련 배치 크기, 조기 중지 인내심, 조기 중지 임계값, 모델 메트릭이 기록되는 단계 간격을 포함한 기본 미세 조정 하이퍼파라미터는 기본적으로 설정됩니다. 그러나 미세 조정 작업이 시작되기 전에 매개변수를 수정할 수 있습니다. 

 

기본 미세 조정은 다른 파이퍼 매개 변수가 최적화 할 레이어개수를 지정 합니다. (아래 이미지 참조)

 

 

미세 조정 작업에는 jsonl 형식의 단일 파일로 구성된 레이블이 지정된 교육 데이터 세트가 필요합니다. 각 훈련 예시에는 프롬프트와 완료라는 두 가지 키가 있습니다. 프롬프트에는 모델이 응답을 생성하기 위해 따라야 하는 일련의 지침이 포함되어 있으며, 완료는 모델에서 예상되는 응답입니다. 미세 조정을 위해서는 최소 32개의 예제가 필요하지만 가능하면 100개 이상을 사용하는 것이 좋습니다.

 

 

 

전용 AI 클러스터에서 최적화된 맞춤형 모델 호스팅

 

모든 모델이 동일한 기본 모델과 모델 버전을 공유하는 한 호스팅 클러스터에서 모델을 호스팅하는 엔드포인트를 생성하고 단일 전용 AI 클러스터에서 t-few 전략으로 최적화된 최대 50개의 사용자 지정 모델을 호스팅할 수 있습니다. 이 방법을 사용하면 동일한 클러스터가 여러 미세 조정 모델을 호스팅할 수 있으므로 비용이 절감될 수 있습니다. 즉, 별도의 미세 조정 모델을 위해 별도의 클러스터를 생성할 필요가 없습니다.

바닐라 미세 조정을 통해 최적화된 모델의 경우 호스팅 클러스터에서 단일 사용자 지정 모델을 호스팅할 수 있습니다. 호출 수, 총 입력 및 출력 토큰 수, 클라이언트 오류 수와 같은 모니터링 지표가 엔드포인트 수준에서 계산되는 동안 동일한 모델로 트래픽을 전달하는 여러 엔드포인트를 생성할 수 있습니다. 이 기능을 사용하면 동일한 모델에 액세스하는 여러 클라이언트를 분리 및 모니터링하고 서로 다른 구획에 각 엔드포인트를 생성하여 액세스를 제어할 수 있습니다.

 

그림 : 지표를 모니터링 하는 동안 여러 엔드포인트 생성

 

OCI Gen AI 서비스는 이제 온디맨디드 및 전용 AI 클러스터를 통해 일반 공급되고 비지니스 요구에 따라 사전 정의 되거나, 미세 조정된 기능을 사용 할 수 있습니다.