Vertex AI in Firebase SDK를 사용하여 앱에서 Vertex AI Gemini API를 호출하면 Gemini 모델에 멀티모달 입력을 기반으로 텍스트를 생성하도록 프롬프트할 수 있습니다. 멀티모달 프롬프트에는 이미지, PDF, 동영상, 오디오와 함께 텍스트와 같은 여러 모달(또는 입력 유형)이 포함될 수 있습니다.
입력의 텍스트가 아닌 부분 (예: 미디어 파일)의 경우 지원되는 파일 형식을 사용하고, 지원되는 MIME 유형을 지정하고, 파일과 다중 모드 요청이 요구사항을 충족하고 권장사항을 준수하는지 확인해야 합니다.
이 페이지에서는 다음 사항을 설명합니다.
지원되는 MIME 유형, 권장사항, 다음 파일 입력의 제한사항에 관한 세부정보:
이미지 | 동영상 | 오디오 | 문서 (예: PDF)
멀티모달 요청에서 파일을 제공하는 옵션
각 멀티모달 요청에서 항상 다음을 제공해야 합니다.
파일의
mimeType
입니다. 이 페이지의 해당 섹션에서 각 입력 파일의 지원되는 MIME 유형을 확인하세요.파일 URL / URI를 사용하여 파일을 제공하거나 파일을 인라인 데이터로 제공할 수 있습니다.
요청에 제공할 수 있는 파일의 크기와 수는 입력 파일 유형, 파일을 제공하는 방법, 사용된 모델에 따라 다릅니다(자세한 내용은 이 페이지의 각 입력 파일 유형 섹션 참고).
옵션 1: URL 또는 URI를 사용하여 파일 제공
허용되는 URL 또는 URI 유형은 다음과 같습니다.
Cloud Storage for Firebase 버킷 URL: 파일의 URL이 공개이거나 로그인한 사용자 또는 클라이언트가 파일에 충분한 액세스 권한을 보유해야 합니다. Cloud Storage for Firebase 이점, URL 요구사항, 코드 샘플에 대해 자세히 알아보세요.
Google Cloud Storage 버킷 URL: 파일의 URL은 공개여야 합니다. 또한 버킷이 Vertex AI in Firebase와 함께 사용 중인 프로젝트와 다른 프로젝트에 있는 경우 URL에
https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE
형식을 사용합니다.브라우저/HTTP URL: 파일 URL은 공개적으로 읽을 수 있어야 합니다. 예로는 미디어 호스팅 사이트의 URL, 미디어를 직접 보여주는 URL(미디어를 호스팅하는 웹페이지가 아님), 게시된 Google Drive 또는 Google Workspace 파일이 있습니다.
YouTube 동영상 URL: YouTube 동영상은 공개 또는 일부 공개여야 합니다.
Google Cloud 문서에서 URL 및 URI 요구사항에 관해 자세히 알아보세요.
옵션 2: 파일을 인라인 데이터로 제공
인라인 데이터로 제공된 파일은 다음 사항에 유의하세요.
총 요청 크기 제한이 20MB이므로 작은 파일만 인라인 데이터로 전송할 수 있습니다.
전송 중에 파일이 base64로 인코딩되므로 파일 크기가 커집니다.
파일을 인라인 데이터로 포함하는 방법을 보여주는 예는 Gemini API를 사용하여 멀티모달 프롬프트에서 텍스트 생성을 참고하세요.
이미지: 요구사항, 권장사항, 제한사항
이미지: 요구사항
이 섹션에서는 지원되는 MIME 유형 및 이미지 요청당 한도에 대해 알아봅니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 이미지 MIME 유형을 지원합니다.
이미지 MIME 유형 | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PNG - image/png |
||
JPEG - image/jpeg |
||
WebP - image/webp |
요청당 한도
이미지의 픽셀 수에는 제한이 없습니다. 그러나 큰 이미지는 원래 가로세로 비율을 유지하면서 최대 해상도인 3072 x 3072에 맞게 축소 및 패딩됩니다.
프롬프트 요청에 허용되는 최대 이미지 파일 수는 다음과 같습니다.
- Gemini 2.0 Flash 및 Gemini 2.0 Flash‑Lite: 이미지 3,000개
이미지: 토큰화
이미지의 토큰은 다음과 같이 계산됩니다.
- Gemini 2.0 Flash 및 Gemini 2.0 Flash‑Lite:
- 이미지의 가로세로 크기가 둘 다 384픽셀 이하인 경우 258개의 토큰이 사용됩니다.
- 이미지의 한 변의 길이가 384픽셀보다 크면 이미지가 타일로 잘립니다. 기본적으로 각 타일 크기는 (너비 또는 높이 중에서) 가장 작은 치수를 1.5로 나눈 값으로 설정됩니다. 필요한 경우 각 타일은 256픽셀보다 작지 않고 768픽셀보다 크지 않도록 조정됩니다. 그런 다음 각 타일의 크기가 768x768로 조정되고 258개의 토큰이 사용됩니다.
이미지: 권장사항
이미지를 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.
- 이미지에서 텍스트를 감지하려면 단일 이미지가 포함된 프롬프트를 사용하면 여러 이미지가 포함된 프롬프트보다 더 나은 결과를 얻을 수 있습니다.
- 프롬프트에 단일 이미지가 포함된 경우 요청에서 텍스트 프롬프트 앞에 이미지를 배치합니다.
- 프롬프트에 여러 이미지가 있고 나중에 프롬프트에서 이를 참조하거나 모델이 모델 응답에서 이를 참조하도록 하려는 경우 각 이미지 앞에 색인을 지정하면 도움이 될 수 있습니다. 색인에
또는a
b
c
를 사용합니다. 다음은 프롬프트에서 색인이 생성된 이미지를 사용하는 예시입니다.image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - 해상도가 높은 이미지를 사용하면 결과가 더 좋습니다.
- 프롬프트에 몇 가지 예시를 포함하세요.
- 이미지를 적절한 방향으로 회전한 후에 프롬프트에 추가하세요.
- 흐릿한 이미지는 사용하지 마세요.
이미지: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 이미지에 대해 답변을 제공하지 않습니다.
- 공간 추론: 이 모델은 이미지에 있는 텍스트 또는 객체 수를 정확하게 맞히지 못합니다. 대략적인 객체 수만 반환할 수 있습니다.
- 의료 용도: 이 모델은 의료용 영상 (예: X선 및 CT 촬영)을 해석하거나 의료 조언을 제공하는 데 적합하지 않습니다.
- 사람 인식: 이 모델은 이미지에서 유명인이 아닌 사람을 식별하는 데 적합하지 않습니다.
- 정확성: 이 모델은 저품질 이미지, 회전된 이미지 또는 매우 해상도가 매우 낮은 이미지를 해석할 때 할루시네이션 또는 오류가 발생할 수 있습니다. 이 모델은 이미지 문서에서 필기 입력 텍스트를 해석할 때도 할루시네이션이 발생할 수 있습니다.
동영상: 요구사항, 권장사항, 제한사항
동영상: 요구사항
이 섹션에서는 지원되는 MIME 유형과 동영상 요청당 제한사항에 대해 알아봅니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 동영상 MIME 유형을 지원합니다.
동영상 MIME 유형 | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
FLV - video/x-flv |
||
MOV - video/quicktime |
||
MPEG - video/mpeg |
||
MPEGPS - video/mpegps |
||
MPG - video/mpg |
||
MP4 - video/mp4 |
||
WEBM - video/webm |
||
WMV - video/wmv |
||
3GPP - video/3gpp |
요청당 한도
프롬프트 요청에 허용되는 최대 동영상 파일 수는 다음과 같습니다.
- Gemini 2.0 Flash 및 Gemini 2.0 Flash‑Lite: 동영상 파일 10개
동영상: 토큰화
동영상의 토큰은 다음과 같이 계산됩니다.
- Gemini 2.0 Flash 및 Gemini 2.0 Flash‑Lite: 오디오 트랙이 동영상 프레임으로 인코딩됩니다. 오디오 트랙도
1초 트렁크 로 분할되며 각 트렁크는 32개의 토큰을 차지합니다. 동영상 프레임 및 오디오 토큰은 타임스탬프와 함께 인터리브 처리됩니다. 타임스탬프는 7개의 토큰으로 표시됩니다. - 모든 Gemini 멀티모달 모델: 동영상은
1 fps(초당 프레임 수) fh로 샘플링됩니다. 각 동영상 프레임은 258개의 토큰을 차지합니다.
동영상: 권장사항
동영상을 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.
- 프롬프트에 동영상 하나가 포함된 경우 텍스트 프롬프트 앞에 동영상을 배치하세요.
- 오디오가 있는 동영상에서 타임스탬프 현지화가 필요한 경우 모델에
MM:SS
형식으로 타임스탬프를 생성하도록 요청합니다. 여기서 처음 두 자리는 분을, 마지막 두 자리는 초를 나타냅니다. 타임스탬프를 묻는 질문에는 동일한 형식을 사용합니다.
동영상: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 동영상에 대해 답변을 제공하지 않습니다.
- 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
- 고속 모션:
1 fps(초당 프레임 수) 로 고정된 샘플링 레이트로 인해 모델이 동영상의 고속 모션을 인식할 때 오류가 발생할 수 있습니다.
오디오: 요구사항 및 제한사항
오디오: 요구사항
이 섹션에서는 지원되는 MIME 유형과 오디오 요청당 제한사항에 대해 알아봅니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 오디오 MIME 유형을 지원합니다.
오디오 MIME 유형 | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
요청당 한도
프롬프트 요청에는 최대
오디오: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
- 오디오 전용 타임스탬프: 오디오 전용 파일의 타임스탬프를 정확하게 생성하려면
generation_config
에서audio_timestamp
파라미터를 구성해야 합니다.
문서 (예: PDF): 요구사항, 권장사항, 제한사항
문서: 요구사항
이 섹션에서는 지원되는 MIME 유형과 문서 요청당 제한사항 (예: PDF)에 대해 알아봅니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 문서 MIME 유형을 지원합니다.
문서 MIME 유형 | Gemini 2.0 Flash | Gemini 2.0 Flash‑Lite |
---|---|---|
PDF - application/pdf |
||
텍스트 - text/plain |
요청당 한도
PDF는 이미지로 취급되므로 PDF의 한 페이지는 하나의 이미지로 취급됩니다. 프롬프트에서 허용되는 페이지 수는 모델이 지원할 수 있는 이미지 수로 제한됩니다.
- Gemini 2.0 Flash 및 Gemini 2.0 Flash‑Lite:
- 요청당 최대 파일 수: 3,000
- 파일당 최대 페이지 수: 1,000
- 파일당 최대 크기: 50MB
문서: 토큰화
PDF 토큰화
PDF는 이미지로 취급되므로 PDF의 각 페이지가 이미지와 동일한 방법으로 토큰화됩니다.
또한 PDF 비용은 Gemini 이미지 가격 책정을 따릅니다. 예를 들어 Gemini API 호출에 2페이지 PDF를 포함하면 두 개의 이미지 처리에 대한 입력 수수료가 발생합니다.
문서: 권장사항
PDF를 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.
- 프롬프트에 단일 PDF가 포함된 경우 요청에서 텍스트 프롬프트 앞에 PDF를 배치합니다.
- 문서가 긴 경우 여러 PDF로 분할하여 처리하는 것이 좋습니다.
- 스캔한 이미지에 텍스트를 사용하는 대신 텍스트로 렌더링된 텍스트로 생성된 PDF를 사용합니다. 이 형식은 머신이 텍스트를 읽을 수 있으므로 스캔한 이미지 PDF에 비해 모델이 더 쉽게 수정, 검색, 조작할 수 있습니다. 따라서 계약서와 같이 텍스트가 많은 문서를 작업할 때 최적의 결과를 얻을 수 있습니다.
문서: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 공간 추론: 이 모델은 PDF에 있는 텍스트 또는 객체 수를 정확하게 맞히지 못합니다. 대략적인 객체 수만 반환할 수 있습니다.
- 정확성: 이 모델은 PDF 문서에서 필기 텍스를 해석할 때 할루시네이션이 발생할 수 있습니다.