Google빠름표준

Gemini 3.1 Flash Lite Preview

Gemini 3.1 Flash의 초경량 변형 모델입니다. 캐시된 입력과 오디오 입력을 지원하는 가장 비용 효율적인 Gemini 모델입니다. 고처리량, 비용 의식적 애플리케이션에 적합합니다.

100 크레딧

요청당

가장 비용 효율적인 Gemini 모델

1,048,576 토큰 컨텍스트 윈도우

65,536 최대 출력 토큰

멀티모달 입력: 텍스트·이미지·오디오·비디오·PDF

캐시된 입력 토큰 지원

함수 호출, 구조화 출력, Thinking, 검색 그라운딩, 코드 실행

지금 바로 실행해보세요

콘솔의 Playground에서 별도 코드 없이 이 모델을 즉시 테스트할 수 있어요

로그인 후 사용해보기

AI 어시스턴트에서 사용하기

이 모델의 사용법을 Claude, ChatGPT 등에 복사

llms.txt

모델 상세 사양

컨텍스트 윈도우

1.0M

토큰

최대 출력

66K

토큰

학습 데이터

January 2025

호환 SDK

OpenAI, Google AI

기능 지원

비전

함수 호출

스트리밍

JSON 모드

시스템 프롬프트

토큰별 가격 (1M 토큰당)

토큰 종류	크레딧	달러 환산
입력 토큰	250	$0.25
출력 토큰	1,500	$1.50

* 1 크레딧 ≈ $0.001 (실제 요금은 사용량에 따라 달라질 수 있습니다)

빠른 시작

curl -X POST "https://api.core.today/llm/gemini/v1beta/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer cdt_your_api_key" \
  -d '{
  "model": "gemini-3.1-flash-lite-preview",
  "messages": [
    {
      "role": "system",
      "content": "Classify the following text as: spam, not_spam. Respond with only the label."
    },
    {
      "role": "user",
      "content": "Congratulations! You have been selected for a special prize. Click here to claim now!"
    }
  ],
  "max_tokens": 50,
  "temperature": 0
}'

파라미터

파라미터	타입	필수	기본값	설명
`messages`	array	Yes	-	메시지 객체 배열 (OpenAI 형식). 텍스트·이미지·오디오·비디오·PDF 입력을 지원합니다.
`temperature`	float	No	1	샘플링 온도 (0-2). 낮을수록 결정적인 출력을 생성합니다.
`top_p`	float	No	0.95	핵심 샘플링 파라미터 (0-1).
`max_tokens`	integer	No	-	최대 출력 토큰 수. 최대값: 65,536. 컨텍스트 윈도우 (입력+출력): 1,048,576 토큰.
`stop`	string \| array	No	-	최대 4개의 정지 시퀀스. 해당 토큰을 만나면 생성을 멈춥니다.
`response_format`	object	No	-	출력 형식 제약. 구조화된 JSON 출력에는 `{ type: 'json_object' }`를 사용하세요.
`presence_penalty`	float	No	0	이미 등장한 토큰의 재사용 페널티 (-2.0 ~ 2.0).
`frequency_penalty`	float	No	0	토큰 사용 빈도에 비례한 페널티 (-2.0 ~ 2.0).
`seed`	integer	No	-	결정적 샘플링을 위한 시드 (best-effort).
`stream`	boolean	No	false	Server-Sent Events 스트리밍 활성화.

예제

빠른 분류

Flash Lite를 활용한 경량 텍스트 분류

curl -X POST "https://api.core.today/llm/gemini/v1beta/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer cdt_your_api_key" \
  -d '{
  "model": "gemini-3.1-flash-lite-preview",
  "messages": [
    {
      "role": "system",
      "content": "Classify the following text as: spam, not_spam. Respond with only the label."
    },
    {
      "role": "user",
      "content": "Congratulations! You have been selected for a special prize. Click here to claim now!"
    }
  ],
  "max_tokens": 50,
  "temperature": 0
}'

팁 & 모범 사례

1가장 저렴한 Gemini 모델 — $0.25/$1.50/M 토큰

2최대 출력 토큰: 65,536 — max_tokens는 이 한도 내에서 설정

3컨텍스트 윈도우 1,048,576 토큰 — 출력 공간을 고려해 입력을 채우세요

4비용 절감을 위해 반복 컨텍스트에 캐시된 입력 토큰 활용

5대량 분류 및 라우팅 작업에 이상적

6음성 기반 애플리케이션을 위한 오디오 입력 지원

사용 사례

대량 텍스트 처리

실시간 채팅 애플리케이션

빠른 분류 및 라우팅

경량 데이터 추출

오디오 전사 및 이해

모델 정보

제공자Google

버전3.1-preview

카테고리LLM

가격100 크레딧

API Endpoint

POST /llm/gemini/v1beta/openai/chat/completions

Playground에서 테스트