텍스트 임베딩은 의미적 유사성을 측정할 수 있게 해주는 텍스트의 수치적 표현입니다. 이 가이드는 임베딩, 그 응용 분야, 그리고 검색, 추천, 이상 감지와 같은 작업을 위한 임베딩 모델 사용 방법을 소개합니다.
모델 | 컨텍스트 길이 | 임베딩 차원 | 설명 |
---|---|---|---|
voyage-3-large | 32,000 | 1024 (기본), 256, 512, 2048 | 최고의 범용 및 다국어 검색 품질. |
voyage-3 | 32,000 | 1024 | 범용 및 다국어 검색 품질에 최적화. 자세한 내용은 블로그 포스트를 참조하세요. |
voyage-3-lite | 32,000 | 512 | 지연 시간과 비용에 최적화. 자세한 내용은 블로그 포스트를 참조하세요. |
voyage-code-3 | 32,000 | 1024 (기본), 256, 512, 2048 | 코드 검색에 최적화. 자세한 내용은 블로그 포스트를 참조하세요. |
voyage-finance-2 | 32,000 | 1024 | 금융 검색 및 RAG에 최적화. 자세한 내용은 블로그 포스트를 참조하세요. |
voyage-law-2 | 16,000 | 1024 | 법률 및 긴 컨텍스트 검색과 RAG에 최적화. 모든 도메인에서 성능이 향상되었습니다. 자세한 내용은 블로그 포스트를 참조하세요. |
모델 | 컨텍스트 길이 | 임베딩 차원 | 설명 |
---|---|---|---|
voyage-multimodal-3 | 32000 | 1024 | PDF, 슬라이드, 표, 그림 등의 스크린샷과 같은 텍스트와 내용이 풍부한 이미지가 혼합된 것을 벡터화할 수 있는 풍부한 멀티모달 임베딩 모델. 자세한 내용은 블로그 포스트를 참조하세요. |
voyageai
Python 패키지나 HTTP 요청을 사용하여 임베딩을 얻을 수 있습니다. 아래에서 자세히 설명하겠습니다.
voyageai
패키지는 다음 명령어를 사용하여 설치할 수 있습니다:
result.embeddings
는 각각 1024개의 부동소수점 숫자를 포함하는 두 개의 임베딩 벡터 리스트가 됩니다. 위의 코드를 실행하면 두 임베딩이 화면에 출력됩니다:
embed()
함수에 몇 가지 다른 인수를 지정할 수도 있습니다. 여기에서 사양에 대해 자세히 읽어보세요
curl
명령을 통해 HTTP 요청을 보낼 수 있습니다:
input_type="document"
와 input_type="query"
를 사용한다는 점에 주목하세요. 더 자세한 사양은 여기에서 찾을 수 있습니다.
출력은 쿼리와 가장 관련성이 높은 5번째 문서가 될 것입니다:
Voyage 임베딩이 왜 우수한 품질을 가지고 있나요?
어떤 임베딩 모델이 있으며 어떤 것을 사용해야 하나요?
voyage-3-large
: 최고의 품질voyage-3-lite
: 가장 낮은 지연 시간과 비용voyage-3
: 경쟁력 있는 가격대에서 우수한 검색 품질을 갖춘 균형 잡힌 성능input_type
매개변수를 사용하여 쿼리 또는 문서 유형을 지정하세요.도메인별 모델:voyage-law-2
voyage-code-3
voyage-finance-2
어떤 유사도 함수를 사용해야 하나요?
input_type 매개변수를 어떻게 사용해야 하나요?
input_type
을 “query” 또는 “document”로 지정하세요. 이 최적화는 특수한 프롬프트 접두사를 통해 검색 품질을 향상시킵니다:쿼리의 경우:input_type
을 생략하거나 None
으로 설정하지 마세요.voyage-large-2-instruct
를 사용한 분류, 클러스터링 또는 기타 MTEB 작업의 경우 우리의 GitHub 저장소의 지침을 따르세요.어떤 양자화 옵션이 제공되나요?
output_dtype
):유형 | 설명 | 크기 감소 |
---|---|---|
float | 32비트 단정밀 부동소수점(기본값) | 없음 |
int8 /uint8 | 8비트 정수(-128에서 127 / 0에서 255) | 4배 |
binary /ubinary | 비트 패킹된 단일 비트 값 | 32배 |
binary
는 오프셋 이진 방법을 사용합니다.마트료시카 임베딩을 어떻게 잘라낼 수 있나요?