Transformers (ONNX) 嵌入模型

TransformersEmbeddingModel 是一个 EmbeddingModel 实现，它使用选定的 sentence transformer 在本地计算句子嵌入。

它使用预训练的 transformer 模型，这些模型被序列化为开放神经网络交换(ONNX) 格式。

使用 Deep Java Library 和微软的 ONNX Java Runtime 库来运行 ONNX 模型并在 Java 中计算嵌入。

前提条件

要在 Java 中运行，我们需要将 *Tokenizer 和 Transformer 模型序列化*为 ONNX 格式。

使用 optimum-cli 序列化 - 实现这一目标的一个快速方法是使用 optimum-cli 命令行工具。以下代码片段准备了一个 Python 虚拟环境，安装所需的包，并使用 optimum-cli 序列化（例如导出）指定的模型：

python3 -m venv venv
source ./venv/bin/activate
(venv) pip install --upgrade pip
(venv) pip install optimum onnx onnxruntime sentence-transformers
(venv) optimum-cli export onnx --model sentence-transformers/all-MiniLM-L6-v2 onnx-output-folder

该代码片段将 sentence-transformers/all-MiniLM-L6-v2 transformer 导出到 onnx-output-folder 文件夹。后者包含嵌入模型使用的 tokenizer.json 和 model.onnx 文件。

你可以选择任何 huggingface transformer 标识符或提供直接文件路径来替代 all-MiniLM-L6-v2。

自动配置

Spring AI 自动配置、starter 模块的构件名称发生了重大变化。请参阅升级说明了解更多信息。

Spring AI 为 ONNX Transformer 嵌入模型提供了 Spring Boot 自动配置。要启用它，请将以下依赖项添加到项目的 Maven pom.xml 文件中：

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-starter-model-transformers</artifactId>
</dependency>

或添加到 Gradle build.gradle 构建文件中。

dependencies {
    implementation 'org.springframework.ai:spring-ai-starter-model-transformers'
}

提示：请参阅依赖管理部分，将 Spring AI BOM 添加到你的构建文件中。请参阅构件仓库部分，将这些仓库添加到你的构建系统中。

要配置它，请使用 spring.ai.embedding.transformer.* 属性。

例如，将此添加到你的 application.properties 文件中，以使用 intfloat/e5-small-v2 文本嵌入模型配置客户端：

spring.ai.embedding.transformer.onnx.modelUri=https://huggingface.co/intfloat/e5-small-v2/resolve/main/model.onnx
spring.ai.embedding.transformer.tokenizer.uri=https://huggingface.co/intfloat/e5-small-v2/raw/main/tokenizer.json

支持的完整属性列表如下：

嵌入属性

嵌入自动配置的启用和禁用现在通过前缀为 spring.ai.model.embedding 的顶级属性进行配置。

要启用，spring.ai.model.embedding=transformers（默认启用）

要禁用，spring.ai.model.embedding=none（或任何不匹配 transformers 的值）

此更改是为了允许多个模型的配置。

属性	描述	默认值
spring.ai.embedding.transformer.enabled（已移除且不再有效）	启用 Transformer 嵌入模型。	true
spring.ai.model.embedding	启用 Transformer 嵌入模型。	transformers
spring.ai.embedding.transformer.tokenizer.uri	由 ONNX 引擎创建的预训练 HuggingFaceTokenizer 的 URI（例如 tokenizer.json）。	onnx/all-MiniLM-L6-v2/tokenizer.json
spring.ai.embedding.transformer.tokenizer.options	HuggingFaceTokenizer 选项，如 ‘addSpecialTokens’、‘modelMaxLength’、‘truncation’、‘padding’、‘maxLength’、‘stride’、‘padToMultipleOf’。留空则使用默认值。	empty
spring.ai.embedding.transformer.cache.enabled	启用远程资源缓存。	true
spring.ai.embedding.transformer.cache.directory	缓存远程资源的目录路径，如 ONNX 模型	${java.io.tmpdir}/spring-ai-onnx-model
spring.ai.embedding.transformer.onnx.modelUri	现有的预训练 ONNX 模型。	onnx/all-MiniLM-L6-v2/model.onnx
spring.ai.embedding.transformer.onnx.modelOutputName	ONNX 模型的输出节点名称，我们将使用它来计算嵌入。	last_hidden_state
spring.ai.embedding.transformer.onnx.gpuDeviceId	要执行的 GPU 设备 ID。仅当 >= 0 时适用。否则忽略。（需要额外的 onnxruntime_gpu 依赖）	-1
spring.ai.embedding.transformer.metadataMode	指定文档内容和元数据的哪些部分将用于计算嵌入。	NONE

属性

描述

默认值

spring.ai.embedding.transformer.enabled（已移除且不再有效）

启用 Transformer 嵌入模型。

true

spring.ai.model.embedding

启用 Transformer 嵌入模型。

transformers

spring.ai.embedding.transformer.tokenizer.uri

由 ONNX 引擎创建的预训练 HuggingFaceTokenizer 的 URI（例如 tokenizer.json）。

onnx/all-MiniLM-L6-v2/tokenizer.json

spring.ai.embedding.transformer.tokenizer.options

HuggingFaceTokenizer 选项，如 ‘addSpecialTokens’、‘modelMaxLength’、‘truncation’、‘padding’、‘maxLength’、‘stride’、‘padToMultipleOf’。留空则使用默认值。

empty

spring.ai.embedding.transformer.cache.enabled

启用远程资源缓存。

true

spring.ai.embedding.transformer.cache.directory

缓存远程资源的目录路径，如 ONNX 模型

${java.io.tmpdir}/spring-ai-onnx-model

spring.ai.embedding.transformer.onnx.modelUri

现有的预训练 ONNX 模型。

onnx/all-MiniLM-L6-v2/model.onnx

spring.ai.embedding.transformer.onnx.modelOutputName

ONNX 模型的输出节点名称，我们将使用它来计算嵌入。

last_hidden_state

spring.ai.embedding.transformer.onnx.gpuDeviceId

要执行的 GPU 设备 ID。仅当 >= 0 时适用。否则忽略。（需要额外的 onnxruntime_gpu 依赖）

-1

spring.ai.embedding.transformer.metadataMode

指定文档内容和元数据的哪些部分将用于计算嵌入。

NONE

错误和特殊情况

如果你看到类似 Caused by: ai.onnxruntime.OrtException: Supplied array is ragged,.. 的错误，你需要在 application.properties 中启用 tokenizer 填充，如下所示：

spring.ai.embedding.transformer.tokenizer.options.padding=true

如果你收到类似 The generative output names don’t contain expected: last_hidden_state. Consider one of the available model outputs: token_embeddings, …. 的错误，你需要将模型输出名称设置为根据你的模型正确的值。考虑错误消息中列出的名称。例如：

spring.ai.embedding.transformer.onnx.modelOutputName=token_embeddings

如果你收到类似 ai.onnxruntime.OrtException: Error code - ORT_FAIL - message: Deserialize tensor onnx::MatMul_10319 failed.GetFileLength for ./model.onnx_data failed:Invalid fd was supplied: -1 的错误，这意味着你的模型大于 2GB，并且被序列化为两个文件：model.onnx 和 model.onnx_data。

model.onnx_data 被称为外部数据，预计位于 model.onnx 的同一目录下。

目前唯一的解决方法是将大型 model.onnx_data 复制到你运行 Boot 应用程序的文件夹中。

如果你收到类似 ai.onnxruntime.OrtException: Error code - ORT_EP_FAIL - message: Failed to find CUDA shared provider 的错误，这意味着你正在使用 GPU 参数 spring.ai.embedding.transformer.onnx.gpuDeviceId，但缺少 onnxruntime_gpu 依赖。

<dependency>
    <groupId>com.microsoft.onnxruntime</groupId>
    <artifactId>onnxruntime_gpu</artifactId>
</dependency>

请根据 CUDA 版本选择适当的 onnxruntime_gpu 版本(ONNX Java Runtime)。

手动配置

如果你不使用 Spring Boot，你可以手动配置 Onnx Transformers 嵌入模型。为此，将 spring-ai-transformers 依赖项添加到项目的 Maven pom.xml 文件中：

<dependency>
  <groupId>org.springframework.ai</groupId>
  <artifactId>spring-ai-transformers</artifactId>
</dependency>

提示：请参阅依赖管理部分，将 Spring AI BOM 添加到你的构建文件中。

然后创建一个新的 TransformersEmbeddingModel 实例，并使用 setTokenizerResource(tokenizerJsonUri) 和 setModelResource(modelOnnxUri) 方法来设置导出的 tokenizer.json 和 model.onnx 文件的 URI。（支持 classpath:、file: 或 https: URI 模式）。

如果未明确设置模型，TransformersEmbeddingModel 默认使用 sentence-transformers/all-MiniLM-L6-v2：

维度

384

平均性能

58.80

速度

14200 句子/秒

大小

80MB

以下代码片段说明了如何手动使用 TransformersEmbeddingModel：

TransformersEmbeddingModel embeddingModel = new TransformersEmbeddingModel();

// （可选）默认为 classpath:/onnx/all-MiniLM-L6-v2/tokenizer.json
embeddingModel.setTokenizerResource("classpath:/onnx/all-MiniLM-L6-v2/tokenizer.json");

// （可选）默认为 classpath:/onnx/all-MiniLM-L6-v2/model.onnx
embeddingModel.setModelResource("classpath:/onnx/all-MiniLM-L6-v2/model.onnx");

// （可选）默认为 ${java.io.tmpdir}/spring-ai-onnx-model
// 默认情况下只缓存 http/https 资源。
embeddingModel.setResourceCacheDirectory("/tmp/onnx-zoo");

// （可选）如果你看到类似以下错误，请设置 tokenizer 填充：
// "ai.onnxruntime.OrtException: Supplied array is ragged, ..."
embeddingModel.setTokenizerOptions(Map.of("padding", "true"));

embeddingModel.afterPropertiesSet();

List<List<Double>> embeddings = this.embeddingModel.embed(List.of("Hello world", "World is big"));

注意：如果你手动创建 TransformersEmbeddingModel 实例，你必须在设置属性后并在使用客户端之前调用 afterPropertiesSet() 方法。

第一次 embed() 调用会下载大型 ONNX 模型并将其缓存在本地文件系统中。因此，第一次调用可能比平时花费更长的时间。使用 #setResourceCacheDirectory(<path>) 方法设置存储 ONNX 模型的本地文件夹。默认缓存文件夹是 ${java.io.tmpdir}/spring-ai-onnx-model。

将 TransformersEmbeddingModel 创建为 Bean 会更方便（也更推荐）。这样你就不必手动调用 afterPropertiesSet()。

@Bean
public EmbeddingModel embeddingModel() {
   return new TransformersEmbeddingModel();
}