添加对gemini原生格式TTS的支持

This commit is contained in:
zzh
2025-07-15 18:04:16 +09:00
parent 4a004f9aa1
commit a6aecb5d89
10 changed files with 141 additions and 69 deletions

View File

@@ -41,6 +41,9 @@ class GenerationConfig(BaseModel):
responseLogprobs: Optional[bool] = None
logprobs: Optional[int] = None
thinkingConfig: Optional[Dict[str, Any]] = None
# TTS相关字段
responseModalities: Optional[List[str]] = None
speechConfig: Optional[Dict[str, Any]] = None
class SystemInstruction(BaseModel):

View File

@@ -9,7 +9,7 @@ from app.core.security import SecurityService
from app.domain.gemini_models import GeminiContent, GeminiRequest, ResetSelectedKeysRequest, VerifySelectedKeysRequest
from app.service.chat.gemini_chat_service import GeminiChatService
from app.service.key.key_manager import KeyManager, get_key_manager_instance
from app.service.tts.multi_speaker.tts_routes import get_tts_chat_service
from app.service.tts.native.tts_routes import get_tts_chat_service
from app.service.model.model_service import ModelService
from app.handler.retry_handler import RetryHandler
from app.handler.error_handler import handle_route_errors
@@ -113,34 +113,38 @@ async def generate_content(
logger.info(f"Handling Gemini content generation request for model: {model_name}")
logger.debug(f"Request: \n{request.model_dump_json(indent=2)}")
# 检测是否为多人TTS请求
is_multi_speaker_tts = False
# 检测是否为原生Gemini TTS请求
is_native_tts = False
if "tts" in model_name.lower():
try:
raw_body = await raw_request.body()
raw_data = json.loads(raw_body.decode('utf-8'))
# 检查是否包含多人语音配置
speech_config = raw_data.get("generationConfig", {}).get("speechConfig", {})
if "multiSpeakerVoiceConfig" in speech_config:
is_multi_speaker_tts = True
logger.info("Detected multi-speaker TTS request")
logger.info(f"Raw request data for multi-speaker TTS: {json.dumps(raw_data, indent=2, ensure_ascii=False)}")
# 检查是否包含原生TTS配置responseModalities和speechConfig
generation_config = raw_data.get("generationConfig", {})
response_modalities = generation_config.get("responseModalities", [])
speech_config = generation_config.get("speechConfig", {})
# 如果包含AUDIO模态和语音配置则认为是原生TTS请求
if "AUDIO" in response_modalities and speech_config:
is_native_tts = True
logger.info("Detected native Gemini TTS request")
logger.info(f"Raw request data for native TTS: {json.dumps(raw_data, indent=2, ensure_ascii=False)}")
# 将TTS字段添加到请求对象中
setattr(request, '_raw_tts_data', raw_data)
except Exception as e:
logger.warning(f"Failed to parse request for multi-speaker TTS detection: {e}")
logger.warning(f"Failed to parse request for native TTS detection: {e}")
logger.info(f"Using API key: {api_key}")
if not await model_service.check_model_support(model_name):
raise HTTPException(status_code=400, detail=f"Model {model_name} is not supported")
# 只有多人TTS请求使用增强服务
if is_multi_speaker_tts:
# 所有原生TTS请求使用TTS增强服务
if is_native_tts:
try:
logger.info("Using multi-speaker TTS enhanced service")
logger.info("Using native TTS enhanced service")
tts_service = await get_tts_chat_service(key_manager)
response = await tts_service.generate_content(
model=model_name,
@@ -149,9 +153,9 @@ async def generate_content(
)
return response
except Exception as e:
logger.warning(f"Multi-speaker TTS processing failed, falling back to standard service: {e}")
logger.warning(f"Native TTS processing failed, falling back to standard service: {e}")
# 使用标准服务处理所有其他请求(包括单人TTS
# 使用标准服务处理所有其他请求(TTS
response = await chat_service.generate_content(
model=model_name,
request=request,

View File

@@ -140,14 +140,29 @@ def _build_payload(model: str, request: GeminiRequest) -> Dict[str, Any]:
if request.generationConfig.maxOutputTokens is None:
# 如果未指定最大输出长度,则不传递该字段,解决截断的问题
request_dict["generationConfig"].pop("maxOutputTokens")
payload = {
"contents": _filter_empty_parts(request_dict.get("contents", [])),
"tools": _build_tools(model, request_dict),
"safetySettings": _get_safety_settings(model),
"generationConfig": request_dict.get("generationConfig"),
"systemInstruction": request_dict.get("systemInstruction"),
}
# 检查是否为TTS模型
is_tts_model = "tts" in model.lower()
if is_tts_model:
# TTS模型使用简化的payload不包含tools和safetySettings
payload = {
"contents": _filter_empty_parts(request_dict.get("contents", [])),
"generationConfig": request_dict.get("generationConfig"),
}
# 只在有systemInstruction时才添加
if request_dict.get("systemInstruction"):
payload["systemInstruction"] = request_dict.get("systemInstruction")
else:
# 非TTS模型使用完整的payload
payload = {
"contents": _filter_empty_parts(request_dict.get("contents", [])),
"tools": _build_tools(model, request_dict),
"safetySettings": _get_safety_settings(model),
"generationConfig": request_dict.get("generationConfig"),
"systemInstruction": request_dict.get("systemInstruction"),
}
# 确保 generationConfig 不为 None
if payload["generationConfig"] is None:

View File

@@ -1,14 +1,14 @@
# 多人对话TTS功能
# 原生Gemini TTS功能
这个模块为Gemini Balance项目添加了多人语音TTSText-to-Speech功能采用智能检测和继承模式设计保持与原始代码的完全兼容性。
这个模块为Gemini Balance项目添加了原生Gemini TTSText-to-Speech功能支持单人和多人语音合成,采用智能检测和继承模式设计,保持与原始代码的完全兼容性。
## 🎯 设计原则
- **智能检测**只有包含 `multiSpeakerVoiceConfig` 的请求才启用多人TTS
- **智能检测**自动检测所有原生Gemini TTS格式的请求包含responseModalities和speechConfig
- **继承而非修改**:所有扩展都继承自原始类,不修改源码
- **完全兼容**原有TTS功能单人TTS、OpenAI兼容TTS完全不受影响
- **完全兼容**原有TTS功能OpenAI兼容TTS完全不受影响
- **动态模型选择**支持用户在请求URL中指定不同的TTS模型
- **自动回退**多人TTS处理失败时自动回退到标准服务
- **自动回退**原生TTS处理失败时自动回退到标准服务
- **完整日志记录**:包含请求日志、错误日志和性能监控
- **易于维护**:更新原始代码时不会产生冲突
@@ -17,7 +17,7 @@
```
app/service/tts/
├── tts_service.py # 原有的OpenAI兼容TTS服务
└── multi_speaker/ # 多人对话TTS扩展
└── native/ # 原生Gemini TTS扩展
├── __init__.py # 模块初始化
├── README.md # 使用说明(本文件)
├── tts_models.py # TTS数据模型继承自原始模型
@@ -26,15 +26,15 @@ app/service/tts/
└── tts_routes.py # TTS路由扩展和依赖注入
```
## 🚀 多人TTS功能
## 🚀 原生Gemini TTS功能
### 智能检测机制(当前实现)
多人TTS功能通过智能检测自动启用无需任何配置
原生Gemini TTS功能通过智能检测自动启用无需任何配置
1. **自动启用**
```bash
# 直接启动服务,多人TTS功能自动可用
# 直接启动服务,原生TTS功能自动可用
python -m uvicorn app.main:app --host 0.0.0.0 --port 8000 --reload
```
@@ -46,17 +46,22 @@ python -m uvicorn app.main:app --host 0.0.0.0 --port 8000 --reload
### 工作原理
系统会智能检测请求内容:
- **多人TTS请求**:包含 `multiSpeakerVoiceConfig` → 使用多人TTS增强服务
- **单人TTS请求**包含 `multiSpeakerVoiceConfig` → 使用原有Gemini TTS服务
- **原生TTS请求**:包含 `responseModalities: ["AUDIO"]``speechConfig` → 使用TTS增强服务
- **单人TTS**:包含 `voiceConfig.prebuiltVoiceConfig`
- **多人TTS**:包含 `multiSpeakerVoiceConfig`
- **普通请求**非TTS模型 → 使用原有Gemini聊天服务
```python
# app/router/gemini_routes.py 中的智能检测逻辑
if "tts" in model_name.lower():
# 检查是否包含多人语音配置
speech_config = raw_data.get("generationConfig", {}).get("speechConfig", {})
if "multiSpeakerVoiceConfig" in speech_config:
# 使用多人TTS增强服务
# 检查是否包含原生TTS配置
generation_config = raw_data.get("generationConfig", {})
response_modalities = generation_config.get("responseModalities", [])
speech_config = generation_config.get("speechConfig", {})
# 如果包含AUDIO模态和语音配置则认为是原生TTS请求
if "AUDIO" in response_modalities and speech_config:
# 使用TTS增强服务
tts_service = await get_tts_chat_service(key_manager)
return await tts_service.generate_content(...)
# 否则使用原有服务
@@ -64,9 +69,36 @@ if "tts" in model_name.lower():
## 📝 使用示例
### 单人语音TTS请求自动启用增强服务
包含 `voiceConfig.prebuiltVoiceConfig` 的请求会自动使用TTS增强服务
```bash
curl -X POST "https://your-domain.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: your-token" \
-d '{
"contents": [{
"parts": [{
"text": "Hello, this is a single speaker test."
}]
}],
"generationConfig": {
"responseModalities": ["AUDIO"],
"speechConfig": {
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Kore"
}
}
}
}
}'
```
### 多人语音TTS请求自动启用增强服务
包含 `multiSpeakerVoiceConfig` 的请求会自动使用多人TTS增强服务
包含 `multiSpeakerVoiceConfig` 的请求会自动使用TTS增强服务
```bash
curl -X POST "https://your-domain.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
@@ -183,17 +215,16 @@ TTSGenerationConfig
1. **请求接收**系统接收到API请求
2. **智能检测**
- 检查模型名称是否包含 "tts"
- 如果是TTS模型解析请求体检查是否包含 `multiSpeakerVoiceConfig`
- 如果是TTS模型解析请求体检查是否包含 `responseModalities: ["AUDIO"]``speechConfig`
3. **服务选择**
- **多人TTS请求**:使用 `TTSGeminiChatService` 增强服务
- **单人TTS请求**:使用原有 `GeminiChatService`
- **原生TTS请求**:使用 `TTSGeminiChatService` 增强服务
- **普通请求**:使用原有 `GeminiChatService`
4. **请求处理**
- **多人TTS**:使用 `_handle_tts_request()` 特殊处理
- **原生TTS**:使用 `_handle_tts_request()` 特殊处理
- **其他请求**:使用标准 `generate_content()` 方法
5. **字段处理**从原始HTTP请求体提取TTS字段`responseModalities`, `speechConfig`
6. **API调用**构建优化的payload并调用Gemini API
7. **自动回退**:如果多人TTS处理失败自动回退到标准服务
7. **自动回退**:如果原生TTS处理失败自动回退到标准服务
8. **响应处理**
- **TTS响应**:检测音频数据,直接返回原始响应
- **普通响应**:使用标准处理方法
@@ -203,11 +234,13 @@ TTSGenerationConfig
### ✅ 已实现功能
- **智能多人语音合成**:支持 `multiSpeakerVoiceConfig` 配置
- **智能检测机制**只有多人TTS请求才启用增强服务
- **智能原生TTS支持**:支持单人和多人语音合成
- **单人TTS**:支持 `voiceConfig.prebuiltVoiceConfig` 配置
- **多人TTS**:支持 `multiSpeakerVoiceConfig` 配置
- **智能检测机制**自动检测所有原生Gemini TTS格式的请求
- **动态模型选择**支持用户在URL中指定不同TTS模型
- **完全向后兼容**原有TTS功能单人TTS、OpenAI兼容TTS完全不受影响
- **自动回退机制**多人TTS处理失败时自动使用标准服务
- **完全向后兼容**原有TTS功能OpenAI兼容TTS完全不受影响
- **自动回退机制**原生TTS处理失败时自动使用标准服务
- **完整日志记录**:请求日志、错误日志、性能监控
- **API配额管理**:自动重试和密钥轮换
- **零配置启用**:无需环境变量或配置文件修改
@@ -215,6 +248,23 @@ TTSGenerationConfig
### 🎵 支持的语音配置
#### 单人语音配置
```json
{
"responseModalities": ["AUDIO"],
"speechConfig": {
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Kore|Puck|其他预设语音"
}
}
}
}
```
#### 多人语音配置
```json
{
"responseModalities": ["AUDIO"],
@@ -278,7 +328,7 @@ tail -f logs/app.log
| TTS类型 | 路径 | 模型选择 | 语音配置 | 使用场景 | 我们的影响 |
|---------|------|----------|----------|----------|------------|
| **OpenAI兼容TTS** | `/v1/audio/speech` | 固定配置文件 | 单人语音 | OpenAI API兼容 | ✅ 无影响 |
| **Gemini单人TTS** | `/v1beta/models/{model}:generateContent` | 用户指定 | 单人语音 | 原生Gemini TTS | ✅ 无影响 |
| **Gemini单人TTS** | `/v1beta/models/{model}:generateContent` | 用户指定 | 单人语音 | 原生Gemini TTS | ✅ 我们的增强 |
| **Gemini多人TTS** | `/v1beta/models/{model}:generateContent` | 用户指定 | 多人语音 | 对话场景 | ✅ 我们的增强 |
### 智能路由机制
@@ -289,11 +339,11 @@ flowchart TD
B -->|/v1/audio/speech| C[OpenAI兼容TTS服务]
B -->|/v1beta/models/{model}:generateContent| D{模型名包含'tts'?}
D -->|否| E[标准Gemini聊天服务]
D -->|是| F{包含multiSpeakerVoiceConfig?}
F -->|否| G[原有Gemini TTS服务]
F -->|是| H[多人TTS增强服务]
D -->|是| F{包含responseModalities和speechConfig?}
F -->|否| G[标准Gemini聊天服务]
F -->|是| H[原生TTS增强服务]
H --> I{处理成功?}
I -->|是| J[返回多人TTS响应]
I -->|是| J[返回原生TTS响应]
I -->|否| K[自动回退到标准服务]
C --> L[完成]
E --> L
@@ -304,14 +354,14 @@ flowchart TD
## 🎉 成功案例
基于智能检测的多人TTS解决方案已经成功实现
基于智能检测的原生Gemini TTS解决方案已经成功实现
- ✅ **零配置启用**:无需任何环境变量或配置修改
- ✅ **智能检测**只有多人TTS请求才使用增强服务
- ✅ **智能检测**自动检测所有原生Gemini TTS格式的请求
- ✅ **完全向后兼容**所有原有TTS功能零影响
- ✅ **动态模型选择**支持用户指定不同TTS模型
- ✅ **自动回退机制**:处理失败时自动使用标准服务
- ✅ **多人语音合成**:支持复杂的对话场景
- ✅ **单人和多人语音合成**:支持所有原生Gemini TTS场景
- ✅ **完整日志记录**:可在管理界面查看所有请求
- ✅ **错误处理完善**API配额和重试机制
- ✅ **易于维护**:更新原始代码无冲突

View File

@@ -1,6 +1,6 @@
"""
多人对话TTS功能模块
Multi-speaker TTS functionality for conversation scenarios
原生Gemini TTS功能模块
Native Gemini TTS functionality for both single and multi-speaker scenarios
"""
from .tts_chat_service import TTSGeminiChatService

View File

@@ -1,13 +1,13 @@
"""
TTS聊天服务扩展
继承自原始聊天服务添加TTS支持保持向后兼容
原生Gemini TTS聊天服务扩展
继承自原始聊天服务添加原生Gemini TTS支持单人和多人保持向后兼容
"""
import time
import datetime
from typing import Any, Dict, Optional
from app.service.chat.gemini_chat_service import GeminiChatService
from app.service.tts.multi_speaker.tts_response_handler import TTSResponseHandler
from app.service.tts.native.tts_response_handler import TTSResponseHandler
from app.domain.gemini_models import GeminiRequest
from app.log.logger import get_gemini_logger
from app.database.services import add_request_log, add_error_log

View File

@@ -6,7 +6,7 @@ TTS扩展配置
import os
from typing import Union
from app.service.chat.gemini_chat_service import GeminiChatService
from app.service.tts.multi_speaker.tts_chat_service import TTSGeminiChatService
from app.service.tts.native.tts_chat_service import TTSGeminiChatService
class TTSConfig:

View File

@@ -1,6 +1,6 @@
"""
TTS扩展数据模型
继承自原始模型添加TTS相关字段保持向后兼容
原生Gemini TTS扩展数据模型
继承自原始模型添加原生Gemini TTS相关字段保持向后兼容
"""
from typing import Any, Dict, List, Optional

View File

@@ -1,6 +1,6 @@
"""
TTS响应处理器扩展
继承自原始响应处理器添加TTS支持保持向后兼容
原生Gemini TTS响应处理器扩展
继承自原始响应处理器添加原生Gemini TTS支持保持向后兼容
"""
from typing import Any, Dict, Optional

View File

@@ -1,13 +1,13 @@
"""
TTS路由扩展
提供多人TTS增强服务
提供原生Gemini TTS增强服务支持单人和多人语音
"""
from fastapi import Depends
from app.config.config import settings
from app.service.key.key_manager import KeyManager, get_key_manager_instance
from app.service.tts.multi_speaker.tts_chat_service import TTSGeminiChatService
from app.service.tts.native.tts_chat_service import TTSGeminiChatService
async def get_key_manager():
@@ -17,7 +17,7 @@ async def get_key_manager():
async def get_tts_chat_service(key_manager: KeyManager = Depends(get_key_manager)) -> TTSGeminiChatService:
"""
获取多人TTS增强聊天服务实例
获取原生Gemini TTS增强聊天服务实例支持单人和多人语音
"""
return TTSGeminiChatService(settings.BASE_URL, key_manager)