refactor: update transcription response formats and validation

- Removed 'diarized_json' from the allowed response formats in both the server functions and API schemas. - Updated the TranscriptionResponseFormat type to reflect the removal of 'diarized_json'. - Enhanced error handling in the OpenAI transcription adapter to ensure that known speaker names and references are provided together. - Added tests to validate the new requirements for speaker diarization in the transcription process.
TanStack · 8times4 · May 27, 2026 · May 28, 2026 · Jun 12, 2026 · Jun 13, 2026
commit 23b15bc38804153c18296f85f6735d6daab89544
diff --git a/examples/ts-react-chat/src/lib/server-fns.ts b/examples/ts-react-chat/src/lib/server-fns.ts
@@ -82,7 +82,7 @@ const TRANSCRIPTION_PROVIDER_SCHEMA = z
   .optional()
 
 const TRANSCRIPTION_RESPONSE_FORMAT_SCHEMA = z
-  .enum(['json', 'text', 'srt', 'verbose_json', 'vtt', 'diarized_json'])
+  .enum(['json', 'text', 'srt', 'verbose_json', 'vtt'])
   .optional()
 
 const AUDIO_PROVIDER_SCHEMA = z

diff --git a/examples/ts-react-chat/src/routes/api.transcribe.ts b/examples/ts-react-chat/src/routes/api.transcribe.ts
@@ -12,7 +12,7 @@ const TRANSCRIPTION_PROVIDER_SCHEMA = z
   .optional()
 
 const TRANSCRIPTION_RESPONSE_FORMAT_SCHEMA = z
-  .enum(['json', 'text', 'srt', 'verbose_json', 'vtt', 'diarized_json'])
+  .enum(['json', 'text', 'srt', 'verbose_json', 'vtt'])
   .optional()
 
 const TRANSCRIBE_BODY_SCHEMA = z.object({

diff --git a/packages/ai-openai/src/adapters/transcription.ts b/packages/ai-openai/src/adapters/transcription.ts
@@ -250,9 +250,7 @@ export class OpenAITranscriptionAdapter<
       options
     const file = this.prepareAudioFile(audio)
     const isDiarizeTranscriptionModel = isDiarizeModel(model)
-    const topLevelResponseFormat = responseFormat as
-      | OpenAITranscriptionResponseFormat
-      | undefined
+    const topLevelResponseFormat = responseFormat
     const effectiveResponseFormat =
       topLevelResponseFormat ?? modelOptions?.response_format
 
@@ -436,6 +434,15 @@ export class OpenAITranscriptionAdapter<
       )
     }
 
+    if (
+      (modelOptions?.known_speaker_names === undefined) !==
+      (modelOptions?.known_speaker_references === undefined)
+    ) {
+      throw new Error(
+        'OpenAI diarization known_speaker_names and known_speaker_references must both be provided together.',
+      )
+    }
+
     if (modelOptions?.known_speaker_names !== undefined) {
       const knownSpeakerCount = modelOptions.known_speaker_names.length
       if (knownSpeakerCount > 4) {

diff --git a/packages/ai-openai/tests/transcription-adapter.test.ts b/packages/ai-openai/tests/transcription-adapter.test.ts
@@ -386,11 +386,40 @@ describe('OpenAI transcription adapter', () => {
         audio: new File([], 'audio.wav', { type: 'audio/wav' }),
         modelOptions: {
           known_speaker_names: ['a', 'b', 'c', 'd', 'e'],
+          known_speaker_references: [
+            'data:audio/wav;base64,AAA=',
+            'data:audio/wav;base64,BBB=',
+            'data:audio/wav;base64,CCC=',
+            'data:audio/wav;base64,DDD=',
+            'data:audio/wav;base64,EEE=',
+          ],
         },
         logger: testLogger,
       }),
     ).rejects.toThrow('at most 4')
 
+    await expect(
+      adapter.transcribe({
+        model: 'gpt-4o-transcribe-diarize',
+        audio: new File([], 'audio.wav', { type: 'audio/wav' }),
+        modelOptions: {
+          known_speaker_names: ['agent'],
+        },
+        logger: testLogger,
+      }),
+    ).rejects.toThrow('must both be provided together')
+
+    await expect(
+      adapter.transcribe({
+        model: 'gpt-4o-transcribe-diarize',
+        audio: new File([], 'audio.wav', { type: 'audio/wav' }),
+        modelOptions: {
+          known_speaker_references: ['data:audio/wav;base64,AAA='],
+        },
+        logger: testLogger,
+      }),
+    ).rejects.toThrow('must both be provided together')
+
     await expect(
       adapter.transcribe({
         model: 'gpt-4o-transcribe-diarize',

diff --git a/packages/ai/src/types.ts b/packages/ai/src/types.ts
@@ -1715,7 +1715,6 @@ export type TranscriptionResponseFormat =
   | 'srt'
   | 'verbose_json'
   | 'vtt'
-  | 'diarized_json'
 
 export interface TranscriptionOptions<
   TProviderOptions extends object = object,

diff --git a/testing/e2e/src/lib/media-providers.ts b/testing/e2e/src/lib/media-providers.ts
@@ -42,9 +42,7 @@ function testHeaders(testId?: string): Record<string, string> | undefined {
 function getOpenaiTranscriptionModel(options: TranscriptionAdapterOptions) {
   const modelOptions = options.modelOptions
   const isDiarizationRequest =
-    options.responseFormat === 'diarized_json' ||
     modelOptions?.response_format === 'diarized_json' ||
-    modelOptions?.diarize === true ||
     modelOptions?.chunking_strategy !== undefined ||
     modelOptions?.known_speaker_names !== undefined ||
     modelOptions?.known_speaker_references !== undefined