Spaces:

k2-fsa
/

web-assembly-tts-sherpa-onnx-en

Running

App Files Files Community

csukuangfj commited on Oct 22

Commit

cdfc5ab

1 Parent(s): 09c3692

update model

Browse files

Files changed (3) hide show

sherpa-onnx-tts.js +105 -14
sherpa-onnx-wasm-main-tts.js +0 -0
sherpa-onnx-wasm-main-tts.wasm +2 -2

sherpa-onnx-tts.js CHANGED Viewed

@@ -20,6 +20,10 @@ function freeConfig(config, Module) {
     freeConfig(config.kitten, Module)
   }
   Module._free(config.ptr);
 }
@@ -29,7 +33,8 @@ function initSherpaOnnxOfflineTtsVitsModelConfig(config, Module) {
   const lexiconLen = Module.lengthBytesUTF8(config.lexicon || '') + 1;
   const tokensLen = Module.lengthBytesUTF8(config.tokens || '') + 1;
   const dataDirLen = Module.lengthBytesUTF8(config.dataDir || '') + 1;
-  const dictDirLen = Module.lengthBytesUTF8(config.dictDir || '') + 1;
   const n = modelLen + lexiconLen + tokensLen + dataDirLen + dictDirLen;
@@ -51,7 +56,7 @@ function initSherpaOnnxOfflineTtsVitsModelConfig(config, Module) {
   Module.stringToUTF8(config.dataDir || '', buffer + offset, dataDirLen);
   offset += dataDirLen;
-  Module.stringToUTF8(config.dictDir || '', buffer + offset, dictDirLen);
   offset += dictDirLen;
   offset = 0;
@@ -84,7 +89,9 @@ function initSherpaOnnxOfflineTtsMatchaModelConfig(config, Module) {
   const lexiconLen = Module.lengthBytesUTF8(config.lexicon || '') + 1;
   const tokensLen = Module.lengthBytesUTF8(config.tokens || '') + 1;
   const dataDirLen = Module.lengthBytesUTF8(config.dataDir || '') + 1;
-  const dictDirLen = Module.lengthBytesUTF8(config.dictDir || '') + 1;
   const n = acousticModelLen + vocoderLen + lexiconLen + tokensLen +
       dataDirLen + dictDirLen;
@@ -111,7 +118,7 @@ function initSherpaOnnxOfflineTtsMatchaModelConfig(config, Module) {
   Module.stringToUTF8(config.dataDir || '', buffer + offset, dataDirLen);
   offset += dataDirLen;
-  Module.stringToUTF8(config.dictDir || '', buffer + offset, dictDirLen);
   offset += dictDirLen;
   offset = 0;
@@ -145,7 +152,8 @@ function initSherpaOnnxOfflineTtsKokoroModelConfig(config, Module) {
   const voicesLen = Module.lengthBytesUTF8(config.voices) + 1;
   const tokensLen = Module.lengthBytesUTF8(config.tokens || '') + 1;
   const dataDirLen = Module.lengthBytesUTF8(config.dataDir || '') + 1;
-  const dictDirLen = Module.lengthBytesUTF8(config.dictDir || '') + 1;
   const lexiconLen = Module.lengthBytesUTF8(config.lexicon || '') + 1;
   const langLen = Module.lengthBytesUTF8(config.lang || '') + 1;
@@ -170,7 +178,7 @@ function initSherpaOnnxOfflineTtsKokoroModelConfig(config, Module) {
   Module.stringToUTF8(config.dataDir || '', buffer + offset, dataDirLen);
   offset += dataDirLen;
-  Module.stringToUTF8(config.dictDir || '', buffer + offset, dictDirLen);
   offset += dictDirLen;
   Module.stringToUTF8(config.lexicon || '', buffer + offset, lexiconLen);
@@ -254,6 +262,72 @@ function initSherpaOnnxOfflineTtsKittenModelConfig(config, Module) {
   }
 }
 function initSherpaOnnxOfflineTtsModelConfig(config, Module) {
   if (!('offlineTtsVitsModelConfig' in config)) {
     config.offlineTtsVitsModelConfig = {
@@ -264,7 +338,6 @@ function initSherpaOnnxOfflineTtsModelConfig(config, Module) {
       noiseScaleW: 0.8,
       lengthScale: 1.0,
       dataDir: '',
-      dictDir: '',
     };
   }
@@ -277,7 +350,6 @@ function initSherpaOnnxOfflineTtsModelConfig(config, Module) {
       noiseScale: 0.667,
       lengthScale: 1.0,
       dataDir: '',
-      dictDir: '',
     };
   }
@@ -288,7 +360,6 @@ function initSherpaOnnxOfflineTtsModelConfig(config, Module) {
       tokens: '',
       lengthScale: 1.0,
       dataDir: '',
-      dictDir: '',
       lexicon: '',
       lang: '',
     };
@@ -303,6 +374,21 @@ function initSherpaOnnxOfflineTtsModelConfig(config, Module) {
     };
   }
   const vitsModelConfig = initSherpaOnnxOfflineTtsVitsModelConfig(
       config.offlineTtsVitsModelConfig, Module);
@@ -316,8 +402,12 @@ function initSherpaOnnxOfflineTtsModelConfig(config, Module) {
   const kittenModelConfig = initSherpaOnnxOfflineTtsKittenModelConfig(
       config.offlineTtsKittenModelConfig, Module);
   const len = vitsModelConfig.len + matchaModelConfig.len +
-      kokoroModelConfig.len + kittenModelConfig.len + 3 * 4;
   const ptr = Module._malloc(len);
@@ -346,10 +436,14 @@ function initSherpaOnnxOfflineTtsModelConfig(config, Module) {
   Module._CopyHeap(kittenModelConfig.ptr, kittenModelConfig.len, ptr + offset);
   offset += kittenModelConfig.len;
   return {
     buffer: buffer, ptr: ptr, len: len, config: vitsModelConfig,
         matcha: matchaModelConfig, kokoro: kokoroModelConfig,
-        kitten: kittenModelConfig,
   }
 }
@@ -454,7 +548,6 @@ function createOfflineTts(Module, myConfig) {
     lexicon: '',
     tokens: './tokens.txt',
     dataDir: './espeak-ng-data',
-    dictDir: '',
     noiseScale: 0.667,
     noiseScaleW: 0.8,
     lengthScale: 1.0,
@@ -466,7 +559,6 @@ function createOfflineTts(Module, myConfig) {
     lexicon: '',
     tokens: '',
     dataDir: '',
-    dictDir: '',
     noiseScale: 0.667,
     lengthScale: 1.0,
   };
@@ -477,7 +569,6 @@ function createOfflineTts(Module, myConfig) {
     tokens: '',
     dataDir: '',
     lengthScale: 1.0,
-    dictDir: '',
     lexicon: '',
     lang: '',
   };

     freeConfig(config.kitten, Module)
   }
+  if ('zipvoice' in config) {
+    freeConfig(config.zipvoice, Module)
+  }
   Module._free(config.ptr);
 }
   const lexiconLen = Module.lengthBytesUTF8(config.lexicon || '') + 1;
   const tokensLen = Module.lengthBytesUTF8(config.tokens || '') + 1;
   const dataDirLen = Module.lengthBytesUTF8(config.dataDir || '') + 1;
+  const dictDir = ''
+  const dictDirLen = Module.lengthBytesUTF8(dictDir) + 1;
   const n = modelLen + lexiconLen + tokensLen + dataDirLen + dictDirLen;
   Module.stringToUTF8(config.dataDir || '', buffer + offset, dataDirLen);
   offset += dataDirLen;
+  Module.stringToUTF8(dictDir, buffer + offset, dictDirLen);
   offset += dictDirLen;
   offset = 0;
   const lexiconLen = Module.lengthBytesUTF8(config.lexicon || '') + 1;
   const tokensLen = Module.lengthBytesUTF8(config.tokens || '') + 1;
   const dataDirLen = Module.lengthBytesUTF8(config.dataDir || '') + 1;
+  const dictDir = '';
+  const dictDirLen = Module.lengthBytesUTF8(dictDir) + 1;
   const n = acousticModelLen + vocoderLen + lexiconLen + tokensLen +
       dataDirLen + dictDirLen;
   Module.stringToUTF8(config.dataDir || '', buffer + offset, dataDirLen);
   offset += dataDirLen;
+  Module.stringToUTF8(dictDir, buffer + offset, dictDirLen);
   offset += dictDirLen;
   offset = 0;
   const voicesLen = Module.lengthBytesUTF8(config.voices) + 1;
   const tokensLen = Module.lengthBytesUTF8(config.tokens || '') + 1;
   const dataDirLen = Module.lengthBytesUTF8(config.dataDir || '') + 1;
+  const dictDir = '';
+  const dictDirLen = Module.lengthBytesUTF8(dictDir) + 1;
   const lexiconLen = Module.lengthBytesUTF8(config.lexicon || '') + 1;
   const langLen = Module.lengthBytesUTF8(config.lang || '') + 1;
   Module.stringToUTF8(config.dataDir || '', buffer + offset, dataDirLen);
   offset += dataDirLen;
+  Module.stringToUTF8(dictDir, buffer + offset, dictDirLen);
   offset += dictDirLen;
   Module.stringToUTF8(config.lexicon || '', buffer + offset, lexiconLen);
   }
 }
+function initSherpaOnnxOfflineTtsZipVoiceModelConfig(config, Module) {
+  const tokensLen = Module.lengthBytesUTF8(config.tokens || '') + 1;
+  const textModelLen = Module.lengthBytesUTF8(config.textModel || '') + 1;
+  const flowMatchingModelLen =
+      Module.lengthBytesUTF8(config.flowMatchingModel || '') + 1;
+  const vocoderLen = Module.lengthBytesUTF8(config.vocoder || '') + 1;
+  const dataDirLen = Module.lengthBytesUTF8(config.dataDir || '') + 1;
+  const pinyinDictLen = Module.lengthBytesUTF8(config.pinyinDict || '') + 1;
+  const n = tokensLen + textModelLen + flowMatchingModelLen + vocoderLen +
+      dataDirLen + pinyinDictLen;
+  const buffer = Module._malloc(n);
+  const len = 10 * 4;
+  const ptr = Module._malloc(len);
+  let offset = 0;
+  Module.stringToUTF8(config.tokens || '', buffer + offset, tokensLen);
+  offset += tokensLen;
+  Module.stringToUTF8(config.textModel || '', buffer + offset, textModelLen);
+  offset += textModelLen;
+  Module.stringToUTF8(
+      config.flowMatchingModel || '', buffer + offset, flowMatchingModelLen);
+  offset += flowMatchingModelLen;
+  Module.stringToUTF8(config.vocoder || '', buffer + offset, vocoderLen);
+  offset += vocoderLen;
+  Module.stringToUTF8(config.dataDir || '', buffer + offset, dataDirLen);
+  offset += dataDirLen;
+  Module.stringToUTF8(config.pinyinDict || '', buffer + offset, pinyinDictLen);
+  offset += pinyinDictLen;
+  offset = 0;
+  Module.setValue(ptr, buffer + offset, 'i8*');
+  offset += tokensLen;
+  Module.setValue(ptr + 4, buffer + offset, 'i8*');
+  offset += textModelLen;
+  Module.setValue(ptr + 8, buffer + offset, 'i8*');
+  offset += flowMatchingModelLen;
+  Module.setValue(ptr + 12, buffer + offset, 'i8*');
+  offset += vocoderLen;
+  Module.setValue(ptr + 16, buffer + offset, 'i8*');
+  offset += dataDirLen;
+  Module.setValue(ptr + 20, buffer + offset, 'i8*');
+  offset += pinyinDictLen;
+  Module.setValue(ptr + 24, config.featScale || 0.1, 'float');
+  Module.setValue(ptr + 28, config.tShift || 0.5, 'float');
+  Module.setValue(ptr + 32, config.targetRMS || 0.1, 'float');
+  Module.setValue(ptr + 36, config.guidanceScale || 1.0, 'float');
+  return {
+    buffer: buffer, ptr: ptr, len: len,
+  }
+}
 function initSherpaOnnxOfflineTtsModelConfig(config, Module) {
   if (!('offlineTtsVitsModelConfig' in config)) {
     config.offlineTtsVitsModelConfig = {
       noiseScaleW: 0.8,
       lengthScale: 1.0,
       dataDir: '',
     };
   }
       noiseScale: 0.667,
       lengthScale: 1.0,
       dataDir: '',
     };
   }
       tokens: '',
       lengthScale: 1.0,
       dataDir: '',
       lexicon: '',
       lang: '',
     };
     };
   }
+  if (!('offlineTtsZipVoiceModelConfig' in config)) {
+    config.offlineTtsZipVoiceModelConfig = {
+      tokens: '',
+      textModel: '',
+      flowMatchingModel: '',
+      vocoder: '',
+      dataDir: '',
+      pinyinDict: '',
+      featScale: 0.1,
+      tShift: 0.5,
+      targetRMS: 0.1,
+      guidanceScale: 1.0,
+    };
+  }
   const vitsModelConfig = initSherpaOnnxOfflineTtsVitsModelConfig(
       config.offlineTtsVitsModelConfig, Module);
   const kittenModelConfig = initSherpaOnnxOfflineTtsKittenModelConfig(
       config.offlineTtsKittenModelConfig, Module);
+  const zipVoiceModelConfig = initSherpaOnnxOfflineTtsZipVoiceModelConfig(
+      config.offlineTtsZipVoiceModelConfig, Module);
   const len = vitsModelConfig.len + matchaModelConfig.len +
+      kokoroModelConfig.len + kittenModelConfig.len + zipVoiceModelConfig.len +
+      3 * 4;
   const ptr = Module._malloc(len);
   Module._CopyHeap(kittenModelConfig.ptr, kittenModelConfig.len, ptr + offset);
   offset += kittenModelConfig.len;
+  Module._CopyHeap(
+      zipVoiceModelConfig.ptr, zipVoiceModelConfig.len, ptr + offset);
+  offset += zipVoiceModelConfig.len;
   return {
     buffer: buffer, ptr: ptr, len: len, config: vitsModelConfig,
         matcha: matchaModelConfig, kokoro: kokoroModelConfig,
+        kitten: kittenModelConfig, zipvoice: zipVoiceModelConfig,
   }
 }
     lexicon: '',
     tokens: './tokens.txt',
     dataDir: './espeak-ng-data',
     noiseScale: 0.667,
     noiseScaleW: 0.8,
     lengthScale: 1.0,
     lexicon: '',
     tokens: '',
     dataDir: '',
     noiseScale: 0.667,
     lengthScale: 1.0,
   };
     tokens: '',
     dataDir: '',
     lengthScale: 1.0,
     lexicon: '',
     lang: '',
   };

sherpa-onnx-wasm-main-tts.js CHANGED Viewed

The diff for this file is too large to render. See raw diff

sherpa-onnx-wasm-main-tts.wasm CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c72c89eaf0c6a4c6e022de52cb26de629a1b31220c8ba6869307a2665e3c0596
-size 11923804

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8b0c97d0915da2cdfbc809255cff0f3fc6a655fb51aa3897210d72c769b4515
+size 11875129