Tekst-til-tale, også kaldet TTS, er en form for understøttende teknologi, der bringer lethed og komfort i livet. Systemet læser digitale tekster højt og tydeligt nok til, at en person kan forstå. TTS er også kendt som højtlæsningsteknologi, bredt accepteret for sin fleksibilitet. Det er et enkelt tryk væk, hvor hjemmesidens tekst konverteres til lyd.
Systemet udvides på tværs af alle enheder såsom smartphones, bærbare computere, desktops og tablets, der anses for at være ideelle til børn, offentligheden over 20 år og mennesker med handicap. Kampen med at læse og stresse øjne over for elektroniske enheder er alt sammen væk med TTS, mens fokus, læring og vanen med at læse online gennem lytning øges. Så hvis du er en blogger, læser eller webstedsejer, er TTS software, der vil udvide din videnshorisont. Men hvad er fordelene ved at have en stemme for alt, ingen begrænsning og ingen grænse? Det er adskilt efter brugerne, da det er dem, der skal bruge tjenesterne.
At tillade folk at tale med maskiner er en langvarig drøm om menneske-computer-interaktion. Computeres evne til at forstå naturlig tale er blevet revolutioneret i de sidste par år ved anvendelsen af dybe neurale netværk (f.eks. Google Voice Search). Men at generere tale med computere - en proces, der normalt omtales som talesyntese eller tekst-til-tale (TTS) — er stadig i høj grad baseret på såkaldte konkatenativ TTS, hvor en meget stor database af korte talefragmenter optages fra en enkelt højttaler og derefter rekombineres til komplette ytringer. Dette gør det vanskeligt at ændre stemmen (for eksempel at skifte til en anden højttaler eller ændre vægten eller følelserne i deres tale) uden at optage en helt ny database.
TTS-processen omfatter flere faser:
Der er flere typer af TTS-teknologi, herunder:
GSpeech tilbyder mange funktioner, herunder online, SaaS, tekst-til-tale (TTS)-løsninger på stedet til en bred vifte af kilder som websteder, mobilapps, e-bøger, e-læringsmateriale, dokumenter, daglig kundeoplevelse, transport erfaring og meget mere. Hvordan en virksomhed, organisation og udgivere, der integrerer TTS-teknologi, får gavn.
TTS-teknologi giver større tilgængelighed for personer med synshandicap, ordblindhed eller læsevanskeligheder, hvilket giver dem mulighed for lettere at få adgang til information og kommunikere.
Ved at give brugerne en alternativ måde at forbruge dit indhold på, kan du forbedre dit WordPress-websteds søgemaskineoptimering (SEO). Dette er især vigtigt for brugere, der er afhængige af skærmlæsere til at navigere på nettet.
TTS-teknologi kan forbedre brugeroplevelsen ved at give en mere naturlig og intuitiv måde at interagere med enheder på, hvilket reducerer behovet for manuel skrivning eller læsning.
TTS-teknologien kan yde kundesupport døgnet rundt, besvare ofte stillede spørgsmål og give kunderne information på en mere effektiv og effektiv måde.
TTS-teknologi kan øge produktiviteten ved at automatisere opgaver såsom dataindtastning, transskription og læsning, hvilket frigør tid til vigtigere opgaver.
TTS-teknologi kan understøtte flere sprog, hvilket gør den til et værdifuldt værktøj for virksomheder og organisationer, der opererer globalt.
TTS-teknologi kan forbedre læseforståelsen ved at give brugerne mulighed for at lytte til tekst, mens de følger med i det skrevne ord, hvilket gør det lettere at forstå kompleks information.
TTS-teknologi kan reducere øjenbelastning og træthed ved at tilbyde et alternativ til læsning og skrivning, hvilket gør det til et værdifuldt værktøj for personer, der tilbringer lange timer foran skærme.
TTS-teknologi kan øge engagementet ved at give en mere interaktiv og fordybende oplevelse, hvilket gør den til et værdifuldt værktøj til uddannelses- og underholdningsapplikationer.
TTS-teknologi kan give en konkurrencefordel ved at tilbyde en unik og innovativ måde at interagere med enheder på, og adskille dit produkt eller din tjeneste fra konkurrenterne.
Dette har ført til en stor efterspørgsel efter parametrisk TTS, hvor al den information, der kræves for at generere dataene, er lagret i modellens parametre, og talens indhold og karakteristika kan styres via input til modellen. Indtil videre har parametrisk TTS dog haft en tendens til at lyde mindre naturligt end sammenkædet. Eksisterende parametriske modeller genererer typisk lydsignaler ved at sende deres output gennem signalbehandlingsalgoritmer kendt som vokodere.
WaveNet ændrer dette paradigme ved direkte at modellere den rå bølgeform af lydsignalet, en sample ad gangen. Ud over at give mere naturligt lydende tale betyder brug af rå bølgeformer, at WaveNet kan modellere enhver form for lyd, inklusive musik.
Forskere undgår normalt at modellere rå lyd, fordi den tikker så hurtigt: typisk 16,000 samples i sekundet eller mere, med vigtig struktur på mange tidsskalaer. At bygge en fuldstændig autoregressiv model, hvor forudsigelsen for hver enkelt af disse prøver er påvirket af alle tidligere (i statistik-sproget er hver prædiktiv fordeling betinget af alle tidligere observationer), er klart en udfordrende opgave.
Imidlertid PixelRNN og PixelCNN modeller, offentliggjort tidligere, viste, at det var muligt at generere komplekse naturlige billeder, ikke kun én pixel ad gangen, men én farvekanal ad gangen, hvilket krævede tusindvis af forudsigelser pr. billede. Dette inspirerede os til at tilpasse vores todimensionelle PixelNets til et endimensionelt WaveNet.
Ovenstående animation viser, hvordan et WaveNet er opbygget. Det er et fuldt foldet neuralt netværk, hvor foldningslagene har forskellige dilatationsfaktorer, der tillader dets modtagelige felt at vokse eksponentielt med dybden og dække tusindvis af tidstrin.
På træningstidspunktet er inputsekvenserne rigtige bølgeformer optaget fra menneskelige højttalere. Efter træning kan vi prøve netværket for at generere syntetiske ytringer. Ved hvert trin under sampling udtrækkes en værdi fra sandsynlighedsfordelingen beregnet af netværket. Denne værdi føres derefter tilbage til inputtet, og der laves en ny forudsigelse for det næste trin. At opbygge samples et trin ad gangen som dette er beregningsmæssigt dyrt, men vi har fundet det afgørende for at generere kompleks, realistisk lydende lyd.
Vi trænede WaveNet ved at bruge nogle af Googles TTS-datasæt, så vi kunne evaluere dets ydeevne. Følgende figur viser kvaliteten af WaveNets på en skala fra 1 til 5 sammenlignet med Googles nuværende bedste TTS-systemer (parametrisk og sammenhængende), og med menneskelig tale ved hjælp af Gennemsnitlig meningsscore (MOS). MOS er et standardmål for subjektive lydkvalitetstests og blev opnået i blinde tests med mennesker (fra over 500 vurderinger på 100 testsætninger). Som vi kan se, reducerer WaveNets kløften mellem den nyeste teknologi og ydeevne på menneskeligt niveau med over 50 % for både amerikansk engelsk og mandarin-kinesisk.
For både kinesisk og engelsk anses Googles nuværende TTS-systemer for at være blandt de bedste på verdensplan, så det er en stor præstation at forbedre begge med en enkelt model.
GSpeech har AI stemmesyntese-algoritme, som er noget af det mest avancerede og realistiske i branchen. De fleste stemmesynthesizere (inklusive Apples Siri) bruger det, der kaldes konkatenativ syntese, hvor et program gemmer individuelle stavelser - lyde som "ba", "sht" og "oo" - og stykker dem sammen i farten for at danne ord og sætninger . Denne metode er blevet ret god gennem årene, men den lyder stadig opstyltet.
WaveNet bruger til sammenligning maskinlæring til at generere lyd fra bunden. Den analyserer faktisk bølgeformerne fra en enorm database med menneskelig tale og genskaber dem med en hastighed på 24,000 prøver i sekundet. Slutresultatet inkluderer stemmer med finesser som læbesmakker og accenter. Da Google først afslørede WaveNet i 2016, var det alt for beregningsintensivt at arbejde uden for forskningsmiljøer, men det er siden blevet slanket betydeligt, hvilket viser en klar pipeline fra forskning til produkt.