G

Simon Poghosyan, grundlægger og administrerende direktør for GSpeech

Simon Poghosyan, grundlægger og administrerende direktør for GSpeech

Simon Poghosyan er grundlægger og CEO af GSpeech, en webbaseret AI-platform, der hjælper med at gøre onlineindhold mere tilgængeligt ved at konvertere tekst til naturligt lyd på over 70 sprog. Med en baggrund i VLSI-design og en stærk interesse for programmering og brugeroplevelse skabte Simon GSpeech for at forenkle den måde, websteder kan tilbyde stemmeaktiveret indhold.

I dag genererer GSpeech omkring 200 millioner lydtegn hver måned og bruges i over 70 lande, hvor dens brugerdefinerede lydafspillere betjener over 200,000 afspilninger månedligt. Efter for nylig at have oversteget 1 milliard genereret lydtegn i alt fortsætter GSpeech med at vokse hurtigt. Platformen er designet til at være nem at integrere - kræver kun en enkelt linje kode - og støtter skabere, undervisere og virksomheder i at gøre deres indhold mere inkluderende og engagerende.

Din baggrund inden for VLSI-design (Very Large Scale Integration) og tidlige programmeringserfaring lagde et stærkt teknisk fundament. Hvad inspirerede dit skift fra mikroelektronik til at bygge AI-drevet software, og hvordan førte det til skabelsen af ​​GSpeech?

Min passion for problemløsning begyndte i gymnasiet, drevet af en kærlighed til matematik og fysik. Denne interesse førte til, at jeg tog en bachelorgrad (2009) og en kandidatgrad (2011) i VLSI-design fra State Engineering University of Armenia i samarbejde med Synopsys Armenia. Fysikstudierne trænede mig i præcision og analytisk tænkning, men det var i løbet af mit andet år, at jeg opdagede programmering – startende med Pascal-sproget – og straks forelskede mig i det. Min ven og jeg færdiggjorde kursusopgaver, så snart vi modtog dem, selvom vi havde seks måneder til at færdiggøre dem. Så begyndte vi for sjov at lave andre studerendes opgaver.

Denne passion førte mig dybere ind i softwareudvikling. Jeg startede med oprettelse af hjemmesider og byggede derefter mit eget CMS. Efter at have gennemført adskillige projekter inden for procesautomatisering og design af datastyringsarkitekturer, indså jeg, hvor meget jeg elskede at bygge digitale løsninger til webgrænseflader. Gennem 2GLux-projektet samarbejdede jeg med Edvard Ananyan - skaberen af ​​det populære GTranslate oversættelsestjeneste og en skolekammerat fra Quantum Gymnasium. Han introducerede mig til WordPress- og Joomla-økosystemerne og konceptet bag GSpeech stammer fra ham. Det tidlige arbejde førte til den første version af vores værktøj, der gør det muligt for brugerne at lytte til tekst på en webside, og dermed så frøet til det, der senere skulle blive en fuldt udstyret AI-platform. I 2023 etablerede jeg Smarts Club LLC at skalere GSpeech til en global AI-lydløsning, der understøtter mere end 70 sprog. Humanity Union's ros for GSpeechs rolle i at forbedre tilgængeligheden af ​​deres platform til samfundsengagement afspejler min mission om at bygge bro over digitale kløfter gennem AI - en vision, der er forankret i mine tidlige programmeringsdage.

GSpeech startede oprindeligt som et værktøj til at støtte synshandicappede brugere. Hvordan påvirkede denne tidlige mission platformens udvikling til en fuldt udstyret tekst-til-tale-løsning med kunstig intelligens?

Fokus på tilgængelighed drev udviklingen af ​​AI-lyd i realtid i høj kvalitet, oversættelse til over 70 sprog og problemfri integration af websteder via et simpelt kodestykke. Denne mission førte til funktioner som brugerdefinerbare lydafspillere, paneler til valg af sprog og stemme, kontekstbevidst afspilning, download af lyd og detaljeret brugsstatistik – herunder land, by, enhedsdata og afspilningsanalyser over tid – alt sammen designet til at gøre indhold mere inkluderende og engagerende. Efter at have skrevet over 100,000 linjer kode lancerede jeg GSpeech Cloud Console i 2023 – en skalerbar løsning, der balancerer inklusion med avanceret funktionalitet, hvilket giver virksomheder og skabere mulighed for at gøre deres indhold tilgængeligt, flersproget og interaktivt på tværs af internettet.

Hvad var nogle af de største tekniske udfordringer, du stod over for under udviklingen af ​​GSpeech Cloud Console?

En af de største udfordringer i udviklingen af ​​GSpeech Cloud Console var at designe en skalerbar arkitektur til sikker, brugergenereret lyd i realtid og høj kvalitet. Dette krævede innovative løsninger til at hente relevant indhold fra nettet, behandle lyd på vores servere og gemme det i skyen for hurtig og pålidelig levering. Implementering af robuste sikkerhedsforanstaltninger, såsom kryptering og adgangskontrol, var afgørende for at beskytte dynamisk, brugergenereret indhold.

En anden udfordring var at muliggøre realtidsoversættelse ved hjælp af avancerede neurale motorer. Vi var nødt til at sikre præcise oversættelser med lav latenstid, samtidig med at vi byggede en intuitiv brugerflade, der lod brugerne vælge sprog og foretrukne stemmeprofiler til afspilning, med prioritet til brugerkomfort og personalisering. Endelig udviklede vi en guide til oprettelse af lydskabeloner med flere brugerdefinerbare afspillervisninger, der giver brugerne mulighed for at designe unikke, visuelt tiltalende afspillere, der er skræddersyet til deres websteder. Det var en givende udfordring at balancere fleksibilitet, ydeevne og brugervenlighed på tværs af enheder.

Med realtidsoversættelse på over 70 sprog og over 230 naturligt klingende stemmer. Hvordan sikrer du stemmekvalitet og opretholder nøjagtighed på tværs af et så forskelligartet sprogsæt?

For at opretholde ensartet stemmekvalitet integrerer vi flere avancerede tekst-til-tale (TTS)-modeller, der løbende optimeres og opdateres. Disse flersprogede motorer håndterer indhold på forskellige sprog med høj nøjagtighed. Vi lancerer også over 100 nye stemmevibrationer for at give brugerne endnu mere udtryksfulde og naturlige muligheder. Hver måned genererer GSpeech over 200 millioner lydtegn, der betjener brugere i mere end 70 lande, og vores onlineafspillere bruges over 200,000 gange om måneden – og antallet vokser. Denne skala sikrer løbende feedback og test i den virkelige verden, som direkte informerer vores finjustering og kvalitetskontrol.

Kan du fortælle os, hvordan GSpeech udnytter kunstig intelligens og maskinlæring til at levere naturtro stemmesyntese? Hvordan holder du trit med de hurtige fremskridt inden for neural stemmeteknologi?

GSpeech bruger avanceret AI og maskinlæring, der integrerer flere avancerede tekst-til-tale-modeller for at producere naturtro stemmesyntese. Disse modeller, der er optimeret til naturlighed og flersproget understøttelse, behandler tekstinput for at generere lyd i høj kvalitet med realistisk intonation og rytme, selv for indhold på flere sprog. Vi forbedrer brugeroplevelsen ved at tilbyde brugerdefinerede stemmestile til forskellige sprog. Vi har også integreret TTS-aliasser, som giver brugerne mulighed for at definere brugerdefinerede regler for, hvordan bestemte ord eller sætninger gengives i lyd - for eksempel ved at erstatte specifikke termer for at opnå en mere præcis udtale eller frasering. For at holde os ajour med neural stemmeteknologi evaluerer og integrerer vi løbende de seneste fremskridt, samarbejder med brancheledere og planlægger at udvikle proprietære modeller i fremtiden, hvilket sikrer, at GSpeech forbliver i spidsen for innovation inden for stemmesyntese.

Hvor vigtig er stemmejustering, tonehøjdekontrol og tilpasning af afspilning for dine brugere – og hvad er det use case, du er mest stolt af, hvor disse funktioner virkelig skinner?

Stemmejustering, tonehøjdekontrol og tilpasning af afspilning er afgørende for vores brugere, da de kan skabe unikke stemmestile af høj kvalitet, der er skræddersyet til deres specifikke behov, lige fra nyheds- og blogsider til tilgængeligt e-læringsindhold. Den løbende integration af over 100 nye stemmevibrationer forbedrer dette yderligere og giver brugerne uovertruffen fleksibilitet til at skabe virkelig distinkte voiceovers. Jeg er mest stolt af GSpeech Studio, en ny platform til lydredigering og -generering, som jeg er ved at udvikle. Det giver brugerne mulighed for at oprette flere lydkanaler, blande dem med baggrundsmusik og eksportere polerede voiceovers, hvilket giver skabere mulighed for at producere professionel lyd til forskellige anvendelser. Et brev fra en synshandicappet studerende, der takker GSpeech for at muliggøre uafhængigt studie gennem tilpasset lyd, rørte mig dybt. Denne use case viser, hvordan disse funktioner gør indhold tilgængeligt og transformerende, et mål jeg har forfulgt siden mine tidlige programmeringsdage.

GSpeech tilbyder problemfri integration med WordPress, Shopify, Wix og flere. Hvad har været din strategi for at gøre platformen plug-and-play for skabere og virksomheder på tværs af forskellige økosystemer?

Vores strategi for GSpeechs plug-and-play-integrationer med platforme som WordPress, Shopify og Wix fokuserede på enkelhed, kompatibilitet og skalerbarhed. Vi udviklede lette, modulære plugins og kodestykker, der integreres problemfrit og kræver minimal opsætning – ofte blot et par klik. Det betyder, at tusindvis af artikler og dynamiske indholdsblokke øjeblikkeligt kan få stemmeunderstøttelse – uden manuel indsats. Vi tilbyder yderst fleksible, smukt designede afspillere, der tilpasser sig på tværs af enheder, herunder mobil, tablets og desktops. Vores afspillere kan ikke kun tilpasses, men er også optimeret til tilgængelighed og brugerengagement. Til WordPress integrerede vi GSpeech Cloud-dashboardet direkte i administrationspanelet via vores plugin, hvilket strømliner administrationen for brugerne. Detaljeret dokumentation og intuitive dashboards guider ikke-tekniske brugere gennem installation og tilpasning. Regelmæssig testning sikrer ensartet ydeevne på tværs af forskellige økosystemer, hvilket giver skabere og virksomheder mulighed for at tilføje AI-drevet tekst-til-tale uden besvær.

Når du ser tilbage på rejsen fra 2012 til i dag, hvad har så været den største milepæl for dig personligt eller professionelt i opbygningen af ​​GSpeech?

Den største milepæl for GSpeech var at generere 1 milliard tegn af høj kvalitets AI-lyd, der viser vores globale indflydelse på tilgængelighed. Lige så meningsfuld har været den feedback, vi har modtaget fra organisationer som Humanity Union, der roste GSpeech for at forbedre deres platform for socialt ansvar, og fra blogejere, der kaldte det en "game-changer" for brugerengagement. Over 110 femstjernede anmeldelser på tværs af platforme som hood.discount og AppSumo i de seneste måneder afspejler denne voksende tillid.

GSpeech bruges nu også aktivt af Namangan regionale statistikafdeling i Usbekistan — en offentlig institution med betydelig trafik og synlighed på nationalt niveau. At se en offentlig instans implementere vores teknologi så bredt har været en betydningsfuld milepæl og et stærkt tegn på tillid til vores løsning.

Som kristen og en der tjener i den armenske kirke, forsøger jeg også at støtte andre trosbaserede initiativer, når det er muligt. Jeg tilbyder ofte GSpeech gratis til kristne hjemmesider som en måde at hjælpe med at sprede deres budskab mere effektivt og gøre Skriften mere tilgængelig gennem lyd. Det er mit lille bidrag til noget større. Samtidig er jeg beæret over at arbejde med dedikerede tjenester som Snoren — en messiansk menighed og værdsat GSpeech-klient — hvis mission og indhold afspejler Skriftens kraft i praksis.

Disse øjeblikke – hvor teknologi bliver en bro til tro, forståelse og inklusion – minder mig om, hvorfor vi i første omgang byggede GSpeech.

Hvilken rolle ser du GSpeech spille i fremtiden for digitale medier, især i takt med at lydindhold og stemmegrænseflader bliver mere dominerende?

Jeg ser GSpeech som førende inden for at gøre digitale medier mere tilgængelige og engagerende ved at muliggøre AI-drevet stemmeadgang til internettet. Vores mål er at transformere hele onlineoplevelsen, så websteder som standard bliver naturligt stemmeinteraktive, inkluderende og flersprogede. Med blot én linje kode kan webstedsejere omdanne tusindvis af artikler til stemmeindhold. Fremadrettet udvikler vi GSpeech Studio til en kraftfuld og unik platform til lydgenerering og -redigering, der gør det muligt for brugerne at skabe flerlags stemmeindhold med baggrundsmusik, effekter og præcis tuning. Vi ønsker at gøre internettet virkelig hørbart, intuitivt og universelt tilgængeligt.

GSpeech blev for nylig lanceret på AppSumo og har allerede opnået en næsten perfekt vurdering fra de tidlige brugere. Hvad har responsen fra AppSumo-fællesskabet betydet for dig, og hvordan planlægger du at bygge videre på denne momentum fremadrettet?

AppSumo-lanceringen introducerede GSpeech til millioner, og den næsten perfekte vurdering er utrolig bekræftende. Brugere, som dem der afholder onlinekurser, roser vores intuitive værktøjer og responsive support, hvilket gentager feedback fra Humanity Union. En blogejer kaldte vores stemmer "ægte engagerende" og oversættelser "imponerende". Deres positive feedback bekræfter værdien af ​​vores AI-drevne tekst-til-tale-løsning og nærer min passion for projektet. Støtte til klienter under lanceringen gav også anledning til nye ideer, især til GSpeech Studio, som var inspireret af brugernes ønsker om avancerede lydredigerings- og eksportfunktioner. Fremadrettet planlægger jeg at bygge videre på denne momentum ved aktivt at lytte til vores fællesskab, integrere deres feedback og udvikle innovative funktioner for at forbedre tilgængelighed og engagement, så GSpeech fortsat udvikler sig som et transformerende værktøj for skabere og virksomheder.

Til sidst, hvilket råd vil du give til unge udviklere eller iværksættere, der ønsker at bygge tilgængelige, AI-drevne værktøjer i nutidens hurtigt skiftende teknologilandskab?

Til unge udviklere og iværksættere er mit råd at lægge jeres hjerte i jeres arbejde og identificere et reelt problem, hvor I kan tilbyde en unik, smart løsning. Start småt, tag stabile skridt fremad, og lyt opmærksomt til kundefeedback – de vil guide jer. Behandl jeres brugere som betroede venner, giv alt, hvad I har, og vær tålmodige. Omfavn AI-teknologier som stærke allierede; når de bruges klogt, forstærker de jeres evne til at skabe effektfulde, tilgængelige værktøjer. Byg med passion, vedholdenhed og et engagement i at gøre en forskel, og I vil skabe løsninger, der virkelig betyder noget.

Tak til Antoine Tardif til interviewet. Du kan læse hele interviewet her: forene.ai.

🎬 Videoer

🎬 GSpeech - Videorundvisning
🎬 Opdag GSpeech: Transformer tekst til lyd med AI-magi!
Flyt dit indhold til næste niveau! Prøv GSpeech nu!
Hent GSpeech