Nu zijn we wat sceptisch, want niet alleen L&H, maar ook Philips, Microsoft
en nog een handvol bedrijven probeert ons al jaren te overtuigen van het
belang van spraaktechnologie. Bob Witjas staat al bijna een decennium te
demonstreren, maar je mobieltje herkent je maar af en toe. Spraak is wat
minder hype dan Internet, maar er zijn overeenkomsten en de manier waarop met
name L&H zich vernetwerkt heeft, doet denken aan de beste (of slechtste)
Internet-toko's.
De Belgen Jo Lernout en Pol Hauspie pionieren sinds 1987 met vertaalsoftware
en spraakherkenning. Een lange aanloop, met iedere paar jaar een doorbraak,
we hebben al wat wereldschokkende persconferenties meegemaakt daar in Ieper.
Iedere keer is het weer een revolutie, en ook nu, dertien jaar na aanvang
staat spraakherkenning volgens L&H dan toch op het punt om als
consumenten-product door te breken. Wel valt op dat L&H daarvoor wel steeds
een andere nieuwe club moet binnenhalen, een soort World Online op Belgische
leest dus. Met recente overnames van Dragon Systems (NaturallySpeaking) en
Dictaphone is L&H wel marktleider en haalde het vooral veel expertise
(taal-techneuten) binnen. Partner-aandeelhouders als Microsoft (10%) en Intel
(3%) waren er langer, maar sinds twee jaar is het bedrijf pas winstgevend.
Sinds de komst van de Pentium II eigenlijk. Spraakherkenning stelt namelijk
nogal eisen aan de hardware, de verwerking ervan is erg rekenintensief. `De
Pentium II was eigenlijk de start voor spraakherkenning op de PC. Met de
Pentium III gaat het nog beter,' zegt Peter Geytenbeek die sinds juni vorig
jaar de verkoop in de Benelux doet. ' Elke zoveel maanden een verdubbeling
van de processorsnelheid is een belangrijke factor. Nu gaat het hard. Met
Voice Xpress 4.0 ligt er een volwassen product dat echt iets voorstelt. Het
is een wereld van verschil als je het met twee jaar geleden vergelijkt.'
Vertaal-software is een andere kant van L&H, o.a. software voor zoekmachines
(iTranslator) die zoektermen in diverse talen vertaalt (geleverd aan AOL en
Yahoo). De gebruiker krijgt zo ook verwijzingen naar anderstalige
web-pagina's waar het woord in voor komt. Een ander pakket is PowerTranslator
dat voor real-time online vertaling van web-pagina's zorgt. Geytenbeek:
`Internet vraagt om online vertaling. Men denkt vaak dat Engels de voertaal
is op het world wide web maar de helft is anderstalig.'
Natuurlijke spraak
De `goudmijn' van L & H is de onderliggende technologie, de kunstmatige
intelligentie en de taal-expertise die voor omzetting van tekst naar spraak
en vice versa nodig is. `Het gaat om vier technologieën. Spraakcompresssie,
spraaksynthese (nabootsing van natuurlijke spraak in plaats van een monotoon
computerstemmetje), vertaalsoftware en spraakherkenning met Voice Xpress.
Deze worden verder ontwikkeld en met elkaar geïntegreerd, bijvoorbeeld de
RealSpeak-spraaksynthese in Voice Xpress. `
Philips was met FreeSpeech net iets eerder, maar de Nederlandstalige versie
2.0 van Voice Xpress werd met publiciteitskabaal geïntroduceerd, staat goed
aangeschreven en kreeg goede testen. Ook de (retail)verkoop gaat steeds
beter. Praten tegen de PC of andere apparaatjes als mobieltjes, de magneton
is in de visie van L&H de meest natuurlijke gebruikersinterface. Je kunt je
afvragen of toetsenbord en muis bij de PC-gebruiker als niet de meest
natuurlijke interface zijn geworden, ondanks zaken als RSI. Geytenbeek: `Het
is een kwestie van gewenning om apparaten met spraak te besturen. Dat is toch
een natuurlijke ontwikkeling. Met spraakherkenning wordt de productiviteit
hoger. Dicteren gaat nu eenmaal sneller dan typen. Iedereen is gewend aan
keyboard en muis. Bij PC-commando's lijkt een afwisseling tussen muis/toetsen
en spraak-commando's het meest waarschijnlijke. Spraakherkenningssoftware
wordt steeds intelligenter en nauwkeuriger. De volgende stap is het volledig
spraak gestuurd laten afhandelen van opdrachten, bijvoorbeeld: verzend een
brief met de volgende inhoud naar die en die en print het vijf keer uit.'
In versie 4.0 van Voice Xpress zijn dat soort intuïtieve spraak-commando's
nog niet helemaal mogelijk geworden. Het gaat wel een stuk verder dan versie
2.0 door de Natural Language Technologie (NLT). De gebruiker die een tekst
wil schrijven moet met de mondelinge opdrachten de menu-structuur van de
Windows-toepassingen volgen. `Het werkt volgens het principe van `say what
you see'. Elke menu-optie of icoon is mondeling aan te roepen. Bijvoorbeeld
`open word', `nieuw document' etc. Binnen Word zijn met de NLT-techniek nu
wel gecombineerde spraak-opdrachten mogelijk. Bijvoorbeeld: Maak de eerste
alinea vet en cursief en print deze pagina tien keer '.
Taaltechnologie is niet van gisteren, L&H is er in Nederland al een jaar of
vier mee op de markt. Het onderscheid tussen de `discrete spraakherkenning
(in telefooncentrales, mobiele telefoons, auto navigatie-systemen als Carin
waarbij de gebruiker de opdracht met een computer-achtig stemmetje exact moet
uitspreken) en de `continue' spraakherkenning zoals in PC-pakketten is dat de
laatste natuurlijke toon en de woordenschat van de gebruiker kunnen (en
moeten) leren. Geytenbeek: `Handheld-PC's met PocketPC maar ook TV's,
radio's, set-top boxen, bruingoed komt er allemaal aan. Met Microsoft en
Panasonic is er een nauwe samenwerking rond het AutoPC-concept. Microsoft
kiest de L & H taaltechnologie vanwege de kennis, wij kiezen voor de
Microsoft-interface. De autoPC komt nog dit jaar op de markt, in een
middenklasse-wagen van een Frans merk.
Windows 2000 stelt nieuwe hardware-eisen, een verdere integratie met de
Office 2000 suite en de NLT-techniek zijn de hoofdreden om met de nieuwe
versie te komen. Daarbij is de gebruiksvriendelijkheid toegenomen en de
`leer-fase' die het programma nodig heeft om de stem/het klankprofiel van de
gebruiker te leren kennen is volgens Geytenbeek een stuk ingekort. `Het is
net als viool spelen, het programma moet het klankprofiel van de gebruiker
leren kennen en de gebruiker moet het pakket trainen. Dat kost even tijd. Met
versie 4.0 kan de gebruiker in tien minuten aan de slag. Bij de vorige versie
duurde het nog een half uur om een profiel aan te maken. De totale leercurve
is ongeveer een uur. Dat gaat in de toekomst naar 7 minuten. Je moet er een
beetje geduld mee hebben. Hoe meer je erin investeert, hoe beter. Mensen gaan
van nature vaak harder praten als het programma een woord of commando niet
onmiddellijk oppikt. Dat is met een goede microfoon dus niet nodig.'
In versie 4.0 gaat het aanmaken van een of meer gebruikersprofielen door het
oplezen van 80 regels uit een tekst van Freek de Jonge. Door het gebruik
worden het stemprofiel en de actieve woordenschat in de loop van de tijd
ge-`fine-tuned'. Het pakket blijft doorleren, zet veel gebruikte woorden in
het actieve vocabulaire en minder gebruikte woorden in het passieve
vocabulaire. De nauwkeurigheid en snelheid van herkenning wordt daardoor
beter. Overigens is het vocabulaire in Voice Xpress met 300.000 actieve en
400.000 passieve woorden beduidend ruimer dan bij de concurrentie die het bij
een actief vocabulaire van 60.000 houden. Het profiel en het actieve
vocabulaire nemen daarmee wel 15 tot 25 MB schijfruimte in.
Van Voice Xpress 4.0 zijn er ook weer drie edities (standaard, advanced en
professional). Teksten dicteren en de menu's aanroepen in Windows-applicaties
kan met elke versie. De verschillen zitten in de aanwezigheid van de
NLT-techniek. Bij de standaard-versie (fl.99,-) zit de NLT-techniek in de
desktop en een meegeleverd tekstverwerkertje. Bij de advanced-editie (fl.249,-)
is de techniek te gebruiken met Microsoft Word. Bij de professionele editie
(fl.399,-) is het mogelijk om gecombineerde opdrachten te geven in alle
Office-programma's. Bij alle drie de versies zit een headset van Plantronics.
Het is met de Nederlandstalige edities ook mogelijk om de menu-functies in de
UK-versies van Windows en Office aan te roepen. Dan is er ook nog Mobile
Voice Xpress, een combinatie van de professionele editie en een
dicteerapparaat (fl. 599,-) voor notebook gebruikers. Die kunnen hun laptop
thuislaten, onderweg teksten inspreken en die op de werkplek met Voice Xpress
naar tekst omzetten.
Andere nieuwigheden waarmee Voice Xpress zich van concurrentie (Philips
FreeSpeech) onderscheidt is de mogelijkheid om `multi-mode' te werken. `De
commando-mode en de dicteer-mode zijn gebleven. Als derde optie is er nu de
multimode waarmee de gebruiker tekst kan dicteren en de menu's kan aanroepen,
zonder om te hoeven schakelen. De commando-mode schakelt keyboard en muis ook
niet uit. De gebruiker kan dus doorbabbelen en ondertussen met de muis menu's
of met het toetsenbord wat tekst invoegen of corrigeren. Dat is een sterke
combinatie.'
Voice Xpress is in 16 talen beschikbaar. `Binnen twee jaar komt dat op 34
talen, in principe alle talen waarin Microsoft Windows en Office beschikbaar
zijn.'
Het is vooral bedoeld voor de zakelijke Word-gebruiker die met
spraakherkenning zijn productiviteit wil opvoeren, bijvoorbeeld door met
standaard-tekstblokken te werken die met een commando ingevoegd kunnen
worden. Door de bank genomen gaat praten sneller dan typen en met (een goed
getrainde) VoiceXpress is dicteren doorgaans sneller dan typen. Het pakket
was altijd vooral een niche-product voor professionals. L&H richt zich tot
dusver met verschillende edities op verticale markten als juristen, medici
met een specialistisch vocabulaire. Sinds de Nederlandse VoiceXpress 2.0
zoekt L&H nadrukkelijker de consumentenmarkt op en komt spraakherkenning wat
tussen de schuifdeuren vandaan. In de Benelux loopt de verkoop via de
distributeurs Kenfil en Computer 2000 (retail en zakelijke markt) en Advanced
Voice Technology als gespecialiseerd distributeur voor directe accounts en
projecten.
Geytenbeek: `De omzet ontwikkelt zich goed. Met grotere retail-partners als
Dynabyte, MediaMarkt, Office Center, Correct, veel andere dealers en
boekhandels doen we veel aan gezamenlijke marketing en advertenties.
Spraakherkenning wordt in het PC-kanaal steeds meer geaccepteerd en is niet
zo'n niche-product meer. Met de nieuwe versie zoeken we nog meer de retail.
In Engeland, Frankrijk en de Benelux loopt dat goed. Er is een stijgende
vraag naar spraakherkenning voor algemene PC-toepassingen, niet alleen bij
professionals of gehandicapten zoals men vaak denkt. Uit de
registratie-kaarten blijkt zelfs dat het pakket vooral door consumenten is
gekocht. We zien nu een verschuiving naar het zakenleven dat met
spraakherkenning een hoger productiviteitsniveau kan bereiken, In de pers is
Voice Xpress goed ontvangen, mensen dienen zich vanzelf aan, bedrijven willen
het proberen.'
In de Benelux is er ook samenwerking met Packard Bell en Laser die spraak
gestuurde computers kunnen aanbieden. In april is een promotie-campagne
gestart met demonstratiepakketten voor dealers verloting van toegangskaarten
voor het EK Voetval en de Grote Prijs van België op Francorchamps voor de wat
grotere retailers. Daarnaast komen er TV-spotjes en nieuw POS-materiaal voor
de winkelvloer. Geytenbeek. `Spraakherkenning loopt op het moment erg goed.
Deze maand, die verder toch vrij rustig is, hadden we een verkoopstijging van
57%. Voor dealers is het een kans om omzet te maken. Met een spin-off naar
hardware-verkoop. Je kunt je als dealer aardig profileren met spraak
gestuurde PC's.'
Lernout & Hauspie,
0343-592610,
fax 0343-579457
http://www.lhsl.com