Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR REMOVABLY CONNECTING AUTONOMOUS WEB AND SPEECH PORTS FOR MULTIMODAL SERVICES
Document Type and Number:
WIPO Patent Application WO/2006/094830
Kind Code:
A1
Abstract:
At present time, different methods and devices make it possible to establish communication links through a telecommunications network with the aid of telephone or data networks. It generally requires special hard- and software components and a range of expensive specially communication-configured components. However, user's equipment on the basis of which the user can be individually and comfortably guided is not sufficiently taken into consideration. For this purpose, the aim of said invention is to offer a method and device for removably connecting autonomous web and speech ports for multimodal services which make it possible to connect any terminals for an individual and interactive communication, wherein the vocal server (VS) enables to transmit or receive an audio session and a web server (WS) enables to produce a visual session and to perform an interactive conversation between the user and a dialogue control unit (DE) of a multimodal dialogue server (MD) according to a web address and an ID-session mentioned to the user according to events generated by interaction therewith. All vocal inputs and all web page modifications generate special events, which are evaluated by the dialogue, control unit (DE) and influence on the dialogue run.

Inventors:
HEINTZ FRANK (DE)
Application Number:
PCT/EP2006/002246
Publication Date:
September 14, 2006
Filing Date:
March 10, 2006
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIKOM SOFTWARE GMBH (DE)
HEINTZ FRANK (DE)
International Classes:
H04M7/00
Domestic Patent References:
WO1999055049A11999-10-28
Foreign References:
US20040117804A12004-06-17
US20030005076A12003-01-02
US5912952A1999-06-15
Attorney, Agent or Firm:
Dreykorn-lindner, Werner (Schwaig, DE)
Download PDF:
Claims:
Patentansprüche
1. Verfahren zur Kopplung eigenständig arbeitender WEB und Sprachportale in einem Telekommunikationsnetz mit Telefonnetz (TN) und Datennetz (IP), mit Vermittlungsstellen und mit analogen oder digitalen Endgeräten (EGl, EG2, EG3), welche über eine Teilnehmeranschlussschaltung und/oder einem Teilnehmermodem und Splitter und/oder einem Netzabschluss über die Teilnehmeranschlussleitungen mit der Vermittlungsstelle in Verbindung stehen, wobei ein mit dem Telekommunikationsnetz in Verbindung stehender multimodaler Dialogserver (MD), welcher einen Voiceserver (VS), einen WebServer (WS) und eine Dialogsteuerung (DE) aufweist, vorgesehen ist, bei dem: ^ der Voiceserver (VS), für die Erzeugung bzw. Annahme einer AudioSession zuständig ist, ^ der WebServer (WS) für die Realisierung visueller Sessions zuständig ist und ^ der Dialog zwischen dem Benutzer und der Dialogsteuerung (DE) des multimodalen Dialogserver (MD) nach Maßgabe einer dem Benutzer genannten WEBAdresse und SessionID in Abhängigkeit von durch Interaktionen des Benutzers erzeugter Ereignisse durchgeführt wird, , • wodurch alle Spracheingaben und alle Wechsel der WEB Seiten spezielle Ereignisse erzeugen, die von der Dialogsteuerung (DE) des multimodalen Dialogserver (MD) ausgewertet werden und den Ablauf des Dialoges beeinflussen.
2. Verfahren nach Anspruch 1,. gekennzeichnet durch die multimodalen Dialogelemente: Ausgabe einer AudioInformation, Aufzeichnen einer AudioInformation, Definieren einer Grammatik für die Benutzerinteraktion, Anzeige einer WEB Seite, Hervorheben von Passagen einer WEB Seite.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Dialogsteuerung (DE) die Übertragungspausen der Datenkommunikation zur Sprachkommunikation nutzt.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet,, dass in der Dialogsteuerung (DE) die SessionID als Zugangsberechtigung abgespeichert ist, wodurch die Steuerung von Verbindungsaufbau und ablauf gegen unbefugten Zugriff gesichert ist und dass die Dialogsteuerung (DE) den Dialog protokolliert.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Dialogsteuerung (DE) den Bandbreitenbedarf für die Informationsübertragung zu dem jeweiligen Endgerät (EGl, EG2, EG3) ermittelt und nach dessen Maßgabe automatisch weitere Kommunikationskanäle zuschaltet, wodurch eine dynamische Kanalverwaltung und Bandbreitensteuerung erzielt wird.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Dialogsteuerung (DE) die ihr zur Verfügung stehenden Protokolle in Kommunikation mit dem jeweiligen Endgerät (EGl, EG2, EG3) durchtestet und sich auf das von dort angebotene Protokoll einstellt.
7. Vorrichtung zur Kopplung eigenständig arbeitender WEB und Sprachportale in einem Telekommunikationsnetz mit Telefonnetz (TN) und Datennetz (IP), mit Vermittlungsstellen und mit analogen oder digitalen Endgeräten (EGl, EG2, EG3), welche über eine Teilnehmeranschlussschaltung und/oder einem Teilnehmermodem und Splitter und/oder einem Netzabschluss über die Teilnehmeranschlussleitungen mit der Vermittlungsstelle in Verbindung stehen, und welche einen mit dem Telekommunikationsnetz in Verbindung stehenden multimodalen Dialogserver (MD)aufweist: ^ mit einen Voiceserver (VS) für die Erzeugung bzw. Annahme einer AudioSession, ^ mit einem WebServer (WS) für die Realisierung visueller Sessions und ^ mit einer mit dem Voiceserver (VS) und dem WebServer (WS) verbundenen Dialogsteuerung (DE), wobei alle Spracheingaben und alle Wechsel der WEB Seiten spezielle Ereignisse erzeugen, die von der Dialogsteuerung (DE) des multimodalen Dialogserver (MD) ausgewertet werden und den Ablauf des Dialoges beeinflussen.
8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass an die Dialogsteuerung (DE) ein Dialogspeicher (DS), an den Voiceserver (VS) ein Audiospeicher (AR) und an den WEBServer (WS) ein Bildspeicher (VR) jeweils angeschlossen ist.
9. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass zur Konfiguration die Dialogsteuerung (DE) eine Schnittstellenschaltung und/oder ein BusInterface aufweist.
Description:
VERFAHREN UND ANORDNUNG ZUR LOSEN KOPPLUNG EIGENSTÄNDIG ARBEITENDER WEB- UND SPRACHPORTALE FÜR MULTIMODALE DIENSTE

Beschreibung

Die Erfindung betrifft in erster Linie ein Verfahren und eine Anordnung zur losen Kopplung eigenständig arbeitender WEB- und Sprachportale gemäß den Patentansprüchen 1 oder 7.

Seit längerem ist es bekannt, IP-Netze (z. B, Internet oder Intranet) zur Telefonie zu verwenden. Bei der Internet-Telefonie, die auch als Voice-over-Internet-Protocol (VoIP) bezeichnet wird, müssen sowohl der Anrufer als auch der Gesprächspartner über Endgeräte mit einem Internet- Zugang verfügen. Um ein Gespräch über ein IP-Netz führen zu können, müssen beide Endgeräte in Verbindung mit dem Internet stehen. Die Verbindung der Endgeräte zum Internet kann über das Telefonnetz zum Ortstarif hergestellt werden. Die eigentliche und bei einer herkömmlichen Gesprächsverbindung über das Telefonnetz teure Gesprächsverbindung zwischen dem Anrufer und dem Gesprächspartner wird über das in der Regel sehr kostengünstige IP-Netz bewältigt.

Es gibt verschiedene Verfahren zur Durchführung von VoIP, welche durch die Art der verwendeten Endgeräte bestimmt werden. Häufig werden hier multimediafähige Personal Computer (PC) eingesetzt, auf denen eine geeignete Software zum Verschicken von Sprachdaten über das IP-Netz installiert ist. Dadurch ist die Telefonie von PC zu PC via IP-Netz möglich.

Bei der Telefonie von PC zu PC ist der Nutzerkreis jedoch stark eingeschränkt, da eine große Zahl potentieller Nutzer der Internet-Telefonie über keinen PC bzw. keinen entsprechend ausgerüsteten PC verfügen. Deshalb werden von einigen Anbietern von Internet-Telefonie Lösungen angeboten, bei denen mit sog. Gateways ein Übergang von dem herkömmlichen Telefonnetz in ein IP-Netz realisiert wird. Dadurch ist VoIP zwischen einem herkömmlichen Telefon (analog oder ISDN) und einem PC oder sogar zwischen zwei Telefonen möglich. Allerdings bedarf es zur Eingabe der Ziel-Adresse eines Teilnehmers, der nur eine EP-Adresse aufweist, eines besonders ausgestatteten Telefons. Das Telefon muss zumindest über eine Eingabemöglichkeit für alphanumerische Zeichen verfügen.

Um einem Telefonkunden Webseiten in akustischer Form zur Verfügung zu stellen, ohne dass der Kunde einen Personalcomputer zur Darstellung der Webseite benötigt, ist aus der DE 199 59 850

Al ein Kommunikationssystem bekannt, welches ein erstes Kommunikationsnetz, an das mehrere Telefone anschaltbar sind, und ein zweites Kommunikationsnetz, insbesondere das Internet, aufweist, an das wenigstens ein abrufbare grafische und/oder textuelle Darstellungen enthaltender Server anschaltbar ist. Sind die Server, beispielsweise an dem Internet angeschaltet, kann es sich bei den abrufbaren grafischen und/oder textuellen Darstellungen um Webseiten handeln, die zum Beispiel in der HTML (Hypertext-Markup-Language)-Sprache geschrieben sind. Um einem Kunden über ein Telefon einen Zugang zu einem Informations-Server zu ermöglichen, sind das erste und zweite Kommunikationsnetz über eine Verbindungseinrichtung verbunden. Die Verbindungseinrichtung weist eine Einrichtung zum Erkennen von an einem Telefon eingegebenen Befehlen und/oder Steuerinformationen sowie eine Speichereinrichtung zum Speichern einer grafischen und/ oder textuellen Darstellung auf, die unter Ansprechen auf einen eingegebenen Befehle und/oder einer Steuerinformationen von dem Informations-Server abgerufen wurde. Um die grafische und/oder textuelle Darstellung dem Benutzer über das Telefon akustisch wiedergeben zu können, ist eine Umsetzungseinrichtung zum Umsetzen wenigstens eines Teils der in der Speichereinrichtung abgelegten grafischen und/oder textuellen Darstellung in die entsprechende akustische Darstellung zur Übertragung zum Telefon vorgesehen. Die Umsetzungseinrichtung weist eine Extraktionseinrichtung, beispielsweise einen sogenannten Parser, zum Extrahieren der in die akustische Darstellung umsetzbaren Informationsinhalte, von Kennzeichnungen und/oder Steuerparametern aus der gespeicherten grafischen und/oder textuellen Darstellung auf. Ein sogenannter Interpreter dient zum Identifizieren und Übersetzen der extrahierten Information, Kennzeichnungen und/oder Steueiparameter derart, dass sowohl die übersetzten Informationen als auch die übersetzten Steuerparameter in einem Synthesizer in die entsprechende akustische Darstellung umsetzbar sind. Um eine interaktive Kommunikation zwischen dem Benutzer des Telefons und dem Informations-Server bereitstellen zu können, ist eine Einrichtung zur Steuerung des Dialogs zwischen dem Benutzer des Telefons und dem Informations-Server vorgesehen. Die Einrichtung zur Dialogsteuerung kann einerseits durch die aus der gespeicherten grafischen und/oder textuellen Darstellung gewonnen Steuerparameter und andererseits durch die vom Benutzer eingegebenen Befehle und Steuereinformationen angesteuert werden. Beispielsweise kann die Einrichtung zur Dialogsteuerung vorbestimmte Texte unter Ansprechen auf vorbestimmte Steuerparameter oder Steuereinformationen für den Benutzer bereitstellen. Befehle und Steuerinformationen können vom Benutzer in sprachlicher Form oder mittels eines Mehrfrequenzwahlverfahrens (MFV) tastaturgesteuert am Telefon eingegeben werden. Hierzu umfasst die Einrichtung zum Erkennen von am Telefon eingegebenen Befehlen und/oder Steueririförmationen eine Spracherkeimungseimϊchtung und/oder einen MFV-Detektor. Mit Hilfe

der Spracherkennungseinrichtung und dem akustischen Synthesizer kann eine interaktive Kommunikationsverbindung zwischen dem Benutzer des Telefons und dem Informations-Server auf rein sprachlicher Ebene durchgeführt werden. Die Spracherkennungseinrichtung kann dabei beispielsweise das sogenannte Keyword- und/(oder Key-phrase-Spotting anwenden, um aus einer Äußerung den relevanten Teil, beispielsweise nur die sprachliche Steuerinformation, extrahieren zu können. Um unter Berücksichtigung der begrenzten akustischen Aufnahmefähigkeit des Benutzers ein möglichst benutzerfreundliches Interagieren mit dem Informations-Server zu ermöglichen, erfolgt das akustische Ausgeben oder "Vorlesen" der grafischen und/oder textuellen Darstellung abschnittsweise. Die Unterteilung der vom Informations-Server abgerufenen grafischen und/oder textuellen Darstellung in mehrere Abschnitte vorbestimmter Länge führt die Extraktionseinrichtung in Verbindung mit dem Interpreter und der Dialogsteuereinrichtung aus, indem entsprechende Kennzeichnungen aus der grafischen und/oder textuellen Darstellung gewonnen und verarbeitet werden. Zu jedem Abschnitt kann die Einrichtung zur Dialogsteuerung einen Abschlusstext erzeugen, der beispielsweise alle in dem jeweiligen Abschnitt enthaltenen Sprung- oder Verzweigungsadressen enthält. Um vom Telefon aus einen Informations-Server gezielt anwählen zu können, ist in der Verbindungseinrichtung ein Speicher vorgesehen, in dem die aktuellen Rufhummern und die dazugehörenden IP-Adressen der jeweiligen Informations-Server abgelegt sind. Neben reinen, nur vorzulesenden Textpassagen können in einer grafischen und/oder textuellen Darstellung auch vom Benutzer auszufüllende Formulare enthalten sein, wobei die auszufüllenden Felder des Formulars durch entsprechende Steuerparameter gekennzeichnet sind. Diese aus der grafischen und/oder textuellen Darstellung gewonnenen Steuerparameter enthalten beispielsweise Hinweise darüber, an welchen Stellen des Formulars Einträge eingefügt werden können. Zweckmäßigerweise erfolgt die sprachliche Aufforderung zum Ausfüllen des Formulars schrittweise, d.h. jedes Eingabefeld wird zeitlich hintereinander abgefragt und vom Benutzer durch entsprechende Eingaben ausgefüllt. Diese Eingaben werden über die Verbindungseinrichtung zum Informations-Server übertragen und dort automatisch an die richtigen Stellen innerhalb des Formulars plaziert. Ferner können in der grafischen und/oder textuellen Darstellung vom Ersteller Steuerparameter eingefügt werden, die beispielsweise die Adresse einer Audiodatei (Hörspiels, Musikstücke u.s.w.) enthalten, deren Inhalt zwar nicht in der grafischen und/oder textuellen Darstellung ausgegeben wird, aber bei Anforderung durch den Benutzer aufgerufen und akustisch über das Telefon ausgegeben wird. Ein weiteres Leistungsmerkmal der Verbindungseinrichtung kann darin bestehen, dass die Dialogsteuereinrichtung automatisch dem Benutzer des Telefons einen Fehler meldet, wenn die Spracherkennungseinrichtung ein Wort oder eine Phrase nicht richtig erkannt hat. Die Dia-

logsteuereinrichtung kann zu diesem Zweck derart ausgebildet sein, dass sie im Fehlerfall dem Benutzer wiederholt zur Eingabe eines Befehls oder einer Verzweigungsmöglichkeit auffordert.

Um den Aufbau einer Kommunikationsverbindung auch von herkömmlichen Telefonen (ersten Endgerät) aus über ein IP-Netz zu einem IP-Teilnehmer (zweites Endgerät) zu ermöglichen, ist aus der DE 100 09 279 Al ein weiteres Verfahren bekannt, bei dem von dem ersten Endgerät eine Rufnummer, die die Übergabe des Verbindungsaufbaus auf einen Diensterechner bewirkt, gewählt -wird, bei dem, durch den Diensterechner der Aufbau einer Sprachverbindung von dem ersten Endgerät zu einer Spracherkennungseinrichtung veranlasst wird, bei dem eine Ziel- Adresse des zweiten Endgeräts über das erste Endgerät in einem Sprachformat eingegeben wird, bei dem die Ziel-Adresse mittels Spracherkennung von dem Sprachformat in ein IP-kompatibles Format, umgewandelt wird und bei dem von dem Diensterechner , der Aufbau der Kommunikationsverbindung von dem ersten Endgerät zu dem zweiten Endgerät über ein Gateway unter Zuhilfenahme der Ziel-Adresse in dem IP-kompatiblen Format veranlasst wird. Zum Verbindungs-aufbau wird von dem Telefon eine Rufhummer gewählt, die die Übergabe des Verbindungsaufbaus auf einen Diensterechner bewirkt. Das Telefonnetz ist als ein digitales Telefonnetz (z. v B. Integrated Services Digital Network, ISDN) oder als ein analoges Telefonnetz (z. B. Public Switched Telephone Network, PSTN) ausgebildet. Ein Übergang von dem herkömmlichen Telefonnetz in das IP-Netz ist mittels eines Gateways realisiert. Anhand der gewählten Rufnummer und anhand anderer Verbindungsparameter (Herkunft des Anrufes, Datum, Uhrzeit, etc.) erkennt der Diensterechner, dass eine Ziel-Adresse eines Internet-Protocol (IP)-Teilnehmers im Sprachformat eingegeben werden soll und veranlasst den Aufbau einer Sprachverbindung . von dem ersten Endgerät zu einer Spracherkennungs-einrichtung. Die Spracherkennungseinrichtung ist entweder als eigenständige Einrichtung ausgebildet oder aber in den Diensterechner integriert oder die Spracherkennungseinrichtung ist integraler Bestandteil der Vermittlungsstelle. Zur Eingabe der Ziel-Adresse wird - wahlweise auf eine Aufforderung der Spracherkennungseinrichtung hin - die Ziel-Adresse des IP-Teilnehmers ganz einfach von dem Anrufer in das Telefon gesprochen. Die Ziel-Adresse ist beispielsweise eine Electronic-Mail (eMail)-Adresse, eine Internet-Protocol (IP)-Adresse oder die Adresse einer Homepage des Teilnehmers im IP-Netz. Die Spracherkennungseinrichtung wandelt dann die Ziel-Adresse von dem Sprachförmat in ein IP-kompatibles Format um. Schließlich veranlasst der Diensterechner unter Zuhilfenahme der Ziel-Adresse in dem IP-kompatiblen Format den Aufbau der Kommunikationsverbindung von dem ersten Endgerät zu dem zweiten Endgerät des IP- Teilnehmers über das Telekommunilcationsnetz, das Gateway und das IP-Netz. Der Diensterechner

und die Spracherkennungseinrichtung sind Teil eines Intelligenten Netzes. Dazu ist der Diensterechner als ein sog. Service Control Point (SCP) ausgebildet. Die Vermittlungsstelle des Telekommunikationsnetzes ist als ein sog. Service Switching Point (SSP) ausgebildet. Die Spracherkennungseinrichtung ist beispielsweise auf einem sogenannten Specialized Resource Point (SRP) des Intelligenten Netzes realisiert. Dadurch wird es denjenigen Telefonnutzern ermöglicht, die lediglich über , ein herkömmliches Telefon mit Wählscheibe oder einfacher Ziffemtastatur verfügen, ohne Zusatzgeräte eine Ziel-Adresse eines IP-Teilnehrners einzugeben und Voice-over-Internet-Protocol (VoIP)-Gespräche zu führen.

Um ein Verfahren und eine Umsetzfunktionsvorrichtung zum drahtlosen Datentransport zu schaffen, in denen ein mobiles Endgerät mit einer Netzschnittstelle, wie einem Internet- Verbindungsanschluss, unter Verwendung eines leitungsvermittelten Datenkanäls (CSD-Kanal) direkt verbunden wird, wenn eine IP -Adresse vorliegt, und unter Verwendung eines Modems mit dem PSTN verbunden wird, wenn eine Telefonnummer als Identifikation vorliegt, ist aus der DE 199 33 751 B4 ein Verfahren zum drahtlosen Datentransport unter Verwendung einer mobilen Endeinrichtung, eine Umsetzfunktionsvorrichtung (IWF- Vorrichtung) und ein Server bekannt. Im Einzelnen umfasst das Verfahren die folgenden Sphritte: a) Durchführen eines Wählens in der mobilen Endeinrichtung unter Verwendung eines vorbestimmten Befehls mit. einem Identifizierer, der eine

IP-(Internet Protocol)-Adresse enthält; b) Synchronisieren des RLP (Funkverbindungsprotokoll) zwischen der mobilen Endeinrichtung und der Umsetzfunktionsvorrichtung, um einen leitungsvermittelten Datenkanal (CSD-Kanal) gemäß dem Befehl zu errichten; c) Durchführen von PPP (Point-to-Point Protocol)/TCP (Transmission Control Protocol) in der

Umsetzfunlctionsvorrichtung gemäß dem Identifizierer; und d) Öffnen eines Netzschnittstellenkanals durch eine AT (ATention)-Verarbeitungseinheit der Umsetzfunlctionsvorrichtung gemäß der IP -Adresse des Identifizierers; wobei der Schritt (c) des Durchführens des PPP/TCP folgende Unterschritte umfasst:

(cl) Identifizieren in der AT- Verarbeitungseinheit der Umsetzfunlctionsvorrichtung, ob der eingegebene Identifizierer eine Telefonnummer oder eine IP -Adresse ist; und

(c2) Durchführen des PPP/TCP in der Umsetzfunlctionsvorrichtung gemäß dem Identifizierer, wenn der leitungsvermittelte Kanal für die Verbindung verwendet wird, und der Identifizierer die IP-Adresse ist; und

im Schritt (d) ein Modem-Datenkanal in der AT-Verarbeitungseinheit der Umsetzfunktionsvorrichtung zu einem Server, der der Telefonnummer entspricht, über ein öffentliches Telefonnetz geöffnet wird, wenn der Identifizierer eine Telefonnummer ist, und der Netzschnittstellenkanal zu einem Server, der der IP-Adresse entspricht, geöffnet wird, wenn der Identifizierer eine IP-Adresse ist.

Der Schritt (a) kann einen Schritt der Durchführung eines Wählens auf der Basis des .WAP (Wireless Application Protocol) umfassen und der Schritt (b) der Synchronisierung des RLP kann auf der Basis eines Systems des Mehrfachzugriffs durch Codetrennung (CDMA) ausgebildet sein. Die Umsetzfunktionsvorrichrung (IWF- Vorrichtung) umfasst eine RLP-(Radio, Link Protocol) Ausführungseinheit zum Ausführen einer Synchronisation mit der mobilen Endeinrichtung für eine Funkverbindung, um einen drahtlosen Datenkanal zu errichten, eine . Datenformatiereinheit zum selektiven Extrahieren eines Identifizierers durch das Identifizieren, ob die Daten, die durch den drahtlosen Datenkanal, der mit der RLP-Ausführungseinheit verbunden ist, eingegeben werden, ein leitungsvermitteltes Datenformat (CSD-Format) oder ein paketvermitteltes Datenformat (PSD-Format) aufweisen, eine ATention Dial (ATD)- Ausführungseinheit zum Ausführen eines Wählens unter Verwendung eines vorbestimmten Befehls mit dem Identifizierer, wenn der extrahierte Identifizierer eine Telefonnummer ist, eine Modemeinheit, um eine Verbindung mit einem Server, der der Telefonnummer entspricht, über ein öffentliches Telefonnetz zu bilden, wenn der extrahierte Identifizierer eine Telefonnummer ist und eine Netzschnittstelleneinheit, um eine Verbindung mit einem Server zu bilden, der der IP-(Internet-Protokoll)-Adresse entspricht, wenn der extrahierte Identifizierer eine IP-Adresse ist. Dadurch kann die mobile Endeinrichtung direkt mit der Netzschnittstelle, wie einem Internet-Verbindungsanschluss, verbunden werden, sogar wenn der CSD-Kanal statt eines Modems verwendet wird.

Eine weitere Lösung für ein drahtloses Kommunikationssystem und ein Verfahren, welches die sprachgesteuerte Kommunikation zwischen dem mobilen, drahtlosen Kommunikationsendgerät und dem Internet vereinfachen kann, wird in der DE 100 17 503 Al vorgeschlagen, bei der das drahtlose Kommunikationsendgerät um einen Sprach-Klienten erweitert wird, der mit dem Sprach-Manager im Festnetz-Server kommuniziert (entweder ein WAP-Server oder ein SGSN Server oder ein UMTS-Server), wobei der vorwiegende Anteil der Spracherkennung im Netz (Spracherkennungs-Server) realisiert wird und das drahtlose Kommunikationsendgerät (Spracherkennungs-Client) nur zur Initialisierung, Aktivierung und

Einstellung der sprachgesteuerten Eingabe verwendet wird. Dabei kann am drahtlosen Kommunikatiönsendgerät die spracherweiterte Eingabe für Internet-Seite mittels Soft- oder Hardware-Button aktiviert bzw. deaktiviert werden. Durch Betätigung des Sprach-Buttons kann der Teilnehmer nun zusätzlich mit Hilfe von Sprach-Kommandos innerhalb der aufgerufenen Internet-Seite navigieren, statt nur wie bisher üblich mit Hilfe von "Klicks" und Listen-Aufrufen. Das gesprochene Sprach-Kommando wird dann nicht direkt am drahtlosen Kommunikationsendgerät umgesetzt, sondern zunächst in Form digitalisierter Sprache zum Festnetz-Server übertragen. Dort erfolgen dann die Sprach-Erkennung und das anschließende Sprach- Verstehen. Das erkannte und verstandene Kommando kann dann im üblichen Internet- Standard übertragen werden, und lokal am drahtlosen Rommunikationsendgerät umgesetzt werden. Zur Beschleunigung des Verfahrens kann am Festnetz-Server ein Abbild der lokal aufgerufenen Internet-Seite gehalten werden. Das verstandene Sprach-Kommando kann dann zunächst innerhalb dieser Kopie in eine Navigationsanweisung umgesetzt werden, und die veränderte Internet-Seiten-Information . anschließend zum drahtlosen

Kommunikatiönsendgerät übertragen werden. Sicherheitsrelevante Internet-Seiten können mit Hilfe von einem Sprach-Kommando gesichert werden. Durch die Einstellung auf Sprecher- Abhängige Erkennung am Spracherkenner im Festnetz-Server, kann dann nur die Person die Internet-Seite betreten, die dieselbe Seite zuvor mit demselben Sprach-Kommando eingestellt hatte. Typische Fallanwendungen dieser Form der Authentifikation sind Bank-Seiten oder Seiten von Vertriebs-Beauftragten, die per ,drahtloses Kommunikationsendgerät auf ihre Informationen komfortabel und sicher zugreifen wollen. Genau wie die Eingabe per Sprache erweiterbar ist, kann auch die Ausgabe per Sprache erweitert werden. Für diesen Fall wird in der vorliegenden Erfindung im Festnetz-Server zusätzlich eine Komponente zur Sprachsynthese installiert und es wird ein Sprach- Ausgabe-Button am drahtlosen Kommunikationsendgerät vorgesehen (Hard- oder Softwaremäßig). Durch entsprechende Aktivierung erfolgt zusätzlich oder alternativ eine Sprach-Ausgabe. Im letzten Beispiel würden die Konto-Bewegungen des entsprechenden Kontos angesagt werden. Dazu wird die Internet-Seite, die auf dem Festnetz-Server gespiegelt ist, gelesen und die entsprechenden Texte (Folge von Wörter) durch einen Sprach- Synthesizer geschickt und anschließend über die Funkschnittstelle als digitale Sprachsignale an das drahtlose Kommunikationsendgerät übertragen. Weiterhin können bei der Ausgabe eine Kombination von Text, Grafik und Sprache realisiert werden. Dazu kann während der Bearbeitung der speziellen Internet-Seiten eine grobe Skizze als Grafik deklariert werden. Die Detail-Angaben sind dann per Sprachausgabe erreichbar. Die Internet-Seiten können nicht nur vom Teilnehmer sondern auch vom

Netzwerk-Betreiber oder Dienst-Anbieter um die Sprachverarbeitung erweitert werden. Die auf diese Weise erweiterten Internet-Seiten werden dann nicht zusammen mit Teilnehmer- Daten, sondern global verfügbar für alle Internet-Benutzer im Internet abgelegt. Beim Verbindungswunsch mit einer Internet-Seite wird der Teilnehmer gefragt, ob er eine Sprach- Erweiterung wünscht. Im positiven Fall werden die spracherweiterten Seiten geholt, sonst die normalen, wobei beide Seiten- Varianten im Internet-Server für alle Internet-Nutzer gespeichert sind.

Auch hinsichtlich Benutzerkomforts sind verschiedene Lösungen bekannt. Um beispielsweise auf einfache und komfortable Weise eine Verbindung zwischen dem Telefonnetz-Endgerät und einem an das Internet angeschlossenen Intemet-Endgerät aufzubauen, ist aus der DE 100 01 077 Al ein Verfahren, eine Dienst- Vermittlungsstelle, ein Dienst-Steuerknoten, ein Internet-Gateway, ein Programm-Modul sowie ein Internet-Endgerät bekannt, bei dem ein Teilnehmer an seinem Telefonnetz-Endgerät lediglich eine Teilnehmernummer eines an das Internet angeschlossenen Internet-Endgeräts seines Kommunikationspartners eingibt. Dann sendet das Telefonnetz- Endgerät eine Rufanforderung an das Telefonnetzwerk, das als ein sogenanntes Intelligentes Netz (IN) ausgebildet ist. Das Telefonnetzwerk leitet die Rufanforderung an eine so genannte Dienst- Vermittlungsstelle weiter, die auch SSP (Service Switching Point) bezeichnet wird. Die Dienst- Vermittlungsstelle ermittelt, dass die Rufanforderung als eine Rufanforderung für ein Intelligentes Netz zu behandeln ist und übermittelt eine Dienstanforderungsnachricht an einen Dienst-Steuerknoten, der auch als SCP (Service Control Point) bezeichnet wird. In der Dienstnachricht fordert die Dienst- Vermittlungsstelle bei dem Dienst-Steuerknoten einen Dienst zur Behandlung der in der Rufanforderung angegebenen Teilnehmernummer an. Der Dienst- Steuerknoten ermittelt eine der Teilnehmemummer zugeordnete Internet Adresse des Internet- Endgeräts und übermittelt eine Dienstnachricht mit der Internet-Adresse des Internet-Endgeräts an die Dienst-Vermittlungsstelle. Daraufhin baut die Dienst-Vermittlungsstelle über das Telefonnetzwerk eine Ruf-Verbindung zu einem Internet-Gateway auf, über das die Ruf- Verbindung zwischen dem Telefonnetz-Endgerät und dem Internet-Endgerät aufgebaut werden kann. Die Dienst- Vermittlungsstelle sendet dem Internet-Gateway die Internet-Adresse des Internet-Endgeräts. Der Internet-Gateway baut den dann noch erforderlichen Verbindungsabschnitt der Ruf-Verbindung zwischen dem Telefonnetz-Endgerät und dem Internet-Endgerät über das Internet mit Hilfe der Internet- Adresse des Internet-Endgeräts auf. Der anrufende Teilnehmer muss also nur die "virtuelle" Teilnehmeraummer des Internet-Endgeräts seines Kommunikationspartners kennen und an dem Telefonnetz-Endgerät eingeben, nicht jedoch

dessen "physikalische" Internet-Adresse sowie die Rufnummer des Gateways. Dabei kann die Teilnehmernummer beispielsweise auch eine so genannte UPT-Nummer (Universal Personal Telecommunications) des Kommunikationspartners sein, unter der der Kommunikationspartner stets erreichbar ist. Da üblicherweise Internet-Adressen dynamisch vergeben werden, ist es möglich, dass der Gateway oder das Internet-Endgerät dem Dienst-Steuerknoten direkt oder über einen diesem übergeordneten so genannten Service Management Point (SMP) mitteilt, welche Internet-Adresse dem Internet-Endgerät momentan zugeteilt ist.

Um beispielsweise Kunden einen möglichst einfachen Zugang zu personalisierbaren Portal- Diensten zu ermöglichen, ist aus der DE 100 15 173 B4 ein Kundenidentifizierungsverfahren bekannt, bei dem vom Endgerät die Rufnummer über das Zugangsnetz zu einem so genannten Proxy-Server übertragen wird, welcher für die Protokoll-Umsetzung zwischen Zugangsnetz und Internet-(Intranet)Protokollen zuständig ist. In Abhängigkeit der Dienstanfrage (HTTP- Request) fügt der Proxy-Server eine Kunden-ID in die Dienstanfrage ein. Die Kunden-ID wird vom Proxy-Server aufgrund der MSISDN aus einem Kundenverzeichnis (z.B. LDAP) abgefragt. Als Alternative kann auch direkt die MSISDN verwendet werden. Am Portal wird die ID der Dienstanfrage entnommen und mit einer Abfrage im Kundenverzeichnis die Berechtigung des Kunden geprüft. Ist diese gegeben, wird die Dienstanfrage des Kunden beantwortet. Dieser Mechanismus wird bei jeder weiteren Dienstabfrage des Kunden wiederholt. Bei der ersten Dienstanfrage wird zusätzlich eine Session angelegt, um temporäre Daten des Kunden speichern zu können. Als Session-ID wird die Kunden-ID (bzw. alternativ die MSISDN) verwendet. Erfolgt keine weitere Interaktion durch den Kunden wird die Session nach Ablauf eines Timers beendet.

Um beispielsweise eine automatisierte Steuerung und Überwachung der Anbieterseitigen Abwicklung von Online-Kunden- Anfragen zu ermöglichen, ist aus der DE 100 14 717 Al ein Verfahren zum Management einer Online-Kundenanfrage, die durch Zugriff eines Kunden über das Internet auf eine Web-Site eines Anbieters und durch Anklicken eines von mehreren auswählbaren Links zur Anforderung einer Produkt-Information oder eines Kontakts zu einem Mitarbeiter des Anbieters erfolgt, bekannt. Die Management-Software enthält Software- Agenten, insbesondere FindRecipient, SendEmail, Reminder, Response), und mittels auf dem zur Web-Site gehörenden Web-Server oder einem diesem nachgeschalteten Rechner erfolgt das Management programmgesteuert. Das Management der Online-Kundenanfrage läuft in folgenden Schritten ab:

- nachdem ein Kunde durch anklicken der Web-Site einen Anfrage-Prozess gestartet hat, präsentiert ein erster Software- Agent (FindRecipient) einen Fragebogen,

- nachdem der Kunde den Fragebogen (6) ausgefüllt zur Web-Site übermittelt hat, ermittelt der erste Software-Agent (FindRecipient) auf der Basis der im Fragebogen enthaltenen Parameter aus einer ersten Tabelle (Routing-Tabelle), die in einer Datenbank bereitgestellt ist,

' eine anbieterseitige Kontakt-Adresse, speichert diese zusammen mit der Anfrage in einer zweiten Tabelle (Contact-Request-Tabelle), die in der Datenbank vorhanden ist, und aktiviert einen zweiten Agenten (SendEmail), der zweite Agent (SendEmail) sendet die Anfrage zur anbieterseitigen Kontakt-Adresse und veranlasst, dass der erste Software-Agent (FindRecipient) die anbieterseitige Kontakt- Adresse (4) zusammen mit Anfrage- Ankunftszeit- Angaben in der zweiten Tabelle (Contact- Request-Tabelle) speichert, .

- ein dritter Agent (Reminder) überwacht, ob innerhalb einer in den Parametern enthaltenen Beantwortungsfrist durch einen vierten Agenten (Response) in einer dritten Tabelle (Response Tabelle), die in der Datenbank vorhanden ist, und in der Anfragen korrespondierend zur zweiten Tabelle (Contact-Request-Tabelle) gespeichert werden, zur jeweiligen Anfrage ein Erledigungs-Status gesetzt ist, und veranlasst, dass der zweite Agent (SendEmail) eine Erinnerungs-Nachricht , an die anbieterseitige Kontakt-Adresse sendet, wenn bis zum Fristablauf keine Erledigung erfolgt ist.

Weiterhin sind zur Sicherstellung, dass auf jede Kunden-Anfrage eine zeitadäquate Antwort erfolgt, beim Verfahren gemäß der DE 100 14 717 Al in einem so genannten Verfolgungs- Prozess Hilfsmittel bereitgestellt, um die Antworten an den Kunden automatisch zu verfolgen. Antwortet der Anfrage-Bearbeiter auf die Anwender-Anfrage nicht, bevor die eingestellte Bearbeitungsfrist oder der eingestellte Zeitintervall verstrichen ist, generiert der Reminder Agent eine Nachricht zur Erinnerung des Anfrage-Bearbeiters. Der Reminder Agent speichert Datum und Uhrzeit der Erinnerungs-Nachricht in die Reminder-Tabelle der Datenbank und setzt den Bearbeitungs-Status der Kunden- Anfrage in der Request-Tabelle der Datenbank auf "reminded". Durch das Speichern des Anfrage- und Verfolgungsstatus in der Datenbank, sind u. a. auch ein detaillierter Überblick und eine Analyse über die Historien von Anfragen und deren Antworten möglich.

Um beispielsweise unbenutzte Datenendeiniϊchtungen zu lokalisieren, also angerufen, welche sonst mangels Adresse im Datennetz unbekannt sind, ist aus der DE 100 02 997 A 1 ein Verfahren

zum Aufbau einer Verbindung über ein erstes Datennetz vom Typ Internet zwischen zwei Geräten dieses ersten Datennetzes und einem zweiten Fernsprechnetz bekannt, bei dem eines der beiden Geräte, das anruft, das andere über das zweite Fernsprechnetz anruft, um es zur besagten Kommunikation aufzufordern, sich das angerufene Gerät mit dem Verbindungsserver des ersten Datennetzes verbindet und eine Datenadresse empfängt, sich das angerufene Gerat mit einem Verbindungsserver des ersten Datennetzes verbindet, bei dem es sich zumindest mit seiner Datenverarbeitungsadresse und einem Kennzeichen, das dem anrufenden Gerät bekannt ist, registrieren lässt, sich das anrufende Gerät mit dem Server verbindet, ihm das Kennzeichen übermittelt und bei dem der Server ihm die Datenadresse des angerufenen Gerätes übermittelt, und das anrufende Gerät, das die Datenadresse des angerufenen Gerätes kennt, die besagte Verbindung herstellt. Das anrufende Gerät übermittelt dem angerufenen Gerät zumindest eine Meldung zur Identifizierung des anrufenden Gerätes, um es zur besagten Kommunikation aufzufordern. Daher kann das angerufene Gerät den anrufenden Teilnehmer identifizieren und entsprechend dieser Kennzeichnung selbst entscheiden, ob es den Verbindungsaufbau über Internet weiter herstellen will oder nicht. Das angerufene Gerät kann auch die Identifizierungsmeldung des anrufenden Gerätes erkennen, ohne den eingehenden Telefonanruf zu beantworten, und das angerufene Gerät ruft daraufhin den Server an, oder das angerufene Gerät empfängt die Identifizierungsmeldung und antwortet dann auf den Telefonanruf, und das anrufende Gerät sendet ihm eine Bestätigungsmeldung mit der Aufforderung, damit das angerufene Gerät den Server anruft. Ein Verbindungsserver enthält hierzu Mittel zur Verbindung mit dem Datennetz, die dazu bestimmt sind, mit den Geräten Daten mit einer Datenverarbeitungsadresse und Kennzeichen von Geräten auszutauschen, wobei die Verbindungsmittel mit Datenverarbeitungsmitteln verbunden sind, die dazu bestimmt sind, die Paare - bestehend aus einer Datenverarbeitungsadresse und dem von den Geräten stammenden Kennzeichen - zu erfassen und als Antwort dem Gerät, das den Server durch Senden eines Kennzeichens eines Paares konsultiert, die Datenverarbeitungsadresse zu liefern, die in dem Paar enthalten ist. Der Server zeichnet sich dadurch auszeichnet, dass die Datenverarbeitungsmittel dazu bestimmt sind, die Datenverarbeitungsadresse eines Gerätes, das den Server konsultiert, zu empfangen und eine Tabelle zu verwalten, in der die Datenverarbeitungsadressen von zwei kommunizierenden Einrichtungen angegeben sind. Weiterhin sind die Datenverarbeitungsmittel dazu bestimmt, von den Einrichtungen Daten über die Beendigung der Verbindung zu empfangen und die Tabelle entsprechend zu löschen

Um neben dem bildschirmorientierten Zugang zu Informationen auf Datenträgern einen sprachorientierten Zugang zu ermöglichen, ist aus der aus der EP 1 066 714 Al (WÖ 99/45691) ein System mit Clustern von Voice Servera und Web Servern bekannt, bei dem den Benutzer vom Diensteanbieter eine spezielle Rufnummer zugeordnet, wird.

Schließlich ist für den bildschirmorientierten/sprachorientierten Zugang aus der EP 1 344 370 Al (WQ 02/052810 Al) eine Kommunikationsanordnung mit einem Webserver, zumindest einem Sprachagenten und mit einem Kommunikations-Agenten bekannt. Der Webserver ist mit einer Multimediaplattform und einem Internetendgerät verbindbar, wobei im Rahmen einer Internetverbindung zumindest teilweise sprachorientierte Webseiteninformationen an die Multimediaplattform und. bildschirmorientierte Webseiteninformationen an das Internetendgerät übermittelt werden. Die Sprachagenten in der Multimediaplattform und im Internetendgerät führen für Sprachinformationen einen direkten Kommunikationsaustausch durch. Der im Internetendgerät angeordnete Kommunikations-Agenten dient zum wechselseitigen Beeinflussen von Bearbeitungsfunktionen der sprachorientierten Webseiteninformationen und zur Synchronisation der sprachorientierten und der bildschirmorientierten Webseiteninformationen durch die Übermittelung von Steuer- und Die Bearbeitung der Sprachinformationen in 'der Multimediaplattform, die Ausgabe der bearbeiteten Sprachinformationen im Internetendgerät und die Übermittlung und das Starten von neuen Webseiteninformationen ist durch Austausch von Steuerinformationen beeinflussbar und die konvertierte Sprachinformation ist direkt zwischen dem Internetendgerät und der Multimediaplattform austauschbar. Der bildschirmorientierte Teil kann beispielsweise in der HTML- (hypertext markup language) Programmiertechnik erstellt sein und enthält in der Regel Verweise auf den spraehorientierten Teil, die erlauben, von der Bearbeitung des bildschirmorientierten Teils zur Bearbeitung des sprachorientierten Teils zu wechseln. Durch den auf dem Internetendgerät installierten Browser/Parser wird nicht nur der bildschirmorientierte Teil bearbeitet und interpretiert, sondern werden auch die Verweise auf den sprachorientierten Teil interpretiert und gegebenenfalls wird das Übermitteln von Steuerinformationen und/oder Daten für den Übergang zur Bearbeitung oder die Ausgabe von Sprachinformationen eingeleitet. Die Bearbeitung und Interpretation des bildschirmorientierten Teils und des sprachorientierten Teils durch den Browser des Internetendgeräts bzw. den Sprach-Browser der Multimediaplattform wird durch den Austausch von Steuerinformationen synchronisiert. Um die beiden Teile in einem Quellcode zu vereinigen, kann vorgesehen werden, dass entweder das Internetendgerät und die

Multimediaplattform mit Browsern versehen sind, die denselben, bildschirm- und sprachorientierte Webseiteninformationen vereinigenden Quellcode bearbeiten und interpretieren können, oder dass nur ein Browser in dem Internetendgerät PC vorgesehen ist, der gegebenenfalls durch einen zusätzlichen Kommunikations-Agenten in der Multimediaplattform ergänzt wird.

Wie die vorstehende Würdigung des Standes der Technik aufzeigt, sind unterschiedlich ausgestaltete Verfahren und Vorrichtungen zum Aufbau einer Kommunikationsverbindung über ein Telekommunikationsnetz mit Telefonnetz und Datennetz bekannt. Dabei sind in der Regel spezielle Hard- und Softwarekomponenenten mit einer Reihe von teueren, für die Kommunikation speziell ausgelegten Komponenten, wie Kommunikations-Server/Gateway für die Verbindung zu einem änderen Netz (öffentliches Datennetz, anderes LAN oder einem Hostsystem), insbesondere zur interaktiven 'Kommunikationsverbindung zwischen dem Benutzer des Telefons und dem Informations-Server auf rein sprachlicher Ebene bzw. Fileserver, welcher die Daten verwaltet und diese dem Teilnehmer im Netz zur Verfügung stellt, sowie entsprechende Netzwerk-Zugangsprotokolle, z.B. CSMA/CD (Carrier Sense Multiple Access/Collision Detection), Token-Passing (Bitmuster als Berechtigungsmarke) oder TCP/IP (Transmission Control Protocol/Internet Protocol) erforderlich. Wenig Beachtung findet jedoch die Berücksichtigung der beim Benutzer vorhandenen Ausstattung, um darauf basierend eine individuelle und komfortable Benutzerführung zu ermöglichen. Deshalb fehlen in der Praxis kostengünstige Verfahren und Systeme für den kombinierten Telefon-Internet- Zugang, welche eine individuelle, insbesondere automatisch anpassbare, interaktive Kommunikation sicherstellen. Besonders bedeutsam ist dies, weil die Telekommunikationsund Computerindustrie als äußerst fortschrittliche, entwicklungsfreudige Industrien anzusehen sind, die sehr schnell Verbesserungen und Vereinfachungen aufgreifen und in die Tat umsetzen.

Der. Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur losen Kopplung eigenständig arbeitender WEB- und Sprachportale derart auszugestalten, dass der Anschluss beliebiger Endgeräte mit individueller, interaktiver Kommunikation ermöglicht wird.

Diese Aufgabe wird erfindungsgemäß bei einem Verfahren zur Kopplung eigenständig arbeitender WEB- und Sprachportale in einem Telekommunikationsnetz mit Telefonnetz und

Datennetz, mit Vermittlungsstellen und mit analogen oder digitalen Endgeräten, welche über eine Teilnehmeranschlussschaltung und/oder einem Teilnehmermodem und Splitter und/oder einem Netzabschluss über die Teilnehmer ' anschlussleitungen mit der Vermittlungsstelle in Verbindung stehen, wobei ein mit dem Telekommunikationsnetz, in Verbindung stehender multimodaler Dialogserver, welcher einen Voiceserver, einen Web-Server und eine Dialogsteuerung aufweist, vorgesehen ist gemäß Patentanspruch 1 gelöst, bei dem:

^" der Voiceserver, für die Erzeugung bzw. Annahme einer Audio-Session zuständig ist, ^ der Web-Server für die Realisierung visueller Sessions zuständig ist und ^ der Dialog zwischen dem Benutzer und der Dialogsteuerung des multimodalen Dialogserver nach Maßgabe einer dem Benutzer genannten WEB-Adresse und Session-ID in Abhängigkeit von durch Interaktionen des Benutzers erzeugte Ereignisse durchgeführt wird, wodurch alle Spracheingaben und alle Wechsel der WEB- Seiten spezielle Ereignisse erzeugen, die von der Dialogsteuerung des multimodalen Dialogserver ausgewertet werden und den Ablauf des Dialoges beeinflussen.

Das erfindungsgemäße Verfahren ermöglicht auf einfache Art und Weise einen multimodalen Dialogaufbau und eine multimodale Steuerung. Insbesondere werden dem Benutzer eine individuelle, interaktive Kommunikation ermöglicht und ein Mehrwert des Dialoges durch die Nutzung des Internets suggeriert. Im Vergleich zum Stand der Technik „gestaltet" der Benutzer den Dialog entsprechend seiner Anforderungen selbst, ohne dass der Hersteller des Endgeräts eine Auswahl zwischen dem Endgerät zugeordneten Funktionen treffen muss. Weiterhin ist von Vorteil, dass eine einfache Erweiterung oder Veränderung des Dialogs einschließlich der Bildung neuer Funktionen und eine wesentliche Steigerung des Einsatzbereiches ermöglicht wird. Schließlich ist durch die parallele und inhaltsgleiche Informationsübertragung es auch ungeübten Benutzern ermöglich eine effiziente, interaktive Dialogsteuerung vorzunehmen.

Weiterhin wird diese Aufgabe erfindungsgemäß nach Patentanspruch 7 bei einer Vorrichtung zur Kopplung eigenständig arbeitender WEB- und Sprachportale in einem Telekommunikationsnetz mit Telefonnetz und Datennetz, mit Vermittlungsstellen und mit analogen oder digitalen Endgeräten, welche über eine Teilnehmeranschlussschaltung und/oder einem Teilnehmermodem und Splitter und/oder einem Netzabschluss über die Teilnehmeranschlussleitungen mit der Vermittlungsstelle in Verbindung stehen, welche einen

mit dem Telekommunikationsnetz in Verbindung stehenden multimodalen Dialogserver aufweist:

^" mit einen Voiceserver für die Erzeugung bzw. Annahme einer Audio-Session, ^ mit einem Web-Server für die Realisierung visueller Sessions und ^" mit einer mit dem Voiceserver und dem Web-Server verbundenen Dialogsteuerung, wobei alle Spracheingaben und alle Wechsel der WEB- Seiten spezielle Ereignisse erzeugen, die von der Dialogsteuerung des multimodalen Dialogserver ausgewertet werden und den Ablauf des Dialoges beeinflussen, gelöst.

Im Vergleich zu den Vorrichtungen zum Aufbau einer Kommunikationsverbindung über ein Telekommunikationsnetz mit Telefonnetz und Datennetz nach dem Stand der Technik weist die erfindungsgemäße Vorrichtung den Vorteil auf, dass trotz Ermöglichung eines hohen Benutzerkomforts eine kostenintensive Vorab-Installation im Endgerät nicht erforderlich ist. Der einfache Einsatz der erfindungsgemäßen Vorrichtung/Verfahren ist infolge der flexiblen Kommunikations-Mechanismen für viele Anwendungen und Systemarchitekturen auf überraschend einfache und kostengünstige Art und Weise möglich.

In Weiterbildung der Erfindung ist, gemäß Patentanspruch 2, das Verfahren gekennzeichnet durch die multimodalen Dialogelemente: Ausgabe einer Audio-Information,

- Aufzeichnen einer Audio -Information,

- Definieren einer Grammatik für die Benutzerinteraktion,

- Anzeige einer WEB- Seite,

- Hervorheben von Passagen einer WEB- Seite.

Diese Weiterbildung der Erfindung weist den Vorteil auf, dass der Dialog zwischen dem Benutzer und dem Dialogserver in seiner groben Struktur mit Hilfe eines speziellen Werkzeuges definiert und - ohne Interaktionen des Benutzers - diese vordefinierte Aufeinanderfolge von Dialogelementen in der vordefinierten Reihenfolge ausgeführt werden kann.

Vorzugsweise nutzt, gemäß Patentanspruch 3, die Dialogsteuerung die Übertragungspausen der Datenkommunikation zur Sprachkommunikation.

Wähl Verbindungen werden nach einem .entfernungsabhängigen Zeitraster tarifiert. Um Leerlaufzeiten zu vermeiden, baut bei Übertragungspausen der Datenkommunikation größer als eine einstellbare Wartezeit (Shorthold), die Dialogsteuerung automatisch die Verbindung ab und stellt, sobald Daten anliegen, den Verbindungsaufbau wieder her. Mit einer optionalen Kompression kann weiterhin der Datenverkehr reduziert werden.

Bei einer bevorzugten Ausgestaltung der Erfindung ist, gemäß Patentanspruch 4, in der Dialogsteuerung die Session-ID als Zugangsberechtigung abgespeichert, wodurch die Steuerung von Verbindungsaufbau und -ablauf gegen unbefugten Zugriff gesichert ist und die Dialogsteuerung protokolliert den Dialog.

Diese Ausgestaltung der Erfindung weist den Vorteil auf, dass nach Maßgabe der Sessiori-ID, der Zugriff nur durch das damit betraute Personal erfolgen kann. Es ist auch möglich, den Zugang zu verschiedenen Gruppen von Prozessen mit verschiedenen Zugangscodes, zu sichern, um so innerhalb des Personals die Zuständigkeiten abzugrenzen oder unterschiedlich zu verteileri. Beispielsweise können auch CUG (closed user group) gebildet werden, so dass ein Hacker-Zugriff weitgehend ausgeschlossen ist, da die Dialogsteuerung nur Daten von signierten Personen abnimmt und die Synchronisation über die Session-ID läuft ' .

Vorzugsweise ermittelt, gemäß Patentanspruch 5, die Dialogsteuerung den Bandbreitenbedarf für die Informationsübertragung zu dem jeweiligen Endgerät und schaltet nach dessen Maßgabe automatisch weitere Kommunikationskanäle zu, wodurch eine dynamische Kanalverwaltung und Bandbreitensteuerung erzielt wird.

Dadurch, dass die Dialogsteuerung die Prüfung des Bandbreitenbedarfs automatisch vornimmt, sind die Benutzer von der Überprüfung der zur Verfügung stehenden Bandbreite bei Inbetriebnahme oder während des Betriebs entlastet. Je nach Bedarf an Bandbreite, d.h. abhängig von der Menge zu transportierender Daten, schaltet die Dialogsteuerung automatisch weitere Kommunikationskanäle zu. Durch Parallelbetrieb beispielsweise aller 30 B-Kanäle können Übertragungsgeschwindigkeiten bis 1,92 Mbit/s erzielt werden. Das Hardware-Konzept der Dialogsteuerung kann auf die vielfältigen, gewachsenen Anschlussnormen im weltweiten Netzwerkbetrieb angepasst werden. Der dabei ablaufende iterative Prozess hinsichtlich Bandbreitentests umfasst alle sinnvoll vorkommende Bitraten,

welche entsprechend hinterlegt sind, kann insbesondere auch bei inhomogenen Strukturen eingesetzt werden und erlaubt auch ein Netzmonitoring mit Einschluss des Arbeitsplatzes und der Endgeräte.

In Weiterbildung der Erfindung testet, gemäß Patentanspruch 6, die Dialogsteuerung die ihr zur Verfügung stehenden Protokolle in Kommunikation mit dem jeweiligen Endgerät durch und stellt sich auf das von dort angebotene Protokoll ein.

Diese Weiterbildung der Erfindung weist den Vorteil auf, dass die typischen „time out- Probleme" vermieden werden und die Dialogsteuerung die Verbindung auch dann halten kann nur der Audioanteil der Information und ggf. ein Teil der Bildinformation ankommen und dargestellt werden können. Demzufolge kann der Audiodialog weitergehen bis eine neue Seite zur Verfügung steht, wobei die Synchronisation mit dem Audio Dialog erfolgt, alternativ ist auch nur Audio Dialog möglich. <

Bei einer bevorzugten Ausgestaltung der Erfindung sind, gemäß Patentanspruch 8, an die Dialogsteuerung ein Dialogspeicher, an den Voiceserver ein Audiospeicher und an den WEB- Server ein Bildspeicher jeweils angeschlossen.

Diese Ausgestaltung der Erfindung weist den Vorteil auf, dass auf überraschend einfache Art und Weise dem Benutzet ein hoher Bedienkomfort zur Verfügung gestellt werden kann und beispielsweise ein Mehrwert des Dialoges durch die Nutzung des Internets suggeriert werden kann.

Vorzugsweise weist, gemäß Patentanspruch 9, zur Konfiguration die Dialogsteuerung eine Sclinittstellenschaltung und/oder ein Bus-Interface auf.

Damit ist es auch möglich, von jedem beliebigen Punkt des Telekommunikationsnetzes aus die Konfiguration mittels PC/Webserver bzw. mittels Laptop mit Funkschnittstelle durchzuführen, durch Nutzung standardisierter Funk/Netzwerkkomponenten mit flächendeckender Verfügbarkeit für die Datenkommunikation ist die erfindungsgemäße Vorrichtung unabhängig von anderen technischen Gegebenheiten universell einsetzbar und kann für den jeweiligen Anwendungsfall automatisch umkonfiguriert werden.

Weitere Vorteile und Einzelheiten lassen sich der nachfolgenden Beschreibung einer bevorzugten Ausführungsform der Erfindung unter Bezugnahme auf die Zeichnung entnehmen. In der Zeichnung zeigt:

FIG. 1 ' die Netzstruktur mit der erfϊndungsgemäßen Vorrichtung zur Realisierung des erfindungsgemäßen Verfahrens,

FIG. 2 das Ablaufdiagramm für ein Beispiel eines multimodalen Dialogaufbaus und

FIG. 3 a, b das Ablaufdiagramm für eine multimodale Steuerung und eine Auswertung von benutzerdefinierten Interaktionen nach FIG. 2.

Die Mehrzahl von Verbindungen zum Internet oder zu anderen Datendiensten wird mit Modems über ein Telefonkabel, d.h. eine Kupferdoppelader (so genanntes a/b Adernpaar bzw. Teilnehmeranschlussleitung), hergestellt, welches eigentlich zur Sprachübertragung im Bereich vom etwa 300 Hz bis 3400 Hz vorgesehen ist (POTS).

Um ein Höchstmass an Übertragungssicherheit zu gewährleisten, wird in zunehmendem Maße die bestehende analoge Übertragungstechnik durch die digitale Übertragungstechnik ersetzt. Bei der drahtgebundenen Übertragungstechnik kommen dabei vorwiegend Systeme zum Einsatz, welche nach dem Standard für "Integrated Services Digital Network", kurz ISDN, arbeiten.

Mit Hilfe einer Frequenzweiche, zum Beispiel 'einer Splittermatrix, werden Sprache und Daten in der Regel durch passive Tiefpass- bzw. Hochpassfilter getrennt und auf das Telefonkabel gegeben (beispielsweise für ein DSL-Übertragungsverfahren). Die Sprachanschlüsse gehen auf eine klassische Vermittlungsstelle, die als PSTN (Public Switched Telefon Network) bezeichnet wird, und die Daten gehen nach dem Splitter auf einen DSLAM (Digital Subscriber Line Access Multiplexer - ein Gerät, welches die Signale mehrerer DSL-Leitungen in einen Breitbandkanal umsetzt). Eine scharfe Trennlinie zwischen herkömmlichen Telekommunikationsnetzen und Computer-Datennetzen kann an dieser Stelle daher nicht gezogen werden. An beiden Leitungsenden der Verbindung werden DSL-Modems als das wichtigste Element für eine DSL-Verbindung angeschaltet.

Im DSLAM kann beispielsweise die ADSL-Technik (Asymmetrie Digital Subscriber Line, asymmetrisches DSL-Datenübertragungsverfahren) genutzt werden. Darunter wird eine Übertragungstechnik verstanden, die mit hoher Bandbreite sowohl Piain Old Telefon Services (POTS) oder ISDN für die Gesprächsübertragung als auch einen unsymmetrischen Multimediadienst ohne Regeneratoren auf dem gleichen Adernpaar störungsfrei zulässt. Asymmetrisch (ADSL) deshalb, weil in der Richtung vom Nutzer zum Netz (upstream) die Übertragung relativ niederratig (beispielsweise mit ca. 800 KBit/s), in der Richtung vom Netz zum Nutzer (downstream) hingegen relativ hochratig (beispielsweise mit bis zu ca. 8 MBit/s) erfolgt. Neben der ADSL-Technik sind auch andere DSL-Techniken gebräuchlich, beispielsweise HDSL = High Data Rate Digital Subscriber Line; SDSL = Single Line Digital Subscriber Line; MDSL .= Multirate Digital Subscriber Line; RADSL = Low Rate Adaptive Digital Subscriber Line und VDSL = Very High Rate Digital Subscriber Line, die jede für den Anwendungsfall optimiert sind und unter dem Oberbegriff xDSL-Übertragungstechnik zusammengefasst werden. .

Eine weitere Möglichkeit kontinuierliche Datenströme, z.B. Sprach- oder Videokommunikation, kostengünstig übermitteln zu können, bieten paketvermittelnde Kommunikationsnetze, wie z.B. LANs (Local Area Networks), MANs (Metropolitan Area Networks) oder WANs (Wide Area Networks). Auf dieser Technik basiert beispielsweise die sogenannte Intemettelephonie, die häufig auch als "Voice over Internet Protocol" (VoIP) bezeichnet wird.

Die Kommunikation erfolgt dabei über Verbindungen ganz unterschiedlicher Bandbreite, d.h. beispielsweise 56 KBit Analoganschluss oder 64 KBit -ISDN oder DSL oder - soweit in einem LAN eingebunden - über 100 MBit Twisted Pair-Leitung, oder über Wahl- Verbindungen 2 MBit und besser, oder über Standleitungen X.25. Dementsprechend ist eine ganze Vielzahl von Schnittstelleneinrichtungen bekannt, beispielsweise '

> ISDN S 0 - Schnittstellen,

^ LAN-Interface FE (mit Programmspeicher) zum PCI-Bus,

^ externes LAN-Interface LAN (mit Programmspeicher) als 10/100 Mbit/s Ethernet oder Token-Ring,

> WAN-Schnittstellen WAN: X.21, V.35, G.703/704 bis 2 Mbit/s.

FIG. 1 zeigt die Netzstruktur eines Telekommunikationsnetz mit Telefonnetz TN und Datennetz IP und mit analogen oder digitalen Endgeräten EGl, EG2, EG3. Die Endgeräte EGl, EG2, EG3 stehen über eine Teilnehmeranschlussschaltung und/oder einem Teilnehmermodem und Splitter und/oder einem Netzabschluss und über die Teilnehmeranschlussleitungen mit den Vermittlungsstellen in Verbindung. Weiterhin ist erfindungsgemäß ein mit dem Telekommunikationsnetz in Verbindung stehender multimodaler Dialogserver MD vorgesehen, welcher einen Voiceserver VS für die Erzeugung bzw. Annahme einer Audio-Session, einen Web-Server WS für die Realisierung visueller Sessions und eine mit dem Voiceserver VS und dem Web-Server WS verbundenen Dialogsteuerύng DE aufweist.

Weiterhin ist an die Dialogsteuerung, DE ein Dialogspeicher DS, an den Voiceserver VS ein Audiospeicher AR und an den WEB-Server WS ein Bildspeicher VR jeweils angeschlossen. Zur' Konfiguration weist die Dialogsteuemng DE eine Schnittstellenschaltung und/oder ein Bus-Interface auf. Damit ist es auch möglich, von jedem beliebigen Punkt des Telekommunikationsnetzes aus die Konfiguration mittels PC/Webserver bzw. mittels Laptop mit Funkschnittstelle (GSM bzw. bei höheren Bandbreiten UMTS Universal Mobile Telecommunication System, welches eine Datenübertragungsgeschwiridigkeit bis zu 2 MBit/s ermöglicht) durchzuführen, wobei die Netzanbindung über eine IP-Schnittstelle (auch paketvermitteltes Netz) erfolgen kann.

Voiceserver VS und Web-Server WS können von den Endgeräten EGl, EG2, EG3- über verschiedene Schnittstellen erreicht werden. Folgende Protokolle werden an den Schnittstellen unterstützt EDDSl, Q-Sig, SIP, H.323, HTTP, HTTPS. Beide Session- Varianten, d.h. Voiceserver VS und Web-Server WS, können auch losgelöst von einander genutzt werden.

Die erfindungsgemäße Vorrichtung unterstützt sowohl Endgeräte, welche beide Session- Varianten beinhalten (d.h. EG2), als auch zwei getrennte Endgeräte, nämlich das Audio- Endgerät EGl (beispielsweise Telefon) und das visuelle Endgerät EG3 (beispielsweise PC). Im zweiten Fall sind zwei Verbindungen zum Dialogserver MD notwendig und werden durch eine gemeinsame Session-ID synchronisiert.

Ein typischer Anwendungsfall ist die telefonische Benutzung eines Sprachportals, welches dem Benutzer einen Mehrwert des Dialoges durch die Nutzung des Internets suggeriert. Hierfür wird dem Anrufer die zu benutzende WEB-Adresse und Session-ID genannt. Die visuelle Session wird dann von einem WEB-Browser (Software-Tool zum Suchen und Lesen von Webseiten; die bekanntesten sind Microsoft Internet Explorer oder Netscape Navigator) aus aufgebaut. Alternativ kann natürlich auch beim Betätigen eines Buttons einer WEB-Seite ein gezielter telefonischer Rückruf erfolgen.

Der Dialog zwischen dem Benutzer und dem Dialogserver MD wird in seiner groben Struktur mit Hilfe eines speziellen Werkzeuges definiert. Ohne Interaktionen des Benutzers wird diese vordefinierte Aufeinanderfolge von Dialogelementen in der vordefinierten Reihenfolge ausgeführt. Die wichtigsten multimodalen Dialogelemente sind:

Ausgabe einer Audio-Information,

Aufzeichnen einer Audio-Information,

- Definieren einer Grammatik für die Benutzerinteraktion,

- Anzeige einer WEB- Seite (Link durch URL Universal Resource Locator), Hervorheben von Passage einer WEB- Seite.

Alle Interaktionen des Benutzers werden durch Ereignisse dem Dialog zugeführt. Alle Spracheingaben und alle Wechsel der WEB- Seiten erzeugen spezielle Ereignisse, die vom Dialogserver MD ausgewertet werden und den Ablauf des Dialoges beeinflussen können.

Ein wesentliches Merkmal der Erfindung ist das Konzept der einheitlichen Darstellung und Bearbeitung des Dialogablaufes für beide Betriebsarten. *

Vorzugsweise nutzt die Dialogsteuerung DE die Übertragungspausen der Datenkommunikation zur Sprachkommunikation.

Weiterhin ist vorgesehen, in der Dialogsteuerung DE die Session-ID als Zugangsberechtigung abzuspeichern, wodurch die Steuerung von Verbindungsaufbau und -ablauf gegen unbefugten Zugriff gesichert ist und dass die Dialogsteuerung DE den Dialog protokolliert. Innerhalb der Session-ID ist auch möglich, den Zugang zu verschiedenen Gruppen von Informationen/Prozessen mit verschiedenen Zugangscodes zu sichern, um so die Zugriffsmöglichkeiten abzugrenzen oder unterschiedlich zu verteilen. Weitere

Sicherheitsmechanismen können sein: IP-Paketfilter, CaIl Back; Identification control, PAP (password authentification protocoll), CHAP (challenge authentification protocoll) und Kryptisiemng. Gerade die zuletzt genannte Verschlüsselung ist immer noch das wirksamste Mittel im Datenschutz, um Informationen in falschen Händen unverwertbar zu machen; beispielsweise kann in der Dialogsteuerung DE ein Kryptisierungsverfahren nach dem DES-Standard vorgesehen werden.

Weiterhin ist vorgesehen, dass die Dialogsteuerung DE den Bandbreitenbedarf für die Informationsübertragung zu dem jeweiligen Endgerät EGl, EG2, EG3 ermittelt und nach dessen Maßgabe automatisch weitere Kommunikationskanäle zuschaltet, wodurch eine dynamische Kanalverwaltung und Bandbreitensteuerung erzielt wird. Je nach Bedarf an Bandbreite, d.h. abhängig von der Menge zu transportierender Daten, schaltet die Dialogsteuerung DE automatisch weitere Kommunikationskanäle zu. Durch Parallelbetrieb beispielsweise aller 30 B-Kanäle können Übertragungsgeschwindigkeiten bis 1,92 Mbit/s erzielt werden.

Weiterhin ist vorgesehen, dass die Dialogsteuerung DE die ihr zur Verfügung stehenden Protokolle in Kommunikation mit dem jeweiligen Endgerät EGl, EG2, EG3 durchtestet und sich auf das von dort angebotene Protokoll einstellt. Das Hardware-Konzept des Dialogservers MD kann auf die vielfältigen, gewachsenen Anschlussnormen im weltweiten Netzwerkbetrieb angepasst werden. Speziell angepasste LAN-Module mit wahlweise BNC-, AUI-, LWL- oder Twisted Pair-Anschlüssen verbinden den Dialogserver MD mit lokalen Token-Ring- und Ethernet-Netzwerken. Die Zugänge zu den Weitverkehrsnetzen (z.B. ISDN, X.25) und Standleitungen werden mit zum Teil mehrkanaligen WAN-Adaptern (So, Upo, Uico, X.21, V.24, V.35) geschaffen. Für die optimale Performance können aktive WAN- Adapter eingesetzt werden. Im ISDN-Bereich sind die Protokolle DSSl, 1TR6, Nl-I, sowie Fetex 150 verfügbar.

Die Funktionen zur Steuerung der multimodalen Endgeräte EG können direkt als Elemente der Dialogsprache abgebildet werden oder aber in ECMA-Skript-Objekten (Java-Skript) untergebracht sein. Durch letztere Implementierung ist es möglich, diese Funktionen auch in anderen Dialogsprachen, wie z.B. VoiceXML, zu nutzen.

Um eine simultane Steuerung der Anzeigegeräte EG3 und EG2 zu ermöglichen, ist ein permanenter Rückkanal vom WEB-Server WS zu dem jeweiligen Endgerät notwendig. Das HTTP-Protokoll bietet hierfür keine direkte Unterstützung.

Das erfϊndungsgemäße Konzept bedient sich hierbei einer zweiten HTTP -Anfrage (Request), welche im Hintergrund der eigentlichen HTML-Seite zum WEB-Server WS aufgebaut wird und mit einem Timeout versehen ist. Liegen auf dem WEB-Server WS Informationen für die entsprechenden Geräte vor, wird der Timer vorzeitig beendet und die Informationen mit der HTTP- Antwort (Response) dem Gerät gesendet. Wenn bis zum Timeout keine Informationen vorliegen, erzeugt der WEB-Server eine leere Antwort und das Gerät beginnt den Vorgang erneut.

Die zweite HTTP -Anfrage wird im ECMA-Skript (Java-Skript) formuliert und den jeweiligen Anzeigedaten (HTML-Seite) hinzugefügt. Ein weiterer Vorteil dieses Konzeptes ist die Nutzung der Standard-Ports (Port 80 für HTTP) sowohl für die direkten Anzeigeinformationen (HTML-Seite), als auch für die Steuerinformationen. Damit treten keine^ Konflikte mit Firewall-Systemen auf, welche sehr verbreitet dafür sorgen, dass andere Ports gesperrt sind.

FIG. 2 zeigt das Beispiel eines multimodalen Dialogaufbaus, wobei links der Dialogablauf und rechts das Event-Handling dargestellt sind. Im Einzelnen bedeutet die Legende folgendes:

Bl: EVENTHANDLER (LOAD_EVENTHANDLER)

Ereignisse (Events) dienen im SKS-Skript der Signalisierung von Systemänderungen bzw. Resultaten asynchron ablaufender Prozesse. So können z.B. Timer oder CTI-Endpoints Events senden, auf die dann im Dialog reagiert werden kann. Die Funktion lädt eine Aktionstabelle, welche aus einer Menge eindeutiger Zuordnungen (Events) zu Aktionen besteht. Eine Aktion beschreibt dabei einen Knoten der SKS-Baumstruktur. Bei Eintreffen eines behandelten Events verzweigt der Dialog dann an die beschriebene Stelle. Die Zuordnungen werden in einer SKW-Datei gespeichert. Alle Events, auf welche innerhalb eines Eventhandlers zugegriffen werden soll, müssen anschließend mit der Funktion OPEN_CONTEXT zur Verfügung gestellt werden. Anderenfalls bleibt die Auswahl unwirksam - die Verknüpfung inaktiv.

B2: OPEN_CONTEXT(DTMF) ' .

Mit dieser Funktion wird ein Kontext geöffnet. Hier an dieser Stelle ein DTMF-Kontext, welcher es ermöglicht, dass der Eventhandler auf die definierten DTMF-Resultate reagieren kann.

B3: SAY_VOC

Diese Funktion wird benutzt, um dem Verbindungspartner den Inhalt einer VOC-Datei, vorzutragen. Die entsprechenden VOC-Dateien (Sprachdateien) können vorher aufgenommen ■ und mit Hilfe dieser Funktion abgespielt werden.

B4: WAITING

Mit dieser Funktion kann an jeder beliebigen Stelle innerhalb der Applikation eine Wartezeit definiert werden. Das heißt eine Zeit, in welcher auf Aktivitäten wie Sprach- oder DTMF- Eingaben, gewartet wird. Die Wartezeit kann dabei individuell konfiguriert werden.

B5: GOTO

Die Goto-Funktion gestattet einen gezielten Zustandswechsel vom aktuellen Knoten zu der Marke, die im Explorer - dort ist die Struktur des Kommandobaumes dargestellt - ausgewählt wurde. Verschiedene Parameter können zusätzlich definiert werden, damit oder ob dieser Sprung ausgeführt wird.

B6: OPEN_CONTEXT(SPEECH)

Auch hier wird wieder ein Kontext geöffnet. Nur handelt es sich hierbei um einen Spracherkenner-Kontext. Dazu wird der Spracherkenner ausgewählt, weither für diesen Kontext aktiviert werden soll. Welche Spracherkenner hier zur Auswahl stehen, hängt von der installierten Version ab. Alle im Konfigurations-Programm definierten Spracherkenner- Ressourcen können ausgewählt werden. Verschiedene Parameter wie die Confϊdence- Schwelle (Erkenner- Wahrscheinlichkeit), N-Best-Resultatsauswertung, etc. können zusätzlich definiert werden. Zusätzlich wird eine Grammatik benötigt, welche sowohl die Kommandoworte als auch die Struktur beschreibt.

B7: SHOW_PAGE .

In der Dialogsteuerung DE (VoiceMan 7.0) unterstützt ein integrierter Webserver WS zusätzlich die multimodalen Anwendungsgebiete, um beispielsweise Internetseiten über eine

Sprachsteuerung akustisch wiedergeben zu können. Zeitgleich können die entsprechenden Inhalte geladen und die gerade aktiven Bereiche visualisiert werden. Die Steuerung am Bildschirm ist dabei genauso möglich, wie die Sprachsteuerung über Telefon. Für den mobilen Nutzer kann dies aber auch weiterhin einfach nur am Telefon erfolgen.

Zur Anzeige einer WEB-Seite wird die Funktion SHOW_PAGE benutzt. Dazu gibt man die entsprechende URJ der anzuzeigenden WEB-Seite an. Zur Visualisierung von einzelnen Inhalten innerhalb einer Web-Seite stehen noch verschiedene Funktionen zur Verfügung. Dazu muss im Inhalt der entsprechenden WEB-Seite ein Kode hinterlegt sein, auf welchen über diese Funktionen zugegriffen werden kann.

Dazu wird jedem Inhalt eine eindeutige ID innerhalb eines WEB-Dokumentes zugeordnet, z.B. id="cell_ref_portal". Über den eindeutigen Namen "cell_ref_portal" kann man nun die Inhalt direkt ansprechen.

Mit Hilfe der Show-Page-Funktion „BGCOLOR" kann man Hintergrundfarben setzen. Dies kann man z.B. nutzen, um einen Inhalt, welcher gerade aktiv ist und eventuell vorgelesen wird, optisch hervorzuheben.

FIG. 3a zeigt Details der multimodalen Steuerung nach FIG. 2, insbesondere die Anzeige der entsprechenden WEB-Seite (SHOW_PAGE (URI=http://www.sikom.de/www/index.php)), die Wiedergabe einer Audio-Information (S A YJVOC ({\A}VOC\dialog J _start_14.VOC)) und das Hervorheben der entsprechenden Passage auf der WEB-Seite (SHOW_PAGE (BGCOLOR=cell_index_l ; {_sFocusColor} ).

Mit der Funktion SHOW_PAGE kann man eine WEB-Seite laden und diese anzeigen, indem man die entsprechende URL angibt. Des Weiteren kann man die Funktion benutzen, um verschiedene Inhalte hervorzuheben, z.B. farblich. Je nach dem, wie die Funktion aufgerufen wird, wird eine neue Seite geladen und angezeigt oder nur der entsprechenden Inhalte hervorgehoben. Der Zugriff auf den entsprechenden Inhalt erfolgt über eine eindeutige ID (Kennung) des Inhaltes innerhalb dieser WEB-Seite.

FIG. 3b zeigt Ereignisse (Events) und Verknüpfungen der Applikation, insbesondere Details der Auswertung von benutzerdefinierten Interaktionen und entsprechender Reaktion darauf im

multimodalen Dialog nach FIG. 2. Beispielsweise entspricht ASR/ProductsO/Menue/Alarm eine Event-Sprachsteuerung und VISUAL/LOAD/http://www.sikom.de/www/index.php einer Event- WEB-Steuerung via Klick auf entsprechende Links.

Events dienen im SKS-Skript der Signalisierung von Systemänderungen bzw. Resultaten asynchron ablaufender Prozesse. Die Standard-Events werden über die Datei „EventTable.tre", welche sich im VoiceMan-Hauptverzeichnis befindet, definiert.

Dabei können vorzugsweise folgende Events unterschieden werden: DTMF DTMF-Events O..9,*,#,A,B,C,D

FAX Fax-Events X, Y

ASR Spracherkenner-Events (Hier werden die zur Verfügung stehenden Kontexte

(Domänen) angezeigt.)

~ NoMatch-Erkennung (global)

* Result-Erkennung (global)

TIMER Timer 1,2,3,4 (Standard) und benutzerdefiniert

VISUAL Visualisierungs-Events

OPEN Öffnen einer WEB-Seite

CLOSE Schließen einer WEB-Seite

CLICK Mausklick innerhalb des WEB-Seite

INPUTEingabe innerhalb der WEB-Seite

LOAD Laden einer Web-Seite ERROR Fehler-Events

SETUP Setup-Fehler

TRANSFER Transfer-Fehler

SLAVE Slave-Events

CONNECTED Connect-Status des Slave-Events

DTMF-Events

DTMF-Events ermöglichen die Reaktion auf DTMF-Eingaben. Je nachdem, welche DTMF- Eingabe vorgenommen wurde, kann man somit auf diese reagieren, einzeln oder als reine

Eingabesequenz. Im Dialog-Designer können diese Events dann mit Aktionen verknüpft werden.

Innerhalb der DTMF-Events stehen zur Verfügung:

0..9 Zifferneingabe per Tastatur

#,* . #- und * -Taste (Raute- und Stern-Taste)

A, B, C, D Telefontasten A, B, C, D. Sie stehen nicht bei jedem Telefon zur Verfügung.

Um ein DTMF-Event auswerten zu können, muss nach dem Eventhandler ein DTMF-Kontext (mit OPEN_CONTEXT) geöffnet werden.

Fax-Events

Fax-Events ermöglichen es, auf die Fax-Kennung (X, Y) zu reagieren.

Um ein Fax-Event auswerten zu können, muss nach dem Eventhandler ein DTMF-Kontext (mit OPEN_CONTEXT) geöffnet werden.

Spracherkenner-Events

Unter dem Knoten „ASR U werden alle innerhalb der Applikation bekannten Kontexte (Spracherkenner-Domänen) angezeigt. Die einzelnen Kontexte werden unter dem Namen aufgeführt, unter welchem dieser mit der Funktion OPEN_CONTEXT angelegt wurde. Innerhalb des Kontext werden dann alle Tags (Marken) angezeigt, auf die man reagieren kann.

Es werden nur die Worte, welche innerhalb der Events- Spalte stehen, auch im Explorer des Dialog-Editors angezeigt und können somit mit einer Aktion verknüpft werden. Um auf Spracherkenner-Events zugreifen zu können, muss nach dem Eventhandler ein Spracherkenner-Kontext (mit OPEN_CONTEXT) geöffnet werden.

Timer-Events

Unter dem Knoten „TIMER" werden alle innerhalb der Applikation bekannten Timer (Standard und individuell) angezeigt. Benutzerdefinierte Timer werden unter dem Namen angezeigt, unter welchem diese innerhalb der Funktion TIMER definiert wurden.

VISUAL-Events

Unter dem Knoten „VISUAL" werden alle visuellen Events angezeigt. Dies sind Events, welche beim Arbeiten mit und Navigieren in WEB-Pages auftreten können und auf welche man reagieren kann. Dabei beginnt man zuerst mit dem VISUAL/OPEN-Event, welches eine neue Session eröffnet. Die VISUAL/LOAD-Events benutzt man, um auf Mausklicks innerhalb der WEB-Seiten reagieren zu können und die entsprechenden WEB-Seiten zu laden. ,

ERROR-Events

Unter dem Knoten „ERROR" werden alle Error-Events angezeigt.

SLAVE-Events

Unter dem Knoten „SLA VE" werden alle Slave-Events angezeigt.

Um einzelnen Events innerhalb des Vokabular-Explorers eine Aktion zuordnen zu können, müssen diese Events in die Events-Spalte übernommen werden. Anderenfalls ist eine Verknüpfung mit Aktionen nicht möglich, da nur die Events, welche in der Events-Spalte enthalten sind, auch im Vokabular-Explorer angezeigt werden. Die Übernahme der Events in die Events-Spalte erfolgt per drag-and-drop. Markieren Sie innerhalb der Baumstruktur die benötigten Events und ziehen Sie diese mit gehaltener rechter Maustaste in die Events-Spalte. Lassen Sie die Maustaste los. Alle Events, die mit einer Aktion verknüpft sind, werden in der Events-Spalte gekennzeichnet.

Auch wenn die Ausgestaltung der erfindungsgemäßen, Vorrichtung für den Einsatz bei der telefonische Benutzung eines Sprachportals beschrieben ist, so ist der Einsatz auch in anderen Nachrichtennetzen für vermittelte Verbindungen möglich. Dies ist darauf zurückzufuhren, dass das erfindungsgemäße Konzept auf Vorleistungen in Nachrichtennetzen für vermittelte Verbindungen aufbaut und die einfache Anpassung an die jeweiligen Gegebenheiten und Einbindung ohne Änderung der Erfindung bzw. des ' Grundkonzepts erlaubt. Weitere Anwendungsbeispiele sind: Versandhandel,

- Kombinierte WEB- und Sprachportale für Unternehmen und Verwaltungen, Interaktives Lernen,

Bedienung von Endgeräten (PC),

- Automatische multimodale Präsentationen.

Das erfindungsgemäße Verfahren in Verbindung mit dem multimodalen Dialogserver MD ermöglicht einen kostengünstigen Aufbau beliebig vernetzbarer Endgeräte EGl, EG2, EG3 mit individueller interaktiver Kommunikation über beliebige drahtlose oder drahtgebundene Netzwerke bzw. Telekommunikationsnetze (beispielsweise UTRAN UMTS Terrestrial Radio Access Network). Der dabei ablaufende iterative Prozess hinsichtlich des Dialogs umfasst alle sinnvoll vorkommende Dialogelemente, welche entsprechend hinterlegt sind, kann insbesondere auch bei inhomogenen Strukturen eingesetzt werden und erlaubt auch ein Dialogmonitoring mit Einschluss der Endgeräte EGl, EG2, EG3 und des Dialogservers MD.

In Weiterbildung der Erfindung können im Dialogserver MD, für TCP/IP und SPX/IPX Routing-Funktionalitäten (auch als LCR Least Cost Router) installiert werden usw.