DE60014833T2 - Sprachverarbeitung - Google Patents

Sprachverarbeitung Download PDF

Info

Publication number
DE60014833T2
DE60014833T2 DE60014833T DE60014833T DE60014833T2 DE 60014833 T2 DE60014833 T2 DE 60014833T2 DE 60014833 T DE60014833 T DE 60014833T DE 60014833 T DE60014833 T DE 60014833T DE 60014833 T2 DE60014833 T2 DE 60014833T2
Authority
DE
Germany
Prior art keywords
speech
processing
unit
robot
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60014833T
Other languages
English (en)
Other versions
DE60014833D1 (de
Inventor
Yasuharu Shinagawa-ku Asano
Hongchang Shinagawa-ku Pao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of DE60014833D1 publication Critical patent/DE60014833D1/de
Application granted granted Critical
Publication of DE60014833T2 publication Critical patent/DE60014833T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H2200/00Computerized interactive toys, e.g. dolls
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Description

  • Die vorliegende Erfindung bezieht sich auf eine Sprachverarbeitungsvorrichtung, auf ein Sprachverarbeitungsverfahren und auf einen Aufzeichnungsträger, und sie bezieht sich insbesondere (obwohl nicht ausschließlich) auf eine Sprachverarbeitungsvorrichtung, ein Sprachverarbeitungsverfahren und einen Aufzeichnungsträger, die in geeigneter weise für einen Roboter verwendet werden, der über Sprachverarbeitungsfunktionen verfügt, wie über eine Spracherkennung, eine Sprachsynthetisierung, usw.
  • Bisher sind viele Roboter, die synthetisierten bzw. synthetischen Schall abgeben, wenn ein Berührungsschalter gedrückt wird (die Definition derartiger Roboter umfasst in der vorliegenden Anmeldung ausgestopfte Tiere und dergleichen), als Spielzeugerzeugnisse vertrieben worden.
  • Bei konventionellen Robotern liegt jedoch die Beziehung zwischen der Drückoperation des Berührungsschalters und dem synthetisierten Schall fest, weshalb damit das Problem verbunden ist, dass der Benutzer durch den Roboter ermüdet.
  • In dem US-Patent US-A-5.029.214 ist eine Sprachverarbeitungsvorrichtung gemäß dem Oberbegriff des Anspruchs 1 dieser Anmeldung angegeben; in dieser Sprachverarbeitungsvorrichtung ist der Roboterzustand eine simulierte Emotion.
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung wird eine in einem Roboter eingebaute Sprachverarbeitungsvorrichtung bereitgestellt; die betreffende Sprachverarbeitungsvorrichtung umfasst eine Sprachverarbeitungseinrichtung zur Verarbeitung von Sprache und eine Steuereinrichtung zur Steuerung der Sprachverarbeitung durch die genannte Sprachverarbeitungseinrichtung auf der Grundlage eines Zustands des betreffenden Roboters. Diese Sprachverarbeitungsvorrichtung ist dadurch gekennzeichnet, dass die genannte Steuereinrichtung zur Erkennung einer Aktion, die der genannte Roboter unternimmt, und zur Steuerung einer Sprachverarbeitung durch die genannte Sprachverarbeitungseinrichtung auf der Grundlage der die genannte Aktion betreffenden Verarbeitungslast betrieben ist.
  • Die Steuereinrichtung kann den Sprachprozess auf der Grundlage des Zustands von Aktionen, Emotionen oder Instinkten des Roboters steuern. Die Sprachverarbeitungseinrichtung kann eine Sprachsyntheseeinrichtung zur Ausführung einer Sprachsyntheseverarbeitung und zur Ausgabe eines synthetisierten Schalls umfassen, und die Steuereinrichtung kann die Sprachsynthetisier- bzw. Sprachsyntheseverarbeitung mittels der Sprachsyntheseeinrichtung auf der Grundlage des Zustands des Roboters steuern.
  • Die Steuereinrichtung kann eine Phoneminformation und eine Tonhöheninformation des von der Sprachsyntheseeinrichtung abgegebenen synthetisierten Schalls steuern, und die Steuereinrichtung kann außerdem die Sprechgeschwindigkeit oder Lautstärke des von der Sprachsyntheseeinrichtung abgegebenen synthetisierten Schalls steuern.
  • Die Sprachverarbeitungseinrichtung kann eine Tonhöheninformation oder eine Phoneminformation der eingangsseitigen Sprache extrahieren, und in diesem Fall kann ein Emotionszustand des Roboters auf der Grundlage der Tonhöheninformation oder der Phoneminformation geändert werden oder der Roboter kann der Tonhöheninformation oder Phoneminformation entsprechende Aktionen unternehmen.
  • Die Sprachverarbeitungseinrichtung kann eine Spracherkennungseinrichtung zum Erkennen von Eingangsprache aufweisen, und der Roboter kann Aktionen unternehmen, die der Zuverlässigkeit der von der Spracherkennungseinrichtung abgegebenen Spracherkennungsergebnisse entsprechen, oder es kann ein Emotionszustand des Roboters auf der Grundlage der Zuverlässigkeit geändert werden.
  • Der Roboter kann Aktionen entsprechend Ressourcen (Verarbeitungsleistung) der Vorrichtung ausführen, die an die Sprachverarbeitung durch die Sprachverarbeitungseinrichtung angepasst sein können.
  • Gemäß einem zweiten Aspekt der Erfindung wird ein Sprachverarbeitungsverfahren gemäß dem Patentanspruch 9 bereitgestellt.
  • Gemäß einem dritten Aspekt der Erfindung wird ein Aufzeichnungsträger gemäß dem Patentanspruch 10 bereitgestellt.
  • Bei der Sprachverarbeitungsvorrichtung, dem Sprachverarbeitungsverfahren und dem Aufzeichnungsträger gemäß der vorliegenden Erfindung wird eine Sprachverarbeitung auf der Grundlage des Zustands des Roboters gesteuert.
  • Die Erfindung wird nunmehr unter Bezugnahme auf die Zeichnungen beispielhaft beschrieben, in denen entsprechende Teile mit entsprechenden Bezugszeichen bezeichnet sind. In den Zeichnungen zeigen
  • 1 in einer Perspektivansicht ein Beispiel des äußeren Aufbaus einer Ausführungsform eines Roboters, bei dem die vorliegende Erfindung angewandt worden ist,
  • 2 ein Blockdiagramm, welches ein Bespiel für einen inneren Aufbau des in 1 dargestellten Roboters zeigt,
  • 3 ein Blockdiagramm, welches ein Beispiel eines funktionalen Aufbaus der in 2 dargestellten Steuereinrichtung 10 veranschaulicht,
  • 4 ein Diagramm, welches ein Emotions-/Instinktmodell veranschaulicht,
  • 5A und 5B Diagramme, welche die Verarbeitung in der Emotions-/Instinkt-Modelleinheit 51 beschreiben,
  • 6 ein Diagramm, welches ein Aktionsmodell veranschaulicht,
  • 7 ein Diagramm zur Beschreibung der Verarbeitung einer Verhaltensübergangs-Mechanismuseinheit 54,
  • 8 ein Blockdiagramm, welches ein Beispiel für einen Aufbau einer Spracherkennungseinheit 50A veranschaulicht,
  • 9 ein Flussdiagramm, welches die Verarbeitung durch die Spracherkennungseinheit 50A beschreibt,
  • 10 ebenfalls ein Flussdiagramm, welches die Verarbeitung in der Spracherkennungseinheit 50A beschreibt,
  • 11 ein Blockdiagramm, welches ein Beispiel für den Aufbau einer Sprachsyntheseeinheit 55 veranschaulicht,
  • 12 ein Flussdiagramm, welches die Verarbeitung in der Sprachsyntheseeinheit 55 beschreibt,
  • 13 ebenfalls ein Flussdiagramm, welches die Verarbeitung in der Sprachsyntheseeinheit 55 beschreibt,
  • 14 ein Blockdiagramm, welches ein Beispiel für den Aufbau einer Bilderkennungseinheit 50B veranschaulicht,
  • 15 ein Diagramm, welches die Beziehung zwischen der Belastung bezüglich einer Prioritätsverarbeitung und der CPU-Leistung veranschaulicht, die an die Spracherkennungsverarbeitung angepasst werden kann, und
  • 16 ein Flussdiagramm, welches die Verarbeitung der durch eine Mechanismuseinheit 52 bestimmten Aktion beschreibt.
  • 1 veranschaulicht in einem Beispiel den äußeren Aufbau einer Ausführungsform eines Roboters, bei dem die vorliegende Erfindung angewandt worden ist, und 2 veranschaulicht ein Beispiel des elektrischen Aufbaus der betreffenden Ausführungsform.
  • Bei der vorliegenden Ausführungsform ist der Roboter ein Roboter vom Hundetyp mit Beineinheiten 3A, 3B, 3C und 3D, die mit einer Körper- bzw. Torsoeinheit 2 in den vorderen und hinteren rechten und linken Bereichen verbunden sind, sowie mit einer Kopfeinheit 4 und einer Schwanzeinheit 5, die mit dem vorderen Bereich bzw. dem hinteren Bereich der Torsoeinheit 2 verbunden sind.
  • Die Schwanzeinheit 5 verläuft von einem Grundteil 5B aus, das in der oberen Ebene der Torsoeinheit 2 vorgesehen ist, um mit einem gewissen Freiheitsgrad gekrümmt bzw. gebogen oder hin- und hergeschwenkt werden zu können.
  • In der Torsoeinheit 2 sind eine Steuereinrichtung 10, welche die Steuerung des gesamten Roboters ausführt, eine Batterie 11, die die Kraftquelle für den Roboter darstellt, eine interne Sensoreinheit 14, bestehend aus einem Batterie-Sensor 12 und einem thermischen Sensor 13, usw. untergebracht.
  • In der Kopfeinheit 4 sind ein Mikrofon 15, welches als ein „Ohr" dient, eine CCD-Kamera 16 (eine ladungsgekoppelte Vorrichtung), die als ein „Auge" dient, ein Berührungssensor 17, der als Berührungssensor dient, ein Lautsprecher 18, der als „Mund" dient, etc. an den jeweiligen Stellen positioniert.
  • Ferner sind an den Gelenkbereichen der Beineinheiten 3A bis 3D, den Verbindungsteilen bzw. -bereichen der Beineinheiten 3A bis 3D an der Torsoeinheit 2, dem Verbindungsbereich der Kopfeinheit 4 an der Torsoeinheit 2, den Verbindungsbereichen der Schwanzeinheit 5 an der Torsoeinheit 2, etc. Betätigungseinrichtungen bzw. Aktoren 3AA1 bis 3AAK , 3BA1 bis 3BAK , 3CA1 bis 3CAK , 3DA1 bis 3DAK , 4A1 bis 4AL , 5A1 bzw. 5A2 vorgesehen, wie dies in 2 dargestellt ist.
  • Das Mikrofon 15 in der Kopfeinheit 4 fängt Umgebungssprache (Schallsignale), einschließlich der Sprache des Benutzers ein und überträgt die erhaltenen Sprachsignale zu der Steuereinrichtung 10. Die CCD-Kamera 16 nimmt Bilder der Umgebungszustände auf und überträgt die erhaltenen Bildsignale zu der Steuereinrichtung 10.
  • Der Berührungssensor 17 ist beispielsweise in bzw. an dem oberen Bereich der Kopfeinheit 4 derart vorgesehen, dass er einen Druck ermittelt, den er durch physikalische Aktionen von dem Benutzer her erhält, wie durch „Streicheln" oder „Schlagen", und er überträgt die Ermittlungsergebnisse als Druck-Ermittlungssignale zu der Steuereinrichtung 10.
  • Der Batterie-Sensor 12 in der Torsoeinheit 2 ermittelt die verbleibende Leistungsmenge der Batterie 11 und überträgt die Ermittlungsergebnisse als Rest-Batterieleistungsmenge-Detektiersignale zu der Steuereinrichtung 10 hin. Der thermische Sensor 13 ermittelt Wärme innerhalb des Roboters und überträgt die Ermittlungsergebnisse als Thermo-Detektiersignale zu der Steuereinrichtung 10 hin.
  • Die Steuereinrichtung 10 enthält eine CPU (zentrale Verarbeitungseinheit) 10A und einen Speicher 10B und dgl. eingebaut, und sie führt verschiedene Arten der Verarbeitung durch Ausführen von in dem Speicher 10B gespeicherten Steuerungsprogrammen in der CPU 10A aus.
  • Dies bedeutet, dass die Steuereinrichtung 10 Umgebungsbedingungen bzw. -zustände, Befehle vom Benutzer, Aktionen, die bezüglich des Roboters durch den Benutzer, etc. oder durch dessen Fehlen ausgeführt werden, auf der Grundlage von Sprachsignalen, Bildsignalen, Druck-Detektiersignalen, Rest-Batterieleistungsgröße-Detektiersignalen und thermischen Detektiersignalen von dem Mikrofon 15, der CCD-Kamera 16, dem Berührungssensor 17, dem Batterie-Sensor 12 bzw. dem thermischen Sensor 13 beurteilt.
  • Ferner entscheidet die Steuereinrichtung 10 auf der Grundlage der Bewertungsergebnisse und dgl. über anschließende Aktionen, und sie steuert zu diesem Zweck notwendige Aktoren von den Aktoren 3AA1 bis 3AAK , 3BA1 bis 3BAK , 3CA1 bis 3CAK , 3DA1 bis 3DAK , 4A1 bis 4AL , 5A1 und 5A2 auf der Grundlage der Entscheidungsergebnisse an, wodurch der Roboter veranlasst wird, Aktionen auszuführen, wie eine Bewegung der Kopfeinheit in vertikaler oder horizontaler Richtung, eine Bewegung der Schwanzeinheit 5, einen Antrieb der Beineinheiten 3A bis 3D, derart, dass der Roboter Aktionen ausführt, wie ein Laufen usw.
  • Falls erforderlich, erzeugt die Steuereinrichtung auch synthetisierten bzw. synthetischen Schall, der dem Lautsprecher 18 zugeführt und von diesem abgegeben wird, oder die Steuereinrichtung lässt nicht dargestellte LEDs (Leuchtdioden), die an der Stelle der „Augen" des Roboters vorgesehen sind, aufleuchten, ausgehen oder blinken.
  • Somit ist der Roboter so ausgelegt, dass er in einer autonomen Art und Weise auf der Grundlage von Umgebungsbedingungen und dergleichen wirkt.
  • Anschließend wird 3 betrachtet, die ein Beispiel des funktionalen Aufbaus der in 2 dargestellten Steuereinrichtung veranschaulicht. Der in 3 dargestellte funktionale Aufbau ist durch die CPU 10A realisiert, welche die in dem Speicher 10B gespeicherten Steuerungsprogramme ausführt.
  • Die Steuereinrichtung 10 umfasst eine Sensor-Eingangsverarbeitungseinheit 50, die bestimmte externe Zustände erkennt, eine Emotions-/Instinkt-Modelleinheit 51, welche die Erkennungsergebnisse der Sensor-Eingangsverarbeitungseinheit 50 akkumuliert und den Zustand von Emotionen und Instinkten ausdrückt, eine Aktionsbestimmungs-Mechanismuseinheit 52, die eine Folgeaktion auf der Grundlage der Erkennungsergebnisse der Sensor-Eingangsverarbeitungseinheit 50 und dgl. festlegt, eine Verhaltensübergangs-Mechanismuseinheit 53, die den Roboter veranlasst, tatsächlich Aktionen auf der Grundlage der Bestimmungs- bzw. Festlegungsergebnisse der Aktionsfestlegungs-Mechanismuseinheit 52 auszuführen, eine Steuerungs-Mechanismuseinheit 54, die die Aktoren 3AA1 bis 5A1 und 5A2 antreibt und steuert, und eine Sprachsyntheseeinheit 55, die synthetischen Schall erzeugt.
  • Die Sensor-Eingangsverarbeitungseinheit 50 erkennt gewisse externe Zustände, eine an dem Roboter durch den Benutzer ausgeführte Aktion, Befehle und dergleichen von dem Benutzer, etc. auf der Grundlage der Sprachsignale, Bildsignale, Druck-Detektiersignale, etc., die von dem Mikrofon 15, der CCD-Kamera 16, dem Berührungssensor 17, etc. bereitgestellt werden, und sie meldet die die Erkennungsergebnisse repräsentierende Zustandserkennungsinformation an die Emotions-/Instinkt-Modelleinheit 51 und die Aktionsfestlegungs-Mechanismuseinheit 52.
  • Dies bedeutet, dass die Sensor-Eingangsverarbeitungseinheit 50 über eine Spracherkennungseinheit 50A verfügt und dass die Spracherkennungseinheit 50A eine Spracherkennung auf die Steuerung der Aktionsfestlegungs-Mechanismuseinheit 52 unter Verwendung der Sprachsignale ausführt, die von dem Mikrofon 15 bereitgestellt werden, wobei die Information, welche von der Emotions-/Instinkt-Modelleinheit 51 und der Aktionsfestlegungs-Mechanismuseinheit 52 erforderlichenfalls erhalten wird, berücksichtigt wird. Sodann informiert die Spracherkennungseinheit 50A die Emotions-/Instinkt-Modelleinheit 51 und die Aktionsfestlegungs-Mechanismuseinheit 52 über Befehle und dgl. von den Spracherkennungsergebnissen, wie z.B. „Laufen", „Sitzen", „Verfolg den Ball" als Zustands-Erkennungsinformation.
  • Außerdem weist die Sensor-Eingangsverarbeitungseinheit 50 eine Bilderkennungseinheit 50B auf; die Bilderkennungseinheit 50B führt eine Bilderkennungsverarbeitung unter Heranziehung von Bildsignalen durch, die von der CCD-Kamera 16 bereitgestellt werden. In dem Fall, dass als Ergebnis der Verarbeitung die Bilderkennungseinheit 50B beispielsweise „einen roten runden Gegenstand" oder „eine Ebene, die vertikal zum Boden verläuft und die eine bestimmte Höhe aufweist oder mehr" ermittelt, werden Bilderkennungsergebnisse, wie „dort ist ein Ball" oder „dort ist eine Wand" der Emotions-/Instinkt-Modelleinheit 51 und der Aktionsfestlegungs-Mechanismuseinheit 52 als Zustandserkennungsinformation gemeldet.
  • Ferner weist die Sensor-Eingangsverarbeitungseinheit 50 eine Druckverarbeitungseinheit 50C auf, und die Druckverarbeitungseinheit 50C verarbeitet Druckermittlungssignale, die von dem Berührungssensor 17 geliefert werden. In dem Fall, dass die Druckverarbeitungseinheit 50C als Ergebnis der Verarbeitung einen Druck entsprechend einem gewissen Schwellwert oder einen über diesem liegenden Druck innerhalb einer kurzen Zeitspanne feststellt, führt die Druckverarbeitungseinheit 50C sodann eine Erkennung darüber aus, dass „berührt (betätigt)" worden ist, während in dem Fall, dass die Druckverarbeitungseinheit 50C einen Druck ermittelt, der über eine lange Zeitspanne hinweg niedriger ist als der Schwellwert, die betreffende Druckverarbeitungseinheit 50C eine Erkennung darüber vornimmt, dass „gestreichelt (gelobt)" worden ist. Die Erkennungsergebnisse werden der Emotions-Instinkt-Modelleinheit 51 und der Aktionsbestimmungs-Mechanismuseinheit 52 als Zustandserkennungsinformation gemeldet.
  • Die Emotions-/Instinkt-Modelleinheit 51 verwaltet bzw. managed sowohl ein Emotionsmodell als auch ein Instinktmodell, wobei diese Modelle den Zustand von Emotionen bzw. Instinkten des Roboters repräsentieren, wie dies in 4 veranschaulicht ist. Hier sind das Emotionsmodell und das Instinktmodell in dem in 2 dargestellten Speicher 10B gespeichert.
  • Das Emotionsmodell ist beispielsweise aus drei Emotionseinheiten 60A, 60B und 60C gebildet, und die Emotionseinheiten 60A bis 60C repräsentieren jeweils den Zustand (Grad) von „Fröhlichkeit", „Traurigkeit" und „Ärger" mit einem Wert innerhalb des Bereiches von beispielsweise 0 bis 100. Die Werte werden jeweils auf der Grundlage einer Zustandserkennungsinformation von der Sensor-Eingangsverarbeitungseinheit 50, des Zeitverlaufs, usw. geändert.
  • Nebenbei sei angemerkt, dass eine Emotionseinheit, die „Spaß" entspricht, zusätzlich zu „Fröhlichkeit", „Traurigkeit" und „Ärger" vorgesehen sein kann.
  • Das Instinktmodell ist beispielsweise aus drei Instinkteinheiten 61A, 61B und 61C gebildet, und die Instinkteinheiten 61A bis 61C stellen jeweils den Zustand (Grad) von „Hunger", „Wunsch zu schlafen" und „Wunsch zur Bewegung" aus instinktiven Wünschen mit einem wert beispielsweise innerhalb des Bereiches von 0 bis 100 dar. Die Werte werden jeweils auf der Grundlage einer Zustandserkennungsinformation von der Sensor-Eingangsverarbeitungseinheit 50, des Zeitablaufs, usw. geändert.
  • Die Emotions-/Instinkt-Modelleinheit 51 gibt den Zustand der Emotion, die durch die Werte der Emotionseinheiten 60A bis 60C repräsentiert ist, und den Zustand des Instinkts, der durch die Werte der Instinkteinheiten 61A bis 61C dargestellt ist, als Emotions-/Instinktzustandsinformation, welche sich wie oben beschrieben ändert, an die Sensor-Eingangsverarbeitungseinheit 50, die Aktionsbestimmungs-Mechanismuseinheit 52 und die Sprachsyntheseeinheit 55 ab.
  • In der Emotions-/Instinkt-Modelleinheit 51 sind die Emotionseinheiten 60A bis 60C, die das Emotionsmodell ausmachen, in einer sich gegenseitig unterdrückenden oder sich gegenseitig stimulierenden Weise verbunden, so dass in dem Fall, dass der Wert einer der Emotionseinheiten sich ändert, die Werte der anderen Emotionseinheiten sich entsprechend ändern, womit eine natürliche Emotionsänderung realisiert wird.
  • Dies heißt beispielsweise, dass, wie in 5A veranschaulicht, in dem Emotionsmodell die Emotionseinheit 60A, die „Fröhlichkeit" repräsentiert, und die Emotionseinheit 60B, die „Traurigkeit" repräsentiert, in einer gegenseitig sich unterdrückenden Weise derart miteinander verbunden sind, dass in dem Fall, dass der Roboter vom Nutzer gelobt wird, der Wert der Emotionseinheit 60A für „Fröhlichkeit" zuerst ansteigt. Ferner sinkt in diesem Fall der Wert der Emotionseinheit 60B für „Traurigkeit" in einer Weise die der Zunahme des Wertes der Emotionseinheit 60A für „Fröhlichkeit" entspricht, obwohl sogar die Zustandserkennungsinformation für eine Änderung des Wertes der Emotionseinheit 60B für „Traurigkeit" nicht an die Emotions-/Instinkt-Modelleinheit 51 geliefert worden ist. Umgekehrt sinkt in dem Fall, dass der Wert der Emotionseinheit 60B für „Traurigkeit" zunimmt, der Wert der Emotionseinheit 60A für „Fröhlichkeit" entsprechend.
  • Ferner sind die Emotionseinheit 60B, die „Traurigkeit" repräsentiert, und die Emotionseinheit 60C, die „Ärger" repräsentiert, in einer gegenseitig sich stimulierenden Weise derart verbunden, dass in dem Fall, dass der Roboter von dem Nutzer geschlagen wird, der Wert der Emotionseinheit 60C für „Ärger" zuerst zunimmt. Ferner nimmt in diesem Fall der Wert der Emotionseinheit 60B für „Traurigkeit" in einer Weise zu, die der Zunahme des Wertes der Emotionseinheit 60C für „Ärger" entspricht, obwohl sogar die Zustandserkennungsinformation für eine Änderung des Wertes der Emotionseinheit 60B für „Traurigkeit" nicht der Emotions-/Instinkt-Modelleinheit 51 geliefert worden ist. Umgekehrt nimmt in dem Fall, dass der Wert der Emotionseinheit 60B für „Traurigkeit" zunimmt, der Wert der Emotionseinheit 60C für „Ärger" entsprechend zu.
  • Ferner sind in der Emotions-/Instinkt-Modelleinheit 51 die Instinkteinheiten 61A bis 61C, welche das Instinktmodell ausmachen, in einer gegenseitig sich unterdrückenden oder gegenseitig sich stimulierenden Weise ebenfalls verbunden, wie beim obigen Emotionsmodell, so dass in dem Fall, dass der Wert ei ner der Instinkteinheiten sich ändert, die Werte der anderen Instinkteinheiten sich entsprechend ändern, womit eine natürliche Instinktänderung realisiert wird.
  • Außerdem wird zusätzlich zu der Zustandserkennungsinformation, die der Emotions-/Instinkt-Modelleinheit 51 von der Sensor-Eingangsverarbeitungseinheit 50 geliefert wird, eine Aktionsinformation, welche gegenwärtige oder spätere Aktionen des Roboters angibt, d.h. eine Information, die die Inhalte von Aktionen repräsentiert, wie beispielsweise „während einer langen Zeit gelaufen", von der Aktionsbestimmungs-Mechanismuseinheit 52 geliefert, so dass in dem Fall, dass dieselbe Zustandserkennungsinformation bereitgestellt wird, eine unterschiedliche Emotions-/Instinktzustandsinformation entsprechend den Aktionen des Roboters erzeugt wird, wie sie durch die Aktionsinformation bezeichnet ist.
  • Im Hinblick auf das Emotionsmodell heißt dies, dass, wie beispielsweise in 5B veranschaulicht, Intensitäts-Zunahme-/-Abnahme-Funktionen 65A bis 65C zur Erzeugung einer Werteinformation für die Steigerung oder Verringerung der Werte der Emotionseinheiten 60A bis 60C auf der Grundlage der Aktionsinformation und der Zustandserkennungsinformation jeweils für den Schritt bereitgestellt werden, der den Emotionseinheiten 60A bis 60C vorangeht. Die Werte der Emotionseinheiten 60A bis 60C werden jeweils entsprechend der Werteinformation gesteigert oder verringert, die von den Intensitäts-Zunahme-/-Abnahme-Funktionen 65A bis 65C abgegeben wird.
  • Infolgedessen werden in dem Fall, dass beispielsweise der Roboter den Benutzer begrüßt und dass der Benutzer den Roboter am Kopf streichelt, die Aktionsinformation des Begrüßens des Benutzers und die Zustandserkennungsinformation, dass am Kopf gestreichelt worden ist, der Intensität-Zunahme-/-Abnahme-Funktion 65A bereitgestellt, und in diesem Falle wird der wert der Emotionseinheit 60A für „Fröhlichkeit" in der Emotions-/Instinkt-Modelleinheit 51 erhöht.
  • Andererseits werden in dem Fall, dass der Roboter am Kopf gestreichelt wird, während eine Aufgabe irgendeiner Art ausgeführt wird, eine Aktionsinformation, gemäß der eine Aufgabe ausgeführt wird, und die Zustandserkennungsinformation, dass am Kopf gestreichelt worden ist, der Intensitäts-Zunahme-/-Abnahme-Funktion 65A bereitgestellt; in diesem Falle wird jedoch der Wert der Emotionseinheit 60A für „Fröhlichkeit" in der Emotions-/Instinkt-Modelleinheit 51 nicht geändert.
  • Somit nimmt die Emotions-/Instinkt-Modelleinheit 51 nicht nur auf die Zustandserkennungsinformation Bezug, sondern sie nimmt auch auf eine Aktionsinformation Bezug, die vergangene oder gegenwärtige Aktionen des Roboters angibt, und sie legt damit die Werte der Emotionseinheiten 60A bis 60C fest. Infolgedessen können in dem Fall, dass der Benutzer den Roboter am Kopf schelmisch streichelt, währenddessen der Roboter eine Aufgabe irgendeiner Art ausführt, unnatürliche Änderungen in Emotionen auf Grund des Umstandes vermieden werden, dass der Wert der Emotionseinheit 60A für „Fröhlichkeit" gesteigert wird.
  • Im Hinblick auf die das Instinktmodell ausmachenden bzw. bildenden Instinkteinheiten 61A bis 61C nimmt die Emotions-/Instinkt-Modelleinheit 51 ferner eine Erhöhung oder Verringerung der Werte jeweils auf der Grundlage der Zustandserkennungsinformation und der Aktionsinformation in derselben Weise vor, wie im Falle des Emotionsmodells.
  • Die Intensität-Zunahme-/-Abnahme-Funktionen 65A bis 65C sind Funktionen, die eine Werteinformation zur Änderung der Werte der Emotionseinheiten 60A bis 60C entsprechend zuvor festgelegten Parametern erzeugen und abgeben, und zwar mit der Zustandserkennungsinformation und der Aktionsinformation als Eingangsinformationen davon; die Festlegung dieser Parameter auf Werte, die für jeden Roboter verschieden sind, würde individuelle Charakteristiken für den jeweiligen Roboter zulassen, derart, dass beispielsweise ein Roboter von einer gereizten bzw. unwirschen Natur ist und dass ein anderer vergnügt ist.
  • Zurückkehrend zur 3 sei angemerkt, dass die Aktionsbestimmungs-Mechanismuseinheit 52 über die nächste Aktion auf der Grundlage einer Zustandserkennungsinformation von der Sensor-Eingangsverarbeitungseinheit 50 und der Emotions-/Instinktinformation von der Emotions-/Instinkt-Modelleinheit 51, des Zeitverlaufs, etc. entscheidet, und dass die entschiedenen Aktionsinhalte an die Haltungsübergangs-Mechanismuseinheit 53 als Aktionsbefehlsinformation abgegeben wird.
  • Dies heißt, dass, wie in 6 veranschaulicht, die Aktionsbestimmungs-Mechanismuseinheit 52 begrenzte bzw. endliche Automaten leitet bzw. verwaltet, bei denen die Aktionen, die der Roboter auszuführen im Stande ist, dem Zustand entsprechen, da Aktionsmodelle die Aktionen des Roboters vorschreiben bzw. festsetzen. Der Zustand in dem endlichen Automaten, der als Aktionsmodell dient, wird dazu herangezogen, einen Übergang auf der Grundlage einer Zustandserkennungsinformation von der Sensor-Eingangsverarbeitungseinheit 50, der Werte des Emotionsmodells und des Instinktmodells als Emotions-/Instinkt-Modelleinheit 51, des Zeitverlaufs, etc. vorzunehmen, und Aktionen, die dem Zustand auf den Übergang folgend entsprechen, werden als diejenigen Aktionen festgelegt, die als nächste vorzunehmen sind.
  • Speziell in 6 sei beispielsweise angenommen, dass der Zustand ST3 eine Aktion „Stehen" repräsentiert, dass der Zustand ST4 eine Aktion „Liegen auf der Seite" repräsentiert und dass der Zustand ST5 eine Aktion „Lauf' einem Ball hinterher" repräsentiert. Nunmehr wird in dem Zustand ST5 für beispielsweise „Lauf' einem Ball hinterher" in dem Fall, dass die Zustandserkennungsinformation „Visueller Kontakt mit dem Ball ist verloren gegangen" abgegeben wird, ein Zustandsübergang vom Zustand ST5 zum Zustand ST3 vorgenommen, und folglich wird die Aktion „Stehen", die dem Zustand ST3 entspricht, als anschließende Aktion bestimmt. Auch in dem Fall, dass der Roboter sich beispielsweise im Zustand ST4 zum „Liegen auf der Seite" befindet und die Zustandserkennungsinformation „Steh auf!" abgegeben wird, führt der Zustand einen Übergang vom Zustand ST4 zum Zustand ST3 aus, und folglich wird die Aktion des „Stehens", die dem Zustand ST3 entspricht, als anschließende Aktion bestimmt.
  • In dem Fall, dass die Aktionsbestimmungs-Mechanismuseinheit 52 einen bestimmten Auslöser ermittelt, wird ein Zustandsübergang ausgeführt. Dies heißt, in dem Fall, dass die Zeit für die dem gegenwärtigen Zustand entsprechende Aktion eine bestimmte Dauer erreicht hat, in dem Fall, dass eine bestimmte Zustandserkennungsinformation empfangen worden ist, bzw. in dem Fall, dass der Wert des Emotionszustandes (d.h. die Werte der Emotionseinheiten 60A bis 60C) oder der Wert des Instinktzustandes (d.h. die werte der Instinkteinheiten 61A bis 61C), die durch Emotions-/Instinktzustandsinformationen repräsentiert sind, welche von der Emotions-/Instinkt-Modelleinheit 51 geliefert werden, gleich oder kleiner sind als oder gleich oder größer sind als ein bestimmter Schwellwert, etc., wird durch die Aktionsbestimmungs-Mechanismuseinheit 52 ein Zustandsübergang bewirkt.
  • Es sei darauf hingewiesen, dass die Aktionsbestimmungs-Mechanismuseinheit 52 einen Zustandsübergang des endlichen Automaten in 6 nicht nur auf der Grundlage einer Zustandserkennungsinformation von der Sensor-Eingangsverarbeitungseinheit 50 bewirkt, sondern auch auf der Grundlage von Werten des Emotionsmodells und des Instinktmodells von der Emotions-/Instinkt-Modelleinheit 51, etc., so dass in dem Fall, dass dieselbe Zustandserkennungsinformation eingegeben wird, das Ziel des Zustandsübergangs entsprechend dem Emotionsmodell und dem Instinktmodell (d.h. entsprechend der Emotions-/Instinktinformation) differiert.
  • Folglich wird in dem Fall, dass die Emotions-/Instinktzustandsinformation anzeigt, dass der Zustand beispielsweise „nicht verärgert" bzw. „nicht wütend" und „nicht hungrig" ist, und in dem Fall, dass die Zustandserkennungsinformation angibt, dass „die Handfläche einer Hand nach vorn ausgestreckt ist", durch die Aktionsbestimmungs-Mechanismuseinheit 52 eine Aktionsbefehlsinformation erzeugt, um eine Aktion des „Händeschüttelns" entsprechend der nach vorn ausgestreckten Hand vorzunehmen, und diese Information wird zu der Haltungswechsel-Mechanismuseinheit 53 übertragen.
  • Außerdem wird in dem Fall, dass die Emotions-/Instinktzustandsinformation angibt, dass der Zustand beispielsweise „nicht ärgerlich" und „hungrig" ist, und in dem Fall, dass die Zustandserkennungsinformation angibt, dass „die Handfläche einer Hand nach vorn ausgestreckt ist", durch die Aktionsbestimmungs-Mechanismuseinheit 52 eine Aktionsbefehlsinformation erzeugt, die eine Aktion des „Leckens der Hand" entsprechend der nach vorn ausgestreckten Hand bewirkt, und diese Information wird zu der Haltungsübergangs-Mechanismuseinheit 53 übertragen.
  • Ferner wird in dem Fall, dass die Emotions-/Instinktzustandsinformation angibt, dass der Zustand beispielsweise „ärgerlich" vorliegt, und in dem Fall, dass die Zustandserkennungsinformation angibt, dass „die Handfläche einer Hand nach vorn ausgestreckt ist", durch die Aktionsbestimmungs-Mechanismuseinheit 52 eine Aktionsbestimmungsinformation erzeugt, durch die eine Aktion des „Wegschauens" unabhängig davon bewirkt wird, ob die Emotions-/Instinktinformation „hungrig" oder „nicht hungrig" angibt; diese Information wird zu der Haltungsübergangs-Mechanismuseinheit 53 übertragen.
  • Im Übrigen ist die Aktionsbestimmungs-Mechanismuseinheit 52 im Stande, die Laufgeschwindigkeit, das Ausmaß der Bewegung der Beine und deren Geschwindigkeit, etc. zu bestimmen, wobei diese Informationen als Parameter einer Aktion dienen, welche dem Zustand entspricht, in den ein Übergang erfolgt ist, und zwar auf der Grundlage des Zustandes der Emotionen und Instinkte, welche durch die von der Emotions-/Instinkt-Modelleinheit 51 gelieferten Emotions-/Instinktzustandsinformationen angegeben sind.
  • Zusätzlich zu der Aktionsbefehlsinformation für die Vornahme einer Bewegung des Roboterkopfes, der Beine, etc. erzeugt die Aktionsbestimmungs-Mechanismuseinheit 52 ferner eine Aktionsbefehlsinformation, um ein Sprechen durch den Roboter zu bewirken, und außerdem wird eine Aktionsbefehlsinformation erzeugt, um den Roboter zu veranlassen, eine Spracherkennung auszuführen. Die Aktionsbefehlsinformation, durch die der Roboter veranlasst wird zu sprechen, wird der Sprachsyntheseeinheit 55 zugeführt, und die Aktionsbefehlsinformation, die der Sprachsyntheseeinheit 55 zugeführt wird, enthält Text und dgl. entsprechend dem von der Sprachsyntheseeinheit 55 zu erzeugenden synthetisierten Schall. Nachdem die Sprachsyntheseeinheit 55 die Aktionsbefehlsinformation von der Aktionsbestimmungs-Mechanismuseinheit 52 empfangen hat, wird ein synthetischer Schall auf der Grundlage des in der Aktionsbefehlsinformation enthaltenen Textes erzeugt, während der Zustand von Emotionen und der Zustand von Befehlen hinzugefügt werden, die durch die Emotions-/Instinkt-Modelleinheit 51 geleitet werden; der synthetische Schall wird dem Lautsprecher 18 zugeführt und von diesem abgegeben. Außerdem wird die Aktionsbefehlsinformation, die den Roboter veranlasst, eine Spracherkennung auszuführen, der Spracherkennungseinheit 50A der Sensor-Eingangsverarbeitungseinheit 50 zugeführt, und auf die Aufnahme einer derartigen Aktionsbefehlsinformation hin führt die Spracherkennungseinheit 50A eine Spracherkennungsverarbeitung durch.
  • Ferner ist die Aktionsbestimmungs-Mechanismuseinheit 52 derart eingerichtet bzw. ausgelegt, dass dieselbe Aktionsinformation, die der Emotions-/Instinkt-Modelleinheit 51 zugeführt wird, der Sensor-Eingangsverarbeitungseinheit 50 und der Sprachsyntheseeinheit 55 zugeführt wird. Die Spracherkennungseinheit 50A der Sensor-Eingangsverarbeitungseinheit 50 und die Spracherkennungseinheit 55 führen jeweils eine Spracherkennung und Sprachsynthese unter Hinzufügung der Aktionsinformation von der Aktionsbestimmungs-Mechanismuseinheit 52 durch. Dieser Punkt wird später beschrieben.
  • Die Haltungsübergangs-Mechanismuseinheit 53 erzeugt eine Haltungsübergangsinformation, die einen Übergang der Haltung des Roboters von der gegenwärtigen Haltung zur nächsten Haltung auf der Grundlage der Aktionsbefehlsinformation von der Aktionsbestimmungs-Mechanismuseinheit 52 her bewirkt und diese an die Steuerungs-Mechanismuseinheit 54 abgibt.
  • Nunmehr wird eine nächste Einstellung bzw. Haltung, zu der ein Übergang von der gegenwärtigen Haltung aus vorgenommen werden kann, bestimmt, beispielsweise durch die physikalische Form des Roboters, wie beispielsweise durch die Form, das Gewicht und den Gelenkzustand des Torsos und der Beine, und durch den Mechanismus der Aktoren 3AA1 bis 5A1 und 5A2 , wie Richtung und Winkel, in die die Gelenke gebogen werden, usw.
  • Im Hinblick auf die nächste Haltung gibt es Haltungen, in die ein Übergang direkt aus der gegenwärtigen Haltung erfolgen kann, und außerdem Haltungen, in die ein Übergang nicht unmittelbar aus der gegenwärtigen Haltung heraus erfolgen kann. So kann beispielsweise ein vierbeiniger Roboter in einem Zustand, in welchem er auf seiner Seite mit ausgestreckten Beinen liegt, direkt einen Übergang in einen Zustand vornehmen, in welchem er ausgestreckt liegt; er kann jedoch nicht unmittelbar einen Übergang in einen Zustand vornehmen, in welchem er steht. Damit ist die Forderung verbunden, zuerst die Beine nahe an den Körper heranzuziehen und in einen Zustand zu wechseln, in welchem er auf dem Boden liegt, woraufhin ein Aufstehen des Roboters folgt, was bedeutet, dass Aktionen in zwei Stufen erforderlich sind. Außerdem gibt es Haltungen, in die ein Übergang nicht sicher vorgenommen werden kann. Beispielsweise wird ein vierbeiniger Roboter, der sich in einer Stehhaltung auf vier Beinen befindet und der versucht, beide Vorderbeine anzuheben, leicht hinfallen.
  • Demgemäß registriert die Haltungsübergangs-Mechanismuseinheit 53 vorab Haltungen, in die ein direkter Übergang vorgenommen werden kann; in dem Fall, dass die von der Aktionsbestimmungs-Mechanismuseinheit 52 gelieferte Aktionsbefehlsinformation eine Haltung angibt, in die ein direkter Übergang erfolgen kann, wird die Aktionsbefehlsinformation ohne eine Änderung als Haltungsübergangsinformation an die Steuerungs-Mechanismuseinheit 54 abgegeben. Andererseits wird in dem Fall, dass die Aktionsbefehlsinformation eine Haltung angibt, in die ein direkter Übergang nicht vorgenommen werden kann, durch die Haltungsübergang-Mechanismuseinheit 53 zuerst ein Übergang in eine andere Haltung vorgenommen, von der aus ein direkter Übergang erfolgen kann, worauf folgend eine Haltungsübergangsinformation erzeugt wird, die einen Übergang in die Zielhaltung bewirkt, und diese Information wird zu der Steuerungs-Mechanismuseinheit 54 übertragen. Somit können Vorfälle, bei denen der Roboter versucht, Haltungen einzunehmen, in die ein Übergang unmöglich ist, und Vorfälle, bei denen der Roboter hinfällt, verhindert werden.
  • Dies heißt, dass, wie beispielsweise in 7 veranschaulicht, die Haltungsübergangs-Mechanismuseinheit 53 einen gerichteten Graphen speichert, wobei die Haltungen, die der Roboter einnehmen kann, als Knoten, nämlich als Knoten 1 bis Knoten 5 dargestellt sind. Die Knoten, die zwei Haltungen entsprechen, zwischen denen ein Übergang vorgenommen werden kann, sind durch gerichtete Bögen ARC1 bis ARC10 verbunden, wodurch eine Haltungsübergangsinformation, wie oben beschrieben, auf der Grundlage dieses gerichteten Graphen erzeugt wird.
  • Genauer gesagt sucht in dem Fall, dass die Aktionsbefehlsinformation von der Aktionsbestimmungs-Mechanismuseinheit 52 geliefert wird, die Haltungsübergangs-Mechanismuseinheit 53 einen Weg bzw. Pfad vom gegenwärtigen Knoten zum nächsten Knoten durch Nachlaufen in die Richtung des gerichteten Bogens, der den der gegenwärtigen Haltung entsprechenden Knoten und den der nächsten Haltung entsprechenden Knoten verbindet, die als die Haltung angenommen wird, welche die Aktionsbefehlsinformation angibt. Dadurch wird eine Haltungsübergangsinformation erzeugt, bei der Haltungen angenommen sind, die den Knoten auf dem Suchpfad entsprechen.
  • Infolgedessen ist in dem Fall, dass die gegenwärtige Haltung durch den Knoten 2 gegeben ist, der beispielsweise die Haltung des „ausgestreckten Liegens" angibt, und dass die Aktionsbefehlsinformation „Sitzen" zugeführt wird, durch die Haltungsübergang-Mechanismuseinheit 53 eine dem „Sitzen" entsprechende Haltungsübergangsinformation erzeugt, da ein direkter Übergang vom Knoten 2, der die Haltung des „ausgestreckten Liegens" angibt, zum Knoten 5 erfolgen kann, der die Haltung des „Sitzens" in dem gerichteten Graphen angibt. Diese Information wird der Steuerungs-Mechanismuseinheit 54 bereitgestellt.
  • In dem Fall, dass die gegenwärtige Haltung durch den Knoten 2 gegeben ist, der die Haltung des „ausgestreckten Liegens" angibt, und außerdem eine Aktionsbefehlsinformation des „Laufens" zugeführt wird, sucht die Haltungsübergang-Mechanismuseinheit 53 einen Weg vom Knoten 2, der die Haltung des „ausgestreckten Liegens" angibt, zum Knoten 4, der die Haltung des „Laufens" angibt, im gerichteten Graphen. In diesem Fall besteht der erzielte Pfad bzw. Weg aus dem Knoten 2, der die Haltung des „ausgestreckten Liegens" angibt, dem Knoten 3, der die Haltung des „Stehens" angibt, und dem Knoten 4, der die Haltung des „Laufens" angibt, so dass die Haltungsübergang-Mechanismuseinheit 53 eine Haltungsübergangsinformation in der Reihenfolge „Stehen" und „Laufen" erzeugt, die zu der Steuerungs-Mechanismuseinheit 54 übertragen wird.
  • Die Steuerungs-Mechanismuseinheit 54 erzeugt Steuerungssignale für den Antrieb der Aktoren 3AA1 bis 5A1 und 5A2 entsprechend der Haltungsübergangsinformation von der Haltungsübergang-Mechanismuseinheit 53, und sie überträgt diese Information zu den Aktoren 3AA1 bis 5A1 und 5A2 . Somit werden die Aktoren 3AA1 bis 5A1 und 5A2 entsprechend den Steuerungssignalen angetrieben, und der Roboter arbeitet in einer autonomen Weise.
  • Anschließend wird auf 8 Bezug genommen, die ein Beispiel für den Aufbau der in 3 gezeigten Spracherkennungseinheit 50A veranschaulicht.
  • Audiosignale vom Mikrofon 15 werden einer A/D-(Analog/Digital)-Umsetzeinheit 21 zugeführt. In der A/D-Umsetzeinheit 21 werden die analogen Sprachsignale vom Mikrofon 15 abgetastet und quantisiert sowie einer A/D-Umsetzung in digitale Sprachsignaldaten unterzogen. Diese Sprachdaten werden einer Charakteristiken- bzw. Kenndaten-Extraktionseinheit 22 zugeführt.
  • Die Charakteristiken-Extraktionseinheit 22 führt für jeden geeigneten Rahmen von eingangsseitigen Sprachdaten beispielsweise eine MFCC-Analyse (d.h. eine Mel-Frequenz-Cepstrum-Koeffizienten-Analyse) durch und gibt die Analyseergebnisse an die Abstimmungs- bzw. Vergleichseinheit 23 als Charakteristik-Parameter (Charakteristik-Vektoren) ab. Nebenbei sei angemerkt, dass in der Charakteristiken-Extraktionseinheit 22 eine Charakteristiken-Extraktion in anderer Weise ausgeführt werden kann, wie eine Extraktion von linearen Prädiktionskoeffizienten, von Cepstrum-Koeffizienten, von Linien-Spektrumsätzen, der Leistung für bestimmte Frequenzbänder (Filterbank-Ausgangssignal), etc. als charakteristische Parameter.
  • Außerdem extrahiert die Charakteristiken-Extraktionseinheit 22 eine Tonhöheninformation aus den ihr eingangsseitig zugeführten Sprachdaten. Dies heißt, dass die Charakteristiken-Extraktionseinheit 22 beispielsweise eine Autokorrelationsanalyse z.B. bezüglich der Sprachdaten ausführt, um dadurch eine Tonhöheninformation und dgl. bezüglich der Tonhöhenfrequenz, Leistung (Amplitude), Intonation, etc. der dem Mikrofon 15 eingangsseitig gelieferten Sprache zu extrahieren.
  • Die Vergleichseinheit 23 führt eine Spracherkennung der dem Mikrofon 15 eingangsseitig zugeführten Sprache (das ist die Eingangssprache) unter Heranziehung der Charakteristiken-Parameter von der Charakteristiken-Extraktionseinheit 22 auf der Grundlage beispielsweise eines kontinuierlichen Verteilungs-HMM-(verborgenes Markov-)Modells durch, während auf die Akustikmodell-Speichereinheit 24, die Wörterbuch-Speichereinheit 25 und die Grammatik-Speichereinheit 26 ggf. Bezug genommen wird.
  • Dies heißt, dass die Akustikmodell-Speichereinheit 24 Akustikmodelle speichert, die akustische Charakteristiken, wie individuelle Phoneme und Silben in der Sprache darstellen, welche einer Spracherkennung zu unterziehen ist. Hier wird die Spracherkennung auf der Grundlage des kontinuierlichen Verteilungs-HMM-Verfahrens durchgeführt, womit das verborgene Markov-Modell (HMM) als Akustikmodell genutzt wird. Die Wörterbuch-Speichereinheit 25 speichert Wortverzeichnisse, welche eine Information bezüglich der Aussprache (das ist die Phoneminformation) für jedes zu erkennende Wort beschreiben. Die Grammatik-Speichereinheit 26 speichert Satzbauten, welche die Art und Weise beschreiben, in der jedes Wort in dem Wortverzeichnis der Wörterbuch-Speichereinheit 25 verknüpft (verbunden) registriert ist. Der hier benutzte Satzbau bzw. die hier benutzte Syntax kann durch Regeln gegeben sein, die auf einer Kontext-freien Grammatik (CFG), einer stochastischen Wortverknüpfungswahrscheinlichkeit (N-Gramm) usw. basieren.
  • Die Vergleichseinheit 23 verbindet die in der Akustikmodell-Speichereinheit 24 gespeicherten Akustikmodelle durch Bezugnahme auf die in der Wörterbuch-Speichereinheit 25 gespeicherten Wortverzeichnisse, wodurch Wort-Akustikmodelle (Wortmodelle) konfiguriert werden. Ferner verbindet die Vergleichseinheit 23 eine Vielzahl von Wortmodellen durch Bezugnahme auf die in der Grammatik-Speichereinheit 26 gespeicherten Satzbauten und sie erkennt die von dem Mikrofon 15 her eingegebene Sprache unter Heranziehung der so verbundenen Wortmodelle auf der Grundlage der Charakteristiken-Parameter durch das kontinuierliche Verteilungs-HMM-Modell.
  • Dies heißt, dass die Vergleichseinheit 23 eine Wortmodellfolge mit der höchsten Punktzahl (Wahrscheinlichkeit) aus der Beobachtung der zeitlichen Folge von Charakteristiken-Parametern ermittelt, die durch die Charakteristiken-Extraktionseinheit 22 abgegeben sind. Die Phoneminformation (Lesen) der Wortfolge, welche mit der Wortmodellfolge bzw. -sequenz korreliert, wird als Spracherkennungsergebnisse abgegeben.
  • Dies heißt, dass die Vergleichseinheit 23 die Wahrscheinlichkeit des Auftauchens jedes der Charakteristiken-Parameter bezüglich der den verbundenen Wortmodellen entsprechenden Wortfolgen akkumuliert und mit dem akkumulierten Wert als Trefferzahl davon die Phoneminformation der Wortfolge mit der höchsten Trefferzahl von den Spracherkennungsergebnissen abgibt.
  • Ferner gibt die Vergleichseinheit 23 die Trefferzahl der Spracherkennungsergebnisse als Zuverlässigkeitsinformation ab, die die Zuverlässigkeit der Spracherkennungsergebnisse darstellt.
  • Außerdem ermittelt die Vergleichseinheit 23 die Dauer jedes Phonems und Wortes, die die Spracherkennungsergebnisse bilden, die zusammen mit der Bewertungs- bzw. Punktwertberechnung erhalten sind, wie dies oben beschrieben worden ist, und sie gibt diese Ergebnis als Phoneminformation der dem Mikrofon 15 eingangsseitig zur Verfügung gestellten Sprache ab.
  • Die Erkennungsergebnisse der dem Mikrofon 15 zugeführten Sprache, die Phoneminformation und die Zuverlässigkeitsinformation, die wie oben beschrieben abgegeben werden, werden der Emotions-/Instinkt-Modelleinheit 51 und der Aktionsbestimmungs-Mechanismuseinheit 52 als Zustandserkennungsinformation zugeführt.
  • Die Spracherkennungseinheit 50A, die so aufgebaut ist, wie dies oben beschrieben worden ist, wird einer Steuerung durch die Spracherkennungsverarbeitung auf der Grundlage des Zustands von Emotionen und Instinkten des Roboters unterzogen, und zwar geleitet durch die Emotions-/Instinkt-Modelleinheit 51. Dies bedeutet, dass der Zustand der Emotionen und Instinkte des durch die Emotions-/Instinkt-Modelleinheit 51 geleiteten Roboters an die Charakteristiken-Extraktionseinheit 22 und die Vergleicheinheit 23 abgegeben wird, wobei die Charakteristiken-Extraktionseinheit 22 und die Vergleichseinheit 23 die Verarbeitungsinhalte auf der Grundlage des ihnen zugeführten Zustands von Emotionen und Instinkten des Roboters ändern.
  • Genauer gesagt wird, wie dies im Flussdiagramm von 9 veranschaulicht ist, die Aktionsbefehlfsinformation beim Schritt S1 empfangen, nachdem die die Spracherkennungsverarbeitung anweisende Aktionsbefehlsinformation von der Aktionsbestimmungs-Mechanismuseinheit 52 übertragen ist. Die die Spracherkennungseinheit 50A bildenden Blöcke werden in einen aktiven Zustand gesetzt. Damit ist die Spracherkennungseinheit 50A in einen Zustand versetzt, in welchem sie im Stande ist, die Sprache anzunehmen, die in das Mikrofon 15 eingegeben worden ist.
  • Im Übrigen können die die Spracherkennungseinheit 50A bildenden Blöcke zu allen Zeiten in einen aktiven Zustand gesetzt sein. In diesem Fall kann beispielsweise eine Anordnung gebildet sein, bei der die Verarbeitung vom Schritt S2 in 9 in der Spracherkennungseinheit 50A jedes Mal gestartet wird, wenn sich der Zustand von Emotionen und Instinkten des durch die Emotions-/Instinkt-Modelleinheit 51 geleiteten Roboters ändert.
  • Anschließend erkennen die Charakteristiken-Extraktionseinheit 22 und die Vergleichseinheit 23 den Zustand von Emotionen und Instinkten des Roboters durch Bezugnahme auf die Emotions-/Instinkt-Modelleinheit 51 beim Schritt S2, und der Ablauf geht weiter zum Schritt S3. Beim Schritt S3 legt die Vergleichseinheit 23 die für die oben beschriebene Bewertungsberechnung (Vergleich) zu verwendenden Wortverzeichnisse auf der Grundlage des Zustands von Emotionen und Instinkten fest.
  • Dies bedeutet hier, dass die Wörterbuch-Speichereinheit 25 die Wörter, die das Ziel der Erkennung sind, in mehrere Kategorien aufteilt und eine Vielzahl von Wortverzeichnissen mit für die jeweilige Kategorie registrierten Wörtern speichert. Beim Schritt S3 werden für eine Spracherkennung zu benutzende Wortverzeichnisse auf der Grundlage des Zustands von Emotionen und Instinkten des Roboters festgelegt.
  • Genauer gesagt wird in dem Fall, dass es ein Wortverzeichnis mit dem Wort „Hände geben" gibt, welches in der Wörterbuch-Speichereinheit 25 registriert ist, und dass außerdem darin ein Wortverzeichnis ohne das Wort „Hände geben" registriert ist, sowie in dem Fall, dass der Zustand der Emotion des Roboters „freundlich" repräsentiert, das Wortverzeichnis mit dem darin registrierten Wort „Hände geben" für die Spracherkennung herangezogen. In dem Fall, dass der Emotionszustand des Roboters „zuwiderlaufend" repräsentiert, wird das Wortverzeichnis, in welchem das Wort „Hände geben" nicht registriert ist, für die Spracherkennung herangezogen. Demgemäß wird in dem Fall, dass der Emotionszustand des Roboters freundlich ist, die Redewendung bzw. Sprache „Hände geben" erkannt, und die Spracherkennungsergebnisse hiervon werden der Aktionsbestimmungs-Mechanismuseinheit 52 zugeführt, wodurch der Roboter veranlasst wird, eine der Sprache bzw. Redewendung „Hände geben" entsprechende Aktion, wie oben beschrieben, vorzunehmen. Demgegenüber wird in dem Fall, dass die Ergebnisse zeigen, dass es dem Roboter zuwider ist, die Redewendung bzw. Sprache „Hände geben" nicht erkannt (oder in fehlerhafter Weise erkannt), weshalb der Roboter darauf eine Antwort gibt (oder Aktionen unternimmt, die zur Sprache bzw. Redewendung „Hände geben" ohne Beziehung ist).
  • Nebenbei sei angemerkt, dass die Anordnung hier so ist, dass eine Vielzahl von Wortverzeichnissen errichtet wird und dass die für eine Spracherkennung heranzuziehenden Wortverzeichnisse auf der Grundlage des Zustands von Emotionen und Instinkten des Roboters ausgewählt werden; andere Anordnungen können jedoch erstellt werden, wie beispielsweise eine Anordnung, bei der lediglich ein Wortverzeichnis vorgesehen ist und bei der Wörter, die als Ziel einer Spracherkennung dienen, aus dem Wortverzeichnis auf der Grundlage des Zustands von Emotionen und Instinkten des Roboters ausgewählt werden.
  • Auf die Verarbeitung gemäß dem Schritt S3 folgend geht der Ablauf weiter zum Schritt S4, und die Charakteristiken-Extraktionseinheit 22 sowie die Vergleichseinheit 23 legen die für eine Spracherkennungsverarbeitung heranzuziehenden Parameter (d.h. Erkennungsparameter) auf der Grundlage des Zustands von Emotionen und Instinkten des Roboters fest.
  • Dies heißt, dass beispielsweise in dem Fall, dass der Emotionszustand des Roboters „ärgerlich" angibt oder dass der Instinktzustand des Roboters „schläfrig" angibt, die Charakteristiken-Extraktionseinheit 22 und die Vergleichseinheit 23 die Erkennungsparameter so festlegen, dass sich die Spracherkennungsgenauigkeit verschlechtert. Andererseits werden in dem Fall, dass der Emotionszustand des Roboters „freundlich" angibt, die Charakteristiken-Extraktionseinheit 22 und die Vergleichseinheit 23 die Erkennungsparameter so festlegen, dass die Spracherkennungsgenauigkeit verbessert ist.
  • Nunmehr enthalten die Erkennungsparameter, welche die Spracherkennungsgenauigkeit beeinflussen, beispielsweise Schwellwerte, die mit der in das Mikrofon 15 eingegebenen Sprache verglichen werden und die bei der Ermittlung von Sprechabschnitten, usw. herangezogen werden.
  • Anschließend geht der Ablauf weiter zum Schritt S5, bei dem die in das Mikrofon 15 eingegebene Sprache in der Charakteris tiken-Extraktionseinheit 22 über die A/D-Umsetzeinheit 21 aufgenommen wird, und der Ablauf geht weiter zum Schritt S6. Beim Schritt S6 wird die oben beschriebene Verarbeitung in der Charakteristiken-Extraktionseinheit 22 und der Vergleichseinheit 23 unter den bei den Schritten S3 und S4 vorgenommenen Einstellungen bzw. Festlegungen ausgeführt, wodurch eine Spracherkennung der in das Mikrofon 15 eingegebenen Sprache ausgeführt wird. Sodann geht der Ablauf weiter zum Schritt S7, und die Phoneminformation, die Tonhöheninformation und die Zuverlässigkeitsinformation, welche die durch Verarbeitung beim Schritt S6 erzielten Spracherkennungsergebnisse sind, werden an die Emotions-/Instinkt-Modelleinheit 51 und die Aktionsbestimmungs-Mechanismuseinheit 52 als Zustandserkennungsinformation abgegeben, und die Verarbeitung ist beendet.
  • Auf den Empfang einer derartigen Zustandserkennungsinformation von der Spracherkennungseinheit 50A her ändert die Emotions-/Instinkt-Modelleinheit 51 die Werte des Emotionsmodells und des Instinktmodells, wie dies anhand von 5 beschrieben worden ist, auf der Grundlage der Zustandserkennungsinformation. Dadurch werden der Zustand von Emotionen und der Zustand von Instinkten des Roboters geändert.
  • Dies heißt, dass beispielsweise in dem Fall, dass die Phoneminformation, die als Spracherkennungsergebnis dient, in der Zustandserkennungsinformation „Dummkopf!" lautet, die Emotions-/Instinkt-Modelleinheit 51 den Wert der Emotionseinheit 60C für „Ärger" steigert. Außerdem ändert die Emotions-/Instinkt-Modelleinheit 51 die Werte der durch die Steigerungs-/Verringerungsfunktionen 65A bis 65C abgegebenen Information auf der Grundlage der Tonhöhenfrequenz, die als Phoneminformation in der Zustandserkennungsinformation dient, sowie der Leistung und Dauer davon, wodurch die Werte des Emotionsmodells und des Instinktmodells geändert werden.
  • Außerdem steigert die Emotions-/Instinkt-Modelleinheit 51 in dem Fall, dass die Zuverlässigkeitsinformation in der Zu standserkennungsinformation angibt, dass die Zuverlässigkeit der Spracherkennungsergebnisse niedrig ist, den Wert der Emotionseinheit 60B beispielsweise auf „Traurigkeit". Andererseits steigert die Emotions-/Instinkt-Modelleinheit 51 in dem Fall, dass die Zuverlässigkeitsinformation in der Zustandserkennungsinformation angibt, dass die Zuverlässigkeit der Spracherkennungsergebnisse hoch ist, den Wert der Emotionseinheit 60A beispielsweise auf „Fröhlichkeit".
  • Auf den Empfang der Zustandserkennungsinformation von der Spracherkennungseinheit 50A her bestimmt die Aktionsbestimmungs-Mechanismuseinheit 52 die nächste Aktion des Roboters auf der Grundlage der Zustandserkennungsinformation und erzeugt eine Aktionsbefehlsinformation zur Darstellung der betreffenden Aktion.
  • Dies heißt, dass die Aktionsbestimmungs-Mechanismuseinheit 52 eine entsprechend der Phoneminformation der Spracherkennungsergebnisse in der Zustandserkennungsinformation entsprechende vorzunehmende Aktion festlegt, wie dies oben beispielsweise beschrieben worden ist (sie bestimmt beispielsweise, die Hände sich in dem Fall zu geben, dass die Spracherkennungsergebnisse „Hände schütteln" lauten).
  • In dem Fall, dass die Zuverlässigkeitsinformation in der Zustandserkennungsinformation angibt, dass die Zuverlässigkeit der Spracherkennungsergebnisse gering ist, legt die Aktionsbestimmungs-Mechanismuseinheit 52 die Vornahme einer Aktion fest, wie beispielsweise den Kopf anspannen oder bedauernd wirken. Andererseits legt die Aktionsbestimmungs-Mechanismuseinheit 52 in dem Fall, dass die Zuverlässigkeitsinformation in der Zustandserkennungsinformation angibt, dass die Zuverlässigkeit der Spracherkennungsergebnisse hoch ist, die Vornahme einer Aktion, wie beispielsweise das Nicken des Kopfes fest. In diesem Fall kann der Roboter dem Benutzer den Grad des Verständnisses der Sprache des Benutzers anzeigen.
  • Anschließend werden Aktionsinformationen, die die Inhalte der aktuellen oder vergangenen Aktionen des Roboters anzeigen, von der Aktionsbestimmungs-Mechanismuseinheit 52 an die Spracherkennungseinheit 50A abgegeben, wie dies oben beschrieben worden ist; die Spracherkennungseinheit 50A kann so ausgelegt bzw. angeordnet sein, dass eine Steuerung der Spracherkennungsverarbeitung auf der Grundlage der Aktionsinformationen ausgeführt wird. Dies bedeutet, dass die von der Aktionsbestimmungs-Mechanismuseinheit 52 abgegebene Aktionsinformation der Charakteristiken-Extraktionseinheit 22 und der Vergleichseinheit 23 zugeführt wird; die Charakteristiken-Extraktionseinheit 22 und die Vergleichseinheit 23 können so angeordnet bzw. ausgelegt sein, dass die Verarbeitungsinhalte auf der Grundlage der ihnen zugeführten Aktionsinformationen geändert werden.
  • Genauer gesagt wird, wie dies in dem Flussdiagramm von 10 veranschaulicht ist, auf eine Aktionsbefehlsinformation hin, die die Übertragung der Spracherkennungsverarbeitung von der Aktionsbestimmungs-Mechanismuseinheit 52 anweist, die Aktionsbefehlsinformation in der Spracherkennungseinheit 50A beim Schritt S11 in derselben Weise empfangen wie jene beim Schritt S1 in 9; die die Spracherkennungseinheit 50A bildenden Blöcke werden in einen aktiven Zustand ver- bzw. gesetzt.
  • Im Übrigen können, wie oben beschrieben, die die Spracherkennungseinheit 50A bildenden Blöcke zu allen Zeiten in einen aktiven Zustand gesetzt sein. In diesem Fall kann beispielsweise eine Anordnung gebildet sein, bei der die Verarbeitung vom Schritt S12 in 10 in der Spracherkennungseinheit 50A jedes Mal begonnen wird, wenn sich die von der Aktionsbestimmungs-Mechanismuseinheit 52 abgegebene Aktionsinformation ändert.
  • Anschließend nehmen die Charakteristiken-Extraktionseinheit 22 und die Vergleichseinheit 23 beim Schritt S12 Bezug auf die von der Aktionsbestimmungs-Mechanismuseinheit 52 abgegebene Aktionsinformation, und der Ablauf geht weiter zum Schritt S13. Beim Schritt S13 legt die Vergleichseinheit 23 die für die oben beschriebene Bewertungsberechnung (Vergleich) zu verwendenden Wortverzeichnisse auf der Grundlage der Aktionsinformation fest.
  • Dies heißt beispielsweise, dass es in dem Fall, dass die Aktionsinformation die gegenwärtige Aktion mit „Sitzen" oder „auf der Seite liegen" verkörpert, grundsätzlich unvorstellbar ist, dass der Benutzer dem Roboter sagen würde „Sitz!". Demgemäß legt die Vergleichseinheit 23 die Wortverzeichnisse der Wörterbuch-Speichereinheit 25 so fest, dass das Wort „Sitz!" vom Gegenstand der Spracherkennung in dem Fall ausgeschlossen ist, dass die Aktionsinformation den aktuellen Zustand mit „Sitzen" oder „auf der Seite liegen" darstellt. In diesem Falle erfolgt keine Sprach- bzw. Sprecherkennung bezüglich der Redewendung „Sitz!". Ferner ist in diesem Fall die Anzahl der Wörter, die Gegenstand der Spracherkennung sind, verringert, wodurch erhöhte Verarbeitungsgeschwindigkeiten und eine verbesserte Erkennungsgenauigkeit ermöglicht sind.
  • Auf die Verarbeitung gemäß dem Schritt S13 folgend geht der Ablauf weiter zum Schritt S14, und die Charakteristiken-Extraktionseinheit 22 sowie die Vergleichseinheit 23 legen die für eine Spracherkennungsverarbeitung heranzuziehenden Parameter (das sind Erkennungsparameter) auf der Grundlage der Aktionsinformation fest.
  • Dies heißt, dass beispielsweise in dem Fall, dass die Aktionsinformation „Laufen" verkörpert, die Charakteristiken-Extraktionseinheit 22 und die Vergleichseinheit 23 die Erkennungsparameter so festlegen, dass der Genauigkeit bzw. Präzision gegenüber der Verarbeitungsgeschwindigkeit Priorität gegeben wird, und zwar im Vergleich zu Fällen, in denen die Aktionsinformation beispielsweise „Sitzen" oder „ausgestreckt liegen" verkörpert.
  • Andererseits werden in dem Fall, dass die Aktionsinformation beispielsweise „Sitzen" oder „ausgestreckt liegen" darstellt, die Erkennungsparameter so festlegt, dass der Verarbeitungsgeschwindigkeit gegenüber der Genauigkeit Priorität gegeben wird, und zwar im Vergleich zu Fällen, in denen die Aktionsinformation beispielsweise „Laufen" darstellt.
  • In dem Fall, dass der Roboter läuft, ist der Geräuschpegel vom Antrieb der Aktoren 3AA1 bis 5A1 bis 5A2 höher als im Falle des Sitzens oder ausgestreckten Liegens, wobei sich die Genauigkeit der Spracherkennung generell auf Grund der Auswirkungen des Geräuschs verschlechtert. Somit ermöglicht die Festlegung der Erkennungsparameter in der Weise, dass der Genauigkeit gegenüber der Verarbeitungsgeschwindigkeit in dem Fall Priorität gegeben wird, dass der Roboter läuft, eine Verschlechterung der Spracherkennungsgenauigkeit auf Grund des Geräuschs zu verhindern (zu reduzieren).
  • Andererseits gibt es in dem Fall, dass der Roboter sitzt oder ausgestreckt liegt, kein Geräusch von den obigen Aktoren 3AA1 bis 5A1 und 5A2 , weshalb es keine Verschlechterung der Spracherkennungsgenauigkeit in Folge des Antriebsgeräusches gibt. Demgemäß ermöglicht eine solche Festlegung der Erkennungsparameter, gemäß der der Verarbeitungsgeschwindigkeit gegenüber der Genauigkeit in dem Fall Priorität eingeräumt ist, dass der Roboter sitzt oder ausgestreckt liegt, die Verarbeitungsgeschwindigkeit der Spracherkennung zu verbessern, während eine gewisse Höhe der Spracherkennungsgenauigkeit aufrecht erhalten wird.
  • Hinsichtlich der Erkennungsparameter, die die Genauigkeit und die Verarbeitungsgeschwindigkeit der Spracherkennung beeinflussen, gibt es nun beispielsweise den hypothetischen Bereich im Falle der Beschränkung des Bereiches, der als Ziel der Bewertungsberechnung nach der Strahlsuchmethode in der Vergleichseinheit 23 (das ist die Strahlbreite für die Strahlsuche), usw. dient.
  • Anschließend geht der Ablauf weiter zum Schritt S15; die in das Mikrofon 15 eingegebene Sprache wird in der Charakteristiken-Extraktionseinheit 22 über die A/D-Umsetzeinheit 21 übernommen, und der Ablauf geht weiter zum Schritt S16. Beim Schritt S16 wird die oben beschriebene Verarbeitung in der Charakteristiken-Extraktionseinheit 22 und der Vergleichseinheit 23 unter den bei den Schritten S13 und S14 vorgenommenen Einstellungen ausgeführt, wodurch eine Spracherkennung der in das Mikrofon 15 eingegebenen Sprache ausgeführt wird. Sodann geht der Ablauf weiter zum Schritt S17, und es werden die Phoneminformation, die Tonhöheninformation und die Zuverlässigkeitsinformation, bei denen es sich um die Spracherkennungsergebnisse handelt, welche durch die Verarbeitung beim Schritt S16 erhalten werden bzw. worden sind, an die Emotions-/Instinkt-Modelleinheit 51 und die Aktionsbestimmungs-Mechanismuseinheit 52 als Zustandserkennungsinformation abgegeben, und die Verarbeitung ist beendet.
  • Auf den Empfang einer derartigen Zustandserkennungsinformation von der Spracherkennungseinheit 50A her ändern die Emotions-/Instinkt-Modelleinheit 51 und die Aktionsbestimmungs-Mechanismuseinheit 52 die Werte des Emotionsmodells und des Instinktmodells, wie oben beschrieben, auf der Grundlage der Zustandserkennungsinformation und legen die nächste Aktion des Roboters fest.
  • Obwohl die obige Anordnung die Festlegung der Erkennungsparameter derart umfasst, dass der Genauigkeit gegenüber der Verarbeitungsgeschwindigkeit in dem Fall Priorität gegeben wird, dass der Roboter läuft, wird mit Rücksicht darauf, dass die Auswirkungen des Geräusches vom Antrieb der Aktoren 3AA1 bis 5A1 bis 5A2 eine Verschlechterung der Genauigkeit der Spracherkennung hervorrufen, dadurch eine Verschlechterung der Spracherkennungsgenauigkeit in Folge des Geräuschs verhindert; es kann jedoch eine Anordnung gebildet werden, bei der in dem Fall, dass der Roboter läuft, dieser veranlasst wird, kurzzei tig anzuhalten, um eine Spracherkennung vorzunehmen. Mit einer solchen Anordnung kann ebenso eine Verhinderung der Verschlechterung der Spracherkennungsgenauigkeit realisiert werden.
  • Anschließend wird auf 11 Bezug genommen, in der ein Beispiel für den Aufbau der in 3 dargestellten Sprachsyntheseeinheit 55 veranschaulicht ist.
  • Die Text enthaltende Aktionsbefehlsinformation, welche von der Aktionsbestimmungs-Mechanismuseinheit 52 abgegeben wird und welche Gegenstand einer Sprachsynthese ist, wird an die Texterzeugungseinheit 31 abgegeben. Die Texterzeugungseinheit 31 analysiert den in der Aktionsbefehlsinformation enthaltenen Text und nimmt Bezug auf die Wörterbuch-Speichereinheit 34 und die Analysier-Grammatik-Speichereinheit 35.
  • Dies bedeutet, dass in der Wörterbuch-Speichereinheit 34 Wortverzeichnisse gespeichert sind, die einen Teil der Sprachinformation für jedes Wort, das Lesen, die Akzentuierung und weitere Informationen darüber gespeichert aufweisen. Die Analysier-Grammatik-Speichereinheit 35 speichert analysierende Satzbauten in Bezug auf Einschränkungen von Wortkettungen und dgl. bezüglich der in den Wortverzeichnissen in der Wörterbuch-Speichereinheit 34 beschriebenen Wörter. Sodann führt die Texterzeugungseinheit 31 eine Morphemanalyse sowie eine Grammatikstrukturanalyse des Eingangstextes auf der Grundlage der Wortverzeichnisse und der Analysier-Satzbauten durch, und sie extrahiert die erforderlichen Informationen für die Regel-Sprachsynthese, die durch die letzte Regel-Syntheseeinheit 32 ausgeführt wird. Hier umfassen Beispiele von Informationen, die für eine Regel-Sprachsynthese erforderlich sind, Pausepositionen, eine Tonhöheninformation, wie einer Information zur Steuerung von Akzenten und der Intonation, eine Phoneminformation, wie die Aussprache und dergleichen des jeweiligen Wortes, usw.
  • Die in der Texterzeugungseinheit 31 erhaltene Information wird dann an die Regel-Syntheseeinheit 32 abgegeben, und in der Regel-Syntheseeinheit 32 werden Sprachdaten (digitale Daten) von synthetischen Klängen, die dem in der Texterzeugungseinheit 31 eingegebenen Text entsprechen, unter Heranziehung der Phonem-Speichereinheit 36 erzeugt.
  • Dies heißt, dass Phonemdaten in der Form von CV (Konsonant, Vokal), VCV, CVC, etc. in der Phonem-Speichereinheit 36 gespeichert werden, so dass die Regel-Syntheseeinheit 32 die erforderlichen Phonemdaten auf der Grundlage der Informationen von der Texterzeugungseinheit 31 verbindet und ferner Pausen, Akzente, eine Intonation, etc. in geeigneter Weise hinzufügt, wodurch Sprachdaten eines synthetischen Schalls entsprechend dem Text erzeugt werden, der in die Texterzeugungseinheit 31 eingegeben ist.
  • Die Sprachdaten werden der D/A-(Digital/Analog)-Umsetzeinheit 33 zugeführt und dort einer D/A-Umsetzung in analoge Sprachsignale unterzogen. Die Sprachsignale werden an den Lautsprecher 18 abgegeben, wodurch der synthetische Schall abgegeben wird, welcher dem in der Texterzeugungseinheit 31 erzeugten Text entspricht.
  • Die so aufgebaute bzw. konfigurierte Sprachsyntheseeinheit 55 empfängt die Lieferung von Aktionsbefehlsinformationen, die Text enthalten, der Gegenstand einer Sprachsynthese ist, von der Aktionsbestimmungs-Mechanismuseinheit 52, und außerdem erhält die betreffende Sprachsyntheseeinheit die Lieferung des Zustands von Emotionen und Instinkten von der Emotions-/Instinkt-Modelleinheit 51. Ferner enthält die betreffende Sprachsyntheseeinheit die Lieferung von Aktionsinformationen von der Aktionsbestimmungs-Mechanismuseinheit 52. Die Texterzeugungseinheit 31 und die Regel-Syntheseeinheit 32 führen eine Sprachsyntheseverarbeitung aus, bei der der Zustand von Emotionen und Instinkten sowie die Aktionsinformationen berücksichtigt werden.
  • Nunmehr wird unter Bezugnahme auf das Flussdiagramm gemäß 12 die Sprachsyntheseverarbeitung beschrieben, die ausgeführt wird, während der Zustand von Emotionen und Instinkten berücksichtigt wird.
  • An der Stelle bzw. zu dem Zeitpunkt, an der bzw. zu dem die Aktionsbestimmungs-Mechanismuseinheit 52 die Aktionsbefehlsinformation, welche den Text enthält, der Gegenstand der Sprachsynthese ist, an die Sprachsyntheseeinheit 55 abgibt, empfängt die Texterzeugungseinheit 31 beim Schritt S21 die Aktionsbefehlsinformation, und der Ablauf geht weiter zum Schritt S22. Beim Schritt S22 wird der Zustand von Emotionen und Instinkten des Roboters in der Texterzeugungseinheit 31 und der Regel-Syntheseeinheit 32 dadurch erkannt, dass auf die Emotions-/Instinkt-Modelleinheit 51 Bezug genommen wird, und der Ablauf geht weiter zum Schritt S23.
  • Beim Schritt S23 wird in der Texterzeugungseinheit 31 das für die Erzeugung des Textes, der tatsächlich als synthetischer Schall abzugeben ist (nachstehend auch als „Sprach- bzw. Sprechtext" bezeichnet), benutzte Vokabular (Sprachvokabular) von dem in der Aktionsbefehlsinformation von der Aktionsbestimmungs-Mechanismuseinheit 52 enthaltenen Text auf der Grundlage von Emotionen und Instinkten des Roboters festgelegt, und der Ablauf geht weiter zum Schritt S24. Beim Schritt S24 wird in der Texterzeugungseinheit 31 Sprachtext entsprechend dem in der Aktionsbefehlsinformation enthaltenen Text unter Heranziehung des beim Schritt S23 festgelegten Sprachvokabulars erzeugt.
  • Dies bedeutet, dass der in der Aktionsbefehlsinformation von der Aktionsbestimmungs-Mechanismuseinheit 52 enthaltene Text ein solcher Text ist, der eine Sprache bzw. ein Sprechen in einem Standardzustand von Emotionen und Instinkten voraussetzt. Beim Schritt S24 wird der Text unter Berücksichtigung des Zustands von Emotionen und Instinkten des Roboters korrigiert, und dadurch wird der Sprechtext erzeugt.
  • Genauer gesagt wird in dem Fall, dass der Text, welcher in der Aktionsbefehlsinformation enthalten ist, beispielsweise lautet „Was ist denn?", und dass der Emotionszustand des Roboters „ärgerlich" angibt, der Text als Sprechtext von „Ja, was?" erzeugt, um den Ärger auszudrücken. In dem Fall, dass der in der Aktionsbefehlseinheit enthaltene Text beispielsweise gegeben ist mit „Bitte stopp" und dass der Emotionszustand des Roboters mit „ärgerlich" gegeben ist, wird der Text als Sprechtext von „Hör damit auf!" erzeugt, um den Ärger zum Ausdruck zu bringen.
  • Sodann geht der Ablauf weiter zum Schritt S25, bei dem die Texterzeugungseinheit 31 eine Textanalyse des Sprach- bzw. Sprechtextes ausführt, wie eine Morphemanalyse und eine Grammatikstrukturanalyse; sie erzeugt eine Tonhöheninformation, wie eine Tonhöhenfrequenz, eine Leistung, Dauer, etc., die als Information dient, welche für die Ausführung einer Regel-Sprachsynthese bezüglich des Sprechtextes erforderlich ist. Ferner erzeugt die Texterzeugungseinheit 31 auch eine Phoneminformation, wie die Aussprache des jeweiligen Werkes, welches den Sprechtext bildet. Hier wird beim Schritt S25 eine Standard-Phoneminformation für die Phoneminformation des Sprechtextes erzeugt.
  • Anschließend korrigiert die Texterzeugungseinheit 31 beim Schritt S26 die Phoneminformation des Sprechtextes, der beim Schritt S25 festgelegt ist, auf der Grundlage des Zustands von Emotionen und Instinkten des Roboters. Dadurch werden dem Sprechtext als synthetischem Schall stärkere emotionale Ausdrücke zum Zeitpunkt der Sprechtextabgabe verliehen.
  • Die Einzelheiten der Beziehung zwischen der Emotion und der Sprache sind beispielsweise in „Conveyance of Paralinguistic Information by Speech: From the Perspective of Linguistics", MAEKAWA, Acoustical Society of Japan 1997 Fall Meeting Papers, Vol. 1-3-10, Seiten 381–384, September 1997, etc. beschrieben.
  • Die Phoneminformation und die Tonhöheninformation des in der Texterzeugungseinheit 31 erhaltenen Sprach- bzw. Sprechtextes werden der Regel-Syntheseeinheit 32 zugeführt. Beim Schritt S27 wird in der Regel-Syntheseeinheit 32 eine Regel-Sprachsynthese ausgeführt, die der Phoneminformation und der Tonhöheninformation folgt, wodurch digitale Daten des synthetischen Klanges des Sprechtextes erzeugt werden. Nunmehr werden in der Regel-Syntheseeinheit 32 außerdem die Tonhöhe, wie die Lage von Pausen, die Lage eines Akzents, einer Intonation, etc. des synthetischen Klanges derart geändert, um den Zustand von Emotionen und Instinkten des Roboters auf der Grundlage des Zustands von dessen Emotionen und Instinkten in geeigneter Weise zum Ausdruck zu bringen.
  • Die digitalen Daten des in der Regel-Syntheseeinheit 32 erhaltenen synthetischen Schalls werden der D/A-Umsetzeinheit 33 zugeführt. Beim Schritt S28 werden in der D/A-Umsetzeinheit 33 digitale Daten von der Regel-Syntheseeinheit 32 einer D/A-Umsetzung unterzogen und an den Lautsprecher 18 abgegeben, wodurch die Verarbeitung beendet ist. Somit wird synthetischer Schall des Sprech- bzw. Sprachtextes, der eine den Zustand von Emotionen und Instinkten des Roboters reflektierende Tonhöhe aufweist, von dem Lautsprecher 18 abgegeben.
  • Anschließend wird unter Bezugnahme auf das Flussdiagramm von 13 die Sprachsyntheseverarbeitung beschrieben, die unter Berücksichtigung der Aktionsinformation ausgeführt wird.
  • An dem Punkt bzw. Zeitpunkt, an bzw. zu dem die Aktionsbestimmungs-Mechanismuseinheit 52 die Aktionsbefehlsinformation, welche den Text enthält, der Gegenstand der Sprachsynthese ist, an die Sprachsyntheseeinheit 55 abgibt, empfängt die Texterzeugungseinheit 31 die Aktionsbefehlseinheit beim Schritt S31, und der Ablauf geht weiter zum Schritt S32. Beim Schritt S32 wird die gegenwärtige Aktion des Roboters in der Texterzeugungseinheit 31 und der Regel-Syntheseeinheit 32 dadurch bestätigt, dass auf die Aktionsinformation Bezug genommen wird, die von der Aktionsbestimmungs-Mechanismuseinheit 52 abgegeben wird. Der Ablauf geht weiter zum Schritt S33.
  • Beim Schritt S33 wird in der Texterzeugungseinheit 31 das Vokabular (Sprach- bzw. Sprechvokabular), welches für die Erzeugung des Sprechtextes herangezogen wird, aus dem Text festgelegt, der in der Aktionsbefehlsinformation von der Aktionsbestimmungs-Mechanismuseinheit 52 enthalten ist, und zwar auf der Grundlage der Aktionsinformation; der Sprechtext, welcher dem in der Aktionsbefehlsinformation enthaltenen Text entspricht, wird unter Heranziehung des Sprech- bzw. Sprachvokabulars erzeugt.
  • Sodann geht der Ablauf weiter zum Schritt S34; die Texterzeugungseinheit 31 führt eine Morphemanalyse und eine Grammatikstruktur-Analyse des Sprechtextes durch und erzeugt eine Tonhöheninformation, wie eine Tonhöhenfrequenz, eine Leistung, Dauer, etc., die als Information dient, welche für die Ausführung einer Regel-Sprachsynthese bezüglich des Sprechtextes erforderlich ist. Ferner erzeugt die Texterzeugungseinheit 31 auch eine Phoneminformation, wie die Aussprache des den Sprechtext bildenden jeweiligen Werkes. Auch hier beim Schritt S34 wird eine Standard-Tonhöheninformation für die Tonhöheninformation des Sprechtextes in derselben Weise erzeugt wie beim Schritt S25 gemäß 12.
  • Anschließend korrigiert die Texterzeugungseinheit 31 beim Schritt S35 die Tonhöheninformation des beim Schritt S25 erzeugten Sprechtextes auf der Grundlage der Aktionsinformation.
  • Dies heißt, dass in dem Fall, dass der Roboter beispielsweise läuft, ein Geräusch vom Antrieb der Aktoren 3AA1 bis 5A1 und 5A2 vorhanden ist, wie dies oben beschrieben worden ist. Demgegenüber ist in dem Fall, dass der Roboter sitzt oder ausge streckt liegt, kein derartiges Geräusch vorhanden. Demgemäß ist der synthetisierte Schall in dem Fall schwerer zu hören, dass der Roboter läuft, und zwar im Vergleich zu Fällen, in denen der Roboter sitzt oder ausgestreckt liegt.
  • Somit wird in dem Fall, dass die Aktionsinformation angibt, dass der Roboter läuft, durch die Texterzeugungseinheit 31 die Tonhöheninformation derart korrigiert, dass die Sprechgeschwindigkeit des synthetischen Schalles verlangsamt oder dessen Leistung gesteigert wird, wodurch der synthetische Schall leichter verständlich gemacht wird.
  • Bei anderen Anordnungen kann eine Korrektur beim Schritt S35 vorgenommen werden, so dass der Tonhöhenfrequenzwert in Abhängigkeit davon differiert, ob die Aktionsinformation anzeigt, dass der Roboter auf der Seite liegt oder steht.
  • Die Phoneminformation und die Tonhöheninformation des in der Texterzeugungseinheit 31 erhaltenen Sprechtextes werden der Regel-Syntheseeinheit 32 zugeführt, und beim Schritt S36 wird in der Regel-Syntheseeinheit 32 eine Regel-Sprachsynthese der Phoneminformation und der Tonhöheninformation folgend ausgeführt, wodurch digitale Daten des synthetischen Schalles des Sprechtextes erzeugt werden. Nunmehr wird auch in der Regel-Syntheseeinheit 32 die Position einer Pause, die Position eines Akzentes, einer Intonation, etc. des synthetischen Schalles ggf. zur Zeit der Regel-Sprachsynthese geändert.
  • Die digitalen Daten des synthetischen Schalles, die in der Regel-Syntheseeinheit 32 erhalten werden, werden der D/A-Umsetzeinheit 33 zugeführt. Beim Schritt S37 werden in der D/A-Umsetzeinheit 33 digitale Daten von der Regel-Syntheseeinheit 32 einer D/A-Umsetzung unterzogen und an den Lautsprecher 18 abgegeben. Damit ist die Verarbeitung beendet.
  • Im Übrigen können im Falle der Erzeugung eines synthetischen Schalles in der Sprachsyntheseeinheit 55 unter Berücksichti gung des Zustands von Emotionen und Instinkten die Aktionsinformation, das Ausgangssignal eines derartigen synthetischen Schalles und die Aktionen des Roboters in einer Weise synchronisiert sein.
  • Dies heißt beispielsweise, dass in dem Fall, dass der Emotionszustand „nicht ärgerlich" darstellt und dass der synthetische Schall „Was ist?" unter Berücksichtigung des Emotionszustands abzugeben ist, der Roboter veranlasst werden kann, den Benutzer in einer mit der Abgabe des synthetischen Schalles synchronen Weise anzusehen. Andererseits kann beispielsweise in dem Fall, dass der Emotionszustand „ärgerlich" darstellt und dass der synthetische Schall „Ja, was?" unter Berücksichtigung des Emotionszustandes abgegeben wird, der Roboter in einer mit der Abgabe des synthetischen Schalles synchronen Weise wegschauen.
  • Außerdem kann eine Anordnung gebildet sein, bei der in dem Fall, dass der synthetische Schall „Was ist?" abgegeben wird, der Roboter veranlasst wird, mit normaler Geschwindigkeit zu handeln bzw. reagieren, und bei der in dem Fall, dass der synthetische Schall „Ja, was?" abgegeben wird, der Roboter veranlasst wird, mit einer geringeren Geschwindigkeit als der normalen Geschwindigkeit zu reagieren bzw. zu handeln, und zwar in einer mürrischen und unwilligen Art.
  • In diesem Fall kann der Roboter Emotionen gegenüber dem Benutzer durch Bewegungen und synthetischen Schall ausdrücken.
  • Ferner wird in der Aktionsbestimmungs-Mechanismuseinheit 52 die nächste Aktion auf der Grundlage eines Aktionsmodells bestimmt, welches durch einen endlichen Automaten, wie in 6 gezeigt, dargestellt ist, und der Inhalt des Textes, der als synthetischer Schall abgegeben wird, kann mit dem Übergang des Zustands in dem Aktionsmodell gemäß 6 korreliert werden.
  • Dies heißt, dass beispielsweise im Falle der Vornahme eines Übergangs von dem der Aktion „Sitzen" entsprechenden Zustand in den der Aktion „Stehen" entsprechenden Zustand ein Text, wie „Dann mal los!" damit korreliert werden kann. In diesem Fall kann im Falle der Vornahme eines Übergangs durch den Roboter aus einer sitzenden Position in eine stehende Position der synthetische Schall „Dann mal los!" in einer mit dem Positionsübergang synchronen Weise abgegeben werden.
  • Wie oben beschrieben, kann ein Roboter mit einem hohen Unterhaltungswert bzw. -gehalt dadurch bereitgestellt werden, dass die Sprachsyntheseverarbeitung und die Spracherkennungsverarbeitung auf der Grundlage des Zustands des Roboters gesteuert werden.
  • 14 veranschaulicht ein Beispiel für den Aufbau der Bilderkennungseinheit 50B, welche die in 3 dargestellte Sensor-Eingangsverarbeitungseinheit 50 bildet.
  • Von der CCD-Kamera abgegebene Bildsignale werden der A/D-Umsetzeinheit 41 zugeführt und dort einer A/D-Umsetzung unterzogen, wodurch sie zu digitalen Bilddaten werden. Diese digitalen Bilddaten werden der Bildverarbeitungseinheit 42 zugeführt. In der Bildverarbeitungseinheit 42 wird bezüglich der Bilddaten von der A/D-Umsetzeinheit 41 eine bestimmte Bildverarbeitung, wie beispielsweise eine DCT-Verarbeitung (diskrete Cosinus-Transformationsverarbeitung) und dgl. ausgeführt, und die betreffenden Daten werden der Erkennungs-Auswertungseinheit 43 zugeführt.
  • Die Erkennungs-Auswertungseinheit 43 berechnet den Abstand zwischen jedem der in einer Vielzahl in der Bildmuster-Speichereinheit 44 gespeicherten Bildmuster und dem Ausgangssignal der Bildverarbeitungseinheit 42; sie ermittelt das Bildmuster mit dem geringsten Abstand. Sodann erkennt die Erkennungs-Auswertungseinheit 43 das mittels der CCD-Kamera 16 aufgenommene Bild und gibt die Erkennungsergebnisse als Zu standserkennungsinformation an die Emotions-/Instinkt-Modelleinheit 51 und die Aktionsbestimmungs-Mechanismuseinheit 52 auf der Grundlage des ermittelten Bildmusters ab.
  • Der in dem Blockdiagramm gemäß 3 dargestellte Aufbau wird nunmehr durch die Steuerungsprogramme ausführende CPU 10A realisiert, wie dies oben beschrieben worden ist. Unter nunmehriger Berücksichtigung allein der Leistung der CPU 10A (nachstehend auch einfach als „CPU-Leistung" bezeichnet) als Ressource, die zur Realisierung der Spracherkennungseinheit 50A erforderlich ist, wird die CPU-Leistung einzig durch Hardware festgelegt, die für die CPU 10A verwendet ist, und die Verarbeitungsmenge (die Verarbeitungsmenge pro Zeiteinheit), die durch die CPU-Leistung ausgeführt werden kann, wird ebenfalls einzig festgelegt.
  • Andererseits gibt es bei der durch die CPU 10A auszuführenden Verarbeitung eine Verarbeitung, die mit Priorität gegenüber der Spracherkennungsverarbeitung (nachstehend auch als „Prioritäts-Verarbeitung" bezeichnet) ausgeführt werden sollte, und demgemäß nimmt in dem Fall, dass die Last bzw. Belastung der CPU 10A für bzw. durch eine Prioritäts-Verarbeitung zunimmt, die CPU-Leistung ab, die an die Spracherkennungsverarbeitung angepasst werden kann.
  • Dies heißt, dass bei Angabe der Last bzw. Belastung der CPU 10A bezüglich der Prioritäts-Verarbeitung mit x% und bei Angabe der CPU-Leistung, die an die Spracherkennungsverarbeitung angepasst werden kann, mit y% die Beziehung zwischen x und y durch den Ausdruck x + y = 100%gegeben ist und so ist, wie dies in 15 veranschaulicht ist.
  • Demgemäß können in dem Fall, dass die Belastung für eine Prioritäts-Verarbeitung gegeben ist mit 0%, 100% der CPU-Leistung für eine Spracherkennungsverarbeitung aufgewendet werden. Au ßerdem kann in dem Fall, dass die Belastung bezüglich der Prioritäts-Verarbeitung gegeben ist mit S (0 < S < 100)%, 100 – S% der CPU-Leistung aufgewendet werden. Außerdem kann in dem Fall, dass die Belastung für eine Prioritäts-Verarbeitung 100% beträgt, keine CPU-Leistung für die Spracherkennungsverarbeitung aufgewendet werden.
  • In dem Fall, dass der Roboter beispielsweise läuft und die CPU-Leistung, die zur Verarbeitung für die Aktion „Laufen" (nachstehend auch als „Lauf-Verarbeitung" bezeichnet) aufgewendet wird, ungenügend ist, wird die Laufgeschwindigkeit langsam und im ungünstigsten Fall kann der Roboter das Laufen stoppen. Eine derartige Verlangsamung oder ein derartiges Anhalten während des Laufens ist für den Benutzer unnatürlich, weshalb hier die Forderung vorliegt, einen derartigen Zustand, falls überhaupt möglich, zu verhindern. Demgemäß kann gesagt werden, dass die Lauf-Verarbeitung, die ausgeführt wird, währenddessen der Roboter läuft, mit Priorität gegenüber der Spracherkennungsverarbeitung ausgeführt werden muss.
  • Dies heißt, dass in dem Fall, dass die gerade ausgeführte Verarbeitung durch die Spracherkennungsverarbeitung behindert wird, die ausgeführt wird, und dass die Bewegung des Roboters auf Grund dessen nicht mehr gleichmäßig ist, der Benutzer dies als unnatürlich empfinden wird. Demgemäß kann grundsätzlich festgestellt werden, dass die gerade ausgeführte Verarbeitung mit Priorität gegenüber der Spracherkennungsverarbeitung ausgeführt werden muss und dass die Spracherkennungsverarbeitung innerhalb eines Bereiches ausgeführt werden sollte, in welchem die gerade ausgeführte Verarbeitung nicht behindert ist.
  • Zu diesem Zweck ist die Aktionsbestimmungs-Mechanismuseinheit 52 so angeordnet bzw. ausgelegt, dass die Aktion erkannt wird, die gerade von dem Roboter unternommen wird, und dass die Spracherkennungsverarbeitung durch die Spracherkennungseinheit 50A gesteuert wird, und zwar auf der Grundlage der der Aktion entsprechenden Belastung.
  • Dies heißt, wie dies in dem Flussdiagramm gemäß 16 veranschaulicht ist, dass beim Schritt S41 die Aktionsbestimmungs-Mechanismuseinheit 52 die durch den Roboter unternommene Aktion auf der Grundlage des Aktionsmodells erkennt, welches er selbst verwaltet, und der Ablauf geht weiter zum Schritt S42. Beim Schritt S42 erkennt die Aktionsbestimmungs-Mechanismuseinheit 52 die Belastung bezüglich der Verarbeitung zur Fortsetzung der beim Schritt S41 erkannten aktuellen Aktion in derselben weise (d.h. Aufrechterhaltung der Aktion).
  • Nunmehr kann die der Verarbeitung für die Fortsetzung der gegenwärtigen Aktion entsprechende Belastung in derselben Weise durch bestimmte Berechnungen erzielt werden. Außerdem kann die Belastung dadurch erzielt werden, dass vorab eine Tabelle von Korrelationsaktionen und geschätzter CPU-Leistung zur Ausführung der den Aktionen entsprechenden Verarbeitung erstellt wird und dass auf die Tabelle Bezug genommen wird. Es sei darauf hingewiesen, dass ein geringerer Verarbeitungswert für die Tabelle als für die Berechnung erforderlich ist.
  • Auf die Erzielung der Belastung folgend, welche der Verarbeitung zur Fortsetzung der gegenwärtigen Aktion in derselben Weise entspricht, geht der Ablauf weiter zum Schritt S43; die Aktionsbestimmungs-Mechanismuseinheit 52 erhält die CPU-Leistung, die auf der Grundlage der Belastung für die Spracherkennungsverarbeitung aufgewendet werden kann, aus der in 15 veranschaulichten Beziehung. Ferner führt die Aktionsbestimmungs-Mechanismuseinheit 52 verschiedene Arten der Steuerung bezüglich der Spracherkennungsverarbeitung auf der Grundlage der CPU-Leistung durch, die für die Spracherkennungsverarbeitung aufgewendet werden kann. Der Ablauf kehrt zum Schritt S41 zurück, und anschließend wird dieselbe Verarbeitung wiederholt.
  • Dies heißt, dass die Aktionsbestimmungs-Mechanismuseinheit 52 die für die worterkennungsverarbeitung verwendeten Wortverzeichnisse auf der Grundlage der CPU-Leistung ändert bzw. wechselt, welche für die Spracherkennungsverarbeitung aufgewendet werden kann. Genauer gesagt werden in dem Fall, dass genügend CPU-Leistung für die Spracherkennungsverarbeitung aufgewendet werden kann, Einstellungen vorgenommen, so dass Wörterbücher mit einer größeren Anzahl von Wörtern, die darin registriert sind, für die Spracherkennungsverarbeitung herangezogen werden. Auch in dem Fall, dass für die Spracherkennungsverarbeitung nicht genügend CPU-Leistung aufgewendet werden kann, werden solche Einstellungen vorgenommen, dass Wörterbücher mit wenigen Wörtern, die darin registriert sind, für die Spracherkennung verwendet werden.
  • Ferner wird in dem Fall, dass praktisch keine CPU-Leistung für eine Spracherkennungsverarbeitung aufgewendet werden kann, durch die Aktionsbestimmungs-Mechanismuseinheit 52 die Spracherkennungseinheit 50A zum Schlafen gebracht (in einen Zustand, in welchem keine Spracherkennungsverarbeitung ausgeführt wird).
  • Außerdem veranlasst die Aktionsbestimmungs-Mechanismuseinheit 52 den Roboter, Aktionen entsprechend der CPU-Leistung auszuführen, die für eine Spracherkennungsverarbeitung aufgewendet werden kann.
  • Dies heißt, dass in dem Fall, dass praktisch keine CPU-Leistung für eine Spracherkennungsverarbeitung aufgewendet werden kann, oder in dem Fall, dass genügend CPU-Leistung dafür nicht aufgewendet werden kann, keine Spracherkennungsverarbeitung ausgeführt wird oder die Spracherkennungsgenauigkeit und die Verarbeitungsgeschwindigkeit verschlechtert sein können, was dem Benutzer einen unnatürlichen Eindruck vermittelt.
  • Demgemäß bewirkt in dem Fall, dass praktisch keine CPU-Leistung für eine Spracherkennungsverarbeitung aufgewendet werden kann, oder in dem Fall, dass dafür keine ausreichende CPU-Leistung aufgewendet werden kann, die Aktionsbestimmungs-Mechanismuseinheit 52, dass der Roboter teilnahmslose Aktionen oder Aktionen, wie das Anspannen des Kopfes vornimmt, um dadurch dem Benutzer zu melden, dass die Spracherkennung schwierig ist.
  • Ferner bewirkt in dem Fall, dass genügend CPU-Leistung für eine Spracherkennungsverarbeitung aufgewendet werden kann, die Aktionsbestimmungs-Mechanismuseinheit 52, dass der Roboter energiereiche Aktionen oder Aktionen, wie das Nicken des Kopfes, ausführt, um dadurch dem Benutzer zu melden, dass die Spracherkennung ausreichend verfügbar ist.
  • Zusätzlich zur Vornahme solcher Aktionen durch den Roboter, wie sie oben beschrieben worden sind, um dem Benutzer zu melden, ob eine Spracherkennungsverarbeitung verfügbar ist oder nicht, können Ausführungen vorgenommen werden, bei denen Spezialklänge, wie „Piep-Piep-Piep" oder „Klingel-Klingel-Klingel" oder bestimmte synthetische Schall- bzw. Klangnachrichten vom Lautsprecher 18 abgegeben werden.
  • Außerdem kann dem Benutzer in dem Fall, dass der Roboter über ein Flüssigkristallanzeigefeld verfügt, gemeldet werden, ob eine Spracherkennungsverarbeitung verfügbar ist oder nicht, indem bestimmte Nachrichten auf dem Flüssigkristallanzeigefeld angezeigt werden. Ferner kann in dem Fall, dass der Roboter über einen Mechanismus verfügt, durch den Gesichtsausdrücke zum Ausdruck gebracht werden, wie ein Blinken, usw., dem Benutzer durch derartige Änderungen in Gesichtsaudrücken gemeldet werden, ob eine Spracherkennungsverarbeitung verfügbar ist oder nicht.
  • Es sei darauf hingewiesen, dass im obigen Falle zwar lediglich die CPU-Leistung behandelt worden ist, dass jedoch auch andere Ressourcen für eine Spracherkennungsverarbeitung Gegenstand einer derartigen Handhabung sein können (beispielsweise der verfügbare Platz im Speicher 10B, etc.).
  • Ferner ist oben die Beschreibung auf die Beziehung zwischen der Spracherkennungsverarbeitung in der Spracherkennungseinheit 50A und eine andere bzw. weitere Verarbeitung konzentriert worden; dasselbe kann jedoch bezüglich der Beziehung zwischen der Bilderkennungsverarbeitung in der Bilderkennungseinheit 50B und einer anderen Verarbeitung, zwischen einer Sprachsyntheseverarbeitung in der Sprachsyntheseeinheit 55 und einer anderen Verarbeitung, usw. festgestellt werden.
  • Oben ist eine Beschreibung einer Anordnung gegeben worden, bei der die vorliegende Erfindung bei einem Unterhaltungsroboter angewandt worden ist (das ist ein Roboter, der als Pseudotier dient); die vorliegende Erfindung ist indessen durch Nichts auf diese Anwendung beschränkt. Vielmehr kann die vorliegende Erfindung in weitem Umfang auf verschiedene Arten von Robotern, wie beispielsweise auf industrielle Roboter angewandt werden.
  • Ferner wird bei der vorliegenden Ausführungsform die oben beschriebene Reihe von Verarbeitungen durch die CPU 10A unter Ausführung von Programmen ausgeführt; die Verarbeitungsfolge kann indessen durch zweckbestimmte Hardware für jede Verarbeitung ausgeführt werden.
  • Zusätzlich zu der Vorabspeicherung der Programme in dem Speicher 10B (siehe 2) können die Programme auch temporär oder permanent auf einem entfernbaren Aufzeichnungsträger, wie einer Diskette, einer CD-ROM (Compact-Disc-Festspeicher), auf MO-Disks (magneto-optische Disks), DVDs (digitale vielseitige Disks), magnetische Disks, einem Halbleiterspeicher etc. gespeichert (aufgezeichnet) werden. Derartige entfernbare Aufzeichnungsträger können als sogenannte verpackte Software bereitgestellt werden, um im Roboter (Speicher 10B) installiert zu werden.
  • Zusätzlich zur Installierung der Programme von den entfernbaren Aufzeichnungsträgern können außerdem Anordnungen gebildet werden, bei denen die Programme von einer Herunterladestelle in einer drahtlosen Art und Weise über einen digitalen Sendesatelliten oder über Kabel von Netzwerken, wie LANs (örtliche Bereichsnetzwerke) oder das Internet übertragen und somit im Speicher 10B installiert werden.
  • In diesem Falle kann dann, wenn eine neuere Version des Programms freigegeben wird, die neuere Version leicht im Speicher 10B installiert werden.
  • In der vorliegenden Anmeldung brauchen die Verarbeitungsschritte, welche das Programm beschreiben, durch das die CPU 10A veranlasst wird, verschiedene Arten der Verarbeitung auszuführen, nicht notwendigerweise in der zeitlichen Reihenfolge verarbeitet zu werden, die in den Flussdiagrammen beschrieben ist; vielmehr umfasst die vorliegende Anmeldung Anordnungen, bei der die Schritte parallel oder individuell verarbeitet werden (z.B. eine Parallelverarbeitung oder eine Objektverarbeitung).
  • Außerdem können die Programme durch eine einzige CPU ausgeführt werden, oder ihre Verarbeitung kann auf bzw. zwischen eine Vielzahl von CPUs verteilt und damit abgewickelt werden.
  • Mit Rücksicht darauf, dass die oben beschriebenen Ausführungsformen der Erfindung zumindest zum Teil unter Heranziehung einer Software-gesteuerten Datenverarbeitungsvorrichtung implementiert bzw. realisiert sind, dürfte einzusehen sein, dass ein eine derartige Software-Steuerung bereitstellendes Computerprogramm und ein Speichermedium, durch das ein derartiges Computerprogramm gespeichert wird, als Aspekte der vorliegenden Erfindung in Betracht gezogen werden.

Claims (10)

  1. Sprachverarbeitungsvorrichtung, die in einem Roboter eingebaut ist, mit einer Sprachverarbeitungseinrichtung zur Verarbeitung von Sprache und mit einer Steuereinrichtung (10) zur Steuerung der Sprachverarbeitung durch die betreffende Sprachverarbeitungseinrichtung auf der Grundlage eines Zustands des betreffenden Roboters, dadurch gekennzeichnet, dass die genannte Steuereinrichtung zur Erkennung einer Aktion, die der genannte Roboter unternimmt, und zur Steuerung einer Sprachverarbeitung durch die genannte Sprachverarbeitungseinrichtung auf der Grundlage der die betreffende Aktion betreffenden Verarbeitungslast betrieben ist.
  2. Sprachverarbeitungsvorrichtung nach Anspruch 1, wobei die genannte Steuereinrichtung (10) zur Steuerung der genannten Sprachverarbeitung auf der Grundlage eines Zustands von Aktionen, modellierten Emotionen oder modellierten Instinkten des genannten Roboters betrieben ist.
  3. Sprachverarbeitungsvorrichtung nach Anspruch 1, wobei die genannte Sprachverarbeitungseinrichtung eine Sprachsyntheseeinrichtung (55) zur Ausführung einer Sprachsyntheseverarbeitung und zur Ausgabe eines synthetisierten Schalles umfasst und wobei die genannte Steuereinrichtung (10) zur Steuerung der Sprachsyntheseverarbeitung durch die genannte Sprachsyntheseeinrichtung auf der Grundlage des Zustands des genannten Roboters betrieben ist.
  4. Sprachverarbeitungsvorrichtung nach Anspruch 3, wobei die genannte Steuereinrichtung (10) zur Steuerung einer durch die genannte Sprachsyntheseeinrichtung (55) abgegebenen Phonem- und Tonhöheninformation betrieben ist.
  5. Sprachverarbeitungsvorrichtung nach Anspruch 3, wobei die genannte Steuereinrichtung (10) zur Steuerung der Sprechgeschwindigkeit oder Lautstärke des durch die genannte Sprachsyntheseeinrichtung (55) abgegebenen synthetisierten Schalles betrieben ist.
  6. Sprachverarbeitungsvorrichtung nach Anspruch 1, wobei die genannte Sprachverarbeitungseinrichtung eine Einrichtung (50A) zum Extrahieren einer Steuerungs-Tonhöheninformation oder -Phoneminformation einer Eingabesprache umfasst und wobei ein Emotionszustand des betreffenden Roboters auf der Grundlage der genannten Tonhöheninformation oder Phoneminformation geändert wird oder der betreffende Roboter veranlasst wird, der genannten Tonhöheninformation oder Phoneminformation entsprechende Aktionen vorzunehmen.
  7. Sprachverarbeitungsvorrichtung nach Anspruch 1, wobei die genannte Sprachverarbeitungseinrichtung eine Spracherkennungseinrichtung (50A) zur Erkennung einer Eingabesprache umfasst und wobei der genannte Roboter veranlasst wird, Aktionen entsprechend der Zuverlässigkeit der von der genannten Spracherkennungseinrichtung abgegebenen Spracherkennungsergebnisse zu unternehmen, oder wobei ein Emotionszustand des betreffenden Roboters auf der Grundlage der genannten Zuverlässigkeit geändert wird.
  8. Sprachverarbeitungsvorrichtung nach Anspruch 1, wobei der genannte Roboter der Verarbeitungsleistung der Vorrichtung entsprechende Aktionen ausführt, die für eine Sprachverarbeitung durch die genannte Sprachverarbeitungseinrichtung angemessen sein können.
  9. Sprachverarbeitungsverfahren für eine Sprachverarbeitungsvorrichtung, die in einem Roboter eingebaut ist, umfassend einen Sprachverarbeitungsschritt zur Verarbeitung von Sprache und einen Steuerungsschritt zur Steuerung einer Sprachverarbeitung bei dem genannten Sprachverarbeitungsschritt auf der Grundlage eines Zustands des genannten Roboters, dadurch gekennzeichnet, dass der genannte Steuerungsschritt die Erkennung einer Aktion, welche der betreffende Roboter unternimmt, und eine Steuerung der genannten Sprachverarbeitung auf der Grundlage der Verarbeitungslast bezüglich der betreffenden Aktion umfasst.
  10. Aufzeichnungsträger, auf dem ein durch einen Computer auszuführendes Programm aufgezeichnet ist, mit dem ein Roboter veranlasst wird, eine Sprachverarbeitung auszuführen, wobei das Programm einen Sprachverarbeitungsschritt zur Verarbeitung von Sprache und einen Steuerungsschritt zur Steuerung der Sprachverarbeitung bei dem genannten Sprachverarbeitungsschritt auf der Grundlage eines Zustands des genannten Roboters umfasst, dadurch gekennzeichnet, dass der genannte Steuerungsschritt die Erkennung einer Aktion, welche der genannte Roboter unternimmt, und die Steuerung der genannten Sprachverarbeitung auf der Grundlage der Verarbeitungslast bezüglich der betreffenden Aktion umfasst.
DE60014833T 1999-11-30 2000-11-21 Sprachverarbeitung Expired - Fee Related DE60014833T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP34047299A JP2001154681A (ja) 1999-11-30 1999-11-30 音声処理装置および音声処理方法、並びに記録媒体
JP34047299 1999-11-30

Publications (2)

Publication Number Publication Date
DE60014833D1 DE60014833D1 (de) 2004-11-18
DE60014833T2 true DE60014833T2 (de) 2005-11-17

Family

ID=18337297

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60014833T Expired - Fee Related DE60014833T2 (de) 1999-11-30 2000-11-21 Sprachverarbeitung

Country Status (4)

Country Link
US (1) US7065490B1 (de)
EP (1) EP1107227B1 (de)
JP (1) JP2001154681A (de)
DE (1) DE60014833T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT503305B1 (de) * 2006-02-23 2007-09-15 Reinhard Dipl Ing Hainisch Verfahren zur steuerung von technischen geräten durch die menschliche stimme

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4465768B2 (ja) 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
JP2002049385A (ja) * 2000-08-07 2002-02-15 Yamaha Motor Co Ltd 音声合成装置、疑似感情表現装置及び音声合成方法
JP2002268699A (ja) * 2001-03-09 2002-09-20 Sony Corp 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
JP4687936B2 (ja) 2001-03-22 2011-05-25 ソニー株式会社 音声出力装置および音声出力方法、並びにプログラムおよび記録媒体
JP2002283261A (ja) * 2001-03-27 2002-10-03 Sony Corp ロボット装置及びその制御方法、並びに記憶媒体
JP2002304188A (ja) * 2001-04-05 2002-10-18 Sony Corp 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体
EP1256932B1 (de) * 2001-05-11 2006-05-10 Sony France S.A. Verfahren und Vorrichtung um eine mittels eines Klangs übermittelte Emotion zu synthetisieren
EP1256937B1 (de) * 2001-05-11 2006-11-02 Sony France S.A. Verfahren und Vorrichtung zur Erkennung von Emotionen
EP1256931A1 (de) * 2001-05-11 2002-11-13 Sony France S.A. Verfahren und Vorrichtung zur Sprachsynthese und Roboter
EP1345207B1 (de) * 2002-03-15 2006-10-11 Sony Corporation Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
JP3702297B2 (ja) * 2002-08-01 2005-10-05 株式会社Oiテクノロジーズ ロボット制御装置及びロボット制御方法並びにそのプログラム
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
US7238079B2 (en) * 2003-01-14 2007-07-03 Disney Enterprise, Inc. Animatronic supported walking system
JP2005335001A (ja) * 2004-05-26 2005-12-08 Sony Corp ロボット制御装置および方法、記録媒体、並びにプログラム
GB2425490A (en) * 2005-04-26 2006-11-01 Steven Lipman Wireless communication toy
WO2006114625A2 (en) * 2005-04-26 2006-11-02 Steven Lipman Toys
US8065157B2 (en) * 2005-05-30 2011-11-22 Kyocera Corporation Audio output apparatus, document reading method, and mobile terminal
KR20060127452A (ko) * 2005-06-07 2006-12-13 엘지전자 주식회사 로봇청소기 상태알림장치 및 방법
CA2611259C (en) * 2005-06-09 2016-03-22 A.G.I. Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
JP4457983B2 (ja) 2005-06-27 2010-04-28 ヤマハ株式会社 演奏操作援助装置及びプログラム
JP2007047412A (ja) * 2005-08-09 2007-02-22 Toshiba Corp 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP4849303B2 (ja) * 2005-08-25 2012-01-11 株式会社国際電気通信基礎技術研究所 行動指針決定装置及びコンピュータプログラム
US7571101B2 (en) * 2006-05-25 2009-08-04 Charles Humble Quantifying psychological stress levels using voice patterns
US20070288898A1 (en) * 2006-06-09 2007-12-13 Sony Ericsson Mobile Communications Ab Methods, electronic devices, and computer program products for setting a feature of an electronic device based on at least one user characteristic
KR100850352B1 (ko) * 2006-09-26 2008-08-04 한국전자통신연구원 상태 정보를 이용하여 감성을 표현하기 위한 지능형 로봇의감성 표현 장치 및 그 방법
US20080082214A1 (en) * 2006-10-03 2008-04-03 Sabrina Haskell Method for animating a robot
US8307295B2 (en) * 2006-10-03 2012-11-06 Interbots Llc Method for controlling a computer generated or physical character based on visual focus
US20080082301A1 (en) * 2006-10-03 2008-04-03 Sabrina Haskell Method for designing and fabricating a robot
GB2443027B (en) * 2006-10-19 2009-04-01 Sony Comp Entertainment Europe Apparatus and method of audio processing
GB0714148D0 (en) 2007-07-19 2007-08-29 Lipman Steven interacting toys
KR100919825B1 (ko) * 2008-03-25 2009-10-01 한국전자통신연구원 다차원 벡터공간에서 복합감성 모델링 방법
TWI447660B (zh) * 2009-12-16 2014-08-01 Univ Nat Chiao Tung Robot autonomous emotion expression device and the method of expressing the robot's own emotion
JP5411789B2 (ja) * 2010-04-19 2014-02-12 本田技研工業株式会社 コミュニケーションロボット
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
US8483873B2 (en) * 2010-07-20 2013-07-09 Innvo Labs Limited Autonomous robotic life form
US9079313B2 (en) * 2011-03-15 2015-07-14 Microsoft Technology Licensing, Llc Natural human to robot remote control
US9016158B2 (en) * 2011-05-25 2015-04-28 Hitachi, Ltd. Head structure of robot, and driving method for the head
KR101801327B1 (ko) * 2011-07-29 2017-11-27 삼성전자주식회사 감정 정보 생성 장치, 감정 정보 생성 방법 및 감정 정보 기반 기능 추천 장치
KR101892733B1 (ko) * 2011-11-24 2018-08-29 한국전자통신연구원 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
US20140122082A1 (en) * 2012-10-29 2014-05-01 Vivotext Ltd. Apparatus and method for generation of prosody adjusted sound respective of a sensory signal and text-to-speech synthesis
US9211645B2 (en) * 2012-12-13 2015-12-15 Korea Institute Of Industrial Technology Apparatus and method for selecting lasting feeling of machine
US9324245B2 (en) * 2012-12-13 2016-04-26 Korea Institute Of Industrial Technology Apparatus and method for creating artificial feelings
US10345343B2 (en) 2013-03-15 2019-07-09 Allegro Microsystems, Llc Current sensor isolation
US20150127343A1 (en) * 2013-11-04 2015-05-07 Jobaline, Inc. Matching and lead prequalification based on voice analysis
EP2933067B1 (de) * 2014-04-17 2019-09-18 Softbank Robotics Europe Verfahren zur Durchführung eines multimodalen Dialogs zwischen einem humanoiden Roboter und einem Benutzer, Computerprogrammprodukt und humanoider Roboter zur Implementierung des Verfahrens
CN105761720B (zh) * 2016-04-19 2020-01-07 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互系统及其方法
WO2018006371A1 (zh) * 2016-07-07 2018-01-11 深圳狗尾草智能科技有限公司 一种同步语音及虚拟动作的方法、系统及机器人
JP6761598B2 (ja) * 2016-10-24 2020-09-30 富士ゼロックス株式会社 感情推定システム、感情推定モデル生成システム
CN110177660B (zh) * 2017-01-19 2022-06-14 夏普株式会社 言行控制装置、机器人、存储介质及控制方法
US10250532B2 (en) * 2017-04-28 2019-04-02 Microsoft Technology Licensing, Llc Systems and methods for a personality consistent chat bot
WO2019036003A1 (en) * 2017-08-16 2019-02-21 Covidien Lp PREVENTIVE MAINTENANCE OF ROBOTIC SURGICAL SYSTEMS
US10783329B2 (en) * 2017-12-07 2020-09-22 Shanghai Xiaoi Robot Technology Co., Ltd. Method, device and computer readable storage medium for presenting emotion
CN108319171B (zh) * 2018-02-09 2020-08-07 广景视睿科技(深圳)有限公司 一种基于语音控制的动向投影方法、装置及动向投影系统
US11633863B2 (en) 2018-04-06 2023-04-25 Digital Dream Labs, Llc Condition-based robot audio techniques
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
US11247738B2 (en) * 2019-05-24 2022-02-15 Disney Enterprises, Inc. Legged high-dexterity self-balancing capable robot actor
KR20210020312A (ko) * 2019-08-14 2021-02-24 엘지전자 주식회사 로봇 및 그의 제어 방법
US11302300B2 (en) * 2019-11-19 2022-04-12 Applications Technology (Apptek), Llc Method and apparatus for forced duration in neural speech synthesis
USD985645S1 (en) * 2021-04-16 2023-05-09 Macroact Inc. Companion robot

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029214A (en) * 1986-08-11 1991-07-02 Hollander James F Electronic speech control apparatus and methods
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3254994B2 (ja) * 1995-03-01 2002-02-12 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US5918222A (en) * 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
US6572431B1 (en) * 1996-04-05 2003-06-03 Shalong Maa Computer-controlled talking figure toy with animated features
US5700178A (en) * 1996-08-14 1997-12-23 Fisher-Price, Inc. Emotional expression character
JPH10289006A (ja) * 1997-04-11 1998-10-27 Yamaha Motor Co Ltd 疑似感情を用いた制御対象の制御方法
US6160986A (en) * 1998-04-16 2000-12-12 Creator Ltd Interactive toy
US6243680B1 (en) * 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6230111B1 (en) * 1998-08-06 2001-05-08 Yamaha Hatsudoki Kabushiki Kaisha Control system for controlling object using pseudo-emotions and pseudo-personality generated in the object
US6192215B1 (en) * 1998-10-23 2001-02-20 Mai Wang Interactive and animated mini-theater and method of use
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6446056B1 (en) * 1999-09-10 2002-09-03 Yamaha Hatsudoki Kabushiki Kaisha Interactive artificial intelligence

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT503305B1 (de) * 2006-02-23 2007-09-15 Reinhard Dipl Ing Hainisch Verfahren zur steuerung von technischen geräten durch die menschliche stimme

Also Published As

Publication number Publication date
JP2001154681A (ja) 2001-06-08
DE60014833D1 (de) 2004-11-18
EP1107227B1 (de) 2004-10-13
EP1107227A2 (de) 2001-06-13
US7065490B1 (en) 2006-06-20
EP1107227A3 (de) 2001-07-25

Similar Documents

Publication Publication Date Title
DE60014833T2 (de) Sprachverarbeitung
DE60215296T2 (de) Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
DE60201262T2 (de) Hierarchische sprachmodelle
Nogueiras et al. Speech emotion recognition using hidden Markov models
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
KR100814569B1 (ko) 로봇 제어 장치
DE60035848T2 (de) Sprachsynthesevorrichtung und Verfahren, sowie Aufzeichnungsmedium
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE602005001142T2 (de) Nachrichtenübertragungsgerät
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
US20030163320A1 (en) Voice synthesis device
DE69832393T2 (de) Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache
US6535852B2 (en) Training of text-to-speech systems
DE69829235T2 (de) Registrierung für die Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60124225T2 (de) Verfahren und Vorrichtung zur Erkennung von Emotionen
CN107972028B (zh) 人机交互方法、装置及电子设备
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
Albrecht et al. Automatic generation of non-verbal facial expressions from speech
DE60019248T2 (de) Sprachgesteuertes Mundanimationssystem
DE69727046T2 (de) Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system
EP3010014A1 (de) Verfahren zur interpretation von automatischer spracherkennung
Mori et al. Conversational and Social Laughter Synthesis with WaveNet.
CN111429882B (zh) 播放语音的方法、装置及电子设备
DE69817550T2 (de) Verfahren zur sprachsynthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee