| Graceful Interaction | [音声認識デバイス] |
80年代に提唱されたインターフェイス設計の考え方で"Graceful Interaction"という言葉があります。実はまだちゃんと元論文をしっかり読んだ訳ではなくて、ナナメ読み+人に聴いた程度の知識しかなんですが、自分なりの解釈、考え方も交えた上で、道具眼流のGraceful Interactionについて書いてみようと思います。
■先祖返り
80年代といえばMS-DOSのようなコマンド型インターフェイスの全盛期で、コマンド・プロンプトに対して「dir」とか「copy hoge.txt fuga\」(ファイルhoge.txtをディレクトリfugaにコピーの意味)なんてやってた時代です(*1)。それぞれのコマンドや文法を覚えていなければ使えない再生型のインターフェイスでした。その後90年代になってMacOS、Windowsのようにコマンドを知らなくてもメニューに並んでいる中から選ぶだけで操作ができる再認型のインターフェイスへとトレンドが移っていきます。しかしここへ来て再生型インターフェイスである音声コマンド・インターフェイスが注目を浴びるに伴い、再び80年代の悩みが浮上してきているのです。Graceful Interactionは80年代に出された考え方であり、今日ではあまり注目されていませんが、上記のような観点からすると今再び紐解いてみる価値があるのではないかと思っているワケです。
*1 もちろん今でもUNIXでは普通に使われていますし、時としてGUIより有効な場合もあります。CUIが時代遅れだということではありません。
■"思いやり"あふれるインタラクションとは?
この場合の"grace"は、「親切,好意,思いやり」といった意味に訳すのがわかりやすいでしょう。graceful、つまり「思いやりあふれる」インタラクションとでもしておきます。さて、具体的にはどういうものかというのを、一言で言うと「足りない情報を聞き返す」というものです。例えばDOSやUNIXで「copt hoge.txt fuga\」のようにコマンドを打ち間違えたとしましょう。当然「そんなコマンドは知らん」と言われてお終いです。これをGraceful Interactionの考え方では、「もしかしてcopyのことですか?」と尋ね返すのです。文法を間違えて「copy hoge.txt」とコピー先を指定しなかったなら、「さっきと同じfugaフォルダにコピーすれば良いですか?」などと聞いてくれれば良いでしょう。
極力yes/noで答えられる質問に落とし込んで聞き返すというところもポイントだったと記憶しています。
こうして書くと、別段「思いやりあふれる」というほどスゴいことでもなく、人が普通にやってることに聞こえるかも知れません。そこがミソなんですね。実際のヒトとヒトとの対話の中で、何か言い違いがあった時に「そんな言葉聞いたことないから知らん」と突っぱねるなんてことはないワケです。「わからなかったところは聞き返す」というのは自然対話では至極当たり前のことで、それをヒト-機械間のインタラクションに持ち込もうと考えることも合理的で自然な流れではないでしょうか。
■今の音声インタラクションに足りないもの
カーナビを代表とする現在の音声インタラクションには、そんな単純な「思いやり」すら持ち合わせていません。σ(^^)も技術的なことにスゴく明るいワケではないのですが、想像するにある入力された音声に対し、いくつかの認識候補を上げそれぞれの可能性をスコアで評価しているはずです。例えば「ちばけん」と言われたら、「千葉県」の確率88%、「滋賀県」の確率52%、よって確率の一番高い「千葉県」として認識しよう、という判断プロセスは持っているでしょう。おそらく現在は単純にもっともスコアの高い認識語を選ぶだけなんですが、例えば「千葉県」と「滋賀県」それぞれの確率の差が10%未満だった場合、単純に「千葉県」を採るのではなく念のため「千葉県ですね?」と聞き返しても良いのではないでしょうか?ユーザの操作ステップが増えることに開発者は抵抗を覚えるかも知れませんが、おそらくユーザにとってはさしたる認知負荷ではないはずです。何故ならこういうやりとりは日常会話で普通に行われていることなのですから。
○参考文献
Steps toward Graceful Interaction in Spoken and Written Man-Machine Communication.
Philip Hayes and Raj Reddy.
Int. J. Man-Machines Studies (1983) vol. 19, pp. 231-284.
アブストラクト