「音声認識」が拓く未来 スマホは「声」で動かせ!

鈴木 清幸 氏 氏
アドバンスト・メディア会長兼社長

2013年2月号 LIFE [インタビュー]
インタビュアー 本誌 宮嶋巌

  • はてなブックマークに追加
鈴木 清幸 氏

鈴木 清幸 氏(すずき きよゆき)

アドバンスト・メディア会長兼社長

1952年愛知県生まれ。京大大学院工学研究科博士課程修了。97年アドバンスト・メディアを創業し、2005年東証マザーズに上場。06年世界的な起業家表彰制度「アントレプレナー・オブ・ザ・イヤー」の日本代表。著書『スマホは「声」で動かせ!』が話題に。

写真/平尾秀明

――昨年11月にサービスを開始したKDDIの「おはなしアシスタント」に、アドバンスト・メディア(AMI・アミ)の音声認識技術が採用され、株価が急騰しました。

鈴木 ITブームが盛り上がった今世紀の初め頃、音声認識も新技術として持て囃されましたが、ビジネスとしては全然ダメでした。当時は「特定話者」に限られた音声認識だったため、「音声認識は使えない」という烙印を押されてしまったのです。

不特定に誰とでも会話をすることができ、話すスピードの変化、抑揚、アクセントの違いに対応できる。そんな、これまでにない音声認識エンジンを作るため、私は16年前にAMIを創業しました。その後、音声認識技術は著しい進化を遂げ、モバイル対応へ利用が広がりました。当社が提供する音声認識技術『AmiVoice』は、08年にNTTドコモの「音声入力メール」に搭載され、「ソフトウェア・プロダクト・オブ・ザ・イヤー」を受賞。11年には当社技術を基にヤフーが開発したアイフォーンアプリ『音声検索』が話題を呼び、同年、当社アプリの『音声認識メール クラウド』は、アップストアの1位に輝きました。スマホに向かって喋る声が、そのまま文字になり、新しい価値を生み出す。「声」が動かす未来を、多くのユーザーが感じたことでしょう。

コールセンターで「金の卵」を孵化

――すでに音声認識が「なくてはならないもの」になっている分野がありますね。

鈴木 当社は02年から医療分野向けの音声入力システムを提供し、医師の負担軽減と情報化に貢献してきました。電子カルテ向け、放射線科読影レポート向け、調剤電子薬歴向けなど、医療分野での導入実績は約4200施設。専門用語が多い医療分野に特化した音声入力ですからキーボード入力よりはるかに速く、断然効率的です。特に放射線科向けは98%の認識率を獲得し、レポート作成時間を一気に短縮、オンリーワンのブランドになっています。ちなみに当社の技術パートナーである米国のMモーダル社は、当社と同じ年に設立されたベンチャー企業ですが、今では米国の医療分野で最大手の音声認識事業者に成長しています。

――東京都議会がAmiVoiceを使って議事録を作成しているそうですね。

鈴木 はい。マイクで話された会議の音声をリアルタイムでテキスト化します。作成時間が半分に短縮した例があり、コストと運用面でメリットが大きく、55自治体で導入されています。

――三菱東京UFJ銀行のコールセンターでも使われているそうですね。

鈴木 メガバンク、生損保、大手メーカー、放送・通信、官公庁など40超のコールセンターに導入され、最近、引き合いの多い分野です。従来、コールセンターに集積されたお客様の声の活用には限界があり、宝の持ち腐れになっていました。そこで当社は、オペレーターとお客様との通話内容を全てテキスト化し、スーパーバイザーが「耳」でなく「目」で閲覧し、NGワードやNG表現をリアルタイムで監視・指導できるシステムを開発しました。また、コールセンターに溢れる声をデータ化すると、そこからマーケティングに有用な情報を抽出することが可能になります。私たちは音声認識によって、これまで放置されていた金の卵を孵化させることもできるのです。

「機械に対して喋る文化」を開拓

――最高の技術を持ちながら、マザーズ上場以来、ずっと営業赤字が続いています。

鈴木 私はAMIの技術は世界最高だと思っています。が、それは単なる必要条件であり、成功するための十分条件ではない。その十分条件とは、何か? それは、全て「すごい技術は自ずと市場を生み出す」という勘違いから生まれたものです。不便なものに対して、人は喜んでお金を払わない。「機械が王様、人間が仕える者」という構図ではマーケットは広がりません。言葉を換えれば、キーボードやマウスのように人が機械に合わせないと意思が伝達できない「ハードコミュニケーション」の時代から、人が自然に意思を伝えられる「ソフトコミュニケーション」の時代に変革する必要がある。そのために、音声認識技術も「人間主体」にする必要があると考えています。

では、一体どうやってマーケットに、それを浸透させるのか。いくらテクノロジーを作る側が人間主体だと訴えても、私たちは見たことも使ったこともないものには距離を置くものです。さらに、これまで機械主体が人間主体に置き換わったということは、革新性のある製品が誕生したということであり、革新性が前面に出れば出るほど、そうした製品に飛びつく層は限られてくる。つまり、「機械に対して喋る文化」がないところに、いくら音声認識の革新的なテクノロジーを訴えても奇異に思われるだけで、誰も機械に向かって喋ってみようとは思いません。テクノロジーではなく、機械に向かって喋る文化を普及させること。それが、創業からの苦闘の歴史でした。

――スマホに向かって喋るアプリの普及で、絶好のビジネスチャンスですね。

鈴木 認知度は高まったが、まだアーリー・アドプターの段階です。AMIの存在を認めてもらうキーワードとして、私は「JUI(ジユイ)」を掲げてきました。AMIの製品やサービスは面白い(Joyful)、役に立つ(Useful)ものだと感じてもらうことでマジョリティーのマーケットに浸透していきます。「面白い」と捉えるのは個人ユーザーであり、「役に立つ」と捉えるのは企業ユーザーです。しかし、この状況でマーケットは安泰ではなく、もう一度「使われなくなる」という谷に落ちる。これを超えていくには「なくてはならない(Indispensable)」ものにならねばならない。それがお金を払い続ける唯一にして最大の理由だからです。

目下、スマホやタブレット端末などに初期費用を抑え、かつ容易に音声認識機能の組み込みを可能にした企業向けクラウドサービスが好調。黒字化が射程内にあります。数年後には「声が価値を生み出すサービス事業」と「溢れる声をデータにするサービス事業」が花開くと確信しています。

   

  • はてなブックマークに追加