新規サービスと生産性向上を考えるヒント＞「AI・IoT」×「音声・聴覚技術」

【今日のポイント】

音声認識技術はＡＩ・ＩｏＴにより急速に進んでいますね。

この技術を自社の事業の生産性向上や新規サービスの提供の視点でウォッチすることも今後有望な情報になるものと考える次第です。

●　AIによる、発生していない音声の認識技術

東京大学のサイトにソニーコンピュータサイエンス研究所との共同研究による、口パクでの音声を認識できる技術開発が掲載されていました。

SottoVoce: An Ultrasound Imaging-Based Silent Speech Interaction Using Deep Neural Networks

（引用は『』でくくります。太字と改行は筆者挿入。以下同様。）

『超音波エコー映像を用いて，利用者の無発声音声を検出するシステムを提案する．顎の下側に取り付けられた超音波イメージングプローブによって観察される口腔内の情報から，利用者が声帯を振動させずに発話した発声内容を認識する．』

本人の音声データを一緒に集めておけば、病気などで声を失った方についても、本人の音声を再現できるとのこと。

先日のｉＰＳ細胞による脊椎損傷の治療の試みなど、このような身障者をサポートする技術により、社会復帰が進むとともに、多様な働き方の普及にもつながるものと期待する次第です。

●　画像認識による読唇術

以前より、電車の中やジムでの運動中に音声によるテキスト入力ができればと思いつつ、声を出すのには支障がありましたが、
下記の記事のように、２０１６年頃にはかなり画像認識による読唇術の技術開発が進んでいるようです。

「人工知能が「読唇術」で会話をテキスト化。正解率は93.4%。」
2016/11/23　TABI LABOによる、英・オックスフォード大学の研究チームの研究結果の記事。

「グーグルのDeepMind、読唇術で人間の専門家に勝つ」
2016/11/24　ZDNet　JAPANによる、オックスフォード大学とGoogle DeepMindの研究者らが、BBCが放映した数千時間にもおよぶコンテンツを用いた訓練により開発した読唇術専門のＡＩの記事。

スマートフォンで口パクでテキスト入力したり、通話（聞く方はイヤホンで対応可能ですね）できる様になるのもそう遠くないものと期待しています。

●　音声入力の技術開発

読唇術以外にも、音声認識技術は、コミュニケーションだけでなく、以下の記事のように人の聴覚特性を応用して、設備のメンテナンスなどへの適用を目指している事例が出てきています。

「人の聴覚特性を模したAI分析モジュール「SkySound」の提供開始」
2019/3/29　株式会社スカイディスク（本社：福岡県福岡市）の製造業に特化したAI分析システム「SkyAI(スカイエーアイ)」の分析モジュールのひとつとして、人の聴覚特性を模した分析機能「SkySound(スカイサウンド)」を開発し、提供を開始しています（PRTIMES_JPより）。

音声認識技術、音声入力技術では、以下の記事や特許庁の特許出願技術動向調査も参考になるかと思います。

「飛躍的進化を遂げた音声認識技術の裏側と今後の動向に迫る！」
2018/8/31　パーソナルテクノロジースタッフ社のコラム記事。以下の構成で、音声認識技術の動向を解説しています。

「特許情報活用にみる技術と市場の双方からの俯瞰」

経済産業省が公表している2017年度の特許出願技術動向調査に関する本ブログのトピックス。
音声入出力では、

『マンマシンインターフェイスとしての音声入出力
人間と機械が情報をやり取りするための手段であるマンマシンインターフェイスとして、音声入出力技術が注目されています。2017年は、IT大手各社等からスマートスピーカーが発売され、音声アシスト端末が家庭に入る動きが活発化しています。
会話ボット等では、機械に話しているということをユーザに意識させない「自然な会話」を実現するための技術が注目されています。この分野の特許出願では、日本が世界を牽引しており、「自然な会話」を実現する技術における日本の強みを活用し、会話ボットや家庭用ロボット向けの研究開発、及びその権利化に繋げていく必要があります。』

と、自然な会話を実現する技術では日本が世界を牽引していることが述べられていますが、
実際にはアマゾンやグーグルが家庭用音声アシスト端末の市場導入では先行していることからも、インターフェースの技術で市場参入を促進する戦略の必要性や、インターフェース技術とは別に、実際に市場に参入して、ユーザーデータを集めるという点での施策の必要性などが予測出来るかと思います。

● 音声×AI・IoTという技術ワードで自社の事業を見直す

以前に、
「スマートスピーカーから考える「進む」と「選ぶ」と「考える」の使い分け」
で、

集中力による生産性向上の視点と、コミュニケーション手段という視点から、
音声入力や自動音声応答を使うケースと「オペレーターと直接話す」場合や、コーチングなど、人が音声で対応するケースの使い分けについてお話し、

「「英語の学習法」から考える「人材開発へのＩＴと脳科学の利用」」
で、

ＩＴや脳科学（心理学）の活用は、少子高齢化社会における生産性向上や働き方改革の中で大変重要かつ大手企業を中心にかなりのスピードで進み始めており、
中小企業においても、人的資産である人材の活用・育成において、ＩＴの活用は必要になってきている中で、英語学習の音声の利用の方法を他の教育・学習に利用することなどをお話してきましたが、

今後、音声×AI・IoTという技術ワードで自社の事業を見直してみることは、働き方改革やダイバーシティへの対応なども含めて、有望な方法の一つではないかと思います。

その際に、

事業分野としては、メンテナンス関係、介護、障害者支援、教育など、
解決したい課題やニーズは新規事業と生産性向上

という切り口と音声×AI・IoTを掛け合わせて見てはいかがかと考える次第です。

また、

「聴覚のサブリミナル効果に考える顧客の時間のいただき方」
でもお伝えした、ユーザーの時間という制約が、金銭的な費用と同様か、あるいはそれ以上に重要となってきている「ユーザーの時間」のいただき方の多様化という視点も加えられるかと思います。

● 音声認識技術の実用化の経緯から、画像認識技術の今後の展開を予想する

上記は音声関連の話題でしたが、音声認識と画像認識の技術面の違い、ニーズ面の違いを考慮しつつ、両者の実用化、事業化の経緯を追うことも、今後の展開を予想するときのヒントになるかと思います。

そして、音声と画像の双方の技術とその適用先を見ていくことは、今後、ＸＲの展開の予想にも繋がるものと考える次第です。

★ この記事がいいなと思ったら、クリックよろしくお願い申し上げます(^^)。

中小企業診断士ランキング