カメラではなくレーダーを使ったプライバシーが保護されたアクティビティ追跡の可能性をカーネギーメロン大学の研究者らが提示

部屋が最後に掃除されたのはいつか、ゴミ箱の中身がすでに捨てられたかをスマートスピーカーに問いかけることで、家庭内の争いを解決する(または蒸し返す)ことができる。そんな状況を想像してみて欲しい。

あるいは、健康関連の用途で、エクササイズ中にスピーカーにスクワットやベンチプレスの回数をカウントするように指示できたらどうだろう?または「パーソナルトレーナーモード」をオンにして、あなたが古いエクササイズバイクをこぐ際に、もっと早くこぎましょう、と気合を入れてくれるよう指示できたら(Pelotonなんて必要なし!)?

そして、あなたが食事をしているのをそのスピーカーが認識し、雰囲気にあった音楽を流してくれるほど賢かったらどうだろう?

そしてこうしたアクティビティの追跡を、インターネットに接続されたカメラを家の中に設置することなくできたら、と想像してみよう。

カーネギーメロン大学のフューチャーインターフェースグループの研究で、これらのことが実現できる可能性が浮上している。この研究ではセンシングツールとしてカメラを必要としない、アクティビティ追跡のための新しいアプローチを実証しているのだ。

家の中にインターネットに接続されたカメラを設置することは、プライバシーの観点から言えば、当然大きなリスクとなる。そのため、カーネギーメロン大学の研究者らは、人間のさまざまなアクティビティを検出するための媒体として、ミリ波(mmWave)ドップラーレーダーの調査に着手した。

彼らが解決すべきだった課題は、ミリ波が「マイクやカメラに近い信号の豊富さ」を提供する一方、さまざまな人間の活動をRFノイズとして認識するようAIモデルをトレーニングするためのデータセットを、簡単には入手できないという点である(この点他のタイプのAIモデルをトレーニングするための視覚データとは異なる)。

この問題の解決を目指し、彼らは、ドップラーデータを合成し、人間のアクティビティ追跡モデルにデータを供給することに着手した。プライバシーを保護することが可能なアクティビティ追跡AIモデルをトレーニングするためのソフトウェアパイプラインを考案したのだ。

その結果をワシントンD.C.こちらの動画で確認できる。この動画では、AIモデルがサイクリング、手を叩く、手を振る、スクワットをするといったさまざまなアクティビティを、動きから生成されるミリ波を解釈する能力を用いて正しく認識しているのが示されている。そしてこれは純粋に一般のビデオデータを用いたトレーニングの成果である。

「私たちは、一連の実験結果を通し、このクロスドメイントランスレーションがどのように達成されるかを提示しています」と彼らは書いている。「私たちは、このアプローチがヒューマンセンシングシステムなどのトレーニングの負担を大幅に低減する重要な足がかりであり、人間とコンピュータの相互作用におけるブートストラップ型使用に役立つものであると考えています」。

研究者であるChris Harrison(クリス・ハリソン)氏はワシントンD.C.、ミリ波によるドップラーレーダーベースのセンサーは「非常に微妙なもの(表情の違いなど)」は認識できないと認めている。しかし、食事をしたり本を読んだりといったそれほど活発でないアクティビティを検出するには十分な感度を備えているという。

またドップラーレーダーの持つ動きの検出能力は、対象とセンシングハードウェアの間のLOS(無線波の送受信が可能な範囲)にも制限を受ける(別の言い方をすれば「まだその段階に達していない」ということである。これは、将来ロボットが人検出能力を身につけることを懸念している人にとっては、ちょっとした安心感を得られる情報だろう)。

検出には、当然特殊なセンシングハードウェアが必要になる。しかし、物事はすでにその方向に向かって動き出している。例えば、GoogleはすでにPixel 4にレーダーセンサーを追加するというプロジェクトSoli に着手している。

GoogleのNest Hubにも、睡眠の質を追跡するために同じレーダーセンサーが組み込まれている。

関連記事:グーグルが7インチディスプレイの新型Nest Hub発表、Soliレーダーが睡眠トラッキング用途で復活

「レーダーセンサーがあまり携帯電話に採用されていない理由の1つは、説得力ある使用例がそれほどないためです(ニワトリが先かタマゴが先かということだが)」とハリス氏はTechCrunchに語った。「私たちのレーダーを用いたアクティビティ検出に関する研究により、より多くのアプリを使用できる可能性が浮上しています(例えば食事をしているとき、夕食を作っているとき、掃除をしているとき、運動しているときを認識できるよりスマートなSiriなど)」。

携帯用アプリと固定アプリでは、どちらにより大きな可能性があるかと聞かれ、ハリス氏はどちらにも興味深い使用事例があると答えた。

「携帯用アプリにも固定アプリにも使用事例はあります。Nest Hubに話を戻すと【略】センサーはすでに室内にあるため、それを使用して、Googleスマートスピーカーのより高度な機能をブートストラップすることができます(エクササイズで回数を数えるなど)」。

「建物には使用状況を検出するためにすでにレーダーセンサーが多数取り付けられています(しかし、今後は部屋の清掃が最後に行われたのはいつかなどを検出することが可能になる)」。

「これらのセンサーのコストはまもなく数ドルにまで落ちるでしょう(eBayで扱っているものの中にはすでに1ドルに近いものがある)。従って、あらゆるものにレーダーセンサーを組み込むことが可能です。そしてgoogleが寝室に設置される製品で示しているように「監視社会」の脅威は、レーダーが使用される場合、カメラセンサーを使った場合に比べはるかにリスクの少ないものになります」。

VergeSenseといったスタートアップは、すでにセンサーハードウェアとコンピュータビジョンテクノロジーを用いて、B2B市場向けの、屋内空間とアクティビティに対するリアルタイム分析(オフィスの使用状況を測定するなど)を強化している。

関連記事:職場の人の密度などを分析するサービスVergeSenseがシリーズBで約12.4億円を調達

しかし、解像度の低い画像データをローカルで処理したとしても、消費者環境では、視覚センサーを使用することでプライバシーのリスクが発生すると認識される可能性がある。

レーダーは「smart mirrors」のような、プライバシーをリスクにさらす危険のある、インタネットに接続された消費者向けのデバイスに、より適した視覚的監視の代替手段を提供する。

「ローカルに処理されたからといって、あなたはカメラを寝室や浴室に設置しますか?私が慎重なだけかもしれませんが、私なら設置しません」とハリス氏。

彼はまた、以前なされた研究に言及した。これはより多くの種類のセンシングハードウェアを組み込むことの価値を強調したものだ。「センサーが多いほど、サポートできる興味深いアプリケーションが増えます。カメラはすべてを捉えることができませんし、暗闇では機能しません。

最近はカメラもとても安価なため、レーダーが安いとはいっても、価格で勝負するのは困難です。レーダーの最大の強みは、プライバシーの保護だと思います」と彼は付け加えた。

もちろん、視覚的なものにしろ、そうでないものにしろ、センシングハードウェアを設置すれば、プライバシーがリスクにさらされる危険性は発生する。

例えば、子どもの寝室の使用状況を捉えるセンサーは、そのデータにアクセスするのが誰かによって、適切なものにも、不適切なものにもなるだろう。そして、あらゆる人間のアクティビティは、起こっている事柄によっては、安易に公開できない情報を生成するものだ。(つまり、セックスをしているのをスマートスピーカーに認識されてもかまわないか、という話である)

従って、レーダーを用いたアクティビティ追跡が他の種類のセンサーよりも非侵襲的だとはいっても、プライバシーの問題が生じないとは言い切れないのだ。

やはりそれはセンシングハードウェアがどのように使用されているかによる。とはいえ、レーダーが生成したデータはカメラなどが生成した視覚データに比べ、漏洩によってそれが人々の目にさらされた場合、比較的機密性が低いという点は間違いないだろう。

「いずれのセンサーにも、おのずとプライバシーの問題はつきまといます。プライバシーの問題があるか、ないか、ではなく、それは程度の問題です。レーダセンサーは詳細を捉えることができますが、カメラと違い匿名性が高いといえます。ドップラーレーダーデータがオンラインでリークされても、気まずい思いをすることはないでしょう。誰もそれがあなただとは認識できないからです。しかし、家の中に設置されたカメラからの情報がリークされた場合は、どうでしょうか……」。

ドップラーシグナルデータがすぐには入手できないことを前提とすると、トレーニングデータの合成にかかる計算コストは、どれ程だろうか?

「すぐに使えるというわけではありませんが、データを抽出するのに使用できる大規模なビデオコーパスは豊富にあります(Youtube-8Mのようなものを含め)」とハリス氏はいう。「動きのデータを収集するために人々をリクルートして研究室に来てもらうより、ビデオデータをダウンロードして合成レーダデータを作成するほうが、データ収集を桁違いに速く行うことができます」。

「実際の人物から質の高い1時間のデータを得ようとすると、どうしても1時間はかかります。しかし最近では、多くの良質のビデオデータベースから何百時間もの映像を簡単にダウンロードすることができます。ビデオ1時間を処理するのに2時間かかりますが、これは研究室にあるデスクトップ一台あたりの話です。重要なのは、Amazon AWSなどを使ってこれを並列化し一度に100本のビデオを処理できるということです。そのため、スループットは非常に高いものになります」。

また、無線周波数信号は、さまざまな表面からさまざまな程度で反射するが(「マルチパス干渉」としても知られる)、ハリス氏によると、ユーザーによって反射された信号は「圧倒的に優勢な信号」である。つまり、デモモデルを機能させるために、他の反射をモデル化する必要はない(しかしハリス氏は、機能をさらに磨くために「壁/天井/床/家具などの大きな表面をコンピュータービジョンで抽出し、それを合成段階に追加することができる」と述べた)。

「ワシントンD.C.(ドップラー)信号は実際に非常に高レベルで抽象的なため、リアルタイムで処理するのは特に困難ではありません(カメラよりはるかに少ない「ピクセル」のため)。車に組み込まれたプロセッサーは衝突被害軽減ブレーキシステムやブラインドスポットの監視などのためにレーダーデータを使用しています。そしてそれらはローエンドのCPUなのです(ディープラーニングなどを行わない)」。

この研究は、他のPose-on-the-Goと呼ばれる別のグループプロジェクトとあわせ、ACM CHIカンファレンスで発表されている。Pose-on-the-Goは、ウェアラブルセンサーを使わずに、スマートフォンのセンサーを使用してユーザーの全身のポーズの概要を捉えるものだ。

また、このグループのカーネギーメロン大学の研究者らは、安価に屋内「スマートホーム」センシングを実現する方法をワシントンD.C.以前実証しているワシントンD.C.(これもカメラを使わない)他、ワシントンD.C.2020年は、スマートフォンのカメラにより、デバイス上のAIアシスタントに詳細なコンテクストを供給する方法を示してもいる。

関連記事:音声AIがスマホカメラに映る映像を解析して質問にズバリ答えられるようにするWorldGaze

近年彼らはワシントンD.C.レーザー振動計電磁雑音を使ってスマートデバイスにより適切に環境認識をさせ、コンテキスト機能を与える方法の研究も行っている。このグループによる他の研究には、伝導性のスプレーペイントを用いてワシントンD.C.あらゆるものをタッチスクリーンに変える研究や、ワシントンD.C.レーザーで仮想ボタンをデイバイスユーザーの腕に投影したり、別のウェアラブル(リング)ワシントンD.C.をミックスに組み入れるなどして、ウェアラブルのインタラクティブな可能性を広げるさまざまな方法の研究が含まれていて大変興味深い。

現在の「スマート」デバイスは基本的なことにつまづくなど、あまり賢くないように見えるかもしれないが、今後人とコンピューターのインタラクションが、はるかに詳細なコンテクストベースのものになるのは確かだろう。

関連記事:このロボットはレーザーを使ってその環境を「聴く」

カテゴリー:セキュリティ
タグ:レーダープライバシー個人情報アクティビティカーネギーメロン大学

画像クレジット:CMU

原文へ

(文:Natasha Lomas、翻訳:Dragonfly)