カメラが捉える微細な動き MITの最新技術で見える世界

テクノロジー

Subtle motion happens around us all the time, including tiny vibrations caused by sound. New technology shows that we can pick up on these vibrations and actually re-create sound and conversations just from a video of a seemingly still object. But now Abe Davis takes it one step further: Watch him demo software that lets anyone interact with these hidden properties, just from a simple video.

微妙な動きは私たちの周りで常に起こっています。それには、音によって引き起こされる微小な振動も含まれます。

新しい技術は、これらの振動を感知し、実際に静止しているように見える物体のビデオから音や会話を再現できることを示しています。しかし、今、エイブ・デイビスはさらに一歩を踏み込みます。彼がデモするソフトウェアを見てください。それは誰でも、単純なビデオからこれらの隠れた特性とやり取りできるようにします。

タイトル New video technology that reveals an object’s hidden properties
物体の隠された特性を明らかにする新しいビデオ技術
スピーカー エイブ・デイビス
アップロード 2015/05/06
スポンサーリンク

物体の隠された特性を明らかにする新しいビデオ技術(New video technology that reveals an object’s hidden properties)

要約

私たちの日常では、動作は視覚的なものと捉えがちですが、目に見えない微妙な動作の世界が存在します。最近、カメラ技術の進化により、人間の目では見えない微細な動作を捉えることが可能になってきました。

モーションマイクロスコープの革新

MITの同僚が開発した「モーションマイクロスコープ」というソフトウェアは、ビデオの微細な動きを増幅して視覚化する技術です。例えば、人の手首の脈拍や眠っている赤ちゃんの呼吸を視覚的に観察できるようになります。

音の振動を捉える新しい試み

私はこの技術をさらに発展させ、音の振動を視覚的に捉えることができるのではないかと考えました。高速カメラと特別なアルゴリズムを用いることで、植木鉢の葉やチップスの袋の微小な振動から音を復元する実験に成功しました。これにより、ビデオを使って物体をマイクのように利用することが可能となりました。

実用化と応用の可能性

この技術は、スパイ活動や監視に利用される可能性もありますが、それ以上に物体の振動から多くの情報を得る新しい方法として注目されています。普通のカメラで撮影したビデオから、物体の構造的および材料的特性を解析し、新しいインタラクティブなモデルを作成することも可能です。

未来への展望

この技術は、物体の振動を視覚化することで、物体の反応を予測する能力を持ちます。例えば、古い橋が車の重さに耐えられるかどうかを予測することができます。これは安全性の確認など、さまざまな分野での応用が期待されます。

文字起こし

Most of us think of motion as a very visual thing. If I walk across this stage or gesture with my hands while I speak, that motion is something that you can see. But there’s a world of important motion that’s too subtle for the human eye, and over the past few years, we’ve started to find that cameras can often see this motion even when humans can’t.

So let me show you what I mean. On the left here, you see video of a person’s wrist, and on the right, you see video of a sleeping infant. But if I didn’t tell you that these were videos, you might assume that you were looking at two regular images, because in both cases, these videos appear to be almost completely still. But there’s actually a lot of subtle motion going on here. If you were to touch the wrist on the left, you would feel a pulse, and if you were to hold the infant on the right, you would feel the rise and fall of her chest as she took each breath. These motions carry a lot of significance, but they’re usually too subtle for us to see, so instead, we have to observe them through direct contact, through touch.

A few years ago, my colleagues at MIT developed what they call a motion microscope, which is software that finds these subtle motions in video and amplifies them so that they become large enough for us to see. If we use their software on the left video, it lets us see the pulse in this wrist, and if we were to count that pulse, we could even figure out this person’s heart rate. If we used the same software on the right video, it lets us see each breath that this infant takes, and we can use this as a contact-free way to monitor her breathing. This technology is really powerful because it takes these phenomena that we normally have to experience through touch and lets us capture them visually and non-invasively.

A couple of years ago, I started working with the folks that created that software, and we decided to pursue a crazy idea. We thought, it’s cool that we can use software to visualize tiny motions like this, and you can almost think of it as a way to extend our sense of touch. But what if we could do the same thing with our ability to hear? What if we could use video to capture the vibrations of sound, which are just another kind of motion, and turn everything that we see into a microphone?

Now, this is a bit of a strange idea, so let me try to put it in perspective for you. Traditional microphones work by converting the motion of an internal diaphragm into an electrical signal, and that diaphragm is designed to move readily with sound so that its motion can be recorded and interpreted as audio. But sound causes all objects to vibrate. Those vibrations are just usually too subtle and too fast for us to see. So what if we record them with a high-speed camera and then use software to extract tiny motions from our high-speed video, and analyze those motions to figure out what sounds created them? This would let us turn visible objects into visual microphones from a distance.

So we tried this out, and here’s one of our experiments, where we took this potted plant that you see on the right and we filmed it with a high-speed camera while a nearby loudspeaker played this sound.

And so here’s the video that we recorded, and we recorded it at thousands of frames per second. But even if you look very closely, all you’ll see are some leaves that are pretty much just sitting there doing nothing, because our sound only moved those leaves by about a micrometer. That’s one ten-thousandth of a centimeter, which spans somewhere between a hundredth and a thousandth of a pixel in this image. So you can squint all you want, but motion that small is pretty much perceptually invisible. But it turns out that something can be perceptually invisible and still be numerically significant, because with the right algorithms, we can take this silent, seemingly still video and we can recover this sound.

So how is this possible? How can we get so much information out of so little motion? Well, let’s say that those leaves move by just a single micrometer, and let’s say that that shifts our image by just a thousandth of a pixel. That may not seem like much, but a single frame of video may have hundreds of thousands of pixels in it, and so if we combine all of the tiny motions that we see from across that entire image, then suddenly a thousandth of a pixel can start to add up to something pretty significant. On a personal note, we were pretty psyched when we figured this out.

But even with the right algorithm, we were still missing a pretty important piece of the puzzle. You see, there are a lot of factors that affect when and how well this technique will work. There’s the object and how far away it is; there’s the camera and the lens that you use; how much light is shining on the object and how loud your sound is. And even with the right algorithm, we had to be very careful with our early experiments, because if we got any of these factors wrong, there was no way to tell what the problem was. We would just get noise back. And so a lot of our early experiments looked like this.

And so here I am, and on the bottom left, you can kind of see our high-speed camera, which is pointed at a bag of chips, and the whole thing is lit by these bright lamps. And like I said, we had to be very careful in these early experiments, so this is how it went down.

“Abe Davis: Three, two, one, go. Mary had a little lamb! Little lamb! Little lamb!”

So this experiment looks completely ridiculous. I mean, I’m screaming at a bag of chips?and we’re blasting it with so much light, we literally melted the first bag we tried this on. But ridiculous as this experiment looks, it was actually really important, because we were able to recover this sound.

“Mary had a little lamb! Little lamb! Little lamb!”

And this was really significant, because it was the first time we recovered intelligible human speech from silent video of an object.

And so it gave us this point of reference, and gradually we could start to modify the experiment, using different objects or moving the object further away, using less light or quieter sounds. And we analyzed all of these experiments until we really understood the limits of our technique, because once we understood those limits, we could figure out how to push them.

That led to experiments like this one, where again, I’m going to speak to a bag of chips, but this time we’ve moved our camera about 15 feet away, outside, behind a soundproof window, and the whole thing is lit by only natural sunlight. And so here’s the video that we captured. And this is what things sounded like from inside, next to the bag of chips.

“Mary had a little lamb whose fleece was white as snow, and everywhere that Mary went, that lamb was sure to go.”

And here’s what we were able to recover from our silent video captured outside behind that window.

“Mary had a little lamb whose fleece was white as snow, and everywhere that Mary went, that lamb was sure to go.”

And there are other ways that we can push these limits as well. So here’s a quieter experiment where we filmed some earphones plugged into a laptop computer, and in this case, our goal was to recover the music that was playing on that laptop from just silent video of these two little plastic earphones, and we were able to do this so well that I could even Shazam our results.

We can also push things by changing the hardware that we use. The experiments I’ve shown you so far were done with a high-speed camera that can record video about a hundred times faster than most cell phones, but we’ve also found a way to use this technique with more regular cameras. We do that by taking advantage of what’s called a rolling shutter. Most cameras record images one row at a time, and so if an object moves during the recording of a single image, there’s a slight time delay between each row, causing slight artifacts that get coded into each frame of a video. By analyzing these artifacts, we can actually recover sound using a modified version of our algorithm.

So here’s an experiment we did where we filmed a bag of candy while a nearby loudspeaker played the same “Mary Had a Little Lamb” music from before, but this time, we used just a regular store-bought camera. In a second, I’ll play for you the sound that we recovered, and it’s going to sound distorted this time, but listen and see if you can still recognize the music.

And so, again, that sounds distorted, but what’s really amazing here is that we were able to do this with something that you could literally run out and pick up at a Best Buy.

At this point, a lot of people see this work, and they immediately think about surveillance. To be fair, it’s not hard to imagine how you might use this technology to spy on someone. But keep in mind that there’s already a lot of very mature technology out there for surveillance. In fact, people have been using lasers to eavesdrop on objects from a distance for decades. But what’s really new here, what’s really different, is that now we have a way to picture the vibrations of an object, which gives us a new lens through which to look at the world. We can use that lens to learn not just about forces like sound that cause an object to vibrate, but also about the object itself.

And so I want to take a step back and think about how that might change the ways that we use video, because we usually use video to look at things, and I’ve just shown you how we can use it to listen to things. But there’s another important way that we learn about the world: that’s by interacting with it. We push and pull and poke and prod things. We shake things and see what happens. And that’s something that video still won’t let us do, at least not traditionally.

So I want to show you some new work, and this is based on an idea I had just a few months ago, so this is actually the first time I’ve shown it to a public audience. The basic idea is that we’re going to use the vibrations in a video to capture objects in a way that will let us interact with them and see how they react to us.

So here’s an object, and in this case, it’s a wire figure in the shape of a human, and we’re going to film that object with just a regular camera. So there’s nothing special about this camera. In fact, I’ve actually done this with my cell phone before. But we do want to see the object vibrate, so to make that happen, we’re just going to bang a little bit on the surface where it’s resting while we record this video.

So that’s it: just five seconds of regular video, while we bang on this surface, and we’re going to use the vibrations in that video to learn about the structural and material properties of our object, and we’re going to use that information to create something new and interactive. And so here’s what we’ve created. And it looks like a regular image, but this isn’t an image, and it’s not a video, because now I can take my mouse and I can start interacting with the object. And so what you see here is a simulation of how this object would respond to new forces that we’ve never seen before, and we created it from just five seconds of regular video.

And so this is a really powerful way to look at the world, because it lets us predict how objects will respond to new situations. You could imagine, for instance, looking at an old bridge and wondering what would happen, how would that bridge hold up if I were to drive my car across it. And that’s a question that you probably want to answer before you start driving across that bridge.

Of course, there are going to be limitations to this technique, just like there were with the visual microphone, but we found that it works in a lot of situations that you might not expect, especially if you give it longer videos. So for example, here’s a video that I captured of a bush outside of my apartment, and I didn’t do anything to this bush, but by capturing a minute-long video, a gentle breeze caused enough vibrations that we could learn enough about this bush to create this simulation.

And so you could imagine giving this to a film director, and letting them control, say, the strength and direction of wind in a shot after it’s been recorded. Or, in this case, we pointed our camera at a hanging curtain, and you can’t even see any motion in this video, but by recording a two-minute-long video, natural air currents in this room created enough subtle, imperceptible motions and vibrations that we could learn enough to create this simulation.

Ironically, we’re kind of used to having this kind of interactivity when it comes to virtual objects, when it comes to video games and 3D models, but to be able to capture this information from real objects in the real world using just simple, regular video is something new that has a lot of potential.

So here are the amazing people who worked with me on these projects.

What I’ve shown you today is only the beginning. We’ve just started to scratch the surface of what you can do with this kind of imaging, because it gives us a new way to capture our surroundings with common, accessible technology. Looking to the future, it’s going to be really exciting to explore what this can tell us about the world.

Thank you.

和訳

私たちの多くは、動作を非常に視覚的なものと考えています。私がこのステージを歩いたり、話しながら手を動かしたりすると、その動きは目に見えるものです。しかし、目に見えないほど微妙な動作の世界があり、ここ数年でカメラがこの微妙な動作を人間が見えない場合でも捉えることができることがわかってきました。

では、実際に見ていただきましょう。左側には人の手首のビデオがあり、右側には眠っている赤ちゃんのビデオがあります。しかし、これらがビデオであると言わなければ、どちらも通常の静止画像を見ていると感じるかもしれません。どちらのビデオもほとんど完全に静止しているように見えますが、実際にはここには多くの微妙な動作が存在します。左側の手首に触れると脈拍を感じ、右側の赤ちゃんを抱くと胸の上下を感じることができます。これらの動きは非常に重要ですが、通常は私たちの目には見えないため、触覚を通じて観察するしかありません。

数年前、MITの同僚が「モーションマイクロスコープ」と呼ばれるソフトウェアを開発しました。これは、ビデオの微妙な動きを見つけ、それを増幅して私たちが見えるようにするものです。左側のビデオにこのソフトウェアを使用すると、手首の脈拍が見え、その脈拍を数えることで心拍数を把握することができます。同じソフトウェアを右側のビデオに使用すると、赤ちゃんの呼吸を視覚的かつ非接触で監視することができます。この技術は非常に強力で、通常は触覚でしか体験できない現象を視覚的かつ非侵襲的に捉えることができます。

数年前、私はこのソフトウェアを開発した人々と一緒に働き始め、狂気じみたアイデアを追求することにしました。微細な動きを視覚化するためにソフトウェアを使用できるのは素晴らしいことですが、同じことを聴覚でもできるのではないかと考えました。ビデオを使って音の振動を捉え、見えるものすべてをマイクに変えることができるのではないかと。

これは少し奇妙なアイデアなので、視点を提供するために説明します。伝統的なマイクロフォンは、内部のダイアフラムの動きを電気信号に変換することで機能し、そのダイアフラムは音に対して容易に動くように設計されています。しかし、音はすべての物体に振動を引き起こします。その振動は通常、目に見えないほど微妙で速いのです。では、高速カメラでそれを記録し、ソフトウェアを使用して微小な動きを抽出し、その動きを解析してどのような音がそれを引き起こしたかを解明することができるでしょうか?これにより、視覚的に物体をマイクに変えることができるのです。

このアイデアを試してみました。これは実験の一つで、右側に見える植木鉢を高速カメラで撮影し、近くのスピーカーからこの音を再生しました。

録画したビデオがこちらで、何千フレーム毎秒で録画しました。しかし、非常に注意深く見ても、ほとんど動いていない葉しか見えません。音は葉を約1ミクロンだけ動かしました。それは1センチの一万分の一であり、この画像のピクセルの百から千分の一に相当します。目を細めても、その動きはほぼ見えません。しかし、適切なアルゴリズムを使用することで、この静かなビデオから音を復元することができました。

では、どうしてこれが可能なのでしょうか?どうしてわずかな動きからこれほど多くの情報を得ることができるのでしょうか?例えば、その葉が1ミクロンだけ動き、その画像がピクセルの千分の一だけシフトしたとしましょう。それは大したことではないかもしれませんが、ビデオの1フレームには何十万ものピクセルが含まれているので、その全体の微小な動きを組み合わせることで、突然ピクセルの千分の一が重要な意味を持つようになります。個人的には、これを解明したときは非常に興奮しました。

しかし、適切なアルゴリズムがあっても、まだ重要な要素が欠けていました。多くの要因がこの技術の成功に影響を与えるのです。物体やその距離、使用するカメラやレンズ、物体に当たる光の量、音の大きさなどです。初期の実験では非常に注意が必要で、どの要素が問題なのかわからない場合は、ノイズしか戻ってこないことがよくありました。初期の多くの実験はこんな感じでした。

こちらにいる私は、左下に見える高速カメラを持ち、チップスの袋に向けています。そして、明るいランプで照らしています。初期の実験では非常に慎重でなければならなかったので、こんなふうに進行しました。

「エイブ・デイビス:3、2、1、開始。メアリーさんの小羊!」

この実験は完全に馬鹿げて見えます。チップスの袋に向かって叫んでいるのですから。そして、袋を溶かしてしまうほどの光を当てています。しかし、この実験は非常に重要でした。なぜなら、この音を復元することができたからです。

「メアリーさんの小羊!」

これは非常に重要な成果でした。初めて静止ビデオから人間の声を知覚できる形で復元できたのです。

この実験を基に、さまざまな物体を使ったり、物体を遠くに置いたり、光を減らしたり、音を小さくしたりする実験を行い、この技術の限界を理解するまで解析しました。限界を理解することで、それを押し広げる方法を見つけることができました。

次の実験は、再びチップスの袋に話しかけるものでしたが、今回はカメラを約15フィート離れた場所に置き、外の防音ガラスの後ろに置きました。照明は自然光のみです。録画したビデオがこちらです。そして、袋の横から内部の音を録音しました。

「メアリーさんの小羊のフリースは白く、メアリーさんの行くところどこへでも。」

こちらが、窓の外で静止ビデオから復元した音です。

「メアリーさんの小羊のフリースは白く、メアリーさんの行くところどこへでも。」

他にもこの限界を押し広げる方法があります。次の実験では、ラップトップに接続されたイヤホンを録画しました。ラップトップから再生される音楽を静止ビデオから復元し、Shazamでその結果を確認できるほど正確に復元できました。

使用するハードウェアを変更することで、限界を押し広げることもできます。これまでの実験は、ほとんどの携帯電話よりも約100倍速くビデオを録画できる高速カメラを使用していましたが、通常のカメラでもこの技術を使用する方法を見つけました。ローリングシャッターを利用します。ほとんどのカメラは、一行ずつ画像を記録します。物体が画像の記録中に動くと、各行の間にわずかな時間差が生じ、各フレームにわずかなアーティファクトがコード化されます。これらのアーティファクトを解析することで、アルゴリズムを修正して音を復元することができます。

次の実験では、キャンディの袋を録画し、近くのスピーカーから「メアリーさんの小羊」の音楽を再生しましたが、今回は通常の市販カメラを使用しました。復元した音を再生します。

今回は歪んで聞こえますが、音楽を認識できるかどうか聞いてみてください。

もう一度言いますが、歪んで聞こえますが、ここで本当に驚くべきことは、Best Buyで購入できるカメラでこれを実現できたことです。

この技術を見た多くの人々はすぐに監視を思い浮かべます。確かに、この技術をスパイ活動に使うことは簡単に想像できます。しかし、監視技術はすでに多く存在しています。実際、レーザーを使って遠くから物体を盗聴することは何十年も行われてきました。しかし、ここで本当に新しいのは、物体の振動を視覚化する方法が得られたことです。これにより、物体の振動を引き起こす音などの力だけでなく、物体自体についても学ぶことができます。

ビデオの使い方がどのように変わるかを考えてみましょう。通常、ビデオは物を視覚的に観察するために使いますが、私はそれを使って音を聞く方法を示しました。しかし、もう一つ重要な学び方があります。それは、世界と対話することです。押したり引いたり、突いたりつついたり、物を振って反応を見ます。しかし、ビデオではこれを従来の方法では実現できません。

最近、私は新しい研究を始めました。これは数ヶ月前に思いついたアイデアに基づいており、公に発表するのは初めてです。基本的なアイデアは、ビデオ内の振動を利用して物体を捉え、それを使って物体と対話し、その反応を観察することです。

こちらがその物体です。この場合、ワイヤーで作られた人間の形をしたフィギュアです。これを普通のカメラで撮影します。特別なカメラではありません。実際、私はこれを自分の携帯電話で撮影しました。しかし、物体が振動するのを見たいので、録画中に物体が置かれている表面を少し叩いて振動させます。

これがそのビデオです。5秒間の普通のビデオで、表面を叩いています。このビデオの振動を利用して物体の構造的および材料的特性を学び、それを使って新しいインタラクティブなものを作成します。これが作成したものです。通常の画像のように見えますが、これは画像ではなく、ビデオでもありません。今ではマウスを使って物体と対話することができます。新しい力に対する物体の反応をシミュレーションしています。これは5秒間の普通のビデオから作成されました。

この技術は非常に強力で、物体が新しい状況にどう反応するかを予測することができます。例えば、古い橋を見て、この橋に車で乗ったらどうなるかを考えることができます。それは橋を渡る前に知りたい質問です。

もちろん、この技術には限界がありますが、多くの予期しない状況で機能します。例えば、私のアパートの外のブッシュを1分間のビデオで撮影しました。何もしていませんが、微妙な風の振動でブッシュのシミュレーションを作成できました。

これを映画監督に提供し、風の強さや方向を後から制御することができます。また、カーテンにカメラを向けました。動きは見えませんが、2分間のビデオで自然な空気の流れが微妙な動きを引き起こし、シミュレーションを作成できました。

このようなインタラクティブ性は、バーチャルオブジェクトやビデオゲーム、3Dモデルでは一般的ですが、実際の物体から普通のビデオで情報を取得するのは新しいことであり、多くの可能性があります。

こちらが、私と一緒にこれらのプロジェクトに取り組んだ素晴らしい人々です。

今日お見せしたものは始まりに過ぎません。この種のイメージングで何ができるかの表面をやっと掻き始めたところです。一般的でアクセスしやすい技術を使って周囲を捉える新しい方法を提供します。未来を見据えると、この技術が世界について何を教えてくれるかを探求するのが非常に楽しみです。

ありがとうございました。

タイトルとURLをコピーしました