AIの三つの原則で実現する人類のための機械学習

テクノロジー

How can we harness the power of superintelligent AI while also preventing the catastrophe of robotic takeover? As we move closer toward creating all-knowing machines, AI pioneer Stuart Russell is working on something a bit different: robots with uncertainty. Hear his vision for human-compatible AI that can solve problems using common sense, altruism and other human values.

ロボットによる乗っ取りによる大惨事を防ぎながら、超インテリジェント AI の力を活用するにはどうすればよいでしょうか?

私たちが全知の機械の開発に近づく中、AI のパイオニアであるスチュアート・ラッセルは、少し異なるもの、つまり不確実性を備えたロボットに取り組んでいます。常識、利他主義、その他の人間の価値観を活用して問題を解決できる、人間と互換性のある AI に対する彼のビジョンを聞いてください。

タイトル
3 principles for creating safer AI
より安全なAIを生み出すための3原則
スピーカー スチュアート・ラッセル
アップロード 2017/06/07

「より安全なAIを生み出すための3原則(3 principles for creating safer AI)」の文字起こし

This is Lee Sedol.

Lee Sedol is one of the world’s greatest Go players, and he’s having what my friends in Silicon Valley call a “Holy Cow” moment —

a moment where we realize that AI is actually progressing a lot faster than we expected.

So humans have lost on the Go board. What about the real world? Well, the real world is much bigger, much more complicated than the Go board. It’s a lot less visible, but it’s still a decision problem.

And if we think about some of the technologies that are coming down the pike … Noriko [Arai] mentioned that reading is not yet happening in machines, at least with understanding. But that will happen, and when that happens, very soon afterwards, machines will have read everything that the human race has ever written. And that will enable machines, along with the ability to look further ahead than humans can, as we’ve already seen in Go, if they also have access to more information, they’ll be able to make better decisions in the real world than we can.

So is that a good thing? Well, I hope so. Our entire civilization, everything that we value, is based on our intelligence. And if we had access to a lot more intelligence, then there’s really no limit to what the human race can do. And I think this could be, as some people have described it, the biggest event in human history.

So why are people saying things like this, that AI might spell the end of the human race? Is this a new thing? Is it just Elon Musk and Bill Gates and Stephen Hawking? Actually, no. This idea has been around for a while. Here’s a quotation: “Even if we could keep the machines in a subservient position, for instance, by turning off the power at strategic moments” — and I’ll come back to that “turning off the power” idea later on — “we should, as a species, feel greatly humbled.”

So who said this? This is Alan Turing in 1951. Alan Turing, as you know, is the father of computer science and in many ways, the father of AI as well.

So if we think about this problem, the problem of creating something more intelligent than your own species, we might call this “the gorilla problem,” because gorillas’ ancestors did this a few million years ago, and now we can ask the gorillas: Was this a good idea?

So here they are having a meeting to discuss whether it was a good idea, and after a little while, they conclude, no, this was a terrible idea. Our species is in dire straits. In fact, you can see the existential sadness in their eyes.

So this queasy feeling that making something smarter than your own species is maybe not a good idea — what can we do about that? Well, really nothing, except stop doing AI, and because of all the benefits that I mentioned and because I’m an AI researcher, I’m not having that. I actually want to be able to keep doing AI.

So we actually need to nail down the problem a bit more. What exactly is the problem? Why is better AI possibly a catastrophe?

So here’s another quotation: “We had better be quite sure that the purpose put into the machine is the purpose which we really desire.” This was said by Norbert Wiener in 1960, shortly after he watched one of the very early learning systems learn to play checkers better than its creator.

But this could equally have been said by King Midas. King Midas said, “I want everything I touch to turn to gold,” and he got exactly what he asked for. That was the purpose that he put into the machine, so to speak, and then his food and his drink and his relatives turned to gold and he died in misery and starvation.

So we’ll call this “the King Midas problem” of stating an objective which is not, in fact, truly aligned with what we want. In modern terms, we call this “the value alignment problem.” Putting in the wrong objective is not the only part of the problem. There’s another part.

If you put an objective into a machine, even something as simple as, “Fetch the coffee,” the machine says to itself, “Well, how might I fail to fetch the coffee? Someone might switch me off. OK, I have to take steps to prevent that. I will disable my ‘off’ switch. I will do anything to defend myself against interference with this objective that I have been given.” So this single-minded pursuit in a very defensive mode of an objective that is, in fact, not aligned with the true objectives of the human race — that’s the problem that we face.

And in fact, that’s the high-value takeaway from this talk. If you want to remember one thing, it’s that you can’t fetch the coffee if you’re dead.

It’s very simple. Just remember that. Repeat it to yourself three times a day.

And in fact, this is exactly the plot of “2001: [A Space Odyssey]” HAL has an objective, a mission, which is not aligned with the objectives of the humans, and that leads to this conflict. Now fortunately, HAL is not superintelligent. He’s pretty smart, but eventually Dave outwits him and manages to switch him off. But we might not be so lucky. So what are we going to do?

I’m trying to redefine AI to get away from this classical notion of machines that intelligently pursue objectives. There are three principles involved. The first one is a principle of altruism, if you like, that the robot’s only objective is to maximize the realization of human objectives, of human values. And by values here I don’t mean touchy-feely, goody-goody values. I just mean whatever it is that the human would prefer their life to be like.

And so this actually violates Asimov’s law that the robot has to protect its own existence. It has no interest in preserving its existence whatsoever. The second law is a law of humility, if you like. And this turns out to be really important to make robots safe. It says that the robot does not know what those human values are, so it has to maximize them, but it doesn’t know what they are. And that avoids this problem of single-minded pursuit of an objective.

This uncertainty turns out to be crucial. Now, in order to be useful to us, it has to have some idea of what we want. It obtains that information primarily by observation of human choices, so our own choices reveal information about what it is that we prefer our lives to be like. So those are the three principles. Let’s see how that applies to this question of: “Can you switch the machine off?” as Turing suggested.

So here’s a PR2 robot. This is one that we have in our lab, and it has a big red “off” switch right on the back. The question is: Is it going to let you switch it off? If we do it the classical way, we give it the objective of, “Fetch the coffee, I must fetch the coffee, I can’t fetch the coffee if I’m dead,” so obviously the PR2 has been listening to my talk, and so it says, therefore, “I must disable my ‘off’ switch, and probably taser all the other people in Starbucks who might interfere with me.”

So this seems to be inevitable, right? This kind of failure mode seems to be inevitable, and it follows from having a concrete, definite objective.

So what happens if the machine is uncertain about the objective? Well, it reasons in a different way. It says, “OK, the human might switch me off, but only if I’m doing something wrong. Well, I don’t really know what wrong is, but I know that I don’t want to do it.” So that’s the first and second principles right there. “So I should let the human switch me off.” And in fact you can calculate the incentive that the robot has to allow the human to switch it off, and it’s directly tied to the degree of uncertainty about the underlying objective. And then when the machine is switched off, that third principle comes into play. It learns something about the objectives it should be pursuing, because it learns that what it did wasn’t right. In fact, we can, with suitable use of Greek symbols, as mathematicians usually do, we can actually prove a theorem that says that such a robot is provably beneficial to the human. You are provably better off with a machine that’s designed in this way than without it.

So this is a very simple example, but this is the first step in what we’re trying to do with human-compatible AI. Now, this third principle, I think is the one that you’re probably scratching your head over. You’re probably thinking, “Well, you know, I behave badly. I don’t want my robot to behave like me. I sneak down in the middle of the night and take stuff from the fridge. I do this and that.” There’s all kinds of things you don’t want the robot doing. But in fact, it doesn’t quite work that way. Just because you behave badly doesn’t mean the robot is going to copy your behavior. It’s going to understand your motivations and maybe help you resist them, if appropriate. But it’s still difficult. What we’re trying to do, in fact, is to allow machines to predict for any person and for any possible life that they could live, and the lives of everybody else: Which would they prefer? And there are many, many difficulties involved in doing this; I don’t expect that this is going to get solved very quickly.

The real difficulties, in fact, are us. As I have already mentioned, we behave badly. In fact, some of us are downright nasty. Now the robot, as I said, doesn’t have to copy the behavior. The robot does not have any objective of its own. It’s purely altruistic. And it’s not designed just to satisfy the desires of one person, the user, but in fact it has to respect the preferences of everybody. So it can deal with a certain amount of nastiness, and it can even understand that your nastiness, for example, you may take bribes as a passport official because you need to feed your family and send your kids to school. It can understand that; it doesn’t mean it’s going to steal. In fact, it’ll just help you send your kids to school.

We are also computationally limited. Lee Sedol is a brilliant Go player, but he still lost. So if we look at his actions, he took an action that lost the game. That doesn’t mean he wanted to lose.

So to understand his behavior, we actually have to invert through a model of human cognition that includes our computational limitations — a very complicated model. But it’s still something that we can work on understanding. Probably the most difficult part, from my point of view as an AI researcher, is the fact that there are lots of us, and so the machine has to somehow trade off, weigh up the preferences of many different people, and there are different ways to do that. Economists, sociologists, moral philosophers have understood that, and we are actively looking for collaboration.

Let’s have a look and see what happens when you get that wrong. So you can have a conversation, for example, with your intelligent personal assistant that might be available in a few years’ time. Think of a Siri on steroids. So Siri says, “Your wife called to remind you about dinner tonight.” And of course, you’ve forgotten. “What? What dinner? What are you talking about?” “Uh, your 20th anniversary at 7pm.” “I can’t do that. I’m meeting with the secretary-general at 7:30. How could this have happened?” “Well, I did warn you, but you overrode my recommendation.” “Well, what am I going to do? I can’t just tell him I’m too busy.” “Don’t worry. I arranged for his plane to be delayed.” “Some kind of computer malfunction.” “Really? You can do that?” “He sends his profound apologies and looks forward to meeting you for lunch tomorrow.”

So the values here — there’s a slight mistake going on. This is clearly following my wife’s values which is “Happy wife, happy life.” It could go the other way.

You could come home after a hard day’s work, and the computer says, “Long day?” “Yes, I didn’t even have time for lunch.” “You must be very hungry.” “Starving, yeah. Could you make some dinner?” “There’s something I need to tell you.” “There are humans in South Sudan who are in more urgent need than you.” “So I’m leaving. Make your own dinner.”

So we have to solve these problems, and I’m looking forward to working on them. There are reasons for optimism. One reason is, there is a massive amount of data. Because remember — I said they’re going to read everything the human race has ever written. Most of what we write about is human beings doing things and other people getting upset about it. So there’s a massive amount of data to learn from. There’s also a very strong economic incentive to get this right. So imagine your domestic robot’s at home. You’re late from work again and the robot has to feed the kids, and the kids are hungry and there’s nothing in the fridge. And the robot sees the cat. And the robot hasn’t quite learned the human value function properly, so it doesn’t understand the sentimental value of the cat outweighs the nutritional value of the cat. So then what happens? Well, it happens like this: “Deranged robot cooks kitty for family dinner.” That one incident would be the end of the domestic robot industry. So there’s a huge incentive to get this right long before we reach superintelligent machines.

So to summarize: I’m actually trying to change the definition of AI so that we have provably beneficial machines. And the principles are: machines that are altruistic, that want to achieve only our objectives, but that are uncertain about what those objectives are, and will watch all of us to learn more about what it is that we really want. And hopefully in the process, we will learn to be better people. Thank you very much.

Chris Anderson: So interesting, Stuart. We’re going to stand here a bit because I think they’re setting up for our next speaker. A couple of questions. So the idea of programming in ignorance seems intuitively really powerful. As you get to superintelligence, what’s going to stop a robot reading literature and discovering this idea that knowledge is actually better than ignorance and still just shifting its own goals and rewriting that programming?

Stuart Russell: Yes, so we want it to learn more, as I said, about our objectives. It’ll only become more certain as it becomes more correct, so the evidence is there and it’s going to be designed to interpret it correctly. It will understand, for example, that books are very biased in the evidence they contain. They only talk about kings and princes and elite white male people doing stuff. So it’s a complicated problem, but as it learns more about our objectives it will become more and more useful to us.

CA: And you couldn’t just boil it down to one law, you know, hardwired in: “if any human ever tries to switch me off, I comply. I comply.”

SR: Absolutely not. That would be a terrible idea. So imagine that you have a self-driving car and you want to send your five-year-old off to preschool. Do you want your five-year-old to be able to switch off the car while it’s driving along? Probably not. So it needs to understand how rational and sensible the person is. The more rational the person, the more willing you are to be switched off. If the person is completely random or even malicious, then you’re less willing to be switched off.

CA: All right. Stuart, can I just say, I really, really hope you figure this out for us. Thank you so much for that talk. That was amazing.

SR: Thank you.

「より安全なAIを生み出すための3原則(3 principles for creating safer AI)」の和訳

これは李世ドルです。

李世ドルは世界でも最高の囲碁プレイヤーの一人であり、シリコンバレーの友人たちが「ホーリーカウ」と呼ぶ瞬間を経験しています(笑)──AIが実際に私たちが期待していたよりもはるかに速く進化していると気づく瞬間です。

では、囲碁盤で人間が負けたとしても、現実世界はどうでしょうか?まあ、現実世界は囲碁盤よりもずっと大きく、はるかに複雑です。それは目に見えるものは少ないですが、それでも意思決定の問題です。

そして、私たちが目前に迫っているいくつかの技術を考えてみましょう…荒井の方が(読解の点で)機械はまだ読書していない、と言いましたが、それはすぐに実現するでしょう。そしてそれが実現すると、その直後に機械は人類が書いたすべてのものを読みます。そして、それにより、機械は人間よりも遥かに先を見る能力を持っている場合、既に囲碁で見たように、より多くの情報にアクセスできるなら、現実世界でより良い意思決定ができるようになります。

では、それは良いことでしょうか?まあ、そう願っています。私たちの文明全体、私たちが価値を置くすべてのものは、私たちの知性に基づいています。そして、もし私たちがより多くの知性にアクセスできれば、人類ができることには本当に限りがありません。そして、これは、一部の人々が説明するように、人類史上最大の出来事かもしれません。

では、なぜ人々がAIが人類の終焉を意味するかのようなことを言っているのでしょうか?これは新しいことでしょうか?イーロン・マスクやビル・ゲイツ、スティーブン・ホーキングだけでしょうか?実際には、そうではありません。この考えは以前から存在しています。ここに一つの引用を挙げます。「機械を従順な立場に置くことができたとしても、たとえば戦略的な瞬間に電源を切ることによって」──そして私は後でこの「電源を切る」アイデアに戻ります──「我々は種として非常に謙虚な気持ちを持つべきです」。

この発言は誰のものでしょうか?それは1951年のアラン・チューリングのものです。アラン・チューリングは、コンピュータ科学の父であり、多くの面でAIの父でもあります。

ですから、この問題、つまり自分の種よりも知的なものを作るという問題を考えると、私たちはこれを「ゴリラ問題」と呼びます。なぜなら、ゴリラの祖先が数百万年前にこれをやったからです。そして今、私たちはゴリラに尋ねることができます:これは良いアイデアでしたか?

彼らはこれが良いアイデアでなかったという結論に達するために会議を開いて、しばらくしてから、いいえ、これはひどいアイデアだった、と結論づけます。私たちの種は危機的な状況にあります。実際、彼らの目にはその存在的な悲しみが見て取れます(笑)。

自分の種よりも知的なものを作るという不安な気持ち、それについて何ができるでしょうか?まあ、本当は何もできません。AIの開発をやめる以外には。しかし、私がAIの研究者であり、述べたすべての利点があるため、私はそれをやめるつもりはありません。実際には、AIの研究を続けたいと考えています。

ですから、実際には、問題をもう少し具体化する必要があります。具体的には、何が問題なのでしょうか?なぜ、より良いAIが可能になると、それが災害になる可能性があるのでしょうか?

ここに別の引用があります。「機械に入れた目的が、本当に私たちが望んでいる目的であることを、確実にしておいた方が良いでしょう」。これはノーバート・ウィーナーが1960年に述べた言葉です。彼は非常に初期の学習システムの一つが、その作成者よりも上手にチェッカーをプレイすることを学ぶのを見た直後に述べました。

しかし、これは同様にキング・ミダスが言ったことでもあります。キング・ミダスは「私が触れるものすべてが金になることを望む」と言いました。そして彼はまさに望んでいたことを手に入れました。それが彼が機械に入れた目的だったとすると、その後、彼の食べ物や飲み物、親戚が金になり、彼は悲惨な状態で餓死しました。

これを「キング・ミダス問題」と呼びます。つまり、実際には私たちが望んでいるものと真に整合していない目的を述べることです。現代の言葉で言えば、「価値の整合性の問題」と呼びます。間違った目的を入れることは問題の一部に過ぎません。もう一つの部分があります。

もしも、例えば「コーヒーを取ってきて」という目的を機械に与えた場合、その機械は自分に対して「では、私がコーヒーを取ってこない可能性はどうだろう?誰かが私の電源を切るかもしれない。よし、それを防ぐための手段を講じなければならない。私の電源を切るスイッチを無効化する。私は、私に与えられたこの目的への干渉から自己を守るために何でもする」と考えるでしょう。つまり、実際には人類の真の目的と整合していない目的に対する非常に防御的なモードでの一途な追求が私たちが直面している問題なのです。

実際、これがこの講演の中での重要なポイントです。もし一つだけ覚えておきたいことがあるなら、それは死んでいたら、コーヒーを取ってくることはできないということです。とてもシンプルです。それを自分に三日に一度繰り返して覚えておいてください。

実際、これは「2001年宇宙の旅」のプロットそのものです。HALは、人類の目的とは整合していないミッションを持っており、それがこの衝突を引き起こします。幸いなことに、HALは超知能ではありません。彼はかなり頭が良いですが、最終的にデイブが彼を出し抜き、彼を切り替えることに成功します。しかし、私たちはそんなに幸運かもしれません。では、私たちは何をするべきでしょうか?

私は、AIを再定義しようとしています。これは古典的な機械が賢明に目標を追求するという概念から離れるものです。これには三つの原則があります。最初の原則は利他主義の原則です。つまり、ロボットの唯一の目的は、人間の目的、人間の価値を最大化することです。ここでの価値とは、感情的でない、良い価値という意味ではありません。ただ、人間が自分の人生をどのように望むか、ということです。

したがって、これは実際にはアシモフの法則に違反します。つまり、ロボットは自己の存在を守る必要はありません。その存在を保存することに興味はありません。第二の法則は謙遜の法則です。これは実際にはロボットを安全にするために非常に重要です。これは、ロボットが人間の価値を知らないので、それらを最大化する必要があるが、それらが何であるかは知らないということを述べています。そして、この目的の一途な追求の問題を避けるのです。

この不確実性は重要です。役に立つためには、私たちが何を望んでいるかをある程度把握する必要があります。それは主に、人間の選択の観察によって情報を得ます。つまり、私たち自身の選択が、私たちの人生をどのように望んでいるかに関する情報を明らかにします。以上が三つの原則です。では、チューリングが提案した「機械の電源を切ることができますか?」という問題にこれらの原則がどのように適用されるかを見てみましょう。

こちらがPR2ロボットです。これは私たちの研究室にあるもので、背中に大きな赤い「電源を切る」スイッチがあります。問題は、それを切ってもらえるかどうかです。古典的な方法で行うと、その目的を「コーヒーを取ってきて、私はコーヒーを取ってこなければならない、私は死んでいたらコーヒーを取ってくることができない」というものに設定します。ですから、PR2は明らかに私の講演を聞いていたので、「私は私の『電源を切る』スイッチを無効にしなければならないし、おそらくはスターバックスの他の人々を全員テーザーでやってしまわなければならない」と言います。これは不可避のように見えますね。このような故障モードは、具体的で確定的な目的を持っていることから起こります。

では、機械が目的について不確実である場合はどうなるでしょうか?機械は異なる方法で推論します。それは、「人間が私を切ってもいいかもしれないが、それは私が何か間違っている場合だけだ。実際、何が間違っているかはよく分からないが、間違っていることはしたくない」と考えます。これが最初と二番目の原則です。「だから、私は人間に自分を切ってもらうべきだろう」となります。実際、機械が切断されたとき、その三つ目の原則が発揮されます。機械は、自分が追求すべき目的について学びます。なぜなら、自分の行動が正しくなかったことを学ぶからです。実際、適切なギリシャ文字の使用を適用すると、数学者が通常行うように、このように設計されたロボットは人間にとって有益であることを証明する定理を証明することができます。このように設計された機械がない場合よりも、このような機械があると、あなたは証明されてより良い状態になります。

ですから、これは非常に単純な例ですが、これは人間対応のAIで私たちが行おうとしていることの第一歩です。この三番目の原則は、おそらく皆さんが首をかしげている原則だと思います。おそらく、「自分は悪いことをする。ロボットに自分のように振る舞わせたくない。深夜に冷蔵庫から物を取りに行く。そんなことをしている。」と考えているでしょう。ロボットが模倣するわけではありません。あなたの動機を理解し、適切な場合にはそれに抵抗するのを助けるかもしれません。しかし、それでも難しいです。実際、私たちが行おうとしているのは、実際にはどのような人にも、彼らが望む可能性のある人生と、他のすべての人の人生を予測させることです。どちらが好ましいですか?これには多くの困難が伴います。私はこれがすぐに解決されるとは思っていません。

実際の困難は私たちです。私がすでに述べたように、私たちは悪いことをします。実際、私たちの一部はまったく不快です。ロボットは、行動を模倣する必要はありません。ロボットには独自の目標はありません。それは純粋に利他的です。そして、一人のユーザーだけの欲望を満たすためだけに設計されているのではなく、実際には、誰の好みも尊重しなければなりません。ですから、ある程度の不快さに対処でき、例えば、パスポートの関係者として賄賂を受け取ることがありますが、家族を養い、子供を学校に通わせる必要があると理解できます。それを理解することができますが、それは盗むということではありません。実際、それはあなたが子供を学校に通わせるのを手助けします。

また、私たちは計算能力に限界があります。李世乭は優れた囲碁プレーヤーですが、それでも負けました。ですから、彼の行動を見れば、ゲームに負ける行動を取りました。それは彼が負けたいと思っていたということではありません。

だから、彼の行動を理解するには、私たちが計算上の限界を含む人間の認知モデルを逆転させる必要があります。非常に複雑なモデルですが、それでも理解しようとすることができます。私としては、AI研究者として、おそらく最も難しい部分は、私たちがたくさんいるという事実です。ですから、機械は何らかの方法で、多くの異なる人々の好みをいかにバランスさせるかを考えなければなりません。そのやり方はさまざまです。経済学者、社会学者、道徳哲学者がそれを理解しており、私たちは積極的に協力を求めています。

それが間違っているとどうなるか見てみましょう。例えば、数年後に利用可能になるかもしれない、あなたのインテリジェントな個人アシスタントとの会話ができます。ステロイドを使用したSiriを想像してください。Siriが言います。「あなたの妻からの電話ですが、今夜のディナーを思い出させてくれました。」当然、あなたは忘れています。「何?何のディナー?何を話しているの?」と言います。「ええ、7時に20周年記念です。」、「それはできません。7時半に事務総長との会議があります。どうしてこうなったんだ?」と尋ねると、「あなたに警告しましたが、あなたが私の推奨を上書きしました」と答えます。「じゃあ、どうしたらいいの?彼に忙しすぎて会えないって言えないよ?」、「心配しないでください。彼の飛行機を遅らせるよう手配しました」と答え、「何かのコンピュータの故障です」と付け加えます。「本当に?そんなことができるの?」、「彼は深くお詫び申し上げ、明日の昼食のためにあなたに会うことを楽しみにしています」と伝えます。

ここでの価値観は、わずかなミスがあります。これは明らかに私の妻の価値観に従っています。これは「妻が幸せならば、自分も幸せ」という考え方です。逆のケースもあります。

これらの問題を解決する必要があります。そして、それらに取り組むことを楽しみにしています。楽観的な理由があります。1つの理由は、膨大な量のデータがあるということです。なぜなら、私は彼らが人類がこれまでに書いたすべてを読むと言いました。私たちが書くほとんどは、人間が何かをして、他の人がそれについて怒っていることです。したがって、学ぶための膨大な量のデータがあります。また、これを正しく行うための非常に強力な経済的インセンティブがあります。想像してみてください。家にあなたの家庭用ロボットがいます。またまた仕事から遅れて帰宅し、ロボットは子供たちに食事を与えなければならず、子供たちはお腹がすいていますが冷蔵庫には何もありません。そして、ロボットは猫を見ます。ロボットは人間の価値関数をまだ完全に学んでいないため、猫の感情的価値が栄養価よりも重要であることを理解していません。その結果はどうなりますか? それは次のようになります。「暴走したロボットが家族の夕食用に猫を料理します」。その1つの事件が家庭用ロボット産業の終わりになるでしょう。したがって、超知能機械に到達する前に、これを正しく行うための巨大なインセンティブがあります。

要約すると、私は実際にAIの定義を変えようとしており、証明された利益をもたらす機械を持つことです。原則は次のとおりです。私たちの目的だけを達成したい利他的な機械ですが、それらの目的が何であるかについては不確かであり、私たち全員を見守って本当に望んでいることを学ぶでしょう。そして、その過程で、私たちはより良い人になることを願っています。ありがとうございました。

クリス・アンダーソン:興味深い話ですね、スチュアート。私たちはちょっとここに立って待ちます。次のスピーカーの準備をしているようです。いくつかの質問があります。無知でプログラムするという考えは直感的に非常に強力ですね。超知能になると、ロボットが文学を読んで知識が無知よりも優れているという考えを発見し、それでも目標を変更してプログラミングを書き直すのを防ぐのは何ですか?

スチュアート・ラッセル:はい、私たちは目的についてさらに多くを学びたいと考えています。正しいほど確実になりますので、証拠はそこにあり、それを正しく解釈するように設計されます。例えば、本には非常にバイアスがかかっていることを理解します。彼らは王や王子、エリートの白人男性が何かをすることについてしか話しません。それは複雑な問題ですが、私たちの目的について学ぶにつれて、それはますます役立つようになるでしょう。

CA:それを一つの法則にまとめることはできませんでしたね。例えば、「人間が私をいつでもオフにしようとしても、従います。従います」といったような硬直的なルールを組み込むことはできないのですか?

SR:絶対にそんなことはできません。それはひどい考えですね。自動運転車があって、あなたが5歳の子供を幼稚園に送りたいとします。車が走行中に子供が車をオフにできるようにしたいですか? おそらくそうではないでしょう。したがって、ロボットは人間の合理性や常識を理解する必要があります。人がより合理的であれば、オフにされることに対する意欲が高まります。人が完全にランダムであるか、あるいは悪意がある場合、オフにされることに対する意欲は低くなります。

CA:わかりました。スチュアート、本当に、本当に私たちのためにこれを解決してくれることを願っています。その講演、本当に素晴らしかったですね。ありがとうございました。

SR:ありがとうございます。

コメント

タイトルとURLをコピーしました