AIのエネルギー消費:持続可能性と透明性の必要性

IT

AI won’t kill us all — but that doesn’t make it trustworthy. Instead of getting distracted by future existential risks, AI ethics researcher Sasha Luccioni thinks we need to focus on the technology’s current negative impacts, like emitting carbon, infringing copyrights and spreading biased information. She offers practical solutions to regulate our AI-filled future — so it’s inclusive and transparent.

AIが私たち全員を殺すことはありませんが、それが信頼できるというわけではありません。AI倫理研究者のサーシャ・ルッシオーニは、将来の存在リスクに気を取られるのではなく、AIの現在のネガティブな影響に焦点を当てる必要があると考えています。

それは、炭素の排出、著作権の侵害、偏った情報の拡散などです。彼女は、私たちのAI充満した未来を規制するための実践的な解決策を提供し、それが包括的で透明性のあるものになるようにします。

タイトル
スピーカー サーシャ・ルッシオーニ
アップロード 2023/11/06

「AI は危険ですが、それはあなたが考えているような理由ではありません(AI Is Dangerous, but Not for the Reasons You Think)」の文字起こし

So I’ve been an AI researcher for over a decade. And a couple of months ago, I got the weirdest email of my career. A random stranger wrote to me saying that my work in AI is going to end humanity. Now I get it, AI, it’s so hot right now.

It’s in the headlines pretty much every day, sometimes because of really cool things like discovering new molecules for medicine or that dope Pope in the white puffer coat. But other times the headlines have been really dark, like that chatbot telling that guy that he should divorce his wife or that AI meal planner app proposing a crowd pleasing recipe featuring chlorine gas. And in the background, we’ve heard a lot of talk about doomsday scenarios, existential risk and the singularity, with letters being written and events being organized to make sure that doesn’t happen.

Now I’m a researcher who studies AI’s impacts on society, and I don’t know what’s going to happen in 10 or 20 years, and nobody really does. But what I do know is that there’s some pretty nasty things going on right now, because AI doesn’t exist in a vacuum. It is part of society, and it has impacts on people and the planet. AI models can contribute to climate change. Their training data uses art and books created by artists and authors without their consent. And its deployment can discriminate against entire communities. But we need to start tracking its impacts. We need to start being transparent and disclosing them and creating tools so that people understand AI better, so that hopefully future generations of AI models are going to be more trustworthy, sustainable, maybe less likely to kill us, if that’s what you’re into.

But let’s start with sustainability, because that cloud that AI models live on is actually made out of metal, plastic, and powered by vast amounts of energy. And each time you query an AI model, it comes with a cost to the planet. Last year, I was part of the BigScience initiative, which brought together a thousand researchers from all over the world to create Bloom, the first open large language model, like ChatGPT, but with an emphasis on ethics, transparency and consent. And the study I led that looked at Bloom’s environmental impacts found that just training it used as much energy as 30 homes in a whole year and emitted 25 tons of carbon dioxide, which is like driving your car five times around the planet just so somebody can use this model to tell a knock-knock joke.

And this might not seem like a lot, but other similar large language models, like GPT-3, emit 20 times more carbon. But the thing is, tech companies aren’t measuring this stuff. They’re not disclosing it. And so this is probably only the tip of the iceberg, even if it is a melting one. And in recent years we’ve seen AI models balloon in size because the current trend in AI is “bigger is better.” But please don’t get me started on why that’s the case. In any case, we’ve seen large language models in particular grow 2,000 times in size over the last five years. And of course, their environmental costs are rising as well. The most recent work I led, found that switching out a smaller, more efficient model for a larger language model emits 14 times more carbon for the same task. Like telling that knock-knock joke. And as we’re putting in these models into cell phones and search engines and smart fridges and speakers, the environmental costs are really piling up quickly.

So instead of focusing on some future existential risks, let’s talk about current tangible impacts and tools we can create to measure and mitigate these impacts. I helped create CodeCarbon, a tool that runs in parallel to AI training code that estimates the amount of energy it consumes and the amount of carbon it emits. And using a tool like this can help us make informed choices, like choosing one model over the other because it’s more sustainable, or deploying AI models on renewable energy, which can drastically reduce their emissions.

But let’s talk about other things because there’s other impacts of AI apart from sustainability. For example, it’s been really hard for artists and authors to prove that their life’s work has been used for training AI models without their consent. And if you want to sue someone, you tend to need proof, right? So Spawning.ai, an organization that was founded by artists, created this really cool tool called “Have I Been Trained?” And it lets you search these massive data sets to see what they have on you.

Now, I admit it, I was curious. I searched LAION-5B, which is this huge data set of images and text, to see if any images of me were in there. Now those two first images, that’s me from events I’ve spoken at. But the rest of the images, none of those are me. They’re probably of other women named Sasha who put photographs of themselves up on the internet. And this can probably explain why, when I query an image generation model to generate a photograph of a woman named Sasha, more often than not I get images of bikini models. Sometimes they have two arms, sometimes they have three arms, but they rarely have any clothes on.

And while it can be interesting for people like you and me to search these data sets, for artists like Karla Ortiz, this provides crucial evidence that her life’s work, her artwork, was used for training AI models without her consent, and she and two artists used this as evidence to file a class action lawsuit against AI companies for copyright infringement. And most recently Spawning.ai partnered up with Hugging Face, the company where I work at, to create opt-in and opt-out mechanisms for creating these data sets. Because artwork created by humans shouldn’t be an all-you-can-eat buffet for training AI language models.

The very last thing I want to talk about is bias. You probably hear about this a lot. Formally speaking, it’s when AI models encode patterns and beliefs that can represent stereotypes or racism and sexism. One of my heroes, Dr. Joy Buolamwini, experienced this firsthand when she realized that AI systems wouldn’t even detect her face unless she was wearing a white-colored mask. Digging deeper, she found that common facial recognition systems were vastly worse for women of color compared to white men. And when biased models like this are deployed in law enforcement settings, this can result in false accusations, even wrongful imprisonment, which we’ve seen happen to multiple people in recent months.

For example, Porcha Woodruff was wrongfully accused of carjacking at eight months pregnant because an AI system wrongfully identified her. But sadly, these systems are black boxes, and even their creators can’t say exactly why they work the way they do.

And for example, for image generation systems, if they’re used in contexts like generating a forensic sketch based on a description of a perpetrator, they take all those biases and they spit them back out for terms like dangerous criminal, terrorists or gang member, which of course is super dangerous when these tools are deployed in society.

And so in order to understand these tools better, I created this tool called the Stable Bias Explorer, which lets you explore the bias of image generation models through the lens of professions. So try to picture a scientist in your mind. Don’t look at me. What do you see? A lot of the same thing, right? Men in glasses and lab coats. And none of them look like me.

And the thing is, is that we looked at all these different image generation models and found a lot of the same thing: significant representation of whiteness and masculinity across all 150 professions that we looked at, even if compared to the real world, the US Labor Bureau of Statistics. These models show lawyers as men, and CEOs as men, almost 100 percent of the time, even though we all know not all of them are white and male.

And sadly, my tool hasn’t been used to write legislation yet. But I recently presented it at a UN event about gender bias as an example of how we can make tools for people from all walks of life, even those who don’t know how to code, to engage with and better understand AI because we use professions, but you can use any terms that are of interest to you.

And as these models are being deployed, are being woven into the very fabric of our societies, our cell phones, our social media feeds, even our justice systems and our economies have AI in them. And it’s really important that AI stays accessible so that we know both how it works and when it doesn’t work.

And there’s no single solution for really complex things like bias or copyright or climate change. But by creating tools to measure AI’s impact, we can start getting an idea of how bad they are and start addressing them as we go. Start creating guardrails to protect society and the planet.

And once we have this information, companies can use it in order to say, OK, we’re going to choose this model because it’s more sustainable, this model because it respects copyright. Legislators who really need information to write laws, can use these tools to develop new regulation mechanisms or governance for AI as it gets deployed into society.

And users like you and me can use this information to choose AI models that we can trust, not to misrepresent us and not to misuse our data. But what did I reply to that email that said that my work is going to destroy humanity? I said that focusing on AI’s future existential risks is a distraction from its current, very tangible impacts and the work we should be doing right now, or even yesterday, for reducing these impacts.

Because yes, AI is moving quickly, but it’s not a done deal. We’re building the road as we walk it, and we can collectively decide what direction we want to go in together. Thank you.

「AI は危険ですが、それはあなたが考えているような理由ではありません(AI Is Dangerous, but Not for the Reasons You Think)」の和訳

私はAI研究者として10年以上のキャリアがあります。そして数ヶ月前、キャリアで最も奇妙なメールを受け取りました。見知らぬ人から「あなたのAI研究が人類を滅ぼす」と書かれたメールでした。今、AIはとても注目されています。

AIはほぼ毎日見出しに登場します。例えば、新しい分子を発見して医療に貢献することや、白いパファーコートを着たかっこいいローマ法王など、クールなニュースもありますが、他方では暗いニュースもあります。チャットボットがある男性に離婚を勧めたり、AI食事プランナーが塩素ガスを使ったレシピを提案したり。また、終末論や存在の危機、シンギュラリティ(技術的特異点)についての議論が背景にあり、それが起こらないようにするための手紙やイベントが開催されています。

私はAIが社会に与える影響を研究している者で、10年後や20年後に何が起こるかは分かりません。でも、今現在でさえもかなり不快なことが起こっているのは確かです。AIは真空の中で存在しているわけではなく、社会の一部であり、人々や地球に影響を与えます。AIモデルは気候変動に寄与する可能性があり、トレーニングデータはアーティストや作家の同意なしに彼らのアートや書籍を使用することもあります。そしてその展開が特定のコミュニティを差別することもあります。でも、私たちはその影響を追跡し始める必要があります。透明性を確保し、影響を公開し、人々がAIをより理解できるようなツールを作り始める必要があります。そうすることで、将来のAIモデルがより信頼でき、持続可能で、もし望むなら、私たちを殺さない可能性が高くなるかもしれません。

まずは持続可能性について話しましょう。AIモデルが存在するクラウドは実際には金属やプラスチックでできており、大量のエネルギーで動かされています。AIモデルをクエリするたびに、地球にコストがかかります。昨年、私はBigScienceイニシアチブに参加しました。これは世界中の千人の研究者が集まり、倫理、透明性、同意に重点を置いた最初のオープンな大規模言語モデルであるBloomを作成するプロジェクトでした。私が主導したBloomの環境影響に関する研究では、トレーニングだけで30戸の家庭が1年間に消費するエネルギーと同じ量を使用し、25トンの二酸化炭素を排出したことが分かりました。これは誰かがこのモデルを使って「ノックノックジョーク」を言うためだけに、車で地球を5周するのと同じくらいの排出量です。

これが大したことないように思えるかもしれませんが、他の同様の大規模言語モデル、例えばGPT-3は20倍以上の二酸化炭素を排出しています。しかし、技術企業はこれを測定しておらず、公開もしていません。これは氷山の一角に過ぎないかもしれません。近年、AIモデルのサイズは急速に拡大しています。現在のAIのトレンドは「大きければ大きいほど良い」というものですが、その理由についてはここでは触れません。とにかく、過去5年間で大規模言語モデルは2000倍のサイズになっています。当然、環境コストも増加しています。最近私が主導した研究では、小型で効率的なモデルをより大きな言語モデルに置き換えると、同じタスクに対して14倍の二酸化炭素を排出することが分かりました。また、これらのモデルが携帯電話や検索エンジン、スマート冷蔵庫、スピーカーに組み込まれるにつれて、環境コストは急速に積み重なっています。

だから、未来の存在的リスクに焦点を当てるのではなく、現在の具体的な影響とそれを測定し軽減するためのツールについて話しましょう。私はCodeCarbonの開発に協力しました。これはAIトレーニングコードと並行して動作し、消費するエネルギー量や排出する二酸化炭素量を推定するツールです。このようなツールを使用することで、より持続可能なモデルを選択したり、再生可能エネルギーを使用してAIモデルを展開したりと、情報に基づいた選択が可能になります。これにより排出量を大幅に削減することができます。

しかし、持続可能性以外にもAIの影響について話すべきことがあります。例えば、アーティストや著者が自分たちの作品が無断でAIモデルのトレーニングに使用されたことを証明するのは非常に困難です。訴訟を起こすには証拠が必要ですよね?そこで、アーティストが設立した組織Spawning.aiが「Have I Been Trained?」という素晴らしいツールを作成しました。これにより、巨大なデータセットを検索して、自分の作品が含まれているかどうかを確認できます。

実は私も興味があって、LAION-5Bという巨大な画像とテキストのデータセットで自分の画像が含まれているかを検索しました。最初の二つの画像は私が講演したイベントのものですが、それ以外の画像はどれも私ではありません。おそらく、同じ名前のサーシャという他の女性がインターネットに写真をアップしたものでしょう。これが、画像生成モデルに「サーシャという名前の女性の写真」を生成するように問い合わせたときに、ほとんどの場合、ビキニモデルの画像が返ってくる理由の一つだと思います。時には腕が二本のこともあれば、三本のこともありますが、服を着ていることはほとんどありません。

私たちのような人がこれらのデータセットを検索するのは面白いかもしれませんが、アーティストのカルラ・オルティスのような人にとっては、自分の人生の作品、つまり彼女のアートワークが無断でAIモデルのトレーニングに使われたことを証明する重要な証拠となります。彼女と他の2人のアーティストは、この証拠を基にAI企業に対して著作権侵害で集団訴訟を提起しました。最近では、Spawning.aiが私の働いている会社Hugging Faceと提携し、これらのデータセットを作成するためのオプトインおよびオプトアウトの仕組みを作成しました。人間が作成したアートワークは、AI言語モデルのトレーニングのための無制限のビュッフェのように扱われるべきではありません。

最後にお話ししたいのはバイアスについてです。これについてはよく耳にすると思います。正式には、AIモデルがステレオタイプや人種差別、性差別を表すパターンや信念をエンコードすることを指します。私のヒーローの一人、ドクター・ジョイ・ブオラミニは、AIシステムが彼女の顔を白いマスクを着けていないと検出しないことに気付いたとき、この問題を身をもって経験しました。彼女がさらに調査を進めると、一般的な顔認識システムが白人男性に比べて有色人種の女性に対して非常に劣っていることが分かりました。そして、このようなバイアスのあるモデルが法執行機関で使用されると、誤認逮捕や無実の罪を招く可能性があります。最近数ヶ月で複数の人々に対して実際に起こったことです。

例えば、ポーチャ・ウッドラフは、8か月の妊娠中にAIシステムが彼女を誤って特定したために、車両強盗の容疑をかけられました。しかし、残念ながら、これらのシステムはブラックボックスであり、創造者でさえその動作理由を正確に説明することはできません。

例えば、画像生成システムが犯罪者の似顔絵を作成するために使われると、そのバイアスをそのまま反映して、「危険な犯罪者」「テロリスト」「ギャングのメンバー」といった言葉に基づいて画像を生成します。これらのツールが社会で使われると非常に危険です。

これらのツールをよりよく理解するために、私は「Stable Bias Explorer」というツールを作りました。これは、職業のレンズを通じて画像生成モデルのバイアスを探ることができます。科学者を思い浮かべてみてください。私を見ないでね。何が見えますか?多くの同じもの、つまりメガネをかけた白衣の男性を思い浮かべるでしょう。そして、その中に私のような人は見当たりません。

私たちはさまざまな画像生成モデルを調査しましたが、同じことがたくさん見つかりました。150の職業すべてにおいて、現実の世界、つまり米国労働統計局と比較しても、白人と男性の代表が著しく多いのです。これらのモデルは、弁護士やCEOをほぼ100%男性として描きますが、実際には全員が白人男性でないことは私たちも知っています。

残念ながら、私のツールはまだ立法に使われていませんが、最近、ジェンダーバイアスについての国連のイベントで発表しました。これは、コードを書けない人々でもAIに関わり、その理解を深めるためのツールとして使えることを示す例です。私たちは職業を使いましたが、興味のあるどんな用語でも使うことができます。

これらのモデルが社会のあらゆるところに組み込まれ、携帯電話やソーシャルメディアのフィード、さらには司法制度や経済にまでAIが関与している中で、AIがどのように機能し、どのように機能しないかを知るために、AIは常にアクセス可能であるべきです。

バイアスや著作権、気候変動のような複雑な問題に対して、単一の解決策は存在しません。しかし、AIの影響を測定するツールを作ることで、それらがどれほど深刻であるかを把握し、問題に取り組み始めることができます。社会と地球を守るためのガードレールを設け始めるのです。

この情報を得たら、企業は「このモデルはより持続可能だから」「このモデルは著作権を尊重しているから」と選択することができます。法律を作るために情報が本当に必要な立法者たちは、これらのツールを使って、AIが社会に導入される際の新しい規制メカニズムやガバナンスを開発することができます。

そして、あなたや私のようなユーザーは、この情報を使って、私たちを誤って表現しない、データを悪用しないAIモデルを選ぶことができるのです。でも、「あなたの仕事が人類を滅ぼす」と書かれたメールに対して、私は何と返事をしたのでしょうか?私は、AIの将来の存在論的なリスクに焦点を当てるのは、現在の非常に具体的な影響と、今すぐ、または昨日からでも取り組むべき問題の削減作業からの気を散らすものである、と返事をしました。

そうです、AIは急速に進化していますが、決して既成事実ではありません。私たちは歩みながら道を作っているのです。そして、どの方向に進みたいのかを一緒に決めることができるのです。ありがとうございました。

コメント

タイトルとURLをコピーしました