ハーバードとMITが明かす5000億語の文化的データの可能性

Google LabsのNgram Viewerをいじってみたことはありますか?

何世紀にも渡って書かれてきた5百万という本のデータベースの中から言葉やアイデアを探せるやみつきになるツールです。エレズ・リーバーマン・エイデンとジャン・バプティスト・ミシェルがその仕組みと、5千億語のデータが教えてくれるちょっと驚くようなことを見せてくれます。

タイトル 5百万冊の本から学んだこと
スピーカー エレズ・リーバーマン・エイデン ジャン・バプティスト・ミシェル
アップロード 2011/09/21

「5百万冊の本から学んだこと」の文字起こし

Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion.

Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.

Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there’s a scale for how awesome that is, that has to rank extremely, extremely high.

Now the problem is there’s an X-axis for that, which is the practical axis. This is very, very low. Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That’s very practical and extremely awesome.

ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.

Now when Google digitizes a book, they put it into a really nice format. Now we’ve got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that’s not the highest quality data. What we’re left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome — a text which, when written out, would stretch from here to the Moon and back 10 times over — a veritable shard of our cultural genome.

Of course what we did when faced with such outrageous hyperbole …

 

was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, “Stand back. We’re going to try science.”

JM: Now of course, we were thinking, well let’s just first put the data out there for people to do science to it. Now we’re thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that’s extremely, extremely impractical. Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we’re going to release statistics about the books. So take for instance “A gleam of happiness.” It’s four words; we call that a four-gram. We’re going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.

ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let’s suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, “Yesterday, I throve.” Alternatively, I could say, “Yesterday, I thrived.” Well which one should I use? How to know? As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you’d say, “Steve, you’re an expert on the irregular verbs. What should I do?” And he’d tell you, “Well most people say thrived, but some people say throve.” And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, “Tom, what should I say?” He’d say, “Well, in my day, most people throve, but some thrived.” So now what I’m just going to show you is raw data. Two rows from this table of two billion entries. What you’re seeing is year by year frequency of “thrived” and “throve” over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.

JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.

ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.

JM: You might also want to have a look at this particular n-gram, and that’s to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.

ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. But nothing got people interested in 1950 like the year 1950. People were walking around obsessed. They couldn’t stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in ’51, ’52, ’53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passe. And just like that, the bubble burst. And the story of 1950 is the story of every year that we have on record, with a little twist, because now we’ve got these nice charts. And because we have these nice charts, we can measure things. We can say, “Well how fast does the bubble burst?” And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.

JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s — you’re still young, it’s really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they’re much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. If you do that, you might think, “Oh great. I’m going to do my best work when I’m in my 20s.” But guess what, nobody will really care.

ELA: There are more sobering notes among the n-grams. For instance, here’s the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we’re seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany. Now these signals are actually so strong that we don’t need to know that someone was censored. We can actually figure it out using really basic signal processing. Here’s a simple way to do it. Well, a reasonable expectation is that somebody’s fame in a given period of time should be roughly the average of their fame before and their fame after. So that’s sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it’s very large, maybe you’re benefiting from propaganda.

JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here — this suppression index is for 5,000 people picked in English books where there’s no known suppression — it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany — very different, it’s shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.

ELA: So culturomics is what we call this method. It’s kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It’s the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, “This is so fun. We have to make this available for people.” So in two weeks flat — the two weeks before our paper came out — they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you’re interested in and see its n-gram immediately — also browse examples of all the various books in which your n-gram appears.

JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn’t really care about that at all. They didn’t want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It’s not that strove for mediocrity, it’s just that the S used to be written differently, kind of like an F. Now of course, Google didn’t pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.

ELA: People have been using this for all kinds of fun purposes.

Actually, we’re not going to have to talk, we’re just going to show you all the slides and remain silent. This person was interested in the history of frustration. There’s various types of frustration. If you stub your toe, that’s a one A “argh.” If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that’s an eight A “aaaaaaaargh.” This person studies all the “arghs,” from one through eight A’s. And it turns out that the less-frequent “arghs” are, of course, the ones that correspond to things that are more frustrating — except, oddly, in the early 80s. We think that might have something to do with Reagan.

JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That’s 12 percent of all the books that have ever been published. It’s a sizable chunk of human culture. There’s much more in culture: there’s manuscripts, there newspapers, there’s things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture. Thank you very much.

「5百万冊の本から学んだこと」の和訳

エレツ・リーバーマン・アイデン:みなさん、絵が千の言葉に値することはよく知られていますね。でも、私たちハーバードでは、これが本当にそうなのか疑問に思っていました。

だから、私たちはハーバード、MIT、アメリカン・ヘリテージ・ディクショナリー、エンサイクロペディア・ブリタニカ、さらに誇り高きスポンサーであるGoogleを含む専門家チームを組み、これについて約4年間考え続けました。そして、驚くべき結論に至りました。

ジャン=バティスト・ミシェル:では、どうやってこの結論に至ったのでしょうか?エレツと私は、人間の文化と歴史の大局像をつかむ方法について考えていました。時間の経過に伴う変化です。実際にはこれまでに多くの本が書かれてきました。だから、私たちは、それら数百万冊の本を読むことで学ぶのが最善だと考えました。もちろん、それがどれだけ素晴らしいことかについての尺度があるなら、それは極めて、極めて高い評価を受けるはずです。

しかし、問題はその実用的な軸があることです。これは非常に低いです。

そこで、人々は代わりのアプローチを使う傾向があります。それは、一部の情報源を選んで非常に注意深く読む方法です。これは非常に実用的ですが、あまり素晴らしい方法ではありません。本当にしたいのは、このスペースの素晴らしく実用的な部分に到達することです。結局、数年前に川向こうの会社で始まったデジタル化プロジェクトを行っていたGoogleという企業がありました。彼らは何百万もの本をデジタル化しています。つまり、ボタンをクリックするだけですべての本を読むことができるということです。それは非常に実用的であり、極めて素晴らしいことです。

ELA:本がどこから来るかについて少し話しましょう。時の記憶以前から、著者が存在しています。これらの著者は、本を書こうと努力してきました。そして数世紀前に印刷機の発明によってこれはかなり簡単になりました。その後、著者たちは1億2900万回も本を出版しています。これらの本が歴史に残っていなければ、図書館のどこかにあります。そして、その多くの本が図書館から回収され、Googleによってデジタル化されています。Googleはこれまでに1500万冊の本をスキャンしています。

Googleが本をデジタル化すると、非常に素晴らしい形式になります。今、私たちはデータを持っていますし、メタデータも持っています。出版された場所、著者は誰か、いつ出版されたかなどの情報があります。そして、私たちはすべての記録を調べて、最高品質のデータ以外を除外します。残ったものは、500億語、人間のゲノムの千倍もの文字列、ここから月までの距離を10回行ったり来たりするほどのテキストです。これはまさに私たちの文化ゲノムの欠片です。

もちろん、こうした大胆な誇張に直面したときに私たちがしたことは、どの研究者もすることでしょう。XKCDからページを取り、科学を試してみると言いました。

JM: もちろん、ますますデータを科学に使えるように公開しましょうと考えていました。今、私たちはどのデータをリリースするか考えていますか? もちろん、5百万冊の本のフルテキストを取り出して公開したいと思います。しかし、Google、特にジョン・オーウォントさんは、私たちに覚えておくべき小さな方程式を教えてくれました。5百万というのは、5百万の著者と5百万の原告が巨大な訴訟になるということです。ですので、それは本当に素晴らしいことでしょうが、これは非常に非常に実用的ではないということです。

再び、私たちは実際には折れて、非常に実用的なアプローチを取りましたが、少しは素晴らしさに欠けていました。つまり、フルテキストをリリースする代わりに、本に関する統計情報をリリースすることにしました。例えば、「幸せのきらめき」です。これは4つの単語です。これを4グラムと呼びます。特定の4グラムが1801年、1802年、1803年、2008年までの本でどれだけの回数出現したかをお伝えします。これにより、この特定の文が時間の経過とともにどのように頻繁に使用されてきたかの時間系列が得られます。これを、これらの本に現れるすべての単語やフレーズについて行います。これにより、文化がどのように変化してきたかについての2億行の大きな表が得られます。

ELA: それらの20億行、私たちはそれらを20億のn-gramと呼んでいます。それらは私たちに何を教えてくれるのでしょうか? 個々のn-gramは文化のトレンドを測定します。例を挙げましょう。私が繁栄しているとしましょう、そして明日、私はあなたに私の健闘ぶりを話したいと思います。そして、私は「昨日、私は繁栄した」と言うかもしれません。代わりに、私は「昨日、私は繁栄した」とも言えます。ではどちらを使うべきでしょうか? どうやって知るのでしょうか? この分野の最新技術は、例えば、髪の素晴らしい心理学者に行って、「スティーブ、あなたは不規則な動詞の専門家ですね。私は何をすればいいですか?」と尋ねることです。そして彼はあなたに「ほとんどの人は繁栄と言いますが、一部の人はthroveと言います」と言うでしょう。また、おおよそ、200年前に戻って次の髪型が素晴らしい政治家に尋ねた場合、

“トム、私は何と言えばいいですか?」彼は「私の時代には、ほとんどの人がthroveと言いましたが、一部はthriveと言いました」と言うでしょう。では、今、私がちょうど見せるのは生データです。2億行のこのテーブルからの2行です。あなたが見ているのは、時間経過に伴う「thrived」と「throve」の年ごとの頻度です。これは、20億の行のうちの2つだけです。ですので、このデータセット全体は、このスライドよりも10億倍素晴らしいです。

JM: 500億語の価値がある他の多くの図があります。例えば、これです。インフルエンザを取るだけでも、世界中で大流行が人々を殺している時期のピークが見えます。

ELA: まだ納得していない場合、海面が上昇していますし、大気中のCO2も地球の気温も上昇しています。

JM: また、この特定のn-gramを見てみたいかもしれません。それはニーチェに神が死んでいないことを伝えるものですが、彼にはもっと良い宣伝担当者が必要かもしれません。

ELA: この種のものでかなり抽象的な概念にアクセスできます。例えば、1950年の歴史をお話ししましょう。ほとんどの歴史の大部分で、誰もが1950年に興味を持っていませんでした。 1700年、1800年、1900年、誰も気にしませんでした。 30年代や40年代を通しても、誰も気にしませんでした。突然、40年代半ばからブームが始まりました。人々は1950年が起こることに気付き、それが大きくなるかもしれないことに気付き始めました。

しかし、1950年を興味深くするものは、1950年そのものでした。人々は熱狂して歩き回っていました。彼らは1950年に行ったすべてのこと、1950年に計画していたすべてのこと、1950年に達成したいと思っていたすべての夢について話すことができませんでした。実際、1950年は非常に魅力的でしたので、その後何年もの間、人々は単に1951年、1952年、1953年に起こった驚くべきことについて話し続けました。 1954年に、誰かが目を覚まし、1950年がやや時代遅れになったことに気づきました。

そして、まるでそれがあっという間に消えてしまったかのように、バブルははじけました。

そして、1950年の物語は、記録されているすべての年の物語ですが、少し変わっています。なぜなら、今、私たちはこれらの素敵なチャートを持っているからです。そして、これらの素敵なチャートがあるおかげで、私たちは物事を測定できます。私たちは言えます、「では、バブルはどれくらい速く破裂しますか?」そして、それを非常に正確に測定できることがわかりました。方程式が導出され、グラフが作成され、その結果、我々は過去に対する関心がますます速く失われていることを発見しました。

JM: では、少しのキャリアアドバイスです。有名になりたいと思っている方々に。我々は、最も有名な政治家、作家、俳優などの25人から学ぶことができます。ですので、早く有名になりたいのであれば、俳優になるべきです。なぜなら、それで20代の終わりまでに名声が上昇し始めるからです。まだ若いし、本当に素晴らしいことです。次に少し待てるのであれば、作家になるべきです。なぜなら、その後マーク・トウェインのように非常に高い地位に上り詰めるからです。しかし、最高の頂点に達したいのであれば、即時の報酬を遅らせるべきです。もちろん、政治家になるべきです。そうすれば、50代の終わりまでに有名になり、その後ますます有名になります。科学者もほとんどが年を取ってから有名になります。例えば、生物学者や物理学者はほぼ俳優と同じくらい有名です。やってはいけない間違いは、数学者になることです。そうすれば、「素晴らしい、20代の頃に最高の仕事をするつもりだ!」と思うかもしれませんが、実際には誰もあまり気にしません。

ELA: n-gramの中には、より深刻なメッセージもあります。たとえば、1887年に生まれた芸術家マルク・シャガールの軌跡を見てみましょう。これは有名人の通常の軌跡のように見えます。彼はますます有名になっていきますが、ドイツ語で見てみると、非常に奇妙なこと、ほとんど見たことのないことが見えます。つまり、彼は急激に有名になり、突然暴落し、1933年から1945年の間、低点を経験した後、再び持ち直します。そして、もちろん、私たちが見ているのは、マルク・シャガールがナチス・ドイツにおけるユダヤ人の芸術家であったという事実です。これらのシグナルは実際に非常に強力であり、誰かが検閲されていることを知る必要はありません。実際には、非常に基本的な信号処理を使用してそれを理解できます。これを行う簡単な方法を見てみましょう。まあ、ある期間における誰かの有名さは、基本的にその前とその後の有名さの平均程度であるべきというのが合理的な期待です。それが我々の期待するものです。そして、我々が観察する有名さと比較してみます。そして、それらの比率を使って、抑制指数と呼ばれるものを作り出します。抑制指数が非常に非常に非常に小さい場合、あなたは非常に抑制されているかもしれません。非常に大きい場合、おそらくあなたはプロパガンダの恩恵を受けているかもしれません。

JM: 実際には、抑制指数の分布を全人口で見ることができます。たとえば、ここにあるのは、知られていない抑制がある英語の書籍から選ばれた5,000人の人々の抑制指数です。基本的には、1に厳密に集中しています。期待されることは、基本的に観察されることです。これが、ドイツの分布です – かなり異なります。左にシフトされています。人々は、それがされるべきであったのと比べて約2倍少なく話されています。しかし、さらに重要なことに、分布がはるかに広がっています。この分布の極端に左側にいる多くの人々が、その何倍も話されるべきであった人々です。しかし、同時に、プロパガンダの恩恵を受けているように見える遠く右側にいる多くの人々もいます。この図は、書籍の記録における検閲の特徴です。

ELA: これを文化遺伝学と呼びます。それはある種のゲノム学のようです。ただし、ゲノム学は、人間のゲノム中の塩基配列を通じた生物学のレンズです。文化遺伝学も同様です。これは、人間の文化の研究に大規模なデータ収集分析を適用するものです。ここでは、ゲノムのレンズではなく、歴史的記録のデジタル化された断片のレンズを通しています。文化遺伝学の素晴らしいところは、誰でもできることです。なぜ誰でもできるのでしょうか?誰もができるのは、GoogleのJon Orwant、Matt Gray、Will Brockmanの3人が、Ngram Viewerのプロトタイプを見て、「これはとても楽しい。これを人々に提供しなければならない」と言ったからです。したがって、私たちの論文が出る2週間前の2週間で、彼らは一般の人々向けにNgram Viewerのバージョンをコーディングしました。そのため、あなたも興味のある任意の単語やフレーズを入力し、そのn-gramをすぐに見ることができます – また、n-gramが表示されるさまざまな書籍の例を閲覧することもできます。

JM: これは最初の日に100万回以上使用されました。これは本当にすべてのクエリの中で最高です。人々はベストでありたいと願っています。しかし、18世紀には、人々はそれに全く興味を示さなかったのです。彼らはベストでありたくはなく、代わりにbeftでありたがっていました。もちろん、これは単なる間違いです。平凡を目指していたわけではなく、Sは以前は少し異なる方法で書かれていたのです。今回、Googleはそれを当時見逃してしまったので、私たちは私たちが書いた科学記事でこれを報告しました。しかし、これは、これが楽しいことであるにしても、これらのグラフを解釈するときには非常に注意深くなければならず、科学の基準を採用しなければならないということのリマインダーであることを示しています。

ELA: 人々はこれをさまざまな楽しい目的に使っています。

実際、私たちは話す必要はありません。すべてのスライドをお見せして、無言でお楽しみください。この人は挫折の歴史に興味を持っていました。さまざまな種類の挫折があります。つま先をぶつけた場合、それは “argh” の一つです。もし地球が星間バイパスのためにボゴンによって消滅された場合、それは “aaaaaaaargh” の八つです。この人は、一つから八つの A までのすべての “argh” を研究しています。そして、より頻繁に起こる “argh” ほど、奇妙なことに、80年代初頭を除いて、より挫折を感じるものに対応していることがわかりました。これにはレーガンに関連している可能性があると考えています。

JM: このデータの使用方法はさまざまですが、要点は歴史的記録がデジタル化されているということです。Googleは1500万冊の書籍をデジタル化し始めました。これはこれまでに出版されたすべての書籍の12%にあたります。これは人間の文化のかなりの部分です。文化には他にもたくさんのものがあります:手稿、新聞、テキストでないもの、芸術や絵画などが含まれます。これらすべてが私たちのコンピューター上にあり、世界中のコンピューター上にあります。それが実現すると、私たちが過去、現在、そして人間の文化を理解する方法が変わるでしょう。ありがとうございました。

タイトルとURLをコピーしました