太宰治の文学の変化をTopic Modelで分析する
海外に長い間住んでいると、日本語の活字を無性に読みたくなることが頻繁にある。青空文庫はその飢えを満たしてくれるサイトのうちのひとつだ。夏目漱石、芥川竜之介、宮沢賢治など名だたる作家の作品が収められているが、中でも太宰治の作品は私にとって特別な存在だ。
太宰治というと、「人間失格」のテーマ及び彼自身の入水自殺のインパクトがあまりにも強いためか、「暗い」「陰鬱」というイメージがあるようだ。例えば、私がまだ日本に住んでいた頃に軽い病気を患って1週間ほど入院していた時のことだ。元来読書が好きだったので、「久しぶりに集中して本を読む時間が出来た」くらいの軽い気持ちで「太宰治全集」を読んでいたら検温をしに来た看護師の方に「大丈夫ですか」と深刻な表情で訊かれたのを今でも記憶している。実際のところ、太宰は一貫して「暗い」作品を書いていたわけではなく、「お伽草紙」「富嶽百景」「走れメロス」などの明るい作品も世に送り出している。
太宰の作品は前期・中期・後期の3つに分けられるというのが通説だ。前期には、実家からの勘当や芥川賞落選など幾多の挫折を味わいながら破滅的な小説を綴る。中期には自らの家庭を築き、健康的な生活を送りながら美しく肯定的な作品を多数書く。後期になると終戦後の混乱と退廃からか、前期と微妙な差異はあるものの、遺言的文学に戻る。
今回はTopic Modelという機械学習の手法を使って太宰の作風の変化を分析する。果たしてアルゴリズムは太宰の文学の変遷を捉えられるのだろうか。
データ
2013年12月時点の青空文庫に掲載されていた13124件の作品を取得した。今回は文学の時系列変化を調べたいため、これらのうち初出情報が明確なものに絞った。また、翻訳作品は日本の時代的潮流と一致したタイミングで出版されるとは必ずしも限らないため取り除いた。最終的に408人の作者による6738件の作品が残った。
またテキストの前処理として、旧仮名遣いの作品を現代仮名遣いに変換した。
手法
言葉の使われ方の変化を見るためのツールといえばGoogle Ngram Viewerというものがある。これを使えば過去数百年分の書籍に含まれる言葉の経年変化を視覚化することが可能だ。例えばTwitterと検索すると2000年代後半からすごい勢いで成長していることが確認できる。一方、映画のマトリックスを念頭に置きながらMatrixと検索すると予想に反して1950年あたりから既にゆるやかに伸びていることが分かる。これは、「Matrix」という単語に複数の意味があり、(その理由は定かではないが)1950年以降、映画以外の意味合いのものが頻繁に使われるようになったからとしか説明がつかない。
このように、言語とは根本的に曖昧なものだ。具体的にいうと、言語には:
- 多義性(1つの単語が複数の意味を持つ。例えば、「Apple」はアダムとイブが食べたとされるあの赤い果物、もしくはiPhoneの会社を意味する)
- 同義性(複数の単語が同じ意味を持つ。例えば「鈴木一郎」「イチ」「安打製造機」はすべてイチローを指す)
という側面があるため、ただの単語の頻度で文学のテーマの盛衰を把握するのには限界がある。言葉の「意味」にもう少し近いものの経年変化を調べることが理想的だ。
Topic Model
ここでTopic Modelが颯爽と登場する。Topic Modelingを簡単に説明すれば、ある文書集合が与えられたとして、その集合に潜在する「構造」を学習することだ(この構造のことを「トピック」ともいう)。
例えば、
「マリナーズのイチローは15日(日本時間)、敵地でロッキーズとのインターリーグ3連戦最終戦に「1番・ライト」で先発出場し、4打数2安打で連続試合出塁をメジャー自己新の「43」に伸ばし、今季両リーグ最長記録に並んだ」
という文が与えられたとする。「野球」という単語が文中に含まれていないにも関わらず、人はこれは読んで野球に関する文章であるということをいとも簡単に理解できる。大雑把に言えば、これを機械でも推論出来るようにするのがTopic Modelingだ。
Topic Modelの概略を次の図に示した。図の上にあるのは、Wikipediaの全ページの要約をTopic Modelに入力して得られたトピックのうちの3つだ。一番左のトピックは「表現型」「遺伝子」「DNA」などの単語群から成っていることから、「遺伝学」に関するトピックであると予想がつく。同様に、真ん中のトピックは「研究」、一番右のトピックは「社会」に関するものだと推測できる。図の下半分は最近Huffington Postで目にした記事の抜粋だ。これを先ほどのモデルに入力すると、どの単語がどのトピックに属しているかが出力される(図では単語が割り振られたトピックによって色分けをしている)。これによって、この文書が「遺伝学」「研究」「社会」に関するものだと機械でも推論できるようになったわけだ。
Topic Modelと一口に言っても幾つかの種類がある。今回使ったのは以下の3つである。
- Latent Dirichlet Allocation (最もシンプル。文書の作家や時系列変化を無視)
- Author Topic Model (文書と作家の関係性を考慮)
- Dynamic Topic Model (時系列変化を考慮)
文学をTopic Modelで分析するなんて言語道断だと非難する人がいてもおかしくはない。(太宰の場合はまさしく)血反吐を吐くほどの苦労で書き上げた文章を単なるアルゴリズムで分析するというのも冒涜的であるような気がする1。
結果
青空文庫
青空文庫に収められている作品数の推移を下に示した。
1940年代半ばに作品数が急激に落ち込むのは太平洋戦争が原因だと推測できる。また、1950年代半ば以降の作品数の減少は、作者が亡くなってから死後50年までは著作権が保護されるため、青空文庫に収録されないためであろう。
これらの作品に対しLatent Dirichlet Allocationを適用して得られた全128個のトピックのうち、8つの実例を下の図に示す。
各欄が1つのトピックに対応し、上からトピック名、そのトピックに出現しやすい単語、そのトピックに強く関連している作品を表している。小林多喜二や宮本百合子の作品が「共産主義/プロレタリア文学」、夢野久作の作品が「事件」、北大路魯山人の作品が「食」に関するトピックに強く関連付いたことから、モデルの学習がそれなりに上手くいったことが伺える。
次に、この「共産主義/プロレタリア文学」のトピックの年ごとの強さを見る。
プロレタリア文学が流行した1920年代から1930年代前半にかけてトピックが爆発的に強くなっていることが確認できる。
誤解を招かないように注釈を入れておくと、得られた全てのトピックがこのように「意味を持っていそう」なわけではない。Junkトピックとでもいうべきトピックも幾つか散見された。しかしながら、無関係な単語の羅列に見えて、実際には有意なトピックもあった。例えば、
など単語群を見ただけでは意味が分からないトピックがあった。このトピックに強く結びついている作家は以下のとおりである。
石川三四郎を除き、驚くべきことに全員が自然主義文学に関係していたことが分かる。
一方、白樺派らしきトピックは見つからなかった。白樺派を代表する志賀直哉と武者小路実篤は亡くなってからまだ50年経っておらず、彼らの作品が青空文庫に掲載されていないためだと思われる。
戦後を代表する作家である三島由紀夫、安部公房、遠藤周作らの作品も同様の理由で青空文庫に収録されていないため、彼らの作品の特徴を分析することは残念ながら出来なかった。
太宰治の文学
本題の太宰の文学の分析に入る前に、まず予備知識として太宰の年譜を下に示す。重要な点は、冒頭でも触れたように、前期と後期において太宰の私生活と作品がともに乱れるということだ。
次に、青空文庫に収められている太宰治の作品数の推移を示す。没後である1954年に1作品があることが確認できるが、これは「大恩は語らず」というエッセイだ。1937年あたりのグラフの下落は妻である初代との離別で太宰が1年間ほど作家活動を休止していたためだろう。他の作家達と同様、太宰も太平洋戦争中は作品数が減少していることが確認できる。
太宰治のトピック分布
太宰に最も強く関連づいた5つのトピックを下に示す。
5つのうち2つは以前登場した「文学」「人生」のトピックだ。残りの3つを眺めると、他の2つのトピックほど明確ではないが、太宰らしさがにじみ出てくるような気がする。例えば、一番左のトピックに最も強く関連している作品を調べてみると以下のようになった。
太宰に似ている作家
Author Topic Model によって得られた各作家のトピック分布をもとに、太宰に最も似ている5人の作家を求めると次の通りになった。
三好十郎、織田作之助、田中英光は太宰と同じく無頼派の作家である。しかも田中英光は太宰の弟子とあって、モデルの信頼性がさらに増したような気がする。
太宰の作風の変化
さて、「太宰の文学の変化を機械学習のモデルで捉えられるか」という問いから出発したわけだが、 今までの太宰の私生活の話を踏まえると、前期・中期・後期にかけて「暗い」トピックが凹形、もしくは「明るい」トピックが凸形の形状をしていたら万々歳である。
結論からいうと、このような形で変化する「暗い」もしくは「明るい」トピックは見つからなかった。非常に残念である。
しかしたったひとつだけ、太宰の私生活と同期して変化したように見えるトピックがあった。それがこちらだ。
これは、上に出てきた「恋愛」のトピックである。美知子夫人と結婚した1939年あたりから急激に減少し、愛人の太田静子に会うようになってから再度元の強さに戻ったように見えなくはない。「さて、太宰のやつ、美知子夫人の尻にしかれて恋愛めいた話を書けなくなったのか」と邪推していたところ、このような意見を見つけた:
十一月に井伏鱒二の世話により石原美知子と結婚します。この石原美知子という女性は当時としては珍しい大学教育を受けた相当な才女です。東京女子高等師範学校(現お茶の水女子大)卒。左翼活動や自殺を繰り返した太宰とは不釣り合いともいえる女性です。
彼女と支え合って生きた結婚生活というものが太宰の作風をダウナーな絶望からすがすがしい希望へと変えたのでしょう。戦中戦後、太宰は太田静子、山崎富栄らと愛人関係を持ちますが、少なくともこのころは美知子と仲がよかったでしょう。
太宰は学識のある美知子夫人に口述記述をさせます。初めて太宰は同人誌仲間、一部の文学好きから一般の読者を見据えた作品を作るのです。これは勝手な想像ですが、無意識のうちに太宰は奥さんの手前、前述した明るい作品というのを書いたでしょう。幸福な生活ともあいまって。
結婚が太宰を変えた、というつまらない結論ですが実に人間らしいと思います。微笑しながら「どうだい面白いだろう」などと言って口述記述をする夫人に声をかける太宰の姿が目に浮かびます。それは太宰が味わった最初で最後の平穏なのだと思います。
いい話である。
終わりに
人文科学系のコーパスにTopic Modelを適用する事例は近年盛んになってきている。いくつかの参考文献を下に挙げる。
- Words Alone: Dismantling Topic Models in the Humanities
- Topic Modeling and Digital Humanities
- What can topic models of PMLA teach us about the history of literary scholarship? | The Stone and the Shell
- Mining the Dispatch
英語圏の研究はたくさん見つけられたものの、日本文学に適用する例は残念ながらひとつも見つからなかった。
太宰の人生について少しでも興味を持たれた方には、今をときめく猪瀬直樹氏のこちらの書を推薦します:
- 太宰は「もの思う葦」で彼の処女創作集「晩年」への思いをこう語っている:「私はこの短篇集一冊のために、十箇年を棒に振った。まる十箇年、市民と同じさわやかな朝めしを食わなかった。私は、この本一冊のために、身の置きどころを失い、たえず自尊心を傷けられて世の中の寒風に吹きまくられ、そうして、うろうろ歩きまわっていた。(中略)舌を焼き、胸を焦がし、わが身を、とうてい恢復できぬまでにわざと損じた。百篇にあまる小説を、破り捨てた。そうして、残ったのは、辛うじて、これだけである。これだけ。けれども、私は、信じて居る。この短篇集、『晩年』は、年々歳々、いよいよ色濃く、きみの眼に、きみの胸に滲透して行くにちがいないということを。私はこの本一冊を創るためにのみ生れた。(中略)さもあらばあれ、『晩年』一冊、君のその両手の垢で黒く光って来るまで、繰り返し繰り返し愛読されることを思うと、ああ、私は幸福だ。」 [return]