寄稿 現代の人工知能と「言葉の意味」。そして記号創発システム。 谷口忠大(立命館大学教授、情報理工学)
1 言語を操る人工知能と「大規模言語モデル」
人工知能が記事を書いた。人工知能が小説を書いた。人工知能がとても自然な翻訳をした。人工知能が論文を要約した。人工知能が流暢な言い回しで受け答えをした。などなど、言語に関わる人工知能のニュースが世の中にあふれている。
言語理解は人工知能開発において残る最後のチャレンジの一つであると言われながら、素人目には「もう、ほとんど出来ているのではないか?」と思わされるような成功がこの五年ほどの間で続いてきた。これらの成功の多くはBERT[1]やGPT-3[2]を始めとする「大規模言語モデル」に基づいている。
[1] Devlin, Jacob, et al. "BERT: Pre-training of deep bidirectional transformers for language understanding." Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, (2019): 4171-4186.
https://aclanthology.org/N19-1423/
[2] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
言語モデルとは大量の言語資源、つまりテキストデータからその単語列(もしくはサブワード列や文字列)の並び方を統計的にモデル化したものである。最も基礎的な言語モデルはバイグラム(bigram)モデルと呼ばれるものであり、ある単語が出てきた際に、その次に何の単語が出てくるかを確率分布としてモデル化したものである。つまり2つの単語の並び方についての確率をモデル化している。これをN個の文字列に一般化したのがNグラム(n-gram)モデルである。ここで確率分布とは、その観測値がそれぞれどのような確率で現れるかを数学的に表現したものである。等しい確率で各面の値が出るサイコロの確率分布はP(x)=1/6のようにして書ける。全文書を確認した際に「私」の次に「は」が10回中1回出てきているのであれば、そのバイグラム確率はP(は|私)=0.1である。
この言語モデルという考え方において「次の単語を確率分布によりモデル化する」という言葉は、「次の単語を予測する」という言葉とほぼほぼ等価である。途中まで文を読み、次の語を見る前に「次に来る言葉は〇〇かもしれないし、△△かのしれないし、✕✕かもしれない」と私たちは無意識に予測する。この時、私たちは脳内で言語モデルを駆動して、尤もらしい表現を確率的に予測しているのだ。
2010年代半ばに一世を風靡したword2vecと呼ばれる言語モデルがある[3]。word2vecはスキップグラム(skip-gram)と呼ばれるモデルを採用している。スキップグラムではある単語からその周辺に現れる単語を予測することで、その単語自体の意味を表すベクトル表現をニューラルネットワーク内部に得ることができる。しかもそのベクトルが和差演算によって意味的な操作がある程度可能であることから、大きな注目を集めた。つまりVec(フランス)-Vec(パリ)の値が、Vec(日本)- Vec(東京)の値がほぼ等しくなるといったようなことだ。これは「フランス」と「パリ」の関係が、「日本」と「東京」の関係に近いことを表している。ここでVec(w)は単語wのベクトル表現を表す。
現在、冒頭で述べたような人工知能による言語の取り扱いで中心的な役割を担っているBERTやGPT-3といった大規模言語モデルはそのほとんどがTransformerと呼ばれるニューラルネットワークに基づき構築されている[4]。これらの大規模言語モデルの多くでは、ある文から一部の単語を欠損させ(空欄にして)そこ入る言葉を予測させる(つまり確率分布をモデル化させる)ということをおこなっている。これは文の一部をマスクして(隠して)それを予測させることで言語モデルを学習することからマスク言語モデル(masked language model)と呼ばれる。このような学習を通してBERTやGPT-3は文や単語の意味を表現するベクトルを得ることができる。空欄に単語を入れるというのは中学生や高校生が英語の試験でやる練習問題のようだが、そんな練習問題をどんな受験生よりもたくさん解くことで大規模言語モデルは言葉の並び方、そしてその並び方に内在する規則を覚えていくのだ。
[3] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. “Efficient Estimation of Word Representations in Vector Space,” International Conference on Learning Representations, (2013).
https://arxiv.org/abs/1301.3781
[4] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
https://papers.nips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html
2 表層の統計と深層の言語
この意味において、言語を操る現代の人工知能は表層的な言葉の並びを確率分布として覚えているにすぎないとも言えるだろう。「ただの統計」であり、分布モデリングである。しかし「ただの統計」を侮ることなかれ、である。
現代の人工知能の言語処理に疑問を投げかけ、それを批判、人間の知能との根本的な違いをハイライトしようとする論客が「現在の人工知能はただの統計計算をしているだけだ」というように指摘することがある。しかし統計計算だからといって、それが人間の知能のモデルとして不適切だということにはならない。人間の知能だって統計計算をしているし、それは知能の重要な部分をなす。
脳科学の側から見ると人間の脳とてベイズ脳(Bayesian brain)や自由エネルギー原理(free energy principle)、予測符号化(predictive coding)という言葉で語られるように統計学習機械と捉えることが支持されている[5-7]。そもそも人間の知能の重要な特性は環境との相互作用を通して、「経験から学習」し、変化し続けていくことにある。そのような変化は、感覚や運動の領域に閉じず、記号や言語の領域においても生じる。そして、「経験から学習」するという現象を記述する数理モデルとして、現時点において最も妥当な数理は「統計」に根ざした機械学習である。
[5] 乾敏郎, 阪口豊, 脳の大統一理論: 自由エネルギー原理とはなにか, 岩波書店, (2020).
https://www.iwanami.co.jp/book/b548871.html
[6] ヤコブ ホーヴィ (著), 佐藤亮司, 太田陽, 次田瞬, 林禅之, 三品由紀子 (翻訳), 予測する心, 勁草書房, (2021).
https://www.keisoshobo.co.jp/book/b557041.html
[7] Friston, Karl, et al. "World model learning and inference." Neural Networks 144 (2021): 573-590.
https://www.sciencedirect.com/science/article/pii/S0893608021003610?via%3Dihub
言語を操る現代の人工知能──大規模言語モデルは表層的な言葉の並びを学習する。だから「言語の内容はまるで理解していないのだ」と、思われるかもしれない。しかし「表層的な言葉の並びを学習する」という言明は、「深層的な言葉の意味を学習できない」ということを「含意しない」。現に大規模言語モデルがやってのける文章理解や文章生成、文章変換(主に翻訳)を見れば、ある程度の文理解、もしくは統語的構造の理解がなされていると考える方が妥当であろう。それほどの性能を現代の大規模言語モデルは見せつけている。
例えば名詞句や動詞句などといった句によって構成される句構造を推定するのが自然言語処理における構文解析(この場合は特に句構造解析)である。構文解析は言語の統語的構造を解析する。国語や英語の授業では言語学的な知識と論理的な思考に基づいて各自がやっていただろうこの解析は、計算論的には与えられた文の裏に段階的な潜在変数を仮定し、単語の並びの情報からその潜在変数を推論することして表現される。言語における(再帰的な)統語的構造とその理解は、しばしば人間の言語が持つ卓越した特徴の一つとして、しばしば高尚に論じられるが、計算論的には単純に表層的な単語の並びを与件とした潜在変数の推論問題へと帰着される。これを人間は文法を操る知能とそれを支える言語学的知識に基づいて行うと考えられがちなわけである。
人工知能を支えるニューラルネットワークは、表層的な単語の並びだけを観測情報として得て学習し、言語の本質には立ち入らず単純な統計的パターン処理を繰り返しているように見えることから、「言語学的な知識を持ってはいない。真の言語理解には言語学的知識が必要であろう」と指摘する人もいる。この論点、つまり言語学的知識の必要性に関しても、「言語学的知識とは何物か? どこから来たのか?」という問いを付加的に置くことで、批判的に考察したい。この問いにより、視点をメタなレベルに移行すれば、この議論はある種相対化される。
この移行は、「私たち人類が言語を使用し始めたのと、言語学を作ったのはどちらが先か?」という問いから始める移行だ。そもそも言語学とは人間の言語が先に存在し、その言語を分析することによって歴史的には(人類史もしくは学問史的には)成立している。言語学はこの百年間、物理学の成功を追うように、自然現象としての言語の中に存在するある種の構造を見出そうとしてきた節がある。この流れは構造主義の思想的潮流の視点から捉えてもよい。
言語学が言語現象を客観的に分析することで成立してきたという事実は、まさに大量の言語資源からそれに潜む構造を人間(言語学者)という統計的学習主体が分析を経て見出してきたということに他ならない。日本の代表的計算言語学者である持橋は現在の人工知能ブーム以前からこのような構造の存在を指摘し、言語学そのものが機械学習的視点から整理されるべきであると主張していた[8]。
[8] 持橋 大地, 統計的自然言語処理と機械学習・統計学の未来(<特集>ポスト経験主義の言語処理), 人工知能, (2012), 27(3), p. 284-287.
https://www.jstage.jst.go.jp/article/jjsai/27/3/27_284/_article/-char/ja/
大規模言語モデルは表層的な単語の並びを統計学習しているだけであるが、ニューラルネットワークの内部において潜在的な構造を自己組織的に学習し、推論していると考えられる。その意味では大規模言語モデルを支えるニューラルネットワークは言語学的知識そのものを人間により教えられていたり、与えられたりしているわけではないが、言語的知識を大量のテキストデータを分析することで、自らが言語学者のように見出しているのだと解釈することもできるだろう。
分布意味論(distributional semantics)という考え方がある。テキスト情報における単語の分布情報を統計的に扱い、単語や文の意味に接近しようというアプローチの根本に存在する考え方だ。
簡単に言えば、ある単語(記号)の意味はその周辺に存在する単語(記号)の存在との相対的な関係により決まるというような考え方である。このような考え方は、人工知能や自然言語処理といった工学的な世界だけではなく、記号学の教科書を開いても(少なくとも類似の概念は)紹介される類の考え方である。過去の人文社会科学的な記号学の研究においてもこのような立場をとってきた研究者は少なくない。「記号をシステムとして捉え、それぞれの記号の意味を考える」というようなフレーズが用いられたときに、その裏に潜むのは広い意味での分布意味論であろう。
現代の大規模言語モデルは、この考え方を極めて素朴に敷衍し、計算機上で粛々と実現しているにすぎない。もしこのアプローチを批判するならば、その矛先は続いて、分布意味論そのものや、記号の意味を記号のシステムにおける相対的関係を通して捉える共時的な記号学的研究にさえも向けられるのが公正だ。
3 言語と「世界」の分節
大規模言語モデルの成功はあるものの、「では分布意味論は、意味論の決定版か?」と問われれば、私は「まったくそう思わない」。分布意味論の存在は道具的な意味で合理的であるし、その有効性はまさに現代の大規模言語モデルに基づく応用群によって証明されている。しかし、それはあくまで対象のタスクを「テキストの世界」に閉じた場合の話である。
先ほど「道具的な意味で合理的」と言ったのは、分布意味論の説明がテキストの世界に閉じておこなえることにある。記号学の研究の一部が記号の相対関係によって記号の意味や役割に関する議論を構築するのと同様だ。正直なところテキストデータのみを情報源とした自然言語処理によって「意味」に迫ろうと思えば、分布意味論以外にアプローチが思いつかない。それどころか、たぶん存在しないと思う※。そういう意味で分布意味論は、私には「苦肉の策」に見えるのだ。むしろ「苦肉の策」でここまでできることを示したのだから、現代の大規模言語モデルの成功は素晴らしい。圧巻と言ってよい。分布意味論がどこまでのレベルにおいて妥当かを示すという意味で、構成的なアプローチによる言語に関する科学的知見の提供という側面を持っている。
とはいえシニフィアンの相対関係はどこまでいってもシニフィアンの相対関係だ。シニフェに触れることはできない。「記号」という存在の不思議さや魅力について語るとき、記号システムによる「世界」の分節化の重要性は、避けて通れないだろう。「記号」の最も重要な性質の一つは、シニフィアンの構造とシニフェの構造が互いに影響を及ぼし合いながら、それらが一体として作動し、世界を分節化していくことにある。それでこその言語(記号)だ。しかし、大規模言語モデルに基づき作動する人工知能に、言語はあるが「世界」がない。
※ ここでは「テキストデータのみを情報源」としているので人間が人手により意味に関わる情報を整理するフレーム意味論のようなアプローチは除いている。
私たち人間は言語獲得を始める新生児の頃から、自らを取り巻く環境──つまり「世界」と相互作用しながら言語を学習していく。その「世界」はニュートン的世界観における物理的世界というよりかは、ユクスキュル的世界観における環世界という意味での「世界」だ[9]。言語を学習するとき、それは言語資源(テキストデータ)のみによってなされるのではない。
[9] ユクスキュル, クリサート(著), 日高敏隆, 羽田節子 (翻訳), 生物から見た世界, (2005)
https://www.iwanami.co.jp/book/b247066.html
一旦、自然言語処理を始めとする一部の人工知能研究、言語学や哲学の議論が陥りがちなテキストのみの世界──「テキストの海」から離れてみよう。そのテキストの洪水の中から意味を探り当てようという前提から自由になってみると、当たり前のことを思い出す。
私たちが生きている中で、言葉(サイン)とは何らかの対象を表すものである。「りんご」とは目の前に存在する赤くて美味しそうなりんごを表すのである。そう素朴に述べることができる。
パースの記号論で言えば、サインと対象と解釈項の三項関係が記号であり記号過程(semiosis)である。
もちろん「何をいまさら」との指摘は甘んじて受けよう。
そう「何をいまさら」なのである。
それなのにこの当たり前のことが、何故か学術的議論の中で無意識に無視されているのではないかと思われる状況に遭遇することがしばしばある。
この視点に立てば、つまり言語の意味には「世界」が必要だ。指し示されるべきものの存在する「世界」が必要だ。ここで「世界」とは環世界のことであるので、必ずしも物理的な意味での世界について語っているわけではないことに注意されたい。対象とは外界に存在する物質のことのみを言っているのではない。私たちが抱く感情や、抽象的概念も対象たりえる。
いずれにせよ「冷蔵庫の中のペットボトル」という言葉は、例えば私の家の冷蔵庫にあるコーラのペットボトルを表す。そこでの「意味」とは単語の相対関係ではない。私がこの視覚、聴覚、触覚、嗅覚、味覚で感じる(構成する)この世界に存在する、ペットボトルを指すのだ。それは「世界」から分節化され、指し示される対象となる。
言語理解には「世界」が必要だ。言い換えれば実世界に存在し、感覚器を介して知覚世界を構成する身体が必要だ。現在の人工知能は、テキストの中に潜在する意味──分布意味論の範囲での意味に限界まで迫っているにすぎない。
この指摘に関連して、とある工学的な問題について述べよう。実世界で言語を理解するサービスロボットを生み出すのは難しい。実世界において、あなたの言語を柔軟に理解し、実世界の事物と関連付け、何らかの支援タスクを実行してくれるサービスロボットを見たことがあるだろうか? サービスロボットの多くはいまだに定型的な言語的指示しか受け付けない。ゆえに多くの自然な発話に関して「わかりません」と返してしまう。現代の人工知能は「テキストの海」の中で言語を理解できても、「世界」の中で言語を理解することに多大な困難を抱えるのだ。
これからは身体を持ち、現実世界の中で自らの「世界」を構成し、その分節化とともに言語を学び、自らの行為や活動と関係づけていく知能こそが、人工知能研究における言語理解のフロンティアとなる。
実世界で身体を持ち、環境と相互作用しながら活動する人工知能。つまりロボットである。筆者らは言語(記号)の研究においてロボティクスこそが21世紀において欠くことのできない構成要素であると考え、主張してきた。例えば『言語とロボティクスの未開拓領域に関するサーベイ(Survey on frontiers of language and robotics)』と題した論文を刊行しているので、興味のある読者は参照していただきたい[10]。
[10] Taniguchi, Tadahiro, et al. "Survey on frontiers of language and robotics." Advanced Robotics 33.15-16 (2019): 700-730.
https://www.tandfonline.com/doi/full/10.1080/01691864.2019.1632223
4 記号創発システム科学に向けて
筆者らが2010年代初頭から領域開拓をおこなってきた「記号創発ロボティクス」ではその始まりより、このような世界観に基づいて研究推進を行ってきた。そして、その中心に存在するのが「記号創発システム」という描像である[11, 12]。記号創発システムは記号的コミュニケーションの成立に創発システムの視点から説明を与えるものである。特徴としてはその描像の中に記号的なコミュニケーションを通して社会的に意味が構成されていくダイナミクスと、感覚運動系を通して環境と相互作用する中で内的表象(内部表現)を構成し、世界を分節化していく中で意味が構成されていくダイナミクスを共に含んでいる点にある。つまり先に述べていた言語における2種類の意味の源泉を共に含んでいるのである。
[11] 谷口忠大, コミュニケーションするロボットは創れるか 記号創発システムへの構成論的アプローチ, NTT出版, (2010).
https://www.nttpub.co.jp/search/books/detail/100002051
[12] Taniguchi, Tadahiro, et al. "Symbol emergence in robotics: a survey." Advanced Robotics 30.11-12 (2016): 706-728.
https://www.tandfonline.com/doi/abs/10.1080/01691864.2016.1164622
言語(記号)の重要な性質に「恣意性」がある。対象とサインの関係(ラベル付け)は解釈項次第で変化するし、サインが世界をどのように切り取るか(分節化)にも「正解」は存在しない。そのような記号システムの動的な特性は、やはり人工知能研究において軽視されている。記号創発システムは記号システムの構成を徹底したボトムアップな世界観により説明しようとする。そしてその世界観は、ただ言語的に、思弁的に、語られるだけではなく、計算機モデルやロボットモデルによって表現され説明されてきた。それがこの十年の記号創発ロボティクスの研究であり、今も現代の人工知能研究と相互作用しながら進んでいる研究領域である[13-15]。
[13] 谷口忠大, 記号創発ロボティクス 知能のメカニズム入門, 講談社, (2014)
https://bookclub.kodansha.co.jp/product?item=0000195539
[14] 谷口忠大, 心を知るための人工知能: 認知科学としての記号創発ロボティクス, 共立出版, (2020)
https://www.kyoritsu-pub.co.jp/book/b10003255.html
[15] Taniguchi, Tadahiro, et al. "Symbol emergence in cognitive developmental systems: a survey." IEEE transactions on Cognitive and Developmental Systems 11.4 (2018): 494-516.
https://ieeexplore.ieee.org/document/8451965
最近の研究において、私たちは内的表象の学習と、名付けゲームを通した記号のサインの共有を含んだ複数エージェント(ロボット)間の記号創発を、分散的なベイズ推論として、数学的に帰着させることに成功している[16-18]。これは私たち人間が、記号システムを共有するということは、集合的知性として世界をより上手く表現しようする行為に他ならないということを示唆すると共に、そのメカニズムとして各自が自らの信念に基づき他者の発話を取捨選択することの重要性を示唆している。人間の記号的コミュニケーションを支える記号創発システム全体を計算機やロボットを通してモデル化しよう、理解しようという取り組みは進み続けている。
[16] Taniguchi, Tadahiro, et al. "Emergent Communication through Metropolis-Hastings Naming Game with Deep Generative Models." arXiv preprint arXiv:2205.12392 (2022).
https://arxiv.org/abs/2205.12392
[17] Hagiwara, Yoshinobu, et al. "Symbol emergence as an interpersonal multimodal categorization." Frontiers in Robotics and AI (2019): 134.
https://www.frontiersin.org/articles/10.3389/frobt.2019.00134/full
[18] Hagiwara, Yoshinobu, et al. "Multiagent multimodal categorization for symbol emergence: emergent communication via interpersonal cross-modal inference." Advanced Robotics 36.5-6 (2022): 239-260.
https://www.tandfonline.com/doi/full/10.1080/01691864.2022.2029721
「記号」とは恣意性とその創発的特性ゆえに、その姿を変え続け、その個別のサインの意味を変え続ける存在である。このような、記号システムの動的特性と、記号の意味における身体に基づく実世界経験(環世界の存在)は記号や言語に関わる議論において論じることがしばしば困難であった。またそれを支える認知ダイナミクスの計算論的(構成的)理解もまた重要であるにもかかわらず、これまでは扱いにくい対象だった。しかし、機械学習の理論や、計算機、そして身体を持つロボットという形で、21世紀において私たちは実世界認知に基づく言語を扱う新しい道具立てを得た。だからこそ動的な記号観をもって、記号(や表象)に対するアプローチを再加速させたい。
記号創発システムが描くような記号観は人工知能ロボティクスのためというよりも、むしろ私たちの言語や認知、社会や文化をより良く理解するためにこそ重要である。2020年代において記号創発システムを核とした学際的議論は、私たちをより明瞭な言語理解、ひいては世界理解、人間理解へと導くだろう。このような動機の下、立命館大学において筆者が中心となり第4期拠点形成型R-GIRO 研究プログラムプロジェクト「記号創発システム科学創成:実世界人工知能と次世代共生社会の学術融合研究拠点」(拠点リーダー・谷口忠大)を2022年度よりスタートさせた。プロジェクトには人工知能、ロボティクス、コンピュータビジョン、音響情報処理という工学的な研究チームだけではなく、応用言語学(言語哲学や言語教育論を含む)、文化心理学(カウンセリング方法論や文化記号論を含む)を含んだ広い意味での記号や言語に関わる研究グループを含んでいる。さらに学外の研究者を含んだ議論の場としても広く門戸を開いている。一例としては心理学、哲学、プラグマティズム、ネオサイバネティックスを始めとした記号論に関わる研究者との記号創発論の研究会も連続開催してきた。
この拠点形成にあたり謳った「記号創発システム科学」という学術分野。その全容はまだ明らかでない。しかしそれは日本発の表象に関する学際的研究の新しい基軸となり得るポテンシャルを秘めていると、筆者は確信している。この寄稿をきっかけとしても、工学や情報学を超え、広く人文社会系の研究者をも含んだ、学術的交流や議論の輪が広がることを期待している。