『人工知能は人間を超えるのか』―AI時代を生きる私たちへ

『人工知能は人間を超えるのか』――AI時代を生きる私たちへ

東京大学大学院工学系研究科教授であり、
人工知能（AI）やディープラーニングの研究をリードする日本の第一人者・松尾豊さんが書いた
『人工知能は人間を超えるのか ――ディープラーニングの先にあるもの』を紹介します。

アマゾンはこちら👉『人工知能は人間を超えるのか ――ディープラーニングの先にあるもの』

今やAIは、プロ棋士に勝ち、私たちがコールセンターに問い合わせるときにも対応してくれる。
気づけば私たちの生活のすぐそばに、人工知能は存在しています。

最先端の人工知能は、人間の知能を超えるのか？
テクノロジーは、ヒトの仕事や価値を奪ってしまうのか？

そんな問いに対して著者は、人工知能が人類を征服したり、人工知能を作り出したりという可能性は現時点ではない。夢物語であると言っている。
ですが、タイトルにある通り『人工知能は人間を超えるのか』に対しての答えは”イエス”と言っている。

人工知能の現状と可能性を正しく理解するために、この一冊を通して、「人工知能とは何か」「私たちはどう向き合うべきか」を掴んでみませんか？

人工知能とは何か？
第1次AIブーム — 「推論」と「探索」
第2次AIブーム — 「知識」入れると賢くなる
第3次AIブーム① — 「機械学習」の静かな広がり
ディープラーニング（深層学習）の登場
1. 自己符号化器（オートエンコーダ）を使って１層ずつ階層ごとに学習していく
ディープラーニングからの技術進展
1. シンギュラリティは起きるのか
これからの人工知能との向き合い方

人工知能とは何か？

本書では、人工知能（AI）について「そもそも何なのか？」を考えるために、2つの視点から紹介しています。

専門家の視点から見るAIの定義

実は、人工知能には明確な定義が存在しないとも言われています。
専門家によって意見が分かれていて、共通の定義を持つことが難しいのです。

たとえば、国立情報学研究所の武田英明さんは、人工知能の定義を「人工的に作られた知能を持つ実体、あるいはそれを作ろうとすることによって知能自体を研究する分野である。」とし、大阪大学の浅田稔さんは、「知能の定義が明確でないので、人工知能を明確に定義できない。」と定義しています。

このように、人工知能の定義は専門家の間でも定まっていません。

一般の人々が持つAIのイメージ

一方で、一般の人が「人工知能」と聞いて思い浮かべるものはさまざまです。
本書ではそのイメージを4つのレベルに分類しています。

▼レベル1：単純な制御プログラム
家電などに搭載されているごく単純な制御プログラムをレベル1の人工知能と呼んでいます。

▼レベル2：古典的な人工知能
将棋のプログラムや掃除ロボット、あるいは質問に答える人工知能などが対応する。

▼レベル３：機械学習を取り入れた人工知能
検索エンジンに内蔵されていたり、ビッグデータをもとに自動的に判断したりするような人工知能である。サンプルとなるデータをもとに、ルールや知識を自ら学習するものである。

▼レベル４：ディープラーニングを取り入れた人工知能
機械学習をする際のデータを表すために使われる変数、特徴量と呼ばれる変数そのもの自体を学習するものであり、本書では「特徴表現学習」と呼んでいる。

このように、「AIとは何か？」という問いの答えは、専門家の立場によっても、私たちの日常感覚によっても変わってきます。
だからこそ、本書は“人工知能の正体”に迫るヒントになるのです。

強いAIと弱いAI

人工知能には、大きく分けて「強いAI」と「弱いAI」という2つの考え方があります。

弱いAI（Narrow AI）

今、私たちが使っているAIのほとんどはこのタイプです。
たとえば、囲碁や将棋が強いAI、画像を見分けたり、音声を認識したりするAIなどは、特定の目的に特化した「弱いAI」です。
つまり、「人間のような知能」ではなく、“賢く見える”けど、実際は決められた仕事をしているだけのAIです。

強いAI（General AI）

一方で、強いAIは「本当の意味で人間のように考え、学び、理解し、創造することができる知能」のこと。
たとえば、状況に応じて判断を変えたり、自分で目標を決めたり、感情や倫理を理解するAIがこのタイプにあたります。

しかし、今のところ強いAIは実現していません。
映画やSFの世界に出てくるような、完全に人間のように振る舞うAIはまだ夢の段階です。

人工知能の歴史：3つのブーム

人工知能（AI）は、これまでに3つの大きなブームがありました。
それぞれの時代でAIの技術や考え方が大きく変わり、今の私たちの生活に繋がっています。

▼第1次AIブーム（1950〜1960年代）
この時代のAIは、ルールや論理を使って問題を解くことに挑戦しました。
代表的なものが「迷路探索」や「チェス」などの、ルールが決まったゲームです。
これらは「トイプロブレム」と呼ばれ、限られた条件の中でAIが答えを出す練習台でした。
しかし、現実世界の複雑さには対応できず、期待が大きすぎたためにブームは終わってしまいました。

▼第2次AIブーム（1980年代）
次に来たのが、専門家の知識をコンピュータに詰め込む「エキスパートシステム」の時代です。
医療診断や故障診断など、特定の分野で役立ちましたが、ルールが増えるほど管理が難しくなり、
広く使われることはありませんでした。

▼第3次AIブーム（2010年代〜現在）
そして、今のAIブームの核となっているのが、「ディープラーニング」という機械学習の技術です。
大量のデータを使ってAIが自ら特徴を見つけ出し、
画像認識や音声認識、翻訳など、多くの実用的な分野で成果をあげています。

第1次AIブーム — 「推論」と「探索」

第1次AIブームの中心は、「トイプロブレム」と呼ばれる単純で限定された問題にAIが挑戦することでした。
「トイ」とは「おもちゃ」という意味で、現実の複雑さをできるだけ減らした、いわばおもちゃの問題です。

たとえば、迷路の出口を見つける「迷路探索」や、決まったルールの中で勝負する「チェス」や「将棋」がそれにあたります。
これらの問題はルールや条件がはっきりしているため、AIにとっては取り組みやすく、研究の格好の題材でした。

しかし、こうしたトイプロブレムは現実の複雑で予測不能な問題には対応できず、AIの能力は「非常に限定された状況でしか問題が解けなかった。
実際の問題はもっと複雑で病気の人に対してどんな治療法があるか、会社で新商品を考えるならどんな商品がいいか、私たちが直面する問題は解く事ができない。

そのため、最初の期待ほどの進展はなく、AI研究は一度冷え込むことになります。
それでも、このトイプロブレムを通して「機械がどうやって問題を解くのか」という基礎的な考え方やアルゴリズムが培われ、後のAI発展の土台となりました。

第2次AIブーム — 「知識」入れると賢くなる

第2次AIブームで支えになったのは、「知識」です。

ある専門分野の「知識」を取込み推論を行う事でその分野のエキスパートのように振る舞える「エキスパートシステム」が第2次AIブームの大本命であるとこの本書では言っている。

一例として、MYCIN（マイシン）を挙げています。感染症の専門医の代わりに診断を下す事ができるシステムであり、伝染性の血液疾患の患者を診断し、抗生物質を処方するように作られました。

質問に順番に答えていくと、500のルールから感染した細菌を特定し、それに合った抗生物質を処方する事ができることを期待されたシステムです。

性能的に69%の確率で、正しい診断できたが、専門医は80%の確率で正しい診断をできるに対して乏しい結果ではあったようですが、驚きなのはこのシステムが作られたのは「50年前」ということです。

ただし、このエキスパートシステムにも課題がありました。
「知識」をコンピュータに与えるために、専門家からヒアリングして知識を取り出さないといけないことであり、さらにコストも時間もかかる大変な処理でした。
ルールが増え続けると、互いに矛盾していたり、一貫していなかったりする為、適切に知識を維持する必要がありました。

さらに、より広い範囲の知識を扱おうとすると、知識を記述するのが難しくなってきます。
例えば、「曖昧な症状」に対しての診断を下すには、定義する事が難しいです。「お腹痛い」に対して、「痛い」は「ムカムカする」「チクチクする」なのか、「お腹」は胃なのか、腸なのか。

人間のあらゆるパーツをコンピュータに知識として持たせる必要があり、
このような「常識レベルの知識」が思いがけず難敵でした。

第3次AIブーム① — 「機械学習」の静かな広がり

第2次AIブームではたくさんの「知識」と取り入れることで、人工知能の進化を遂げたが、入力した知識以上のことはできませんでした。

ですが、このたくさんの「知識」という増加したデータと、文字認識などのパターン認識の分野で長年蓄積された基礎技術が「機械学習」という技術の力を伸ばしてきました。

「機械学習」とは、人工知能のプログラム自身んが学習する仕組みのことを言います。そして、この「学習する」とは「分けること」であるとこの本書では言っています。

ある事象について判断するために、それが何かを認識するために、うまく「分ける」ことで物事を理解できる、判断できることが見込まれた。

機械学習は、コンピュータが大量のデータを処理しながらこの「分け方」を自動的に習得します。そして、「分け方」を習得すれば、それを使って未知のデータを分けることができる。「ネコ」を見分ける方法を身に着ければ次にネコの画像を見た瞬間「これはネコだ。」と瞬時に見分けられるということです。

人間の脳をまねるニューラルネットワーク

人間の脳は、ニューロン（神経細胞）がたくさんつながって、情報をやりとりしています。
ニューラルネットワークもこれを真似て、

①入力（情報を受け取る）

②重みをかける（どれが大事か判断）

③足し合わせる

④活性化関数で変換する（非線形な処理）

⑤出力する

という処理を、たくさんの人工ニューロンで行います。

郵便番号の手書き数字認識ってどんな処理？

郵便局の郵便番号の自動読み取りで使われる、手書き文字認識を例にとって説明します。

ステップ1：画像の読み取り

まずは、封筒の郵便番号の部分を画像としてスキャンします。
数字は手書きなので、太さやクセがいろいろ。たとえば「3」が崩れていても読める必要があります。

ステップ2：画像 → 数値に変換（入力）

画像は白黒の小さなマス目（例：28×28ピクセル）に変換され、それぞれのマスに「明るさ（0〜255の数値）」が入ります。この784個の数値が、ニューラルネットワークの「入力層」に渡されます。

ステップ3：特徴を抽出（隠れ層）

ここが一番のポイント！
ニューラルネットワークの「隠れ層」では、以下のような特徴が自動で学習されていきます：

カーブしている？→「3」「8」「9」っぽい
真ん中が空いている？→「0」や「8」の可能性
縦に線がある？→「1」や「7」かも

このように、人間が定義しなくても、「文字のパターン」を自動で見つけることができます。

ステップ4：出力（分類）

最後の「出力層」では、数字0〜9それぞれに対して「これは何の数字か？」の確率を出します。

たとえば：

数字	出力値（確率）
0	0.01
1	0.02
2	0.05
3	0.89 ✅ ←これ！
…	…

この場合、「3」と判断されて、次の処理へ進みます。

たとえ間違っていても学習をするので賢くなる

最初は間違えることもあります。でも、

正解と比べてどれくらいズレてたか（＝誤差）を計算
それを出力の誤差をネットワークの後ろ（出力層）から前（入力層）へと伝え（バックプロパゲーション（誤差逆伝播法））
「重み」を少しずつ修正する（＝学習）

という流れで、データを何千枚・何万枚と繰り返し学習して精度を高めていきます。

機械学習にも弱点がある

コンピューターは、機械学習というしくみを使って、自分で学びながら、見たことのないものを判断したり、予測したりできるようになりました。
この技術は、ウェブサービスやビッグデータの分析にも広く使われています。

ただし、機械学習にも弱点があります。
それは「特徴量（とくちょうりょう）」という、予測に使う情報（変数）をどう選ぶか、ということです。この特徴量の選び方によって、予測の正確さが大きく変わってしまうことがあります。

こと特徴量について私なりに例を挙げます。

あだち充作品の「顔がみんな似てるのに、誰が誰かわかる」現象

あだち充作品では、登場人物の顔がとてもよく似ているにもかかわらず、読者は混乱することなく「この子は南ちゃん」「この人は達也」と、誰が誰かをちゃんと見分けることができます。

それは、読者が絵そのものだけでなく、「どの場面にいるか」「どんな口調か」「どんな感情か」といった文脈や振る舞いから特徴をとらえているからです。

たとえ目や髪型がそっくりでも、人間はわずかな違いを手がかりにキャラクターの個性を自然に認識する能力を持っているのです。

このように、何を特徴量とするか、人間が決めないといけなかったということが一番の問題でした。人間がうまく特徴量を設計すれば、機械学習はうまく動き、そうでなければうまく動きません。

ディープラーニング（深層学習）の登場

結局は人間の操作がないと機械学習は進まないと思えたが、ここでデータをもとに、コンピュータが自ら特徴量を作り出せる「ディープラーニング」が発明されました。

ディープラーニングは先ほど紹介した、ニューラルネットワークを何層にもしたものです。

人間の脳は何層にもなった構造をしており、ニューラルネットワークの初期のころの研究から深い層のユーラルネットワークを作ることは当然の試みとして行われてきました。ところが、どうやってもうまくいきませんでした。

深い層になると、重みづけの調整を繰り返し精度を上げること（誤差逆伝播）が下の階層まで行き届かないからでした。ですが、ディープラーニングはこの多層のニューラルネットワークがを実現することができました。

自己符号化器（オートエンコーダ）を使って１層ずつ階層ごとに学習していく

最初の1層目で、入力データから特徴1を学習し、次に、その特徴1を入力として2層目を学習する。というふうに一層ずつ順に自己符号化器（入力データを圧縮し、また復元する）で学習していく。最後に、すべての重みを使って出力層を加えて生成の精度を上げることができるようになりました。

つまり、入力と出力の差を最小化するように学習（自己符号化器）させ、重要な特徴だけを抽出する力を身につけるようになりました。

これにより、これにより、取り込んだ画像からコンピューターが特徴量を取り出し、自動的に「人間の顔」や「ネコの顔」といった概念を獲得することができるようになりました。次からは、人間やネコの画像を見ただけで、「これは人間だ」「これはネコだ」と判断できるようになります。

ディープラーニングからの技術進展

ディープラニングの研究は60年と長いですが、これから起きると予測される人工知能技術全体の発展から見るとほんの入り口に過ぎません。

だから、人工知能が発展すると、人間と同じような概念を持ち、人間と同じような思考をし、人間と同じような自我や欲望を持つと考えられがちだが、実際はそうではないと著者は言っている。

それは、コンピュータが自ら作り出した「概念」が、人間が持っていた「概念」とは違うケースが起こりうるからです。

人間がネコを認識するときに「目や耳の形」「ひげ」「全体の形状」「鳴き声」などを特徴量として使っています。

しかし、コンピュータに入力される情報が、「人間が認知できない音」や「犬しかかぎ分けられない匂い」、「小さすぎて見えない物体」など人間と異なる情報を取り込めたら、そこから出てくるものは「人間の知能」とは別物の「知能」になるということです。

次に、脳が何を「快」あるいは「不快」と感じるか人間の持つ「本能」が関係しています。

自分が好きなゲームや漫画にはやたら詳しくはなりませんか？
好きなスポーツではより詳細な状況が理解できませんか？

このように「快」と感じるような本能をコンピュータが格闘することは難しく、このような人間が使っている「概念」を正しく理解することができません。

シンギュラリティは起きるのか

「シンギュラリティ」とは人工知能が人間を超える人工知能を自ら生み出せるようになる時点のことを指します。

著者はシンギュラリティが起きることは現時点ではないと言っています。

その理由は、人工的な生命を作り出すことは、非常に難しく、そもそも、人工知能に「生命」を与える必要がないからです。

また、「生命」が知能を持ち人工知能の基本的な能力を備え、知性が高い人工知能を出現させ、人間を支配させようとしても、生命が知能を持つまで何億年もかかるからです。

とはいえ、過小評価もしてはいけない。人工知能の普及が短期にもたらす社会的あるいはこじんへの顕著な影響については配慮すべきであり、「人工知能を使う側の人間の倫理や」「作る人に対する倫理」社会全体が作っていくものであると著者は言っています。

これからの人工知能との向き合い方

人工知能の技術は着々と進展し、少しずつ世界を豊かにしていきます。

社会システムの中で、人間に付随し組み込まれた学習や判断を世の中の必要なところに分散して設置できることによりよりよい社会システムを作ることができます。

人工知能が人の職を奪うのではないかとメディアでよく言われています。しかし、なくなる仕事もあるが、代わりに新しい仕事が必ずできます。

例えば、耕作機ができると人間は田畑を耕さなくてよくなったが、耕作機を作る人、使う人、売ったり、維持したいする職業が現れるように、新しい仕事ができます。

そして、耕作機をもっと使いやすくするために、使う人の工夫が生まれ、たくさん売るために、長持ちさせるために考えることが人間の創造性や能力がさらに引き出せるようになるかもしれません。

生産性が上がることで、労働時間が短くなるために、「生き方」や「尊厳」、多様な価値が重要視される世の中になると著者は考えています。

著者は読者には各々の仕事や生活の中で人工知能をどのように活かすかを考えてほしいと言っている。

人工知能は3回目のブームを迎えている今こそ、停滞する日本産業、高齢化社会、日本の情報技術の低迷を打開するために「人口知能の活用」がカギとなると考えています。

ブームが去った後でも、人工知能の夢をあきらめず、研究と発展を繰り返してきた先人たちに感謝しつつ、私たちは人工知能の現状と可能性を正しく理解し、うまく活用していくことが求められます。