2016年03月04日

娘、研究を否定されて喜ぶ…。

昨年、娘の学外発表会があり、昔、数ヶ月間、一緒に仕事をしたことがある情報技術系の人と偶然出会った。

私は、娘と共同研究(私にとっては、思索でしかないが…)をしているが、プロ野球チームを持っているIT系の会社で働く彼は、「間違ってはいない」・「ただし、ちょっと古い」と、私の言葉に反応した。

娘にとって、自分の父親が、「間違ってはいない」と是認されたことよりも、「ちょっと古い」と否定されたことが、快感だったとか。

つまり、自分の父親と互角に、というか、話がかみ合う人など、ほとんどいなかったから…。

そして、「ちょっと古い」とは何か。と、興味を持った。
とはいえ、イベント会場の立ち話では、できるような話でもなく、疑問は、そのままになった。

さて、そして、3月になり、就活の時期。
情報系の大学に通っている娘としては、最近のITムーブメントについて、理解しておかないとならない。

そこで、今、一番、注目されるキーワードが、「ディープ・ラーニング」。
私が少し調べてみると、娘との共同研究が「少し古い」ということが分かった。




私と娘がやってきた研究が、「ちょっと古い」について、分かりやすく解説する。

自然言語の意味解析について、セマンテックウェブをもとに考察していた。
セマンテックウェブとは、単語に、意味の属性をリンクさせること。2003年頃に、インターネットの生みの親ティム・バーナーズリーが提唱した。

自然言語処理(テキストの意味を解析すること)は、この20年間、ほとんど進んでいないのは、シソーラス(類語事典)がないからであり、「(いままでの)技術者だけ」がシソーラスを作り上げようという発想ではなく、「一般の人」がシソーラスをつくりあげるようなムーブメントを起こすべき。というのが、娘と私の結論だった。


*

しかし、ディープラーニングは「そんな発想ではない」。

ディープラーニングでは、私と娘が考えてきたような意味の定義は「局所表現」といい、新たな手法として「分散表現」というらしい。

つまり、「りんご」に、その属性情報「果物の一種。一般的に赤い」をリンクさせるのは、「一箇所で意味を表現する」から、局所表現。
リンクさせるのは、「人」である。

一方、「分散表現」とは、「意味」は、さまざまなテキストに「分散的」に表現されているのだから、それを集めれば、意味が分かるというようなこと。


*

小学校の教科書だったか、杉田玄白の「解体新書」に関する記述があった。玄白が分からなかったのは、「フルへ・ヘンド」という、シモネタ系の雰囲気の言葉なのでよく憶えている。
曰く、顔の中にあって「フルヘヘンド」しているのが鼻。落ち葉を集めると「フルヘヘンド」する。このふたつの事例から、玄白は、「フルヘヘンドとは、うずたかし」という意味であると結論する。

*

辞書があれば、このような考察をしなくてすむ。したがって、辞書があれば効率的な外国語の習得が可能である。
しかし、「幼児は、辞書を使って母国語を習得するのではない」。
多数の表現に触れるなかで、非言語的に「意味」を理解するのである。

とすれば、ディープラーニング的な「分散表現」による自然言語処理(テキストの意味解析)こそが、効率的である。



ところで、「フルヘヘンド」の語感が下卑ていると指摘したが、昔、我が家に鎮座していた平凡社・世界大百科事典の巻別が、下卑ていた…。

1 ア-イスモ
2 イスラ-エオ
3 エカ-カイサ
4 カイシ-カマ
5 カミ-キユ
6 キヨ-クレト
7 クレナ-コウカ
8 コウキ-コテ
9 コト-シウ
10 シエ-シュウコ
11 シュウサ-シンキ
12 シンク-セイス
13 セイセ-ソタ
14 ソチ-チャ
15 チュ-テンニ
16 テンネ-ナカ
17 ナキ-ハクス
18 ハクセ-ヒラ
19 ヒリ-フン
20 ヘ-マシ
21 マス-モメ
22 モモ-リチ
23 リッ-ワン

24 索引

ヒられたのが糞であり、屁増し。だそうである。

*

昔、フジテレビの「今日のわんこ」のわの字が、「う」に似せて書かれていたのを印象的に憶えている。

http://www.amazon.co.jp/dp/B005WL7PSW/ref=pd_lpo_sbs_dp_ss_1?pf_rd_p=187205609&pf_rd_s=lpo-top-stripe&pf_rd_t=201&pf_rd_i=B00009N2JP&pf_rd_m=AN1VRQENFRJN5&pf_rd_r=10043A5JTVXDNNVE1Z33

この文字デザインは、「意図的」としか、考えられない。
(^▽^;)



話を戻そう。

語義的にいうと、Goog morningは、「良い朝」である。
しかし、その意味は、「本日もよろしく」である。
つまり、「単語の意味」の集合体は、「テキストの意味」とは無関係。



マービン・ミンスキーは、先日亡くなられたが、彼の「こどもに言葉を教えるように、機械に言葉を教えよ」との言葉に、数年間、インスパイアーされたが、ディープラーニングの時代では、それも「古めかしい」。

「こどもに答えを教えるのではなく、問題の解き方を教えよ」となる。
マービン・ミンスキーも古めかしい。




自然言語処理では、「単語間の距離」を定義することで、シソーラスを作り上げようとしていたが、それらを「自動化」するのがディープラーニングである。

比喩的に言うと、いままでは、

0.5カレー + 0.5ライス = カレーライス
な感じ。


しかし、ディープラーニングでは、コーパスという手法を活用しているようだ。
つまり、

海軍では金曜日に「○○」を食べる。
「○○」は辛い。
暑い日に、私は「○○」を食べて、汗をかく。
私は、ハウスバーモントカレーで、「○○」を作った。


などの表現を、コンピューターがウェブ空間を数日間集めてゆけば、その莫大な使用例から、「○○」の意味(この場合はカレーライス)が定義されるということ。

この定義はベクター空間の莫大な数のパラメーターで表現されるというから、それを見たところで「人間には理解できない」。
しかし、それでまったく問題はない。
何故なら、こどもは「辞書を使って言葉をマスターする」のではないのだから…。



セマンテックウェブという手法が、ディープラーニングによって「無用(傍流)な技術」とされてしまった。
プログラム言語を習得していたのではないから、私と娘にダメージはないが、「人生をかけて取り組んでいるアカデミズムな人たち」は、茫然としているに違いない。

アカデミズムとは、怖ろしい世界だ。


posted by スポンタ at 00:00| 東京 ☀| Comment(0) | スポンタと娘…。 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

ファン
 メッセージを送る
 このブログの読者になる
 更新情報をチェックする
 ブックマークする
 友達に教える
RDF Site Summary
RSS 2.0