僕は十分にイベントの多い人生を送っているような気がしています。そんな中でも今年は自分にとってのイベントの多い年でした。どんどん変化していかないとと思いながら生活し、変化しないことを選んだり変化することを選んだりしながら、良いことも悪いことも経験し、引っ越し、最低気温を更新しました。そして今年は、何十年後かに「そういえばあの年があったから今の自分があるんだな」と思い出すことになる、良い年になりました。

そんな年にしてくれたみんな、ありがとう。
そして、みんなの2005年が、今年をしのぐ感動的な一年でありますように。

データマイニングとはかなり統計学と密接につながっていることを最近になって知りました。言われてみれば判別分析や重回帰分析なんか応用しやすそうです。ちょっと勉強してみようと思って、まず手始めにデータマイニングの定義を調べると「KDDのプロセス中の知識の発見の段階」だそうです。その文中のKDD(Knowledge Discovery in Database=データベースからの知識発見)は「有用で、かつ既知でない知識をデータから抽出する自明でない一連の手続き」と定義されているとか。もうちょっと調べると、ニューラル・ネットワークなんかの話も出てきました。

どうやら体系化された理論があるわけではなく、大量のデータから有用な情報を取り出すための方法を寄せ集めたもののことをデータマイニングと呼んでいるだけのような印象がありますが、どうなんでしょう。

ChasenとMusashiが面白くて、別の素材でもやってみました。文法的に例の文章を分析するとどうなるのか、ちょっと考察。「だく」を動詞だと判断してしまいましたが、それが8回登場。そして「吉野家」が名詞で7回。他にも「つゆ/名詞/5回」「ねぎ/名詞/4回」などが挙っています。



形態素解析システム茶筌とデータマイニング用コマンド群Musashiを使ってmaruiblog内に出てくる名詞の出現回数を調べてみました。参考記事はYet Another 仕事のツール 第46回 茶筌とMUSASHIで純和風テキストマイニング

アルファベットはうまく単語として認識されなかったので省いてあります。これを見ると、もちろん投稿者名の「時間+蠅」が大量に出てきますが、接続詞の「の」を名詞だと勘違いしているところもあります。あとは投稿日を表す「年/月/日」も大量に出ています。

自分が書いた文章の中には「人」「僕/自分」「日本」「円」「研究」「仕事」「音」「開発」「必要」「家」「メール」などがたくさん入っています。だから何だというわけじゃないんですが、自分の考え方の一端が見えてくるような気がして、ちょっと気味悪いですね。



小学校〜中学校の同級生、そして今でも親交の続いている友人から結婚式の招待状が届きました。その招待状を見て感心したのは、句読点が一切使われていないこと。通常は文を区切ったり終わらせたりする目的に使われる句読点を使わないのは、婚姻を「区切らせない」「終わらせない」という意味があるんでしょう。そういえば大日本帝国憲法を始めとする政府文書には濁点も使われていませんでした。にごりのない文書にしたいからスタイルからもにごりを除いてしまったんでしょうね。

六陽、わびさび、ふくさや風呂敷の使い方などのちょっとした作法、そんな日本の文化いいですね。

昨日は月曜日だったけど洗濯とか掃除とかをやって、大学の研究室に行くのをサボってしまいました。先生も冬休み中は来ないと言ってたからいいでしょ、と思ったんですね。今日になって行ってみたら、開いてないのさ。建物が開いてない。しょうがないから音楽学部の建物に行ってみたら「12月22日〜1月3日は建物に入れません」という張り紙が。外から見る様子では図書館も閉館中。ほかに行く場所なかったので実験室に行きました。そこは建物に入る鍵も持っているので、無事に入れました。

平日なんだから、もうちょっと働けってば。28日って日本でも休みだったっけ? ここ何年かは正月も勉強したり働いたりしてたからよく分かんないや。

ジンと言えばボンベイ・サファイアが一番好きなんですが、他にもビーフ・イーターやタンカレーといった有名どころのジンはみんなロンドン・ドライ・ジンというジャンルのジンです。ストライキ中のSAQのページをほろほろ巡っていたところ、オランダ発祥のジェネヴァ・ジンという種類のジンがありました。



I've used 9 audio stimuli to let 58 subjects rate dissimilarity on all pairwise comparison of them a few years back. The data is the basis for my planned presentation for AES118, using analysis methods like INDSCAL and MRA. There are several interesting methods that can be applicable to this kind of data, and today I've just came up with an idea of applying cluster analysis on this dissimilarity rating data.



神田昌典というコンサルタント業?をやっている人がいるのですが、その人のブログにハリー・S・デントという経済学者による次の世界大戦の予測が紹介されていました。

「彼は、景気予測を人口動態からかなり高い精度で読み取ってくるんだけど、景気予測だけではなく、戦争予測もしているんだよね。彼の予測によれば、アメリカの景気が2015年に大底になって、その後も長期停滞になる。戦争が起こらない限り、この経済の低迷は長引く。そこで第三次世界大戦が起こるとすれば、2020年から2030年が一番、起こりやすいと予測している。」

・・・なんだそうです。寝不足の頭でアメリカの対外債務や中国経済の影響だとかいろいろと考えてますが、うまく考えがまとまらないのです。アインシュタインは「私には第三次世界大戦でどんな武器が使われるか分からないが、第四次世界大戦は棒きれと石ころが使われるだろう」と言っているし、戦争が起こらないのが一番。

CNET JapanにSEが選ぶ2004年10大ニュースという記事が載っていました。上位を占めたのはIT企業がプロ野球界に参入するとかしないとかの話題。Winny作者逮捕とかソフトバンクBBから個人情報流出といった事件もありました。iPod mini、PSP、NDSなどのガジェット類もトップ10入りしてます。あとは電車男。