tanihito’s blog

デジタル・新規事業開発・健康など、興味のあることについてつらつらと書いてきます。

プログラミング

対応のあるt検定

提案手法とベースラインが有意差があるかを調べるためには、対応のあるt検定を行なう必要があります。そこで練習のためにハンバーガー統計学にようこそ!に出ていた例をPythonで実装してみました。8人の女子高生が2種類のハンバーガーを食べて、下表の得点を…

はてなダイアリーでソースコードに色をつける

ソースコード貼り付けるときに色つけたいなー、と思ったら簡単できた。 ソースコードを色付けして記述する(シンタックス・ハイライト) - はてなダイアリーのヘルプ >|python| # -*- coding: utf-8 -*- for i in xrange(10): print i, "hello, world!" ||<…

PrefixSpan-relで取得した未知語をMeCabの辞書に登録する

モチベーション ある文章中にどのような単語がよく出現するか調べることは、基本的な分析手法の1つです。1文節のみを対象とする場合は形態素に分けて頻度を数えればいいですし、2文節以上でも既知語ならば簡単に取得できます。しかし、複数の単語からなる…

moxを使ってMySQLdbのテストを行う

ユニットテストを行う際に面倒なのが、外部のデータベースを利用している場合です。 ここではmoxというモックを使ってMySQLdbのテストを行なう方法を紹介します。 moxはpythonのモックライブラリの一種で、JavaのEasyMockを元にしています。 詳細はpymoxのペ…

単語出現頻度をSVMlight形式の学習データに変換する

文書分類などを行なう場合にはSVMlightやLIBSVMなどのライブラリを使います。 その場合素性名を数値にする必要があるので、 変換する関数converter.pyを作ってみました。 (Classiasという素性に任意の文字列が使えるライブラリもあります) 素性を数値に変…

Ajaxでページを読み込む

なんとなくJavaScriptから逃げていたんですが、Webサービスを作ろうとするとやっぱり必要ですね。 ということでAjaxのお勉強です。 main.htmlのボタンを押すと、ページ遷移なしにtsuika.htmlの内容を読み込みます。 ポイントはload_entity.jsの最終行にある …

キーワードに一致するイベントをATNDからRSSで取得する

最近ネットを見ていると面白そうな勉強会をたくさん見つけます。 「Python Hack-a-thon」とか「PRML復習レーン」とか行きたかったのですが、 人気のある勉強会はすぐに満員になってしまいます。 自分の必要なイベント情報だけを取得したいのでATNDのRSSも使…

学内サーバを踏み台にしてインターネットに接続する

情報系学生のいいところは、どこにいても研究が進められることです。 しかし論文のダウンロードなどはIPアドレス制限があるため、どうしても学内からインターネットに接続する必要があります。 これまでは毎回大学に行っていたのですが、面倒なので家から行…

行列を対象にしたカイ2乗検定

実験で質的データ同士の相関を見る必要があり、カイ2乗検定のプログラムを探していました。ベクトルを対象にしたもの(scipy.stats.chisquare)はすぐに見つかりましたが、一番使うであろう行列を対象にしたカイ2乗検定のプログラムが見つからなかったので…