TETDM(テトディーエム): テキストデータマイニングのための統合環境

http://www.sys.info.hiroshima-cu.ac.jp/people/sunayama/future/newfuture.html うーん、壮大な試みだ。

R クリップボードからのデータの読み込み

1)Windows data <- read.table(“clipboard”) 2)Mac data <- read.table(stdin()) ここでreturn そしてペース…

Pythonでインタラクティブに入力するとき

そのまま、inputすると、数字だと思うので、文字だということを示すにはダブルクオートでくくる必要がある。 が、それは面倒だし、ディレクトリーの区切りの / やら やらをどーするの(エスケープする?)ということがあるので…

JavaScript Timer

http://www.sykronix.com/researching/browser/loop/ ↑ ここにわかりやすい説明がある。 JavaScriptのプログラムは、OS の tick に基づいて、時間を刻んでいる…

common.py

練習がてら、ちょこっとやったらできた。 http://sugiura-ken.org/wiki/wiki.cgi/exp?page=common%2Epy 一行一単語になっている二つのファイルから、共通するものを選び出す…

Python

http://www.python.org/ 日本Pythonユーザ会(PyJUG) http://www.python.jp/Zope Python チュートリアル http://www.python.jp/doc/2…

NLTK on Mac

http://www.nltk.org/download ダウンロードして、インストールする仕方が書いてある。   MacOS上のPythonのバージョンを調べる。 macbookair:~ sugiura$ pytho…

ふりがな翻訳(通称ルビ訳)

http://rubiyaku.com/ これは面白い。   こちらを参考にしている模様: http://d.hatena.ne.jp/shunsuk/20080218/1203340110   1. カンマやセミコロン…

表計算ソフトで平均を出すときの注意

授業の小テストの平均を出す例。 =AVERAGE(E2:P2) とやってしまうと、欠席した日の得点を空欄にしたままだと、欠席した日(つまり欠損値)は除いて平均を出してしまう。これだと、欠席が多くても出席した日に高得点を取…

Quantitative Methods in Linguistics

Keith Johnson Wiley-Blackwell (2008/3/21) いやー、これ、すごいわ。 「リサーチデザインと言語統計処理」のテキストに理想的には最適だと思う。 しかし、このままは使えんだろうな。 し…

Quantitative Corpus Linguistics With R: A Practical Introduction

http://www.amazon.co.jp/dp/0415962706/ 著者 Stefan Th. Gries おお、この人だったんだ。なになに、、、うーん、Rで統計処理だけじゃなく、テキスト処理もしてしまうんだ。…

コメントを書くこと

人のプログラム(スクリプト・ソースコード)を使わせてもらうのは、悪いことではないけれど、なぜそのプログラムがそのような動き・働きをするのか、ということは理解した上で、使った方がよい。特に、プログラミングを学ぶ立場にある場…

特定の「正規表現」だけを検索しリストを作成するPerl一行スクリプト

perl -ne ‘print $&.”n” if(/正規表現/)’ ファイル名 perl -ne ‘print $&.”n” if(/ww+/)’ enamdict > name.list これで…

日本語の「名前」のリスト

ENAMDICT/JMnedict http://www.csse.monash.edu.au/~jwb/enamdict_doc.html http://ftp.monash.edu.au/pub/nihongo/en…

テキストファイル内の単語をバラバラにしてリストを作る

#!/usr/bin/perl # copyleft 2009-07-23 sugiura@nagoya-u.jp # chklist.pl で、ファイル while(<>){ chomp;         …