Blog Sugiura

Enjoy

VocabProfilers VP-Kids

sugiura, · カテゴリー: English, program · タグ:

https://www.lextutor.ca/vp/kids/

いわゆるFrog Storyで、英語母語話者と学習者の子供の発話に含まれる語彙リストの違いをサンプルで確認できる。

で、あとは自分の取ったデータを入れてみてください、というわけだ。素晴らしいです。

Syntax Tree Generator

sugiura, · カテゴリー: English, program, 研究

http://mshang.ca/syntree/

杉浦研究室 Perl / CGI スクリプト集

sugiura, · カテゴリー: program, Tech · タグ: ,

http://mercury.gsid.nagoya-u.ac.jp/program/

Advanced R by Hadley Wickham

sugiura, · カテゴリー: program

http://adv-r.had.co.nz/

GNU Aspell

sugiura, · カテゴリー: program

http://aspell.net/
 
なつかしい。
 

JSON

sugiura, · カテゴリー: memo, program

https://www.json.org/json-ja.html

フォーマットの一般化・共通化の一例

発想はXMLと逆

値にタグをつけるのがXML
名前(タグ)に値をつけていくのがJSON

TreeTagger

sugiura, · カテゴリー: program

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

Perl必要
パラメターファイル必要

環境変数PATHに C:\TreeTagger\bin を追加(再起動必要)

そのbinの中にある tag-english.bat を

tag-english ファイル

で実行。tag-englishではわかりにくいので、treetag という名前にでも変えておくとわかりやすいでしょう。
そこまでいけばあとは、

treetag 形態素解析したいテキストファイル名

で、oK

koRpus text analysis

sugiura, · カテゴリー: memo, program · タグ:

https://ripley.psycho.hhu.de/koRpus/

shiny packageをつかってるんだ。

quanteda

sugiura, · カテゴリー: program, 未分類 · タグ:

https://quanteda.io/

使用例

> kwic(body.tmp, “is”)

[text8, 7] you play BUDO, there | is | an important thing that you
[text9, 2] It | is | " REI".
[text10, 6] First," REI" | is | the feeling that you thank
[text14, 2] This | is | the expression that players thank
[text15, 6] Secondly," REI" | is | the felling that you thank
[text18, 6] Finally," REI" | is | the feeling that you thank
[text27, 2] This | is | the same good point which

polyglot

sugiura, · カテゴリー: memo, program

http://polyglot.readthedocs.io/en/latest/

Tokenization (165 Languages)
Language detection (196 Languages)
Named Entity Recognition (40 Languages)
Part of Speech Tagging (16 Languages)
Sentiment Analysis (136 Languages)
Word Embeddings (137 Languages)
Morphological analysis (135 Languages)
Transliteration (69 Languages)

koRpus

sugiura, · カテゴリー: program · タグ:

https://reaktanz.de/?c=hacking&s=koRpus

michalke, m. (2017). koRpus: An R Package for Text Analysis (Version 0.11-1). Available from https://reaktanz.de/?c=hacking&s=koRpus

@Manual{,
title = {koRpus: An R Package for Text Analysis},
author = {m.eik michalke},
year = {2017},
note = {(Version 0.11-1)},
url = {https://reaktanz.de/?c=hacking&s=koRpus},
}

Multimedia Annotation

sugiura, · カテゴリー: program, 英語教育 · タグ:

http://sugiura-ken.org/wiki/wiki.cgi/exp?page=MultimediaAnnotation

英文を読む際に、語句の注釈を対訳で出すのと、音声を添えるのと、場合によっては画像で示す、というのを作ってみました。
音声は音声が出ることだけ確認できればということで合成音声で試作してあります。

あとは、注釈のついている語句を押すたびに、ログが取れるようにすれば、学習行動を分析できるようになります。

AuToBI

sugiura, · カテゴリー: program, Tech

http://eniac.cs.qc.cuny.edu/andrew/autobi/

AuToBI is a tool for the automatic analysis of Standard American English prosody. It is based largely on work described my dissertation — Automatic Detection and Classification of Prosodic Events.

ピッチアクセントとイントネーションによるフレーズ境界を特定し分類するとのこと。

すごいものを作りますねえ。

裏では、LIBLINEARという分類システムが動いていて、それは、SVMを使っているのかな。

これを動かすのは大変だわ。

OpenSesame と PyGaze

sugiura, · カテゴリー: bib, program, Tech, 研究 · タグ:

http://link.springer.com/article/10.3758%2Fs13428-011-0168-7

EyeLink用のプラグイン(PyGaze)もある。
http://link.springer.com/article/10.3758%2Fs13428-013-0422-2

R Programming Language Introduction and Resources

sugiura, · カテゴリー: program · タグ:

http://www.whoishostingthis.com/resources/r-programming/

Lexical Complexity Analyzer

sugiura, · カテゴリー: program

http://www.personal.psu.edu/xxl13/downloads/lca.html

こちらも。

25 different measures of lexical density, variation and sophistication

ということで、25の指標。

事前に、TreeTaggerでタグづけしてね、とのこと。

L2 Syntactic Complexity Analyzer

sugiura, · カテゴリー: program

by Xiaofei Lu
http://www.personal.psu.edu/xxl13/downloads/l2sca.html

L2 Syntactic Complexity Analyzer is designed to automate syntactic complexity analysis of written English language samples produced by advanced learners of English using fourteen different measures proposed in the second language development literature.

ということで、14の指標。

9つの言語的特徴を調べて
words (W)
sentences (S)
verb phrases (VP)
clauses (C)
T-units (T)
dependent clauses (DC)
complex T-units (CT)
coordinate phrases (CP)
complex nominals (CN)

14の指標を出力
mean length of sentence (MLS)
mean length of T-unit (MLT)
mean length of clause (MLC)
clauses per sentence (C/S)
verb phrases per T-unit (VP/T)
clauses per T-unit (C/T)
dependent clauses per clause (DC/C)
dependent clauses per T-unit (DC/T)
T-units per sentence (T/S)
complex T-unit ratio (CT/T)
coordinate phrases per T-unit (CP/T)
coordinate phrases per clause (CP/C)
complex nominals per T-unit (CN/T)
complex nominals per clause (CN/C)

TriSP 3次元でデータの散布図をリアルタイムでグルグルできる。

sugiura, · カテゴリー: memo, program, software

http://www014.upp.so-net.ne.jp/acremaker/software.html
いや、これはすごい。
HSPでできている。

NetLogo

sugiura, · カテゴリー: program

http://www2.gssm.otsuka.tsukuba.ac.jp/staff/kurahasi/NetLogo-v5-ja/index.html

http://ccl.northwestern.edu/netlogo/

LOGOから派生しているのだそうだ。
 
うーん、なるほど、これを使ってやってみたら面白いかも。ふふふ。

指示を英語にしたKLogSで日本語のわからない人にも使ってもらえるかな

sugiura, · カテゴリー: program

http://sugiura-ken.org/wiki/wiki.cgi/exp?page=KLogS

e-KLogS

 

MATTR (Moving-Average Type-Token Ratio)

sugiura, · カテゴリー: program, software

http://www.ai.uga.edu/caspr/
なるほど。

scratch

sugiura, · カテゴリー: program

http://scratch.mit.edu/

 

 

Rのuniqueはかしこい

sugiura, · カテゴリー: Life Hack, memo, program, Tech · タグ:

事前にソートしなくてよい。

Note that unlike the Unix command uniq this omits duplicated and not just repeated elements/rows. That is, an element is omitted if it is equal to any previous element and not just if it is equal the immediately previous one.

豊田先生の分散分析入門 Rによるスクリプト

sugiura, · カテゴリー: memo, program · タグ: ,

http://www.waseda.jp/sem-toyoda-lab/data.html

小島さん、語彙の豊かさ指標Sの分析ツールを公開

sugiura, · カテゴリー: News, program, 研究, 英語教育

http://kojima-vlab.org/

これで、あなたの語彙の豊かさも一目瞭然!

英語版 ↓

http://kojima-vlab.org/lexical_richness/wiki/index.php?S