Blog Sugiura

Enjoy

述語項構造シソーラス

sugiura, · カテゴリー: program, ことば, 研究

Predicate-Argument Structure Thesaurus (PT)

http://pth.cl.cs.okayama-u.ac.jp/

項構造と意味役割の関係をどう考えるかがポイントですね。

このように研究成果をほかの人も使えるようにすることは研究分野への貢献として立派なことだと思います。

Offliberty

sugiura, · カテゴリー: Life Hack, memo, program

オンラインの動画からmp3ファイルを保存する。

http://offliberty.io/

  1. 動画のURLをコピー
  2. Offlibertyの入力欄にペースト
  3. OFFボタンを押す(Wait)
  4. 最初に動画をダウンロードするURLが表示される(無視)
  5. 左下の「Extract audio」を押す(Wait)
  6. 「Right-click here and ‘Save link as …’」の上で、マウス右ボタン
  7. 「リンクを新しいタブで開く」を選ぶ
  8. ファイルを保存する。

SVGタグ

sugiura, · カテゴリー: Life Hack, memo, program

なるほど。これで、Webページ上に描画できるんだ。

https://www.ipentec.com/document/html-svg-draw-line

RIKEN Wex

sugiura, · カテゴリー: memo, News, program, software, 研究
https://www.gsk.or.jp/catalog/gsk2019-c/

これはすごい。

Microsoft Wordの校閲とコメントの機能を使って、訂正情報とコメントを記入し、それを、XMLファイルに変換できるというプログラム。

なるほど、確かに、Wordのファイルは基本XMLなので、それを応用すれば、XMLファイルの変換で、好きなフォーマットにできますね。これは気づかなかった。

やってみました。

<?xml version=”1.0″ encoding=”UTF-8″?><!DOCTYPE root><root>What kind of sports do you like? Do you like soccer, base<d> </d>ball<a>,</a> or swimming? There are many <r txt=”varieties of “>and variety </r>sports around the world. <r txt=”Most “>A </r><r txt=”countries“>country</r><r txt=”have“>has</r> some traditional sports. Of course, there are some traditional sports in Japan. They are called <r txt=”budo“>“BUDO”</r>. <r txt=”Budo include judo“>BUDO are JYUDO</r>, <r txt=”kendo“>KENDO</r>, <r txt=”kyudo, “>KYUDO </r>and so on.</root>

なるほど。訂正の範囲とその仕方をきちんと決めて訂正作業をするのがコツですね。

VocabProfilers VP-Kids

sugiura, · カテゴリー: English, program · タグ:

https://www.lextutor.ca/vp/kids/

いわゆるFrog Storyで、英語母語話者と学習者の子供の発話に含まれる語彙リストの違いをサンプルで確認できる。

で、あとは自分の取ったデータを入れてみてください、というわけだ。素晴らしいです。

Syntax Tree Generator

sugiura, · カテゴリー: English, program, 研究

http://mshang.ca/syntree/

杉浦研究室 Perl / CGI スクリプト集

sugiura, · カテゴリー: program, Tech · タグ: ,

http://mercury.gsid.nagoya-u.ac.jp/program/

Advanced R by Hadley Wickham

sugiura, · カテゴリー: program

http://adv-r.had.co.nz/

GNU Aspell

sugiura, · カテゴリー: program

http://aspell.net/
 
なつかしい。
 

JSON

sugiura, · カテゴリー: memo, program

https://www.json.org/json-ja.html

フォーマットの一般化・共通化の一例

発想はXMLと逆

値にタグをつけるのがXML
名前(タグ)に値をつけていくのがJSON

TreeTagger

sugiura, · カテゴリー: program

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

Perl必要
パラメターファイル必要

環境変数PATHに C:\TreeTagger\bin を追加(再起動必要)

そのbinの中にある tag-english.bat を

tag-english ファイル

で実行。tag-englishではわかりにくいので、treetag という名前にでも変えておくとわかりやすいでしょう。
そこまでいけばあとは、

treetag 形態素解析したいテキストファイル名

で、oK

koRpus text analysis

sugiura, · カテゴリー: memo, program · タグ:

https://ripley.psycho.hhu.de/koRpus/

shiny packageをつかってるんだ。

quanteda

sugiura, · カテゴリー: program, 未分類 · タグ:

https://quanteda.io/

使用例

> kwic(body.tmp, “is”)

[text8, 7] you play BUDO, there | is | an important thing that you
[text9, 2] It | is | " REI".
[text10, 6] First," REI" | is | the feeling that you thank
[text14, 2] This | is | the expression that players thank
[text15, 6] Secondly," REI" | is | the felling that you thank
[text18, 6] Finally," REI" | is | the feeling that you thank
[text27, 2] This | is | the same good point which

polyglot

sugiura, · カテゴリー: memo, program

http://polyglot.readthedocs.io/en/latest/

Tokenization (165 Languages)
Language detection (196 Languages)
Named Entity Recognition (40 Languages)
Part of Speech Tagging (16 Languages)
Sentiment Analysis (136 Languages)
Word Embeddings (137 Languages)
Morphological analysis (135 Languages)
Transliteration (69 Languages)

koRpus

sugiura, · カテゴリー: program · タグ:

https://reaktanz.de/?c=hacking&s=koRpus

michalke, m. (2017). koRpus: An R Package for Text Analysis (Version 0.11-1). Available from https://reaktanz.de/?c=hacking&s=koRpus

@Manual{,
title = {koRpus: An R Package for Text Analysis},
author = {m.eik michalke},
year = {2017},
note = {(Version 0.11-1)},
url = {https://reaktanz.de/?c=hacking&s=koRpus},
}

Multimedia Annotation

sugiura, · カテゴリー: program, 英語教育 · タグ:

http://sugiura-ken.org/wiki/wiki.cgi/exp?page=MultimediaAnnotation

英文を読む際に、語句の注釈を対訳で出すのと、音声を添えるのと、場合によっては画像で示す、というのを作ってみました。
音声は音声が出ることだけ確認できればということで合成音声で試作してあります。

あとは、注釈のついている語句を押すたびに、ログが取れるようにすれば、学習行動を分析できるようになります。

AuToBI

sugiura, · カテゴリー: program, Tech

http://eniac.cs.qc.cuny.edu/andrew/autobi/

AuToBI is a tool for the automatic analysis of Standard American English prosody. It is based largely on work described my dissertation — Automatic Detection and Classification of Prosodic Events.

ピッチアクセントとイントネーションによるフレーズ境界を特定し分類するとのこと。

すごいものを作りますねえ。

裏では、LIBLINEARという分類システムが動いていて、それは、SVMを使っているのかな。

これを動かすのは大変だわ。

OpenSesame と PyGaze

sugiura, · カテゴリー: bib, program, Tech, 研究 · タグ:

http://link.springer.com/article/10.3758%2Fs13428-011-0168-7

EyeLink用のプラグイン(PyGaze)もある。
http://link.springer.com/article/10.3758%2Fs13428-013-0422-2

R Programming Language Introduction and Resources

sugiura, · カテゴリー: program · タグ:

http://www.whoishostingthis.com/resources/r-programming/

Lexical Complexity Analyzer

sugiura, · カテゴリー: program

http://www.personal.psu.edu/xxl13/downloads/lca.html

こちらも。

25 different measures of lexical density, variation and sophistication

ということで、25の指標。

事前に、TreeTaggerでタグづけしてね、とのこと。

L2 Syntactic Complexity Analyzer

sugiura, · カテゴリー: program

by Xiaofei Lu
http://www.personal.psu.edu/xxl13/downloads/l2sca.html

L2 Syntactic Complexity Analyzer is designed to automate syntactic complexity analysis of written English language samples produced by advanced learners of English using fourteen different measures proposed in the second language development literature.

ということで、14の指標。

9つの言語的特徴を調べて
words (W)
sentences (S)
verb phrases (VP)
clauses (C)
T-units (T)
dependent clauses (DC)
complex T-units (CT)
coordinate phrases (CP)
complex nominals (CN)

14の指標を出力
mean length of sentence (MLS)
mean length of T-unit (MLT)
mean length of clause (MLC)
clauses per sentence (C/S)
verb phrases per T-unit (VP/T)
clauses per T-unit (C/T)
dependent clauses per clause (DC/C)
dependent clauses per T-unit (DC/T)
T-units per sentence (T/S)
complex T-unit ratio (CT/T)
coordinate phrases per T-unit (CP/T)
coordinate phrases per clause (CP/C)
complex nominals per T-unit (CN/T)
complex nominals per clause (CN/C)

TriSP 3次元でデータの散布図をリアルタイムでグルグルできる。

sugiura, · カテゴリー: memo, program, software

http://www014.upp.so-net.ne.jp/acremaker/software.html
いや、これはすごい。
HSPでできている。

NetLogo

sugiura, · カテゴリー: program

http://www2.gssm.otsuka.tsukuba.ac.jp/staff/kurahasi/NetLogo-v5-ja/index.html

http://ccl.northwestern.edu/netlogo/

LOGOから派生しているのだそうだ。
 
うーん、なるほど、これを使ってやってみたら面白いかも。ふふふ。

指示を英語にしたKLogSで日本語のわからない人にも使ってもらえるかな

sugiura, · カテゴリー: program

http://sugiura-ken.org/wiki/wiki.cgi/exp?page=KLogS

e-KLogS

 

MATTR (Moving-Average Type-Token Ratio)

sugiura, · カテゴリー: program, software

http://www.ai.uga.edu/caspr/
なるほど。