Download Berkeley Parser model Manual pages More Tools

Welcome to

HARUNIWA2 —
pipeline for parsing Japanese

What is HARUNIWA2?

HARUNIWA2 provides a full pipeline for parsing Japanese, as well as ways to integrate extra information into a parse tree (such as pronouncement, lemma and word sense information). Central components are:

The parser pipeline is described in the following paper:

All components are distributed freely.

Demo

Try entering text (one sentence per line) into the following box, and clicking “Parse input” to see parse results (in the format of the NINJAL Parsed Corpus of Modern Japanese (NPCMJ)).


Acknowledgements

This software is developed as part of the project Development of and Linguistic Research with a Parsed Corpus of Japanese of the National Institute for Japanese Language and Linguistics.

Feedback

Please email: ajb129 __AT__ hotmail __DOT__ com.



Manual pages

    add_pron(1)add pronouncement information to parse trees
    add_unidic(1)add unidic information to parse trees
    BCCWJ_to_tnt(1)convert M-XML to Keyaki tags
    BCCWJ_to_unidic(1)convert M-XML to UNIDIC mecab analysis
    berkeley_parser_location(1)print parser location
    Comainu_to_BCCWJ(1)transform Comainu tabled analysis
    csearch_to_top(1)change treebank format
    CSJ_to_BCCWJ(1)convert CSJ XML into BCCWJ M-XML
    haruniwa2(1)parse input
    haruniwa2_scaffold(1)modify keyaki POS information
    inline_to_tnt(1)convert inline to TnT format
    japanese_model_location(1)print model location
    tnt_clean(1)clean tnt
    tnt_collapse(1)modify keyaki POS information
    tnt_to_flat_parse(1)make basic parse from tnt analysis
    tnt_to_inline(1)convert TnT to inline format


add_pron(1)add_pron(1)

NAME

add_pron - add pronouncement information to parse trees

SYNOPSIS

add_pron file

DESCRIPTION

Filter to add pron information to parse trees from stdin.

Unidic information is taken from file.

OPTIONS

--example)show an example
-*)show this help message
*)file name of data to add

EXAMPLE

$ cat example
-| 今秋	コンシュー	コンシュウ	今秋	名詞-普通名詞-副詞可能		
-| に	ニ	ニ	に	助詞-格助詞		
-| は	ワ	ハ	は	助詞-係助詞		
-| 議長	ギチョー	ギチョウ	議長	名詞-普通名詞-一般		
-| 国	コク	コク	国	接尾辞-名詞的-一般		
-| と	ト	ト	と	助詞-格助詞		
-| し	シ	スル	為る	動詞-非自立可能	サ行変格	連用形-一般
-| て	テ	テ	て	助詞-接続助詞		
-| アジア	アジア	アジア	アジア-Asia	名詞-固有名詞-地名-一般		
-| ・			・	補助記号-一般		
-| 太平	タイヘー	タイヘイ	タイヘイ-外国	名詞-固有名詞-地名-一般		
-| 洋	ヨー	ヨウ	洋	接尾辞-名詞的-一般		
-| 経済	ケーザイ	ケイザイ	経済	名詞-普通名詞-一般		
-| 協力	キョーリョク	キョウリョク	協力	名詞-普通名詞-サ変可能		
-| 会議	カイギ	カイギ	会議	名詞-普通名詞-サ変可能		
-| に	ニ	ニ	に	助詞-格助詞		
-| 臨ま	ノゾマ	ノゾム	臨む	動詞-一般	五段-マ行	未然形-一般
-| なけれ	ナケレ	ナイ	ない	助動詞	助動詞-ナイ	仮定形-一般
-| ば	バ	バ	ば	助詞-接続助詞		
-| なら	ナラ	ナル	成る	動詞-非自立可能	五段-ラ行	未然形-一般
-| ない	ナイ	ナイ	ない	助動詞	助動詞-ナイ	終止形-一般
-| 。			。	補助記号-句点		
-| EOS
$ cat << EOF | add_pron example | munge-trees -p
> ( (IP-MAT (NP-SBJ *pro*)
>           (PP (NP (N 今秋))
>               (P に)
>               (P は))
>           (PP (NP (N 議長国))
>               (P として))
>           (PP (NP (NPR アジア・太平洋経済協力会議))
>               (P に))
>           (VB 臨ま)
>           (MD なければならない)
>           (PU 。))
>   (ID 12_newswire_KTC_MAINICHI-1995;950101008-004;JP))
> EOF
-| ( (IP-MAT (NP-SBJ *pro*)
-|           (PP (NP (N 今秋;コンシュー))
-|               (P に;ニ)
-|               (P は;ワ))
-|           (PP (NP (N 議長国;ギチョーコク))
-|               (P として;トシテ))
-|           (PP (NP (NPR アジア・太平洋経済協力会議;アジア・タイヘーヨーケーザイキョーリョクカイギ))
-|               (P に;ニ))
-|           (VB 臨ま;ノゾマ)
-|           (MD なければならない;ナケレバナラナイ)
-|           (PU 。;。))
-|   (ID 12_newswire_KTC_MAINICHI-1995;950101008-004;JP))

SEE ALSO

add_unidic(1)



add_unidic(1)add_unidic(1)

NAME

add_unidic - add unidic information to parse trees

SYNOPSIS

add_unidic file

DESCRIPTION

Filter to add unidic information to parse trees from stdin.

Unidic information is taken from file.

OPTIONS

--example)show an example
-*)show this help message
*)file name of data to add

EXAMPLE

$ cat example
-| 今秋	コンシュー	コンシュウ	今秋	名詞-普通名詞-副詞可能		
-| に	ニ	ニ	に	助詞-格助詞		
-| は	ワ	ハ	は	助詞-係助詞		
-| 議長	ギチョー	ギチョウ	議長	名詞-普通名詞-一般		
-| 国	コク	コク	国	接尾辞-名詞的-一般		
-| と	ト	ト	と	助詞-格助詞		
-| し	シ	スル	為る	動詞-非自立可能	サ行変格	連用形-一般
-| て	テ	テ	て	助詞-接続助詞		
-| アジア	アジア	アジア	アジア-Asia	名詞-固有名詞-地名-一般		
-| ・			・	補助記号-一般		
-| 太平	タイヘー	タイヘイ	タイヘイ-外国	名詞-固有名詞-地名-一般		
-| 洋	ヨー	ヨウ	洋	接尾辞-名詞的-一般		
-| 経済	ケーザイ	ケイザイ	経済	名詞-普通名詞-一般		
-| 協力	キョーリョク	キョウリョク	協力	名詞-普通名詞-サ変可能		
-| 会議	カイギ	カイギ	会議	名詞-普通名詞-サ変可能		
-| に	ニ	ニ	に	助詞-格助詞		
-| 臨ま	ノゾマ	ノゾム	臨む	動詞-一般	五段-マ行	未然形-一般
-| なけれ	ナケレ	ナイ	ない	助動詞	助動詞-ナイ	仮定形-一般
-| ば	バ	バ	ば	助詞-接続助詞		
-| なら	ナラ	ナル	成る	動詞-非自立可能	五段-ラ行	未然形-一般
-| ない	ナイ	ナイ	ない	助動詞	助動詞-ナイ	終止形-一般
-| 。			。	補助記号-句点		
-| EOS
$ cat << EOF | add_unidic example | munge-trees -p
> ( (IP-MAT (NP-SBJ *pro*)
>           (PP (NP (N 今秋))
>               (P に)
>               (P は))
>           (PP (NP (N 議長国))
>               (P として))
>           (PP (NP (NPR アジア・太平洋経済協力会議))
>               (P に))
>           (VB 臨ま)
>           (MD なければならない)
>           (PU 。))
>   (ID 12_newswire_KTC_MAINICHI-1995;950101008-004;JP))
> EOF
-| ( (IP-MAT (NP-SBJ *pro*)
-|           (PP (NP (N;今秋@コンシュー@コンシュウ@今秋@名詞-普通名詞-副詞可能@@ 今秋))
-|               (P;に@ニ@ニ@に@助詞-格助詞@@ に)
-|               (P;は@ワ@ハ@は@助詞-係助詞@@ は))
-|           (PP (NP (N;議長@ギチョー@ギチョウ@議長@名詞-普通名詞-一般@@|国@コク@コク@国@接尾辞-名詞的-一般@@ 議長国))
-|               (P;と@ト@ト@と@助詞-格助詞@@|し@シ@スル@為る@動詞-非自立可能@サ行変格@連用形-一般|て@テ@テ@て@助詞-接続助詞@@ として))
-|           (PP (NP (NPR;アジア@アジア@アジア@アジア-Asia@名詞-固有名詞-地名-一般@@|・@@@・@補助記号-一般@@|太平@タイヘー@タイヘイ@タイヘイ-外国@名詞-固有名詞-地名-一般@@|洋@ヨー@ヨウ@洋@接尾辞-名詞的-一般@@|経済@ケーザイ@ケイザイ@経済@名詞-普通名詞-一般@@|協力@キョーリョク@キョウリョク@協力@名詞-普通名詞-サ変可能@@|会議@カイギ@カイギ@会議@名詞-普通名詞-サ変可能@@ アジア・太平洋経済協力会議))
-|               (P;に@ニ@ニ@に@助詞-格助詞@@ に))
-|           (VB;臨ま@ノゾマ@ノゾム@臨む@動詞-一般@五段-マ行@未然形-一般 臨ま)
-|           (MD;なけれ@ナケレ@ナイ@ない@助動詞@助動詞-ナイ@仮定形-一般|ば@バ@バ@ば@助詞-接続助詞@@|なら@ナラ@ナル@成る@動詞-非自立可能@五段-ラ行@未然形-一般|ない@ナイ@ナイ@ない@助動詞@助動詞-ナイ@終止形-一般 なければならない)
-|           (PU;。@@@。@補助記号-句点@@ 。))
-|   (ID 12_newswire_KTC_MAINICHI-1995;950101008-004;JP))

SEE ALSO

add_pron(1)



BCCWJ_to_tnt(1)BCCWJ_to_tnt(1)

NAME

BCCWJ_to_tnt - convert M-XML to Keyaki tags

SYNOPSIS

BCCWJ_to_tnt [OPTIONS]

DESCRIPTION

Filter that takes files in the M-XML (morphology-based XML) format of the BCCWJ (http://www.ninjal.ac.jp/corpus_center/bccwj) that contains both the document structure information and the results of dual POS analysis and returns the POS analysis with Keyaki Treebank tags.

OPTIONS

--tree)show intermediate tree from tnt_collapse
--raw)without tnt_collapse
--example)show an example
*)show this help message

EXAMPLE

$ cat << EOF | BCCWJ_to_tnt
> <paragraph>
> <sentence>
> <LUW l_lemma="両耳受聴" l_lForm="リョウミミジュチョウ" l_pos="名詞-普通名詞-一般">
> <SUW lemma="両耳" lForm="リョウミミ" pos="名詞-普通名詞-一般" pron="リョーミミ">両耳</SUW>
> <SUW lemma="受聴" lForm="ジュチョウ" pos="名詞-普通名詞-一般" pron="ジュチョー">受聴</SUW>
> </LUW>
> <LUW l_lemma="によって" l_lForm="ニヨッテ" l_pos="助詞-格助詞">
> <SUW lemma="に" lForm="ニ" pos="助詞-格助詞" pron="ニ">に</SUW>
> <SUW lemma="因る" lForm="ヨル" pos="動詞-一般" pron="ヨッ" cType="五段-ラ行" cForm="連用形-促音便">よっ</SUW>
> <SUW lemma="て" lForm="テ" pos="助詞-接続助詞" pron="テ">て</SUW>
> </LUW>
> <LUW l_lemma="得る" l_lForm="エル" l_pos="動詞-一般" l_cType="下一段-ア行" l_cForm="終止形-一般">
> <SUW lemma="得る" lForm="エル" pos="動詞-非自立可能" pron="ウル" cType="下一段-ア行" cForm="終止形-一般">得る</SUW>
> </LUW>
> <LUW l_lemma="情報" l_lForm="ジョウホウ" l_pos="名詞-普通名詞-一般">
> <SUW lemma="情報" lForm="ジョウホウ" pos="名詞-普通名詞-一般" pron="ジョーホー">情報</SUW>
> </LUW>
> <LUW l_lemma="に" l_lForm="ニ" l_pos="助詞-格助詞">
> <SUW lemma="に" lForm="ニ" pos="助詞-格助詞" pron="ニ">に</SUW>
> </LUW>
> <LUW l_lemma="は" l_lForm="ハ" l_pos="助詞-係助詞">
> <SUW lemma="は" lForm="ハ" pos="助詞-係助詞" pron="ワ">は</SUW>
> </LUW>
> <LUW l_lemma="パワースペクトル情報" l_lForm="パワースペクトルジョウホウ" l_pos="名詞-普通名詞-一般">
> <SUW lemma="パワー-power" lForm="パワー" pos="名詞-普通名詞-一般" pron="パワー">パワー</SUW>
> <SUW lemma="スペクトル-spectre" lForm="スペクトル" pos="名詞-普通名詞-一般" pron="スペクトル">スペクトル</SUW>
> <SUW lemma="情報" lForm="ジョウホウ" pos="名詞-普通名詞-一般" pron="ジョーホー">情報</SUW>
> </LUW>
> <LUW l_lemma="と" l_lForm="ト" l_pos="助詞-格助詞">
> <SUW lemma="と" lForm="ト" pos="助詞-格助詞" pron="ト">と</SUW>
> </LUW>
> <LUW l_lemma="両耳間位相差" l_lForm="リョウジカンイソウサ" l_pos="名詞-普通名詞-一般">
> <SUW lemma="両耳" lForm="リョウジ" pos="名詞-普通名詞-一般" pron="リョージ">両耳</SUW>
> <SUW lemma="間" lForm="カン" pos="接尾辞-名詞的-副詞可能" pron="カン">間</SUW>
> <SUW lemma="位相" lForm="イソウ" pos="名詞-普通名詞-一般" pron="イソー">位相</SUW>
> <SUW lemma="差" lForm="サ" pos="名詞-普通名詞-一般" pron="サ">差</SUW>
> </LUW>
> <LUW l_lemma="が" l_lForm="ガ" l_pos="助詞-格助詞">
> <SUW lemma="が" lForm="ガ" pos="助詞-格助詞" pron="ガ">が</SUW>
> </LUW>
> <LUW l_lemma="有る" l_lForm="アル" l_pos="動詞-一般" l_cType="五段-ラ行" l_cForm="連用形-一般">
> <SUW lemma="有る" lForm="アル" pos="動詞-非自立可能" pron="アリ" cType="五段-ラ行" cForm="連用形-一般">あり</SUW>
> </LUW>
> <LUW l_lemma="ます" l_lForm="マス" l_pos="助動詞" l_cType="助動詞-マス" l_cForm="終止形-一般">
> <SUW lemma="ます" lForm="マス" pos="助動詞" pron="マス" cType="助動詞-マス" cForm="終止形-一般">ます</SUW>
> </LUW>
> </sentence>
> </paragraph>
> EOF
-| 両耳受聴	N
-| によって	P-ROLE
-| 得る	VB0
-| 情報	N
-| に	P-ROLE
-| は	P-OPTR
-| パワースペクトル情報	N
-| と	P-ROLE
-| 両耳間位相差	N
-| が	P-ROLE
-| あり	VB;{有る}
-| ます	AX
-| EOS

SEE ALSO

Comainu_to_BCCWJ(1), tnt_collapse(1)



BCCWJ_to_unidic(1)BCCWJ_to_unidic(1)

NAME

BCCWJ_to_unidic - convert M-XML to UNIDIC mecab analysis

SYNOPSIS

BCCWJ_to_unidic [OPTIONS]

DESCRIPTION

Filter that takes files in the M-XML (morphology-based XML) format of the BCCWJ that contains both the document structure information and the results of dual POS analysis and returns the POS analysis in UNIDIC mecab format.

OPTIONS

--example)show an example
*)show this help message

EXAMPLE

cat << EOF | BCCWJ_to_unidic
<paragraph>
<sentence>
<LUW l_lemma="両耳受聴" l_lForm="リョウミミジュチョウ" l_pos="名詞-普通名詞-一般">
<SUW lemma="両耳" lForm="リョウミミ" pos="名詞-普通名詞-一般" pron="リョーミミ">両耳</SUW>
<SUW lemma="受聴" lForm="ジュチョウ" pos="名詞-普通名詞-一般" pron="ジュチョー">受聴</SUW>
</LUW>
<LUW l_lemma="によって" l_lForm="ニヨッテ" l_pos="助詞-格助詞">
<SUW lemma="に" lForm="ニ" pos="助詞-格助詞" pron="ニ">に</SUW>
<SUW lemma="因る" lForm="ヨル" pos="動詞-一般" pron="ヨッ" cType="五段-ラ行" cForm="連用形-促音便">よっ</SUW>
<SUW lemma="て" lForm="テ" pos="助詞-接続助詞" pron="テ">て</SUW>
</LUW>
<LUW l_lemma="得る" l_lForm="エル" l_pos="動詞-一般" l_cType="下一段-ア行" l_cForm="終止形-一般">
<SUW lemma="得る" lForm="エル" pos="動詞-非自立可能" pron="ウル" cType="下一段-ア行" cForm="終止形-一般">得る</SUW>
</LUW>
<LUW l_lemma="情報" l_lForm="ジョウホウ" l_pos="名詞-普通名詞-一般">
<SUW lemma="情報" lForm="ジョウホウ" pos="名詞-普通名詞-一般" pron="ジョーホー">情報</SUW>
</LUW>
<LUW l_lemma="に" l_lForm="ニ" l_pos="助詞-格助詞">
<SUW lemma="に" lForm="ニ" pos="助詞-格助詞" pron="ニ">に</SUW>
</LUW>
<LUW l_lemma="は" l_lForm="ハ" l_pos="助詞-係助詞">
<SUW lemma="は" lForm="ハ" pos="助詞-係助詞" pron="ワ">は</SUW>
</LUW>
<LUW l_lemma="パワースペクトル情報" l_lForm="パワースペクトルジョウホウ" l_pos="名詞-普通名詞-一般">
<SUW lemma="パワー-power" lForm="パワー" pos="名詞-普通名詞-一般" pron="パワー">パワー</SUW>
<SUW lemma="スペクトル-spectre" lForm="スペクトル" pos="名詞-普通名詞-一般" pron="スペクトル">スペクトル</SUW>
<SUW lemma="情報" lForm="ジョウホウ" pos="名詞-普通名詞-一般" pron="ジョーホー">情報</SUW>
</LUW>
<LUW l_lemma="と" l_lForm="ト" l_pos="助詞-格助詞">
<SUW lemma="と" lForm="ト" pos="助詞-格助詞" pron="ト">と</SUW>
</LUW>
<LUW l_lemma="両耳間位相差" l_lForm="リョウジカンイソウサ" l_pos="名詞-普通名詞-一般">
<SUW lemma="両耳" lForm="リョウジ" pos="名詞-普通名詞-一般" pron="リョージ">両耳</SUW>
<SUW lemma="間" lForm="カン" pos="接尾辞-名詞的-副詞可能" pron="カン">間</SUW>
<SUW lemma="位相" lForm="イソウ" pos="名詞-普通名詞-一般" pron="イソー">位相</SUW>
<SUW lemma="差" lForm="サ" pos="名詞-普通名詞-一般" pron="サ">差</SUW>
</LUW>
<LUW l_lemma="が" l_lForm="ガ" l_pos="助詞-格助詞">
<SUW lemma="が" lForm="ガ" pos="助詞-格助詞" pron="ガ">が</SUW>
</LUW>
<LUW l_lemma="有る" l_lForm="アル" l_pos="動詞-一般" l_cType="五段-ラ行" l_cForm="連用形-一般">
<SUW lemma="有る" lForm="アル" pos="動詞-非自立可能" pron="アリ" cType="五段-ラ行" cForm="連用形-一般">あり</SUW>
</LUW>
<LUW l_lemma="ます" l_lForm="マス" l_pos="助動詞" l_cType="助動詞-マス" l_cForm="終止形-一般">
<SUW lemma="ます" lForm="マス" pos="助動詞" pron="マス" cType="助動詞-マス" cForm="終止形-一般">ます</SUW>
</LUW>
</sentence>
</paragraph>
EOF
両耳	リョーミミ	リョウミミ	両耳	名詞-普通名詞-一般		
受聴	ジュチョー	ジュチョウ	受聴	名詞-普通名詞-一般		
に	ニ	ニ	に	助詞-格助詞		
よっ	ヨッ	ヨル	因る	動詞-一般	五段-ラ行	連用形-促音便
て	テ	テ	て	助詞-接続助詞		
得る	ウル	エル	得る	動詞-非自立可能	下一段-ア行	終止形-一般
情報	ジョーホー	ジョウホウ	情報	名詞-普通名詞-一般		
に	ニ	ニ	に	助詞-格助詞		
は	ワ	ハ	は	助詞-係助詞		
パワー	パワー	パワー	パワー-power	名詞-普通名詞-一般		
スペクトル	スペクトル	スペクトル	スペクトル-spectre	名詞-普通名詞-一般		
情報	ジョーホー	ジョウホウ	情報	名詞-普通名詞-一般		
と	ト	ト	と	助詞-格助詞		
両耳	リョージ	リョウジ	両耳	名詞-普通名詞-一般		
間	カン	カン	間	接尾辞-名詞的-副詞可能		
位相	イソー	イソウ	位相	名詞-普通名詞-一般		
差	サ	サ	差	名詞-普通名詞-一般		
が	ガ	ガ	が	助詞-格助詞		
あり	アリ	アル	有る	動詞-非自立可能	五段-ラ行	連用形-一般
ます	マス	マス	ます	助動詞	助動詞-マス	終止形-一般
EOS


berkeley_parser_location(1)berkeley_parser_location(1)

NAME

berkeley_parser_location - print parser location

SYNOPSIS

berkeley_parser_location

DESCRIPTION

Send location details of Berkeley Parser jar files to stdout.



Comainu_to_BCCWJ(1)Comainu_to_BCCWJ(1)

NAME

Comainu_to_BCCWJ - transform Comainu tabled analysis

SYNOPSIS

Comainu_to_BCCWJ [OPTIONS]

DESCRIPTION

Filter that takes Comainu tabled analysis (http://comainu.org) as input and returns the data in the M-XML (morphology-based XML) format of the BCCWJ.

OPTIONS

--example)show an example
*)show this help message

EXAMPLE

$ cat << EOF | Comainu_to_BCCWJ
> B	両耳	リョーミミ	リョウミミ	両耳	名詞-普通名詞-一般			名詞-普通名詞-一般	*	*	リョウミミジュチョウ	両耳受聴	両耳受聴
> 	受聴	ジュチョー	ジュチョウ	受聴	名詞-普通名詞-一般			*	*	*	*	*	*
> 	に	ニ	ニ	に	助詞-格助詞			助詞-格助詞	*	*	ニヨッテ	によって	によって
> 	よっ	ヨッ	ヨル	因る	動詞-一般	五段-ラ行	連用形-促音便	*	*	*	*	*	*
> 	て	テ	テ	て	助詞-接続助詞			*	*	*	*	*	*
> 	得る	ウル	エル	得る	動詞-非自立可能	下一段-ア行	終止形-一般	動詞-一般	下一段-ア行	終止形-一般	エル	得る	得る
> 	情報	ジョーホー	ジョウホウ	情報	名詞-普通名詞-一般			名詞-普通名詞-一般	*	*	ジョウホウ	情報	情報
> 	に	ニ	ニ	に	助詞-格助詞			助詞-格助詞	*	*	ニ	に	に
> 	は	ワ	ハ	は	助詞-係助詞			助詞-係助詞	*	*	ハ	は	は
> 	パワー	パワー	パワー	パワー-power	名詞-普通名詞-一般			名詞-普通名詞-一般	*	*	パワースペクトルジョウホウ	パワースペクトル情報	パワースペクトル情報
> 	スペクトル	スペクトル	スペクトル	スペクトル-spectre	名詞-普通名詞-一般			*	*	*	*	*	*
> 	情報	ジョーホー	ジョウホウ	情報	名詞-普通名詞-一般			*	*	*	*	*	*
> 	と	ト	ト	と	助詞-格助詞			助詞-格助詞	*	*	ト	と	と
> 	両耳	リョージ	リョウジ	両耳	名詞-普通名詞-一般			名詞-普通名詞-一般	*	*	リョウジカンイソウサ	両耳間位相差	両耳間位相差
> 	間	カン	カン	間	接尾辞-名詞的-副詞可能			*	*	*	*	*	*
> 	位相	イソー	イソウ	位相	名詞-普通名詞-一般			*	*	*	*	*	*
> 	差	サ	サ	差	名詞-普通名詞-一般			*	*	*	*	*	*
> 	が	ガ	ガ	が	助詞-格助詞			助詞-格助詞	*	*	ガ	が	が
> 	あり	アリ	アル	有る	動詞-非自立可能	五段-ラ行	連用形-一般	動詞-一般	五段-ラ行	連用形-一般	アル	有る	あり
> 	ます	マス	マス	ます	助動詞	助動詞-マス	終止形-一般	助動詞	助動詞-マス	終止形-一般	マス	ます	ます
> EOS
> EOF
-| <paragraph>
-| <sentence>
-| <LUW l_lemma="両耳受聴" l_lForm="リョウミミジュチョウ" l_pos="名詞-普通名詞-一般">
-| <SUW lemma="両耳" lForm="リョウミミ" pos="名詞-普通名詞-一般" pron="リョーミミ">両耳</SUW>
-| <SUW lemma="受聴" lForm="ジュチョウ" pos="名詞-普通名詞-一般" pron="ジュチョー">受聴</SUW>
-| </LUW>
-| <LUW l_lemma="によって" l_lForm="ニヨッテ" l_pos="助詞-格助詞">
-| <SUW lemma="に" lForm="ニ" pos="助詞-格助詞" pron="ニ">に</SUW>
-| <SUW lemma="因る" lForm="ヨル" pos="動詞-一般" pron="ヨッ" cType="五段-ラ行" cForm="連用形-促音便">よっ</SUW>
-| <SUW lemma="て" lForm="テ" pos="助詞-接続助詞" pron="テ">て</SUW>
-| </LUW>
-| <LUW l_lemma="得る" l_lForm="エル" l_pos="動詞-一般" l_cType="下一段-ア行" l_cForm="終止形-一般">
-| <SUW lemma="得る" lForm="エル" pos="動詞-非自立可能" pron="ウル" cType="下一段-ア行" cForm="終止形-一般">得る</SUW>
-| </LUW>
-| <LUW l_lemma="情報" l_lForm="ジョウホウ" l_pos="名詞-普通名詞-一般">
-| <SUW lemma="情報" lForm="ジョウホウ" pos="名詞-普通名詞-一般" pron="ジョーホー">情報</SUW>
-| </LUW>
-| <LUW l_lemma="に" l_lForm="ニ" l_pos="助詞-格助詞">
-| <SUW lemma="に" lForm="ニ" pos="助詞-格助詞" pron="ニ">に</SUW>
-| </LUW>
-| <LUW l_lemma="は" l_lForm="ハ" l_pos="助詞-係助詞">
-| <SUW lemma="は" lForm="ハ" pos="助詞-係助詞" pron="ワ">は</SUW>
-| </LUW>
-| <LUW l_lemma="パワースペクトル情報" l_lForm="パワースペクトルジョウホウ" l_pos="名詞-普通名詞-一般">
-| <SUW lemma="パワー-power" lForm="パワー" pos="名詞-普通名詞-一般" pron="パワー">パワー</SUW>
-| <SUW lemma="スペクトル-spectre" lForm="スペクトル" pos="名詞-普通名詞-一般" pron="スペクトル">スペクトル</SUW>
-| <SUW lemma="情報" lForm="ジョウホウ" pos="名詞-普通名詞-一般" pron="ジョーホー">情報</SUW>
-| </LUW>
-| <LUW l_lemma="と" l_lForm="ト" l_pos="助詞-格助詞">
-| <SUW lemma="と" lForm="ト" pos="助詞-格助詞" pron="ト">と</SUW>
-| </LUW>
-| <LUW l_lemma="両耳間位相差" l_lForm="リョウジカンイソウサ" l_pos="名詞-普通名詞-一般">
-| <SUW lemma="両耳" lForm="リョウジ" pos="名詞-普通名詞-一般" pron="リョージ">両耳</SUW>
-| <SUW lemma="間" lForm="カン" pos="接尾辞-名詞的-副詞可能" pron="カン">間</SUW>
-| <SUW lemma="位相" lForm="イソウ" pos="名詞-普通名詞-一般" pron="イソー">位相</SUW>
-| <SUW lemma="差" lForm="サ" pos="名詞-普通名詞-一般" pron="サ">差</SUW>
-| </LUW>
-| <LUW l_lemma="が" l_lForm="ガ" l_pos="助詞-格助詞">
-| <SUW lemma="が" lForm="ガ" pos="助詞-格助詞" pron="ガ">が</SUW>
-| </LUW>
-| <LUW l_lemma="有る" l_lForm="アル" l_pos="動詞-一般" l_cType="五段-ラ行" l_cForm="連用形-一般">
-| <SUW lemma="有る" lForm="アル" pos="動詞-非自立可能" pron="アリ" cType="五段-ラ行" cForm="連用形-一般">あり</SUW>
-| </LUW>
-| <LUW l_lemma="ます" l_lForm="マス" l_pos="助動詞" l_cType="助動詞-マス" l_cForm="終止形-一般">
-| <SUW lemma="ます" lForm="マス" pos="助動詞" pron="マス" cType="助動詞-マス" cForm="終止形-一般">ます</SUW>
-| </LUW>
-| </sentence>
-| </paragraph>

SEE ALSO

BCCWJ_to_tnt(1)



csearch_to_top(1)csearch_to_top(1)

NAME

csearch_to_top - change treebank format

SYNOPSIS

csearch_to_top

DESCRIPTION

Filter to transform CorpusSearch treebank data into Penn Treebank format.

OPTIONS

--example)show an example
*)show this help message

EXAMPLE

$ cat << EOF | csearch_to_top | munge-trees -p
> ( (IP-MAT (PP (NP (N 授業))
>               (P が))
>           (NP-SBJ *が*)
>           (VB 終わる)
>           (PU 。))
>   (ID 7_textbook_kisonihongo;page_13;AT1-7;JP))
> EOF
-| (TOP (IP-MAT (PP (NP (N 授業))
-|                  (P が))
-|              (NP-SBJ *が*)
-|              (VB 終わる)
-|              (PU 。)))


CSJ_to_BCCWJ(1)CSJ_to_BCCWJ(1)

NAME

CSJ_to_BCCWJ - convert CSJ XML into BCCWJ M-XML

SYNOPSIS

CSJ_to_BCCWJ

DESCRIPTION

Filter that takes CSJ XML content and returns BCCWJ M-XML (morphology-based XML) format.



haruniwa2(1)haruniwa2(1)

NAME

haruniwa2 - parse input

SYNOPSIS

haruniwa2 [OPTIONS]

DESCRIPTION

Parse input with the HARUNIWA grammar model for Japanese using the Berkley parser.

Input should be in TnT format where each line contains one word token and one part-of-speech tag separated by a single tab character. EOS indicates end-of-sentence.

OPTIONS

--raw)output parse without any modification (default is to post-process with parse_decorate and parse_finish)
--top|-top)output with TOP as root node
--basic|-basic)output without root node wrapping
--johnson|-johnson)output prepared for reranking
[0-9]*)number of most probable parse trees output (default is 1)
--example)show examples
-*)show this help message
*)location of grammar model

EXAMPLES

$ cat << EOF | haruniwa2 | munge-trees -p
> すもも	N
> も	P
> もも	N
> も	P
> もも	N
> の	P
> うち	N
> 。	PU
> EOS
> にわ	N
> に	P
> は	P
> に	NUM
> わ	CL
> の	P
> にわとり	N
> が	P
> いる	VB
> 。	PU
> EOS
> EOF
-| ( (IP-MAT (IML (CONJP (NP (N すもも))
-|                       (P も))
-|                (NP (N もも))
-|                (P も)
-|                (NP (PP (NP (N もも))
-|                        (P の))
-|                    (N うち)))
-|           (PU 。))
-|   (ID ex1537770111;JP))
-| ( (IP-MAT (PP (NP (N にわ))
-|               (P に)
-|               (P は))
-|           (PP (NP (PP (NP (NUMCLP (NUM に)
-|                                   (CL わ)))
-|                       (P の))
-|                   (N にわとり))
-|               (P が))
-|           (NP-SBJ *が*)
-|           (VB いる)
-|           (PU 。))
-|   (ID ex1537770111;JP))
$ cat << EOF | haruniwa2 3
> ゴスタック	N
> は	P
> ドッシュ	N
> を	P
> ディスティム	VB
> し	VB0
> ます	AX
> 。	PU
> EOS
> EOF
-| (number 3)
-| ( (IP-MAT (PP (NP (N ゴスタック)) (P は)) (NP-SBJ *) (PP (NP (N ドッシュ)) (P を)) (NP-OB1 *を*) (VB ディスティム) (VB0 し) (AX ます) (PU 。)) (ID ex1537770113;JP))
-| ( (IP-IMP (PP (NP (N ゴスタック)) (P は)) (NP-SBJ *) (PP (NP (N ドッシュ)) (P を)) (NP-OB1 *を*) (VB ディスティム) (VB0 し) (AX ます) (PU 。)) (ID ex1537770113;JP))
-| ( (IP-MAT (NP-SBJ *pro*) (PP (NP (PP (NP (N ゴスタック)) (P は)) (N ドッシュ)) (P を)) (NP-OB1 *を*) (VB ディスティム) (VB0 し) (AX ます) (PU 。)) (ID ex1537770113;JP))

SEE ALSO

parse(1), parse_finish(1), rerank(1)



haruniwa2_scaffold(1)haruniwa2_scaffold(1)

NAME

haruniwa2_scaffold - modify keyaki POS information

SYNOPSIS

haruniwa2_scaffold

DESCRIPTION

Filter to build parse structure, disambiguate parts-of-speech, as well as merge and demerge words.

OPTIONS

--example)show an example
*)show this help message

EXAMPLE

$ cat << EOF | haruniwa2_scaffold
> ( (IP-MAT (N 大学) (P-ROLE まで) (WADV どう) (VB2;遣る やっ) (P-CONN て) (VB2;行く 行き) (AX ます) (P-FINAL か) (PU 。)) (ID example;JP))
> EOF
-| ( (IP-MAT (NP (N 大学)) (P-ROLE まで) (ADVP (WADV どうやって)) (VB;行く 行き) (AX ます) (P-FINAL か) (PU 。)) (ID example;JP))

SEE ALSO

inline_to_tnt(1), tnt_to_inline(1), tnt_clean(1)



inline_to_tnt(1)inline_to_tnt(1)

NAME

inline_to_tnt - convert inline to TnT format

SYNOPSIS

inline_to_tnt

DESCRIPTION

Filter to convert tagged information in inline format to TnT format.

OPTIONS

--divider|--div)set divider
--example)show an example
*)show this help message

EXAMPLE

$ cat << EOF | inline_to_tnt
> 花子_NPR は_P 赤い_ADJI コート_N を_P 着_VB た_AXD 。_PU
> EOF
-| 花子	NPR
-| は	P
-| 赤い	ADJI
-| コート	N
-| を	P
-| 着	VB
-| た	AXD
-| 。	PU
-| EOS

SEE ALSO

tnt_to_inline(1), tnt_clean(1)



japanese_model_location(1)japanese_model_location(1)

NAME

japanese_model_location - print model location

SYNOPSIS

japanese_model_location

DESCRIPTION

Send location details of parser model file to stdout.



tnt_clean(1)tnt_clean(1)

NAME

tnt_clean - clean tnt

SYNOPSIS

tnt_clean [OPTIONS]

DESCRIPTION

Filter that cleans tnt.

OPTIONS

--full)full parts-of-speech information
--pron)pronounce information
--sense)sense information
--example)show an example
*)show this help message

EXAMPLE

$ cat << EOF | tnt_clean
> 花子;ハナコ	NPR
> は;ワ	P
> 赤い;アカイ	ADJI
> コート;コート	N
> を;オ	P
> 着;キ	VB;着る.0
> た;タ	AXD
> 。	PU
> EOS
> EOF
-| 花子	NPR
-| は	P
-| 赤い	ADJI
-| コート	N
-| を	P
-| 着	VB
-| た	AXD
-| 。	PU
-| EOS

SEE ALSO

tnt_to_inline(1)



tnt_collapse(1)tnt_collapse(1)

NAME

tnt_collapse - modify keyaki POS information

SYNOPSIS

tnt_collapse

DESCRIPTION

Filter to merge certain entries from keyaki part-of-speech analysis.

OPTIONS

--tree)keep tree structure
--example)show an example
*)show this help message

EXAMPLE

$ cat << EOF | tnt_collapse
> 大学	N
> まで	P-ROLE
> どう	WADV
> やっ	VB2;遣る
> て	P-CONN
> 行き	VB2;行く
> ます	AX
> か	P-FINAL
> 。	PU
> EOS
> EOF
-| 大学	N
-| まで	P-ROLE
-| どうやって	WADV
-| 行き	VB;行く
-| ます	AX
-| か	P-FINAL
-| 。	PU
-| EOS

SEE ALSO

tnt_to_flat_parse(1)



tnt_to_flat_parse(1)tnt_to_flat_parse(1)

NAME

tnt_to_flat_parse - make basic parse from tnt analysis

SYNOPSIS

tnt_to_flat_parse

DESCRIPTION

Filter to make basic parse from tnt analysis.

OPTIONS

--example)show an example
*)show this help message

EXAMPLE

$ cat << EOF | tnt_to_flat_parse
> 授業	N
> が	P
> 終わる	VB
> 。	PU
> EOS
> EOF
-| ( (IP (N 授業) (P が) (VB 終わる) (PU 。)) (ID example;JP))

SEE ALSO

tnt_collapse(1)



tnt_to_inline(1)tnt_to_inline(1)

NAME

tnt_to_inline - convert TnT to inline format

SYNOPSIS

tnt_to_inline

DESCRIPTION

Filter to convert tagged information in TnT format to inline format.

OPTIONS

--sep|-s)specify separator, e.g., --sep "/"
--example)show an example
*)show this help message

EXAMPLE

$ cat << EOF | tnt_to_inline
> 花子	NPR
> は	P
> 赤い	ADJI
> コート	N
> を	P
> 着	VB
> た	AXD
> 。	PU
> EOS
> EOF
-| 花子_NPR は_P 赤い_ADJI コート_N を_P 着_VB た_AXD 。_PU

SEE ALSO

inline_to_tnt(1), tnt_clean(1)



Last updated: September 24, 2018