カツラの葉っぱ 大好き!

アクセスカウンタ

zoom RSS 日本語変換あれこれR1

<<   作成日時 : 2018/06/04 00:25   >>

ブログ気持玉 0 / トラックバック 0 / コメント 0

<日本語変換あれこれR1>
大使が日々お世話になっている日本語入力システムは、多分マイクロソフトのIMEだと思うのだが・・・
漢字かな混じりの日本語を、分節単位でローマ字入力から日本語に変換してくれています。
昨今では、初期のシステムに比べると格段に使い勝手が良くなっていて、漢字に詳しい優れものとの感がありますね♪

パソコンの検索窓とIMEの二つがあれば、紙の辞書が不要にさえなるし・・・
昨今では、入力システム自体が学習機能を持っているとのことで、ほんと“びっくりポン”でおます。

ということで、日本語変換についてあれこれ集めてみます。

・IMEのプチサーチ
・日本語入力システム
・機械が読む日本語
・新文字の開発

R1:「IMEのプチサーチ」を追加


<IMEのプチサーチ>
ネットでIMEのプチサーチというサイトを見つけたので、メモしておきます。

なお、中国の人名、地名のように「IMEに出てこない漢字をどう書くか」であるが・・・
これはパソコンの検索窓に関連ワードを打ち込んで2、3のネット記事を見て目指す漢字をコピペするのが一番早いようです。(体験的には)



<日本語入力システム>
ウィキペディアの「日本語入力システム」をのぞいてみました。

wikipedia日本語入力システムより
【概要】
 パソコンにおいて、英文の入力は一般のキーボードでタイプライター同様にタイプすれば入力可能であるが、日本語のように使用文字数が数千を超える言語の文章を入力する際には全ての文字に一つのキーを当てはめるキーボードは非現実的であるため、複数のキーの操作で一文字を入力するなどの仕組みが必要となる。

 日本語の入力方法で現在主流なのは、読みとしてかなを何らかの形で入力しておいて、漢字・かな・英字などの変換候補から選択して入力するかな漢字変換である。
 これは、1978年9月26日に、東芝の「JW-10」の発売によって実現された。日本語入力システムは、MS-DOS時代はもっぱらフロントエンドプロセッサとして実装されたため、日本語入力フロントエンドプロセッサ(日本語入力FEP、さらに略してFEP)などと呼ばれることが多かった。Windowsの普及後はインプット メソッド エディタ(IME)と呼ばれることが多くなった。

 ワープロ・パソコンだけでなく、携帯電話やビデオレコーダー・ゲーム機といったデジタル家電、カーナビ、情報キオスク端末など日本語の入力を必要とする様々な機器に日本語入力システムが組み込まれている。

【学習】
 ユーザーの変換・確定結果を記憶し変換精度を上げる仕組み。学習が蓄積されることにより、IMEは自動的に各ユーザー個人に最適化されていく。誤った変換結果も保存されるため誤りが次回以降に再現されるのが難点で、ATOKなどでは変換履歴を直接編集して不要な学習のみを削除することができる。

 学習が多く蓄積されると逆に変換精度が落ちたと感じたり、学習機能に異常をきたす場合がある(Microsoft IMEの項などを参照)。その場合は学習結果をリセットして初期状態に戻すなどの作業が求められる。





<機械が読む日本語>
日本語入力については、日本語は英語などに比べてハンディがあるようです。
そのあたりが、ネットに出ています。


機械が「読む」時代の知に対応するためにより
■日本語の抱えるハンディキャップ
この、「機械が読める」に関して、日本語は英語と比べハンデを背負い込んでいる。列挙すると以下の四つとなる。

イ.文字数が多い
ロ.単語の判別が難しい
ハ.文節の理解が難しい
ニ.本のデジタルデータが少ない

アルファベット26文字の英語と、かなと漢字を足すと数千文字を普段から使っている日本語。さらに日本語の場合同じ漢字でも、字体が異なる文字があり「万」の単位の文字コードが必要となる。つまり英語と日本語とでは、用意しておかなければならない文字コードの数が断然異なるということになる。

ただこのイ.は、情報端末の記憶容量が各段に増強されたことでだいぶ状況は改善してきた。(たとえば以前は、「トウショウヘイ」は「とう小平」としか表現できなかったが、最近は「トウ小平」と表示できるようになった*)

難問はロ.ハ.だ。

イ.文字数が多い
ロ.単語の判別が難しい
ハ.文節の理解が難しい
ニ.本のデジタルデータが少ない

文字にひとつひとつコードを振ったように、単語にもコードを振って、そこへ属性(名詞か動詞か、単数か複数かなど)を記述しておけば文法と照らし合わせ、機械が、検索窓からの問い合わせ(クエリ)に対し、適切な解となりうる候補テキストをネット上の膨大なデータから探し出すのに、便利だろう。

検索が効率的に、効果的に結果を表示するにはこの単語の判別、文節の理解といった、いわゆる形態素解析という工程が欠かせないのだ。

*【大使注】楽天ブログでは、トウ小平のトウは機種依存文字なので、受け付けてくれません。



<新文字の開発>
パソコンのない時代には機械式入力はタイプライターのみであり、この時期に考案された日本語の新文字が面白いのです。
「ひので字」などは、ロシア文字かと見まがうばかりで、びっくりポンでおます。

荒俣宏さんが『喰らう読書術』という本の中で、新文字を紹介しています

『喰らう読書術』2より
日本語は漢字があるから効率が悪く、覚えるのが非常に難しいことに愛想をつかした人たちがあ、「それならアルファベットのように簡単できっちりした新文字を創造してみようではないか」と奮闘した記録です。一番わかりやすいのは、漢字もひらがなもやめて、直線で表記できるカタカナを「日本国の公式文字」にしようとする動きです。

 石原忍という、視力検査表を開発した眼科医の先生が、欧米のタイプライターを見て、日本語も機械で書くには、カタカナを利用するのが早い、と考えてカタカナタイプライターを試作しました。でも、どうもカタカナは横書きに向いていない。そこで、ローマ字、ギリシャ文字、ロシア文字を参考にして、横書きに向く新カタカナを創造しました。1939年頃の話です。

ひのでひので字

 ところが、石原さんよりも早く、新しい日本文字を創造して石原さんを刺激した中村壮太郎という人が、1935年頃に「ひので字」という非常におもしろい日本文字を作りだしました。この文字もどこかロシア文字に似ているのに、カタカナかひらがなの特徴も残しているので、日本人にはなんとなく読める、というところが売りだったようです。こういう「横書きができて漢字も不要」という新文字を開発しようとした人が、江戸時代から何人も存在していたことが分かりました。


パソコン、OS、IMEは日々進化しているのだが・・・
変わらないのは、ローマ字入力に使うキーボードの文字配列である。

かつて若き日の大使は、タイプライターのブラインドタッチを練習していたわけだが・・・
残念ながら現状は一本指タッチではあるが、文字配列だけは無意識で分かるのでおます♪
日本語変換あれこれ

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
日本語変換あれこれR1 カツラの葉っぱ 大好き!/BIGLOBEウェブリブログ
文字サイズ:       閉じる