Welcome to TechNet Blogs Sign in | Join | Help

IME

IME チームのブログ
最新語辞書 2009 年 5 月版のお知らせ
IME2007 用の最新語辞書がリリースされました。
以下のページからご利用ください。
 
 
この辞書をインストールすると、次のような単語が入力できるようになります。
 
売伝(うりでん)、内検(ないけん)、出し値(だしね)、居食屋(いしょくや)、岩盤浴(がんばんよく)、七赤金星(しちせききんせい)、婚活(こんかつ)、巡音(めぐりね)、点図(てんず)、秘文書(ひぶんしょ)、地活(ちかつ)、淀江傘(よどえがさ)、鉄観音(てっかんのん)、月9(げつく)、エグザイル、など
 
なお、IME2003の最新語辞書はメインストリームサポート終了に伴い、2009年2月版をもって終了となりました。
長い間、皆様にご愛顧いただきまして誠にありがとうございました。
Office2003のメインストリーム サポートのポリシーにつきましては、Office製品のプロダクト サポート サイクルに載っております。
併せてご参照いただけますと、幸いです。
 
関 美由紀

Posted Monday, May 25, 2009 3:54 PM by Yoshiharu Sato | 0 Comments

2007 Microsoft Office system SP2
先にご案内いたしました、変換・学習の改良モジュールが、2007 Microsoft Office system の SP2 に含まれて、公開されました。
 
このアップデートは、お客様に先行評価いただき展開決定をいただくなど、質の向上度や安定性が高いことを確認しております。
 
今回のSP2では、そのアップデート・モジュールに対して、さらに学習データを移行する処理が追加されておりますので、安心してインストールいただけます。
 
どうぞ皆様ご利用ください。
 
佐藤良治

Posted Thursday, April 30, 2009 2:34 PM by Yoshiharu Sato | 0 Comments

IME の学習方式の紹介
今回は、IME の学習の基本的な方式について、従来のものと、Office IME 2007 とを対比して紹介します。 

 

Vista IMEを含む従来のIME は、ユーザが第一候補でないものを選び確定したときや、カタカナ変換したときなどに、その単語や前後の単語を含めた情報を記録します。その記録は、次回に同じ読みの文節が入力されたときに利用されます。最近使った単語を優先するというのは、かな漢字変換というものが実用化されてから以降というもの、ずっと引き継がれてきた学習の基本設計です。

 

一方、IME 2007 では、まず、確定入力された単語の並びや単語事態の使用回数を記録します。これをここでは「使用情報」と呼びましょう。また従来の IME の学習と同様に、ユーザが第一候補でないものを選んだという情報も記録します。これをここでは「選択情報」と呼びましょう。IME 2007 は、これらの2つの情報を、次回に同じ読みが入力されたときに、利用します。違いは、「使用情報」も利用しているという点です。

 

従来の学習方式と、IME 2007のそれとを比較してみます。

 

Vista IMEを含む従来のIMEは、「選択情報」のみに基づくため、当然、最近使用した単語が次回でてきやすいという特徴があります。ところで、最近使用した単語が優先され、前後のコンテキストにそぐわない箇所で変換結果として出てくることを、副作用と言います。従来の学習は、そのような副作用に対策のために、さまざまなヒューリスティックルールを導入し、複雑な処理を行っています。こういうケースは、さっき使った単語を優先していい、こういうケースは、さっき使用した単語が出てはまずい、などです。そういうルールを重ねていった結果、結局複雑になっていきました。

 

一方、IME 2007は、基礎とする文法を Trigram に変えるにあたり、学習の原理も見直しました。従来の使用感を維持するために、「選択情報」を利用します。が、副作用を押さえるために、ヒューリスティックルールを積み上げるのではなく、ユーザが入力した文の統計を利用するという単純な原理を導入しました。ユーザの「使用情報」を利用するため、正しい操作を繰り返した場合には、次第に、その人の入力文章に合った文法情報が蓄積されていきます。それは、「選択情報」と組み合わされて、短期的には「選択情報」が優先され、長期的には「使用情報」が重みを増していって短期的な「選択情報」による副作用を抑制しつつそのユーザの使い方にどんどんマッチしていくように組み合わされて利用されます。

 

ただ、反面、「使用情報」を「選択情報」と組み合わせるため、最近使用した単語が次回に出やすいという傾向が、弱くなりがちです。IME チームでは、いかに副作用なしにこの欠点をなくすかということに、取り組み、まずは最初の成果としてhttp://www.microsoft.com/japan/office/2007/ime/fixmodule.mspx をリリースしました。現在、もっと洗練すべき取り組んでいます。

 

佐藤

Posted Wednesday, February 25, 2009 5:49 PM by Yoshiharu Sato | 0 Comments

IME の変換方式の紹介
今回は、IME の変換の基本的な方式を、従来の IME と、Office IME 2007 とで対比して、紹介します。

 

Vista IME を含む従来の IME は、品詞のつながり安さを基本にしています。

 

たとえば、太陽、犬、太郎など世の中に存在するものは名前を持っています。それらの単語を名詞と言います。言う、書く、聞く、などは、動作を表わしますこれらの単語を動詞と言います。名詞、動詞などを、品詞と呼びます。品詞とは単語のグループです。従来の IME は、品詞と品詞がとれだけつながりやすいか、という情報を基本にしています。

 

もう少し専門的に説明します。つながりやすさをコストと考えて、つながりやすいほどコストが小さいとみなします。品詞のつながりやすさを品詞接続コストと呼びます。また、それぞれの単語がどれだけよく使われるかという情報を使います。ある単語が使われやすいほど、コストが小さいとみなします。単語の使われやすさを、単語コストと呼びます。従来の Microsoft IME は、品詞接続コストと単語コストとを合計して、コストが最小になるような変換結果を第 1 候補とします。

 

ところで、サンプルとして集めた例文集を、コーパスと言います。品詞接続コストや単語コストは、コーパスの中に現れた統計に基づいて、人手で調整したものです。ほかにも複雑な手法を用いていますが省略します。

 

さて、Office IME 2007 は、基本的な仕組みが異なります。品詞ではなく、単語自体のつながりやすさの情報を基本に使います。

 

ある単語の後に別の単語が来ます。先立つ単語にたいしてどれだけある単語が続くかという確率を、Bigram と呼びます。ある単語のあとに別の単語が来て、そのあとにまた別の単語が来ます。先立つ2つの単語に対してどれだけある単語が続くかという確率を、Trigram と呼びます。


IME2007 は、Trigram と Bigram を基礎として、さらに、品詞のつながりやすさの確率を補助的に用いて、第 1 候補を求めます。ほかにも複雑なことをやっていますが、省略します。

 

ここで、確率は、コーパスの統計から、文法として最適になるように計算したものを使っています。
 

品詞に基づく方法と Trigram に基づく方法を比較してみましょう。

 

ところで、言語現象というのは原理や法則では説明できず、必ず個別の単語に依存した例外的な現象というものが無数にでてきます。品詞に基づく文法では、原理的に制御しきれない言語現象が無数に存在します。たとえば、「京料理」は二つの単語「きょう」「りょうり」からなります。品詞で見ると、名詞+名詞です。「きょう」という読みを持つ名詞は、「今日」「京」「教」などです。名詞+名詞の範囲の中で、「きょう」の変換結果を決めるのは至難の業です。また、従来のIMEは、つながり方という相並ぶ 2 つの要素の関係のみに依存していますので、その点でも限界があります。たとえば、「かんじがわるい」という読みは、普通「感じが悪い」でしょう。しかし、「かんじ」「が」という 2 つの単語をみて、「が」「わるい」という 2 つの単語を見るだけですと、「監事が悪い」という変換結果になっても不思議ではありません。IME 2003で皆様から頂いた誤変換レポートによくあったのが、砕けた表現や付属語関係の誤りでした。たとえば、「言ったのかい」が「言ったの会」になったり、「それは知った」が「それ走った」になったり、「話したのは」が「話したの葉」になったりと。つまり、品詞に基づく方式・技術では、無限の個別の現象に対応する能力が低いのです。

 

精度が高くなればなるほど、さらに精度を高めるのは難しいものです。従来の IME の方法では、もはや精度を向上させることが難しくなってきました。一方で、入力の生産性を高めるというユーザの期待に今後ともこたえていく必要があります。そのため、IME をさらに進化させる必要があります。

 

IME2007 は、3 つの単語の並びを基本情報としているために、文法の能力は、当然、高くなります。「京料理」の場合、品詞でなく単語を見ているので正しく変換することができます。また、「感じが悪い」は 3 つの単語を見ているので正しく変換することができます。

 

また、従来手調整が主であったところ、新しい方法では、コーパスの統計から最適な確率値を計算するため、従来の限界を超えて、容易に精度向上を図ることができるという強みがあります。向上を図る道筋が見えています。

 

IMEは、ユーザの入力を誤変換で邪魔したときに意識される、とても難しいソフトウェアです。黒子として、誤変換を徹底的に少なくしなければなりません。従来の変換方法と開発方法と異なって、Trigram に基づく方法と開発方法は、従来は得られなかったような、もっと高い価値をユーザに提供できるアプローチです。

 

佐藤

Posted Wednesday, February 25, 2009 5:45 PM by Yoshiharu Sato | 0 Comments

最新語辞書 2009 年 2 月版が Live になりました!
IME 最新語辞書 2009 年 2 月版がリリースされました。
以下のページからご利用ください。
 
 
 
 
この辞書をインストールすると、たとえば次のような単語が入力できるようになります。
 
朝勤(あさきん)、特措(とくそ)、小々計(しょうしょうけい)、木酢(もくさく)、緋寒桜(ひかんざくら)、北とぴあ(ほくとぴあ)、薬力学(やくりきがく)、上々颱風(しゃんしゃんたいふーん)、猛暑日(もうしょび)、理事所(りじしょ)、上醍醐(かみだいご)、尺玉(しゃくだま)、酢卵(すたまご)、変顔(へんがお)、アラフォー、など
 
IME 最新語辞書は、最近のオンラインニュースや皆様から送信された数が多かった単語などが収録されております。
 
こんな単語もIMEの辞書に登録されていたらいいなと常日頃感じている方、ぜひIMEに単語情報を送ってください!
 
送り方は以下のページをご参照ください。
 
開発者一同、皆様のフィードバックをお待ちしております。
 
関 美由紀

Posted Wednesday, February 25, 2009 5:41 PM by Yoshiharu Sato | 0 Comments

IME の変換効率と文書作成の生産性
はご利用いただいていますでしょうか? いずれOffice 2007のSP2に入りますが、是非早めに適用ください。
 
さて、今回は、IME の変換効率とユーザーの文書作成の生産性との関係について書きます。
 
日本語を入力する際、誤変換が起きると、入力しなおしたり、誤変換を修正したり、候補から選んだりなど、余計な操作をしなければなりません。それらは、人の思考を停止させます。
 
以下では、以前、ご紹介したカスタマエクスペリエンス向上プログラムを通して得られた統計情報から、面白いデータをご紹介します。

最初のデータです。ユーザが文字を入力する際、平均してみると文字入力を 2 文字するごとに 1 回 Back-Spaceキーが使われるということが分かっています。これを、社内データでさらに詳しく分析してみたら、1/3は書き直し、1/3はタイプミスの修正、残りの Back-Space キーは IME が誤変換したがそのまま確定してしまい入力しなおすためでした。このように、IME が誤変換すると、ユーザに余計な操作をしいていることがわかっています。
 
現代は、仕事にスピードを要求される時代です。また、昔の紙と鉛筆のように、現代は PC と IME がほとんどの日本人の仕事のツールになっています。そういう時代では、日本語を入力する効率は、仕事の生産性を左右します。

二つ目のデータです。IME の変換効率は、100 文字入力するうちで何文字誤変換をしたかで、その質を測ることができます。これをパーセントで表したものを、平均文字誤り率と呼んでいます。文字誤り率が低いほど、IMEの変換効率が高いということです。また、ユーザの文書作成の生産性は、1分間で何文字入力し確定したかで、測ることができます。これを分あたりの平均入力文字数と呼びます。人によってタイピングの速さが異なりますが、何万人というユーザのデータに関して平均をとれば、ユーザ全体に関する文書作成の生産性を見ることができます。ここで、平均文字誤り率が低ければ低いほど、分あたりの平均入力文字数が多い、ということがわかっています。つまり、IMEの変換効率が高いほど、ユーザの文書生産性は高いのです。
 
IME は日本の PC ユーザならば必ず使う、日常的なツールです。誤変換した時にしか意識されないという黒子のようなソフトウェアでありながら、以上のようにユーザの生産性を決定的に左右しています。
 
MSのIMEチームは、以上を踏まえて、変換精度の向上をもっとも重要なミッションとしております。
 
佐藤

Posted Tuesday, January 06, 2009 1:53 PM by Yoshiharu Sato | 0 Comments

カスタマーフィードバックから見えたこと

先にご紹介しましたカスタマー・フィードバック機構で、ユーザーが実際にどういうことに困っているのか、また実際に使用されている日本語はどんなものか、がわかります。

 

以下、IME 2003のデータから見えたことから、具体的な例を挙げてご説明します。

 

ユーザーニーズの実際

l  ユーザーの痛み: ユーザ登録単語には、専門用語、とりわけ入力の難しい用語が多いことがわかりました。ユーザ登録単語は、標準辞書に収録されていない語彙で、各ユーザにとって必要な語彙が集まります。広範囲の語彙にバラけるであろうという予測どおりでした。上位を観察すると、入力の難しい語彙が多く見られます。ユーザー・フィードバック・データが、実際にユーザの痛みを優先度付きで示しているといえます。

l  ソフトウェアの問題

Ø  ユーザ登録単語には人名が多いことがわかりました。IMEでは多くの人名を、「人名地名辞書」に収録しています。しかし、調査によると、人名地名辞書で既にサポートしているのにユーザは登録しているケースが多いことが分かりました。標準辞書以外の付加辞書は、あってもユーザには使いにくいことが分かったのです。

Ø  ユーザ登録単語には、長い定型表現が短い一部の読みで登録されることが多いことがわかりました。入力の生産性ということにユーザは強い関心を持っていることがわかります。

l  ユーザの好み: ユーザ登録単語には、顔文字が多いことがわかりました。メールでコミュニケーションすることが多くなっています。そのとき、顔文字という感性的なコミュニケーションを人は本能的に望んでいることがわかります。

 

日本語の実際

l  語彙: 単語登録データや誤変換レポートから、以下のようなことがわかりました。

Ø  入力の難しい用語: ユーザは、入力する際に IME の辞書に単語がないために入力するのが面倒な語彙などを登録します。したがって、登録単語の統計には、ユーザの語彙に関する問題がその深刻さとともに表現されます。例: 抗鬱、褥瘡(じょくそう)。

Ø  実世界の重要単語

²  IME の標準辞書は、従来、言語統計からシステム基本辞書に収録する単語を選んできました。が、お客様のフィードバックを活用することで、従来の言語統計では拾えなかったが、実は人々が日常頻繁に使用している実世界の重要語彙というものを選ぶことができるようになりました。例:離席、角印、円印。

²  また、擬態語が多いこともわかりました。例: 「でろでろに酔う」「ピッカピッカに光る」

Ø  新しい外来語

²  社会がグローバル化するにつれて、新しい概念がコミュニケーションに必要となります。最近の日本語は、特に、外来語をカタカナ語でそのまま表記して語彙として取り込む傾向が顕著です。また新しい漢字の訳語も登場しています。例:プロキュアメント、高可用性、リカバリす(る)、カテゴライズす(る)、スケーラビリティ、メッセージング。

²  外来語はサ変名詞ないし形容動詞となることがあります。「サバイバルな」「ダークな」は、形容動詞化した外来語のケースです。「エロい」は、外来語を短縮したうえで、形容詞化したケースです。「キャンセルった」はラ行五段活用連用形に模された用法でしょう。

Ø  短縮語、略語: 日本語の特徴として、新しい単語が生まれやすいということが言えます。外来語は日本語の音韻体系で表記すると間延びし、短いほうが使いやすいため、短縮した新しい単語がつくられやすいといえます。古くはパソコンが良い例です。また、漢字は意味を取りやすい表記なので、それを組み合わせることで新しい単語も生み出されてきました。例: 社販、社食、ディスコン、取説。

Ø  新しい語彙

²  日本語は、いまでも進化しています。例: ばらけ(る)、うざ(い)、びび(る)、ぐぐ(る)、食いっぱぐれ(る)、しば(く)、超(副詞)。

²  日本語は、漢字、ひらがな、カタカナ、ローマ字、と文字種が多様で、表記に自由度が大きいことが顕著な特徴です。最近のメールやチャットなどのコミュニケーションでは、「ケータイ」など漢字の単語を仮名表記したり、カタカナ語をわざとひらがなで表記したりなどして、表現効果を高める傾向があります。つまり、日本語の表記の多様さはますます強まっています。

Ø  特有な読みの人名: 日本語は、漢字を借りて、読みを表現したり(典型は当て字)、意味を表現する(典型は訓読み)ことを行ってきました。これは文化的特徴です。現代でも、これは広く行われていて、顕著なのは人名です。例:岳大(たけひろ)、心咲(みさき)。

l  口語的な表現: 誤変換レポートから、たとえば、以下のような日本語の実際とその傾向が見えました。

Ø  口語的な仮名遣い: 「りょーかい」「ケータイ」「まー」「ふつー」「あーゆー」に見られるように、実際の生活での書き言葉は、規範とされる仮名遣い(長音の表記)から逸脱した表現が、意図的に行われています。

Ø  撥音化、促音化:

²  「ですもんね」「やってらんねーよそんなん」など、砕けた表現では、撥音化が多いことがわかります。

²  「大っ嫌い」など感情を強調するため、促音が使われます。

Ø  助詞抜き、「い抜き」

²  古くは、主格や体格は助詞抜きでした。現代では書き言葉では助詞を明示する用法が普通ですが、実際の口語では「それ除く」「ビデオ撮る」「その気ない」「言いたいこと言ってない」など、現代でも助詞抜きが支配的です。

²  「使われてた」「出てない」ように、「い」を省略した言い方が行われます。

Ø  口語的な付属語

²  「いるですか」など、丁寧な断定を表現する助動詞「ます」の代わりに、通常体言と一部の助詞にしかつかない「です」が用言の終止形に接続したりもします。

²  「け」も「か」も、疑問の終助助詞で、「できっけ」「できっか」などと使われます。「け」は通常学校文法に登場さえしませんが、実世界では登場します。「け」は「か」から派生したようですが、さらに「そうだっけか」という用法があることがわかります。

²  本来、「ぽい」は状態をあらわす特定の体言に付いて、「熱っぽい」などと使われました。しかし実際には、「シナリオっぽい」などといろいろな名詞に付き、「懐かしいっぽい」、「悪いっぽい」など用言の終止形に付く用法も見られます。

²  「手をつないじゃお」の「じゃお」などは、学校文法には登場しない付属語です。「でしまおう」からきたようです。

²  学校文法では「て」は接続助詞とされますが、「これって」のように、促音便を伴う「て」が提題助詞として機能します。

²  「いいっちゃいい」。「ちゃ」も学校文法には登場しません。

 

このように、カスタマーフィードバックは、現実を豊かに表現しています。IME チームはこれらを踏まえて、機能設計や変換エンジンのチューニングを行っています。

 

佐藤良治

Posted Tuesday, January 06, 2009 1:36 PM by Yoshiharu Sato | 0 Comments

最新語辞書と郵便番号辞書がアップデートされました
IME最新語辞書および郵便番号辞書2008年11月版がリリースされております。以下のページからご利用ください。

【最新語辞書】
ユーザーの皆様から寄せていただいた単語登録レポートなどから
有無責(ゆうむせき)、日差(にっさ)、相変化(そうへんか)、空清(くうせい)、社休日(しゃきゅうび)、ゆうちょ銀行(ゆうちょぎんこう)、商経学部(しょうけいがくぶ)、酸辣湯(さんらーたん)、などが収録されております。

また、最近のオンライン ニュースなどから
神経堤(しんけいてい)、鵜舟(うぶね)、日教弘(にっきょうこう)、艶黒(つやぐろ)、豆餅(まめもち)、駒の湯(こまのゆ)、ビニ傘(びにかさ)、などが収録されております

最新語辞書は3ヶ月ごとにリリースしております。ぜひご利用ください。

【郵便番号辞書】
2008 年 11 月版郵便番号辞書では、最終バージョンで追加された内容に加え、福島県福島市飯野町、東京都港区赤坂赤坂Bizタワー1階、千葉県山武郡芝山町岩山成田国際空港内、静岡県静岡市清水区由比、愛知県豊川市御津町金野籠田、鹿児島県南九州市川辺町今田、などたくさんの市町村の郵便番号が追加されました。

郵便番号辞書は毎年年末にアップデートしております。最新語辞書同様、よろしくお願いいたします。

関 美由紀

Posted Sunday, December 21, 2008 8:36 PM by Yoshiharu Sato | 0 Comments

IME 2007 の改良モジュールのリリース、続報

先日、9月8日に、改良モジュールのご案内の速報をいたしましたが、今回、64ビット環境もサポートした修正モジュールを改めてリリースしました。

 

以下のダウンロードサイトからご利用ください。

http://www.microsoft.com/japan/office/2007/ime/fixmodule.mspx

 

また、Office IME 2007 の詳細は下記Web サイトをご参照ください。

http://office.microsoft.com/ja-jp/ime/FX101486491041.aspx

 

佐藤

 

Posted Monday, October 20, 2008 5:55 PM by Yoshiharu Sato | 0 Comments

IME 2007の改良モジュールのリリース
速報です。IME 2007の変換・学習を改善する修正モジュールをリリースしました。
 
改良・修正点は、以下の3つです。
  • 変換結果が細かく区切れて誤変換する
  • 以前変換した単語が、すぐに変換結果として出てこない
  • 登録した単語が、すぐに変換結果として出てこない
 
詳しくは、以下をご覧ください。
 
どうぞよろしくお願いいたします。
 
佐藤良治

Posted Saturday, September 06, 2008 12:40 AM by Yoshiharu Sato | 0 Comments

最新語辞書8月号がLiveになりました!

IME最新語辞書2008年8月版がリリースされております。以下のページからご利用ください。

 

Microsoft Office IME 2007 最新語辞書更新 2008 年 8 月版

Microsoft IME 2003 最新語辞書更新 2008 年 8 月版

 

ユーザーの皆様から寄せていただいた単語登録レポートなどから

例えば、業歴(ぎょうれき)、均霑(きんてん)、独任制(どくにんせい)、淡墨(たんぼく)、半貴石(はんきせき)、棚替え(たながえ)、宿老(しゅくろう)、蕃爽麗茶(ばんそうれいちゃ)、などが収録されました。

 

また、最近のオンライン ニュースなどから

内調(ないちょう)、話材(わざい)、防氷(ぼうひょう)、味玉(あじたま)、夜スペ(よるすぺ)、妙妙板(みょうみょうばん)、タカラジェンヌ、などが収録されました。

 

IME 2007 最新語辞書収録語の総数は約 30,000 語、IME 2003 最新語辞書収録語総数は約 15,820 語です。

3ヶ月ごとにリリースしています。ぜひご利用ください。

 

関 美由紀

Posted Wednesday, September 03, 2008 8:46 PM by Yoshiharu Sato | 0 Comments

最新語辞書 5 月リリース

IME 最新語辞書 2008 5 月版がリリースされております。以下のダウンロードセンターからご利用ください。

 

Microsoft IME 2003 最新語辞書更新 2008 年 5 月版

 

ユーザーの皆様から寄せていただいた単語登録レポートなどから約1,200語: 例えば、他己紹介 (たこしょうかい)、残分 (ざんぶん)、点鼻薬 (てんびやく)、茶華道 (さかどう)、美ら海 (ちゅらうみ)、遅起き (おそおき)、自習室 (じしゅうしつ)、ハレ晴レユカイ (はれはれゆかい)などが、収録されました。

 

また、最近のオンライン ニュースなどからの収録が、約200語: 農商工 (のうしょうこう)、動翼 (どうよく)、ムコ多糖 (むこたとう)、比内鶏 (ひないどり)、生糠 (なまぬか)、鏡音リン (かがみねりん)、ブルーレイなどが収録されました。

 

IME 2007 最新語辞書収録語の総数は約 28,400 語、IME 2003 最新語辞書収録語総数は約 15,410 語です。

3ヶ月ごとにリリースしています。ぜひご利用ください。

 

佐藤

Posted Thursday, May 29, 2008 2:25 PM by Yoshiharu Sato | 0 Comments

IME 辞書更新サービス

標準辞書に収録されていない語彙を拾遺した辞書更新サービスを提供しております。『Microsoft IME 辞書更新サービス』 よりご利用ください。

 

この辞書更新サービスは、『ユーザーの皆様からのフィードバック』でご紹介いたしました、単語登録レポートと誤変換レポートデータをもとに、必要とされている語彙を割り出して、収録語彙を決めています。

 

その背景は、あなたが方向付けるあなたのツール』 をご覧ください。

 

佐藤

Posted Thursday, May 29, 2008 2:21 PM by Yoshiharu Sato | 0 Comments

ユーザーの皆様からのフィードバック
Microsoft IME では、ユーザーの皆様からのデータを活用しています。
 
ユーザーの皆様からフィードバックをいただく方法を 2 つ、ご紹介します。
 
IME Watson: 
(1) 誤変換レポート: IME の言語バーに箱のような「ツール」アイコンがあります。その上にマウスを持っていき、クリックすると、「自動記録された誤変換データの送信」や「直前の誤変換データの送信」というコマンドがあります。それらのコマンドは、IMEが誤変換をした時に、その第一候補と確定文字列とをマイクロソフトに送信する機能です。
(2) 単語登録レポート: 同じくツールアイコンのところに「単語の登録」というコマンドがあります。「単語の登録」ダイアローグを開くと、左下に「登録と同時に単語情報を送信する」というチェックボックスがあります。これは、ユーザーが単語を登録する際に、マイクロソフトにその内容を送信する機能です。
これらは、マイクロソフトのほかのソフトウェアがクラッシュした時にデータ送信をお願いする仕組みを利用しております。その仕組みは Watson と いうニックネームで呼ばれています。IMEチームでは、誤変換レポートと登録単語レポートとを合わせて、IME Watson と呼んでいます。
 
カスタマエクスペリエンス向上プログラム:
マイクロソフトの Office 等は、ユーザーのコマンド使用統計などを送ってもらって、製品の改良に役立てるということをしています。それをカスタマエクスペリエンス向上プログラムと呼びます。IME チームでも、このプログラムを利用して、たとえばあるプロセスで変換誤りを何%したかなどの統計データを取得しています。こちらは統計値のみで文字列は一切含まれません。
 
いずれも、プライバシーを配慮し、あくまでユーザが了解した時だけデータを送るといった、プライバシーを守るガイドラインにのっとって、実装しています。
 
このような方法で、IME チームは、実世界のユーザーの統計や変換の問題を、把握しています。そこからさまざまなことがわかりました。今後、折に触れて、ご紹介していきます。
 
佐藤

Posted Monday, May 26, 2008 8:37 PM by Yoshiharu Sato | 2 Comments

Filed under: , ,

マイクロソフトの IME チーム

IME のいろいろな話題について書く前に、マイクロソフトの IME チームについて軽くご紹介させていただきます。

マイクロソフトで日本語 IME を開発しているチームは、マイクロソフトの調布技術センターというところで研究開発を行っています。この場所は住宅街で、近くにいろいろなお店などが少ないのですが、それだけに落ち着いて仕事ができる環境です。

IME チームは、マイクロソフトの他の Engineering チームと同様に、主に仕様を担当するプログラムマネージャ、プログラムを開発するデベロッパー、品質保証を担当するテスターの 3つの仕事から構成されています。これら 3つのチームは、明確に役割を分担しあいながらも、相互の仕事の質を高めあうために協力して仕事を進めています。

IME は、レドモンド本社の開発組織とは横並びの関係を保ち、日本人のための IME を日本で開発しています。方向を決めプランを作ることから、開発・テスト、さらにリリースした後にお客様のご要望にお答えすることまで、何から何まで、日本の専任チームが自立的に運用をしています。また、日本人のパソコンユーザならば、ほとんどの方が私どものお客様です。非常に責任の重い仕事ですが、お客様に満足いただけるように、チーム一同、頑張って仕事をしております。

なお、この日本のチームは、いろいろなチームと協力し合って製品を開発しています。中国の IME チーム、韓国の IME チーム、Windows、Office、マイクロソフトリサーチ、とさまざまチームと共通のエリアは一致して取り組むということを行っています。

日本の IME チームを、どうぞよろしくお願いいたします。

佐藤

Posted Monday, May 26, 2008 7:30 PM by Yoshiharu Sato | 1 Comments

Filed under: , ,

More Posts Next page »
Page view tracker