人間の言語理解の解明を目指した基礎的研究から,より応用に近い研究まで多岐にわたって研究を進めています

分野課題名期間
Pr.17言語/心理My red is your red?2009-
Pr.16言語/UIいい子スレート: 言語処理を実装したテキストエディタ2011-
Pr.15言語/心理新しい楽器: 記号の発明に関する研究2011-
Pr.14言語/心理新しいポケモン: 現実世界と言語世界のギャップに関する研究2012-
Pr.13言語/心理災害と言語に関する研究2011-
Pr.12言語/認知アノテーション作業の効率化に関する研究2011-
Pr.11言語/統計物理シミュレーションによる言語変化実験2011-
Pr.10医療情報アノテーション付き模擬カルテの構築2009-
Pr.09医療情報ウェブからの疾病情報の大規模かつ即時的な抽出手法2009-
Pr.08言語/統計物理言語の新陳代謝: 日本語の変容を捉える2010-
Pr.07医療情報 Deidentification Challenge: 個人情報匿名化実験2006
Pr.06医療情報 Smoking Challenge2006
Pr.05医療情報 電子カルテと紙カルテに含まれる医療情報の質的/量的な差異の調査2010-
Pr.04言語/認知 書き間違いの自動収集及び定量的分析に関する研究2010-
Pr.03医療情報 カルテ文章(退院サマリ)から副作用情報の自動抽出に関する研究2010-
Pr.02医療情報 表記ゆれ識別に関する研究2007-2009
Pr.01医療情報 病名の自動コーティングに関する研究2006-2008

Pr12. アノテーション作業の効率化に関する研究.(進行中)

言語処理研究にともなうアノテーションについて,その作業効率を保つための研究を行っています.

アノテーションとは?
能動学習によるアノテーション
  • 文献投稿中
  • Pr10. アノテーション付き模擬カルテの構築 (進行中)

    電子カルテからの情報抽出は重要な研究課題ですが,我が国において,本格的にカルテ文章を言語処理した研究は少ないのが現状です. その原因の一つはカルテ中に含まれる個人情報の問題があります. カルテ文章は患者名や医師名を多く含んでおり,個人情報の塊というべき文章です. この問題をクリアするために,本プロジェクトでは,ダミーのカルテ文章を用いて,研究利用可能なデータを構築し,技術交流を図っています.

  • 文献投稿中
  • Pr09. ウェブからの疾病情報の大規模かつ即時的な抽出手法 (進行中)

    近年,フェイスブック やツィッター などのマイクロブログにより,多くの人々の情報が大量かつリアルタイムに利用可能です. 本プロジェクトでは感染症に注目し,マイクロブログから全国的な情報収集を目指しています. マイクロブログから得られた情報の信頼性は不完全ですが,圧倒的大規模かつ即時的な情報は,既存の調査を上回る可能性があります.

    応用例1: 「カゼミル」
    風邪とその諸症状の推定(エスエス製薬への技術提供).

    応用例2: 「花粉症なう!」
    花粉症の推定(nifty共同研究).
    花粉症について言及しているつぶやきの内容から,花粉症の症状で困っている人の発言が否かを識別し,可視化します

    応用例3: 「インフルくん」
    インフルエンザ流行の推定.

    応用例4: 「言語処理による花粉症予想マップ」
    「インフルくん」の花粉症バージョンです

  • 雑誌掲載: 「宣伝会議」(2011年7月15日) [PDF]
  • プレスリリース: 読売新聞プレス (2011年1月5日)
  • プレスリリース: nifty プレスリリース (2010年3月4日)
  • TV紹介: フジテレビ(全国放送)「めざましどようび」 特集内で「ツイッター」のさまざまな利用方法について紹介. その中で「花粉症のセンサーとして使われている例」ということで「みんなの花粉症なう!β」が紹介されました(2010年3月6日).
  • Pr13. 災害と言語に関する研究.(進行中)

    3.11の東日本大震災以降のTwitterの発言を言語学的な観点から分析しています.

    ▼震災時のデマの例

    ←震災時に発生した流言(赤)と流言訂正(青)の可視化.
  • 関西電力節電呼びかけ
  • 命の三角形
  • 近畿のプレート縮小
  • 尾田栄一郎氏の寄付
  • 社内サーバ

  • 震災後のGPS情報付Tweetの可視化
    [youtube] [mov file]

    震災後の人々の移動軌跡の可視化
    [youtube] [mov file]

    震災後の人々の移動軌跡の可視化 (出発地(黄色),到着地(青色) )
    [youtube] [mov file]

  • 文献投稿中
  • Pr05. 電子カルテと紙カルテの質的/量的な差異の調査 (進行中)

    電子化により外来カルテ文章の情報量は増加する傾向がある


    【背景】電子カルテは,紙カルテに比べ,診療情報の保存や管理が容易で,臨床研究を行う際にも診療情報を効率よく処理でき,利便性に優れていると考えられています. 一方で,患者と対面しつつ入力することは負担であり記述量が減るのではないかという指摘や,電子カルテ内の既存の文章を容易にコピー・ペーストして転用できるため, 実際の情報量に変化はない,という指摘もあります. 【目的】電子カルテと紙カルテ間での記述されたテキストに含まれる医療情報の質的,量的な差異を明らかにします. 【方法】コーパス言語学,計量言語学や自然言語処理の分野で提案されている12の尺度を用いてカルテの文章を質的及び量的に定量化し,それらを指標として電子カルテと紙カルテを比較します. 【結果】質的尺度を用いた検討では紙カルテと電子カルテに有意な差は認められませんでした. 量的尺度を用いた検討では,紙カルテに比較し,電子カルテの記述量が約3~10ポイント高い傾向にありました.

  • 荒牧英治, 増川佐知子, 山田恵美子, 脇嘉代, 大江和彦: 電子化により外来カルテ文章の情報量は増加する傾向がある, 第30回医療情報学連合大会, 2010
  • Pr04. 書き間違いの自動収集及び定量的分析に関する研究 (進行中)

    これまで,言語処理分野ではタイポは例外的現象として十分に研究されてきませんでした. しかし,膨大なテキスト資源であるウェブ上のサービス(ツィッターやチャットなど)は,出版物のような編集処理を経ておらず,その結果,非文法的表現やタイポを含んでいます. 本研究は,タイポに焦点をあて,その自動抽出と分析を目的に研究を行っています.

  • 荒牧英治, 宇野良子, 岡瑞起: TYPO Writer: ヒトはどのように打ち間違えるのか?, 言語処理学会 第16回年次大会, pp.966-969, 2010.
  • Pr03. カルテ文章からの副作用情報の自動抽出に関する研究 (進行中)

    本邦では近年急速に電子カルテが普及し,その結果,大量の臨床データが電子化された状態で蓄積されつつあります. このデータを構造化されたデータとして利用できれば,過去に類をみない大規模な臨床研究が実現可能です. 本研究では,カルテの一種である退院サマリを材料に,副作用に関する記述がどの程度含まれているのか/どの程度自動抽出可能であるかを調査しています.

    応用例: 医療テキスト構造化システム「TEXT2TABLE」

    退院サマリ文章を表形式に自動変換します.当システムはfuji xeroxとの共同研究によるものです.


    DEMO: TEXT2TABLE (Fuji Xerox共同研究)
  • Eiji Aramaki, Yasuhide Miura, Masatsugu Tonoike, Tomoko Ohkuma, Hiroshi Mashuichi, Kayo Waki, Kazuhiko Ohe: Extraction of Adverse Drug Effects from Clinical Records, Stud Health Technol Inform. 2010.
  • 新聞報道: 日本経済新聞 朝刊 「副作用情報を自動抽出」(2011年7月9日)
  • プレスリリース: 「副作用情報を自動抽出」(2011年7月12日)
  • Pr2. 表記ゆれ識別に関する研究

    他言語からの借用が多い医学用語では「コリアー徴候」「コリエー徴候」といった表記ゆれが数多く存在し,多くのテキスト処理アプリケーションにとって大きな問題となっています. 本研究では日本語医学用語の表記ゆれを解消することを目指しています. 従来の表記ゆれ研究では,借用語のもととなる英語を推定するback-transliterationを行うものが主です. この手法は暗に正しいtransliterationが存在していることを仮定しており,「アヴォガドロ」「アボガドロ」のように,現実的にはある語に対して,複数のtransliteration結果がともに広く使用される場合に対応できません. そこで,我々は,原言語を考慮せず,二つの借用語が表記ゆれ関係にある(同一概念を指す)か否かを判定する二値分類問題として表記ゆれを扱い,これを機械学習するアプローチをとっています. 実験の結果,未知の近いスペルをもった2語が表記ゆれ関係にあるか否かを高い精度(F値=0.82)で判別できました.

    応用例: 症例検索システム「症例くん」

    各学会の地方会で発表された演題を検索することができます.

  • 日本内科学会バージョン(開発版)
  • 日本循環器学会バージョン
  • 翻字/表記ゆれデモ
  • DEMO1: CRF-based transliteration (翻字): 英語固有名詞(人名,地名など)を多言語に翻訳します.
  • DEMO2: CRF-based variants generation (表記ゆれ生成): カタカナ語(例えば「マイケル」)のありうる表現リスト(「ミシェル」など)を生成します.
  • 荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦: Support Vector Machineを用いた医学用語の表記ゆれ解消, 言語処理学会 第14回年次大会, pp.135-138, 2008.
  • Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe: Orthographic Disambiguation Incorporating Transliterated Probability, International Joint Conference on Natural Language Processing (IJCNLP2008), pp.48-55, 2008.
  • Pr01. 病名の自動コーティングに関する研究

    様々な言語処理技術を用いて病名の国際統計分類(ICD)への自動コーディングを試みています. 現在,情報検索モデルOkapi-BM25を使用した手法を用いて,5語以上から成る長い病名に対して50.8%の精度を得ています.

  • Eiji Aramaki, Takeshi Imai, Masayuki Kajino, Kengo Miyo, Kazuhiko Ohe: A Statistical Selector of the Best among Multiple ICD-coding Methods, Stud Health Technol Inform. 2007, Vol.129, No., pp.645-649, 2007.
  • 荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦: 情報検索尺度Okapi-BM25と交換可能語ペアを用いた自動ICDコーディングに関する研究, 医療情報学, Vol.27, No.1, pp.101-107, 2007.
  • Pr11. シミュレーションによる言語変化実験 (進行中)


    3種類の語(赤,青,緑)が使われている世界. これらの語がどのように伝搬するのか,また,どのような条件で定常状態に落ち着くのか,シミュレーションを行って研究しています. (動画



    一定時間経過後,新語(赤色)を発生させます.新語がどのような盛衰をたどるのか試行しています. (動画1動画2
  • 文献投稿中
  • Pr08. 言語の新陳代謝: 日本語の変容を捉える (進行中)

    言語は毎日少しづつ変化していきます. 大量の時系列コーパスを用いることにより,その変化の速度を計測することが可能です. 例えば,日本語の使用頻度上位1000語のリストは1年ではわずかに(1%弱)変化します. このような調査結果を外挿して,日本語が50%変わる時点を推定することも可能です. また, どのような語が順位をあげて,どのような語が順位を下げつつあるのかを調査することにより,言葉の変化を生み出す人間のダイナミズムに迫ります.

    (左図) 語の使用頻度順位の順位相関係数と時間(Δt), 100位まで,500位まで,1000位まで,10000位までを調査した.
    (右図) X軸は語の成長率,Y軸は成長率の確率分布を示す.Nは順位を示し,1000位ごとに線を変えてある.

  • 荒牧英治, 増川佐知子: 微小時間における日本語の変化とその法則, 言語処理学会 第17回年次大会, 2011.
  • Pr15. 新しい楽器: 記号の発明に関する研究 (進行中)


    [movie 1], [movie 2].
    (2012年度 計画中)


    Pr16. いい子スレート: 言語処理を実装したテキストエディタ(進行中)

    言語処理に適切なUIを加えればまるで魔法のような執筆環境が誕生するのでは?
    「いい子スレート」プロジェクトでは,言い換えやスペルチェックなどを,自然な形で実装したUIを研究開発しています.


    Pr14. 新しいポケモン: 現実世界と言語世界のギャップに関する研究(進行中)


    [研究ポスター]

    (2012年度 計画中)


    Pr17. My red is your red? (進行中)

    貴方が「赤」だと思っているものを,別の人にとっては「紫」だとしたら? そういう場合,お互いにどういうアクションをとれば,効率よくカテゴリの差異を解消できるのでしょう? 本プロジェクトでは,カテゴリの差異を効率的に解消するプロトコルについて研究しています.


    Pr07. Deidentification Challenge

    サマリーの自然文に含まれる個人情報(日付/人名/施設名etc)は97%自動匿名化できる

    Deidentification of clinical records has drawn a great deal of attention in the medical field. Since texts in clinical records are mostly ungrammatical and fragmented, previous approaches have relied only on local information, namely contextual words surrounding a current target word. The present paper proposes a new approach employing three types of non-local features, which does not come from surrounding words: (1) sentence features, corresponding to the previous/next sentence information and (2) label consistency, preferring the same label for the same word sequence. The experimental results showed high performance (precision 98.29%; recall 96.66%; f-measure 97.47), demonstrating the feasibility of the proposed approach.

  • Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe: Automatic Deidentification by using Sentence Features and Label Consistency, Workshop on Challenges in Natural Language Processing for Clinical Data, 2006. [PDF]
  • [レビュー論文]
  • Pr06. Smoking Challenge

    サマリーの自然文から患者の喫煙歴が(精度88.9%で)分かる

    A method for classifying the status of a patient in a medical record is highly desired be- cause this enables larger-scale statistical medical studies. This study introduces a system that classifies the smoking status a patient from a medical record. The system consists of two mod- ules: (1) a heuristic-based information extraction module and (2) an Okapi-BM25 and K-Nearest Neighbor-based (kNN-based) classifier module. In experiments, the proposed system achieved an ac- curacy of 88.97%, demonstrating the basic feasi- bility of the approach proposed herein.

  • Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe: Patient Status Classification by using Rule based Sentence Extraction and BM25-kNN based Classifier, Workshop on Challenges in Natural Language Processing for Clinical Data, 2006. [PDF]
  •