2022年12月14日(水)〜16日(金)に、蔵王(宮城県)で開催された第30回 インタラクティブシステムとソフトウェアのワークショップ(WISS2022)において、先端情報学研究科 博士前期課程の滝沢力さん(平#研究室)のデモ発表した研究「音韻と韻律を含めたオノマトペ音声からの Transformer による爆発音合成」が、ワークショップのスポンサーであったチームラボ株式会社から「チームラボ賞」を受賞しました。
WISSは、日本ソフトウェア科学会のインタラクティブシステムとソフトウェア(ISS)研究会が毎年開催するワークショップです。GUI,アルゴリズムアニメーション,視覚的プログラミング,マルチメディア用言語,人工現実,CSCW,人工知能,ロボティクスなど,人間と計算機との様々なインタラクションの研究者が集い,インタラクティブシステムの構成原理/構成法,ソフトウェア技術について議論することを目的として研究発表を行う場です。
今回受賞した研究は、細かなニュアンス表現も含めて口で発話した擬音語表現から、深層学習(俗に言うAI技術)を用いて効果音を合成する技術に関するものです。ここでは、自然言語処理や画像処理の深層学習技術として注目されているTransformerアーキテクチャを採用し、音響波形をメルスペクトログラム(画像)として学習する手法を用いています。その学習モデルを元に出力されるメルスペクトログラム画像を、ニューラルボコーダ技術で音響波形として合成します。今回は効果音の中でも爆発音に焦点をあて、1300種類以上の爆発音とそれに対応する擬音語音声を3500以上学習したものをデモとして発表しました。また、発表では単に口でのニュアンス表現を含めて合成できることを示すだけでなく、「音をイメージして発話」→「合成」→「音をイメージして発話」→「合成」→・・・と繰り返して発話・合成をしていくことで所望の効果音を得ていく使い方なども議論として述べました。そして、チームラボ社による賞の選定理由は、その「人が発話する行為」と「AIによる生成」が共立する形で使える技術によるものでした。技術内容や発表ポスター、具体的な合成音、チームラボ社のコメントなどは、下記リンクをご覧ください。
発表題目 | 音韻と韻律を含めたオノマトペ音声からの Transformer による爆発音合成 |
論文著者 | 滝沢力(京産大・先端情報学研究科)、平#重行(京産大・情報理工学部) |
発表学会 | 第30回 インタラクティブシステムとソフトウェアのワークショップ(WISS2022) |
受賞内容 | チームラボ賞 |
発表内容に関するページ