野口翔伍

群馬大学 理工学部 電子・機械類 電子情報通信プログラムに所属し、弓仲研究室にて画像生成と自動運転向けデータ拡張の研究を行いました。

卒業研究では、マルチ条件を用いた画像生成における制御性向上と構造保持をテーマに研究を行いました。

近年、セマンティックセグメンテーションや深度などの条件を用いた画像生成により制御性の向上が実現されていますが、複数条件を同時に用いる場合には条件同士の競合により生成品質が低下する問題があります。

本研究では、セマンティックセグメンテーション・深度・エッジを同時に入力するマルチ条件拡散モデルを設計し、条件競合を抑制する注意機構(PAM)を導入することで、複数条件下においても安定した生成を可能にしました。

これにより、複数の構造条件を同時に満たしながら画像を生成できることを示し、高い構造整合性を維持した生成を実現しました。

さらに、この性質を利用してアノテーションを保持したまま利用可能なデータ拡張へと応用しました。

具体的には、LLM(Large Language Model)を用いて画像からシーン記述を生成し、それに基づくテキスト条件を自動生成することで、外観条件を制御しながらアノテーション整合性を保ったデータ拡張を可能にしました。

コードおよびモデルはGitHubで公開予定です:https://github.com/ShogoNoguchi

研究内容の発信記事:
https://yumilab.ei.st.gunma-u.ac.jp/diary/?p=1158

また、学外では Sony Computer Science Laboratories(https://www.sonycsl.co.jp/)にてResearch Assistant(RA)として研究を主導し、脳活動(EEG)から音楽を識別するマルチモーダル基盤モデルを構築しました。

本研究では、音響情報と予測情報(Surprisal・Entropy)という神経科学的に異なる表現を教師信号として明示的に分離し、それらを統合することで、従来のランダム初期化に基づくアンサンブルを上回る性能向上を実証しました。

この結果は、モデルの性能が教師表現の選択により本質的に変化することを示し、脳内の情報表現構造に基づいてモデル設計を行うという新しい設計原理を提示しています。

さらに、期待表現を生音から直接計算することでラベル不要な学習を可能とし、多様なデータにスケール可能なEEG基盤モデルの構築に繋がる枠組みを示しました。

本成果は、第一著者・責任著者として論文を執筆し、arXivで公開しています:https://arxiv.org/abs/2603.03190

プロジェクトページ:https://shogonoguchi.github.io/PredANNpp/

2026年4月より東京大学大学院 学際情報学府に進学予定