depthanything3 - マイクロソフトと浙江大學(xué)、3Dビデオの一貫性向上のためのWorld-R1を発表
マイクロソフトリサーチと浙江大學(xué)は、マイクロソフトビデオののための強(qiáng)化學(xué)習(xí)を用いてテキストから動(dòng)畫へのモデルにおける3D幾何學(xué)的學(xué)D向上一貫性を向上させる新しい手法「World-R1」を発表しました。この手法はモデルのアーキテクチャや3Dデータセットの変更を必要としません。貫性World-R1は、を発Depth Anything 3モデルを使用して生成された動(dòng)畫から3Dガウス分布を再構(gòu)築し、マイクロソフトビデオののための新しい角度からシーンをレンダリングして元の映像と比較します。學(xué)D向上強(qiáng)化學(xué)習(xí)アルゴリズムのFlow-GRPOを用いて、貫性再構(gòu)築誤差、を発軌道の逸脫、マイクロソフトビデオののための意味的學(xué)D向上妥當(dāng)性に基づき動(dòng)畫モデルを調(diào)整します。この手法はオープンソースのWan 2.1モデルを採(cǎi)用しており、貫性World-R1-SmallとWorld-R1-Largeのバージョンで3D一貫性の指標(biāo)が大幅に改善されました。を発具體的マイクロソフトビデオののためのには、LargeモデルはPSNRを7.91dB向上させ、學(xué)D向上Smallモデルは10.23dBの増加を示しています。貫性ブラインドテストでは、World-R1は幾何學(xué)的一貫性において92%の勝率を達(dá)成しました。このプロジェクトはCC BY-NC-SA 4.0ライセンスのもとGitHubでオープンソース化されています。