7月のカレンダー
    123
45678910
11121314151617
18192021222324
25262728293031
最近の日記
全体の新着
各月の日記
ユーザーRSS
Ejiさんの公開日記
01月01日
06:46
http://geocities.yahoo.co.jp/gl/zhuoware/view/20091231/12...
2010年 ボカロ界に起きる出来事大予想 募集

Zhuowareさんが募集しているどころを聞いて、早速書きたいですが、
ついったで書く前に、ここでも整理して見ようと思います。

ありうる可能性として考えるのは、技術と開発リソース自体の統合、twitterによるインフォメーション整合についての方が一番興味深いですが、自分の知識不足そして誤解によるものが大きいので、関係者は笑い飛ばしてくれるとありがたい。

それでは書いてみます。

----
1. SinsyとUTAUが(コミュニティレベルで)統合、もしくはSinsyと同等のHMM-based音声合成エンジンが開発され、UTAU音源を流用できるようにするツールセットがリリース。

これは半年内で発生可能と思います。

特にHMMはオープンソースと特許フリーであること、そして名工大関係者がUTAU関係者の間の熱い議論が行われる件で、最終的オープンソースができるものは殆どUTAU界隈に集まることになるではないかと思います。

技術者としてはかなりありがたい素材が集まって、クリエイターの生の声も聞き取れることによって、Sinsyは「調教なしの歌声合成システム」として作られたから統合自体は難しいかもしれませんが、UTAU音源を流用させて、UTAU本家と同じくフリーソフトとしてリリースされ、そして同じくUTAU界隈に利用されることが予想する。

理由として挙げられるのは、UTAU界隈のメイン目的は「自分の声」という最終目的であるため、VOCALOIDがどんな進化が届けるとしても、ヤマハがエンジンライセンスビジネスモデルを取る限り、UTAUコミュニティと平行線になると簡単に予想できます。

少し前、twitterで「コミュニティによる会社を成立して、みんなが欲しいボカロを作ろう」というBumpyうるし先生の呼びかけが行いましたが、最後はUTAUを利用するで立ち消えました。大量のUTAU界隈にある「自分の声」に対する欲求を満足できるだけの体制自体、利益を上がること(=ライセンシーを払えるレベルまでになること)が出来ませんと予想できます。

元々Sinsyは第三勢力になるではないか、という予想がつきましたが、Heigazenさんの発言で予想が反転しました:
一つは、HMMベースエンジンの話者適応は、自分の想像より遥かに手軽く出来ること。
一つのDBは60曲くらいで出来上がり、そして新しい話者に対する適応は数曲以内で出来るということ。
二つは、HMMベースエンジン自体は、特許フリーであること。
つまりSinsyのデモはほぼ「UTAUコミュニティに対する呼びかけ」に見えるようになりました。

現状の話者適応は特徴点による統計的手法をとっているため、サンプルベースのUTAUに比べると、話者性(=DBごとの特徴)は劣化され、あえて言うと、UTAUのようなまったく違ってるDBより、一つのDBがある程度の柔軟性が備えて、様々の声に対して「真似」ことが出来る、という。

その故、かなり短時間で、UTAUコミュニティにあるDBは短時間内でSinsyバージョンの声が出来上がる、と予想できる。

この二つのエンジンにどう調和できるのか、ほぼ波形の切り貼り、全てが手動きの波形編集系のUTAU,と複数の作品に適応出来るだが、調整自体は楽譜記号(MusicXMLとか)で編集での柔軟性が限られてるHMMベースエンジン、最終的には「HMMによって調整をモデル化、そしてUTAU音源と連携できる一つのツールセットに統合する」ことができるではないかと思いました。

これでUTAU、もしくはフリーソフト界全体が、学界を後ろにつけることで企業と真正面に勝負できるレベルまで来るではないかと。
たとえば、学界のリソースをある程度流用できれば、おそらくubuntuのような統合的音源配布システムも視野に入ると思います。


--------
2. VOCALOIDの補足ツールリリースと本格的マルチレイヤー化対応。

これはもう長い間で討論されていたが、最近watさんからのリンレンAppend発表、「Project If....」とCV04男性声が殆どマルチDBであることに匂わせる発言から見れば、V3はほぼ確実にマルチサンプルが出来るエンジンと思います。

UTAUと違って外部リソースの統合ステージがいないから、当たり前ですがVOCALOIDの開発は特許ステージ、すなわちヤマハ内部、そして産総研からのライセンスを受ける方がメインになる。もちろん特許フリーのリソースは取り入れるから、watさんもHMMベース系の音源について発言しましたが、多分かなり早い段階でVOCALOIDエンジンと整合を取れるように作れると思う。

先日での日記で一回取りあがりましたが、VOCALOIDの進化方向は打ち込み音源として自動性を上がることに尽きる、簡単にまとめると「出来る限りベタ打ちでかなり聞けるレベルまで仕上げるようになる」。そのゆえ、音源自体の操縦自由度を上がると同時に、調教の自動化、そしてモデル化は一番望ましい進化と思う。

現状で知られる技術はぼかりすの商品化ですが、投下できる技術としてはまたHMMベースの技術、以前MTGグループの論文に一回取り上げられた「パフォーマンスサンプリング」と思います。

自分の予想ですが、ヤマハがあまりエディターを改善する動きがないということは、そもそも外部ツールに力を入ることで、補足を計らうではないかと。

イントネーションを無制限させる(楽譜単位と関係することなく短くさせることが出来る)というのは、ほぼ話専用な改良で見える故、変声器的扱い方を本気で狙ってると思わせる。

ぼかりすの一番惜しいところはまたまた取り扱うパラメータがまた少ないところですが、VOCALOIDの利点は殆ど周波数領域で全ての調整を一連で扱うため、声質の不自然な変化が一番少なく、平滑化もやりやすいため、HMMベースに比べると接続が不自然の部分は劣ってますが、一定の声質を表現するのはまたまた上にあると思う。ですからHMMベースの発声エンジンに移行するのはまたまた早いではないかと。

この故、サンプルベースでまたできることをいうと、AppendシリーズDBの整合、すなわちマルチサンプル化が先決にして、HMMベース技術を調教のモデル化にまわせる(ある意味ぼかりすの一部にする?)のは自分の予想である。

たとえば、人手の調教、そしてぼかりすから収集したデータとベタ打ちのVSQと比較して、その差別をうまくモデル化できるか、自動化できるかをHMMモデルで分析して、そして別の調教補助ツールとしてリリースする。

時間は予想できないが、今年末までV3がリリースされる時期が分かってくるではないかと思います。(今年内のV3リリースではなく)

-----
3. MMDの果てしなく進化。

多数の方向性が予想できるから正直書き切れないw

一つは多分ぬいぐるみモーションキャプチャーツールがリリースされる。
正確にいえば、前回が提起されたぬいぐるみモーションキャプチャーツール用のMMD対応プラグインみたいなもの。
正直自分の理想としてはARメガネと立体撮影で手から直接に画面内のモデルを扱えるようになる方が望ましいですが、コレについてはしばらく無理かもしれません。
たとえば、エアータイピングの技術でARと連携と取ればかなりできるかもしれませんが:
http://gigazine.net/index.php?/news/comments/20091228_air...
空中で指を動かすだけでタイピングできる携帯機器向けの次世代インターフェースが開発される
これはまたまたしばらくかかるかもしれませんので、今年では無理があるだろう。

二つ目はMMDをFlashに移植することによって、MMD作品をウエブカジェット化させることが出来ること。SWF形式でアップロードも出来てくるだろう。
またまたわがらないですが、今年内でFlashplayer 10.1が主流になると予想できます、そしてGPUを完全にサポートすることが出来るFlashplayer 10.1は現時点にあるメインストリームGPUが完全にサポートできるから。
コレについてはボカロプラスが進行しているから、多分リリースすると一気に利用されると予想します。
そして2010年はARM+GPUの統合SoCを装備するMIDが主流になる年と思います。
http://japanese.engadget.com/2009/05/31/qualcomm-snapdrag...
Qualcomm、Snapdragonベースの「Smartbook」を公開
Flashをうまく走るため、現状からみればMIDベンダー(上記のQualcommのSnapdragon、もしくはNVIDIAのTegraとか)は殆どGPUによるFlashアシスト機能を備えてますから、Flashは事実上のウエブ3Dスダンダートになるではないかと思います。


三つ目はおそらくiPhone 3GSにMMDと互換できるソフトがリリースされると予想する。
タッチパネルによって、一気に可能性が広がれる予感がありますけど、多分iPhone持たない(?)樋口Mさんではなく別人からのリリースになるだろう。
けどもしかしたらそっちの作者が有料ソフトにさせることで争いに繋がるかもしれません。Mac用ボーカルシンセ、SugarGrapeはMac版無料、iPhone版有料という作り方にしたゆえ、iPhoneソフトの視点からみれば、有料は別に何の問題もならないはずですが、コミュニティの見方が気になる。

-----
4. 日本社会に広く認知されるきっかけが多数に訪れる。

たとえばこれです:
http://d.hatena.ne.jp/voidy21/20091231/1262187848
来年の全日本吹奏楽コンクール課題曲5がかなりアレな件について

正直、もうあるブレークポイントにきてきた感じがあります。
ネットではかなり認知されてるミクだが、実世界ではまたまた、という現状を一気に取り変わるきっかけが訪れると思う。

けど上と違って、これはまったくの希望的な観測とおもいますから、予想より要望と思ってます。
聞き手をもっと広げて、ボカロPたちが「一般化させるためのボカロ離れ」を考えなくでも済むような社会環境があればうれしい、という自分のわがままである。

----
妄想終わりw
起きたらtwitterにまとめようか。
公開日記トップへ