テキストから、まるで本物の会話みたいな声が出てくる – Dia TTS
文章を入力するだけで、生き生きとしたやりとりが耳に届く。そんな体験ができるのがDia TTSです。Nari Labsが開発したDia 1.6Bというモデルを、ブラウザからすぐに触れる形にしたもの。特別な準備なしで始められるのが、本当に嬉しいポイントです。
どんなときに自然と手が伸びるか
ポッドキャストの台本を声に出してみたいときや、動画で二人が掛け合いをしているようなナレーションが欲しいとき。Dia 1.6Bは、そうした会話の空気感や間を、意外と自然に再現してくれます。オープンに公開されているので、個人でも仕事でも気軽に持ち出せます。
ここが気持ちいいポイント
ただ文章を貼るだけで、数秒後に声が流れ始める。セットアップの壁がないのがありがたい。
誰が喋ってるかを区別したいときは、簡単な目印を頭につけるだけ。すると自然に話者が入れ替わって、Dia TTSの掛け合い感がぐっと増します。
笑い声や咳、ちょっとした息遣いも(laughs)とか(coughs)と書くだけでちゃんと乗っかってくれる。細かい人間らしさがじわじわ効いてきます。
特定の声の雰囲気を引き継ぐ機能もあるけれど、まずは普通にテキストから声を作る流れで遊んでみるのが入りやすいかも。
実際に使ってみるときのゆるい流れ
- 喋らせたい言葉を用意する。やりとりなら話者を分けておくと後で楽です。
- (笑)とか(ふぅ…)みたいなニュアンスを混ぜてみてもいい。勝手にいい感じに拾ってくれます。
- ボタンを押す。待ってる時間が短くて、ちょっとワクワクする。
- 聞いてみて「あ、なんか違うかも」と思ったら、句点の位置や改行をいじってみる。少しずつイメージに近づいていきます。
- これだ、と思ったら保存。動画や音声の素材にすぐ使えます。
最初はぎこちなくても、何度か触ってるうちに感覚がつかめてくる。そんなゆるい上達感があります。
もう少しリアルに近づけたいときの小さな工夫
- 長い文章は避けて、短く区切る。息の抜ける間が意外と大事だったりします。
- 会話はちゃんとキャッチボールにする。A→B→Aってリズムが自然に聞こえやすいです。
- 「びっくりした感じで」「そっと囁くように」みたいな言葉を足すと、ニュアンスが伝わりやすくなる場面が結構あります。
全部きっちりやらなくても、十分いい感じになる幅が広いのも安心できるところですね。
みんなが気にしてること
自分のPCで動かすと、どれくらいスペックが必要?
Dia 1.6Bを本格的にローカルで使うなら10GBくらいのVRAMを目安にしておくと安心。でもブラウザで試すだけなら、そんな心配はいりません。
もっと詳しく知りたいときは?
開発元が公開している場所を探してみると、すぐにDia 1.6Bのコードや重みの詳細が見つかります。まずはここで音を試してから、必要に応じてそちらに進むと自然な流れになります。
試すデモはどこにあるの?
今すぐDia TTSから始められます。文章入れて再生するだけで、どんな雰囲気かわかりますよ。
まずは声を出してみよう
Dia TTSでは、Dia 1.6Bの力で対話のような自然な音声を、手軽に生み出せます。難しい準備は後回しで、ただ文章を投げて聞いてみる。それだけで、新しい発見があるかもしれません。