AIを使ってしたい100のこと

生成AIの可能性と、それを使って自分自身を表現する楽しさを伝えることを目指しています。

Veo 3で日本語会話は可能か?AI動画クリエイターの実験と成功への道

AIで動画を作る際、日本語の自然な会話を生成するのはまだまだ難しい課題の一つです。今回は、Veo 3を使って日本語の会話動画を作るという、まるで新しいゲームを攻略するような試みに挑戦しました。試行錯誤の過程で得られた貴重な発見と、最終的に日本語の会話生成に成功したプロンプトをすべて公開します。

1. 成功への第一歩:料理シーン

まずは、日常的な会話が生まれやすい料理のシーンから試しました。具体的な共同作業のシーンを設定することで、AIが会話の内容を理解しやすいように工夫しました。

設定: 料理中の若い男女。男性が女性にレシピについて尋ね、女性がそれに答える。

結果: 見事に成功!ほぼ完璧な日本語の会話が生成され、発音も非常にクリアでした。

実際の会話:

  • 男性: 「どれくらい塩を入れるの?」
  • 女性: 「ここに書いてあるでしょ、ねえ。」

語尾の「ねえ」が少し不自然でしたが、この成功が次のステップへの大きな手応えとなりました。

youtu.be

生成プロンプトを見る

A cinematic indoor scene in a modern, bright kitchen. A young man and a young woman are cooking a meal together. The man, wearing a simple t-shirt, stands in front of the stove, holding a spatula. The woman, in an apron, looks at her phone, which shows a recipe. The kitchen is well-lit, with steam gently rising from a pot on the stove.

The man turns to the woman with a slightly puzzled expression, holding a spatula, and speaks in Japanese. The woman looks up from her phone, smiles reassuringly, and replies in Japanese, pointing to a different part of the recipe on her screen. They exchange quick, playful glances as they work together.

Realistic lighting and smooth, cinematic camera movement enhance the sense of warmth and collaboration. Subtle details like the steam from the pot and the gentle clatter of cooking utensils create an immersive, natural atmosphere.

2. 失敗から学ぶ:食事中の会話

成功に気を良くして、次に挑んだのが食事中の会話シーンです。料理の感想を言い合う、というより具体的な会話内容を示唆したプロンプトを試しました。

設定: 食事を楽しみながら、感想を言い合う男女。

結果: 残念ながら、音声が乱れるという予想外の事態に。口は動いているものの、発音が歪んでしまい、以下のような発話の乱れが見られました。

  • 「美味しいな」 → 「おいはいな」
  • 「ちょっと心配だったんだけど」 → 「ちょっと深夜だったんだけど」

youtu.be

この結果から、食事の動作(口の動き)が発話に干渉しているという重要な仮説が生まれました。AIは、食べる動作と話す動作を同時に処理することに苦戦しているようです。

生成プロンプトを見る

A cinematic indoor scene in a cozy, softly lit dining area. A young man and a young woman are seated at a wooden dining table, illuminated by a warm pendant light. A delicious-looking, home-cooked meal is laid out on the table, still steaming slightly. The woman takes a bite of the food, closes her eyes for a moment, and smiles. She then exclaims in Japanese with a satisfied tone, "It's so good! I'm so glad we made this!" The man, who is already eating with a contented expression, replies with an enthusiastic laugh in Japanese, "Right? I was worried for a second there!" They exchange glances and laugh softly, sharing a moment of contentment as they savor the meal they prepared together. Realistic lighting and slow, cinematic camera movement create an intimate and relaxed mood. Subtle details like the steam from the food and the clinking of tableware enhance the peaceful, enjoyable atmosphere.

3. 成功への確信:食後のおしゃべり

食事中の失敗を踏まえ、今度は「食事の動作が完了した食後」の会話に挑戦しました。食事と発話を意図的に分離させることで、自然な会話が生まれるかを検証しました。

設定: 食事を終え、テーブルを片付けながら料理の感想を言い合う男女。

結果: 見事、日本語の会話生成に成功!さらに、同じプロンプトを2回試したところ、それぞれ異なる結果が得られたのが興味深い点でした。

1回目の生成: 少しフォーマルな印象の会話

  • 男性: 「それはとてもおいしかったですね。」
  • 女性: 「はい、本当に。また何か作りましょう。」

youtu.be

2回目の生成: より日常的でカジュアルな会話

  • 女性: 「今日もおいしかったね。」
  • 男性: 「うん。」

youtu.be

この結果は、同じプロンプトでも生成結果にばらつきがあることを示唆しています。

生成プロンプトを見る

A cinematic indoor scene in a cozy, softly lit dining area. The young man and young woman are finishing their meal. The table is filled with empty plates and some leftover dishes. The woman is taking the last bite of her food and puts down her fork, while the man leans back in his chair with a relaxed expression.

The man smiles at the woman and speaks in Japanese, with a satisfied and slightly lazy tone, while the woman clears the table. She nods and laughs in Japanese, holding a plate in her hand, as they talk about the meal they just finished. They exchange glances and share a moment of contentment, reminiscing about the cooking process and what they might cook next.

Realistic lighting and slow, cinematic camera movement create an intimate and relaxed mood. Subtle details like the sound of clinking plates and the soft glow of the table lamp enhance the peaceful, enjoyable atmosphere.

結論:日本語会話動画生成のコツ

今回のテストを通じて、Veo 3で日本語の会話動画を生成する際の重要なポイントが明らかになりました。

  1. 詳細なプロンプトの重要性: 単に「日本語で会話」と指示するだけでは不十分です。登場人物、シーン、動作、表情を細かく指定することで、音声の生成確率が飛躍的に向上します。
  2. 動作と発話の分離: 食事中のような複雑な口の動きを伴うシーンでは、発話のタイミングをずらすか、動作を止める指示が効果的です。
  3. 生成結果のばらつき: 同じプロンプトでも、会話のトーンや内容にばらつきが出ます。これは、理想の動画に近づけるためには、根気よく何度も試行錯誤を繰り返す必要があることを意味しています。

この結果が、AI動画クリエイターの皆さんの日本語会話動画制作のヒントになれば幸いです。もし、さらに検証してみたいアイデアがあれば、ぜひお気軽にご相談ください。