フォニックス動画をAIで自作する手順

「フォニックスを始めたいけど、うちの子に合う教材が見つからない」——そんな悩み、ありませんか？

ラボパパは4歳の長男がアルファベットに興味を持ち始めたのをきっかけに、AIを使ってフォニックス動画を自作しました。Notion AIで歌詞を設計し、Sunoでフォニックスソングを生成し、Claude Codeでカラオケ字幕付き動画に仕上げる。制作時間は1レターあたり約20分。この記事では、その全手順をつまずいた点も含めてすべて公開します。

なぜ「自作」？市販のフォニックス教材が合わなかった理由
全体像｜3つのAIで動画を作る仕組み
1. 3つのAIがやっていること
最大の壁は「歌詞設計」だった｜Sunoに正しく歌わせるコツ
コマンド1つで動画完成｜Claude Codeの5ステップ
Whisperの認識精度44%→97%に上げた方法
完成した動画と子どもの反応
よくある質問
まとめ：ラボパパの結論

なぜ「自作」？市販のフォニックス教材が合わなかった理由

市販のフォニックス教材は「万人向け」に作られています。でも、わが子のペースにぴったり合う教材は売っていませんでした。

長男が4歳でアルファベットに興味を持ち始めたとき、フォニックス教材をいくつか試しました。でも、動画が長すぎて途中で飽きたり、テンポが速くてついていけなかったり。「短い歌で、サラッと聞けて、繰り返し続けられる教材」が欲しかったんです。

以前にAIで知育絵本を自作した経験がありました。絵本では「Notion AIで設計→Sunoで音楽→Claude Codeで動画化」というワークフローを使っていたので、「同じ仕組みでフォニックスも作れるのでは？」と思い立ったのが制作の出発点です。

「買う」のではなく、わが子に合わせて作る。結果的に、1レターあたり約20分でカラオケ字幕付きの動画を作れるようになりました。忙しい共働き家庭でも、寝かしつけ後の20分で1本作れるスピード感は大きいかなと思います。

こんな経験ありませんか？ぜひコメントで教えてください。

全体像｜3つのAIで動画を作る仕組み

フォニックス動画の制作は、「設計＝Notion AI」「楽曲＝Suno」「制作＝Claude Code＋Remotion」の3つの役割分担で成り立っています。

以前に作った知育絵本と共通する構造ですが、フォニックスならではの違いもあります。

役割	絵本（EhonMaker）	フォニックス（PhonicsForge）
Sunoの役割	BGM（インスト曲）	歌そのもの（メインコンテンツ）
動画の尺	2分〜2分30秒	50〜60秒（短く繰り返し聞ける）
字幕	なし	カラオケ字幕（単語ハイライト）
画像スタイル	手描き風イラスト	水彩博物画＋フラットベクター

最大の違いはSunoの役割です。絵本ではBGMだったSunoが、フォニックスでは「歌そのもの」になる。つまり、子どもが口ずさむフォニックスソングをAIで一から作るというチャレンジです。

3つのAIがやっていること

Notion AI（PhonicsForge）＝頭脳
Suno ＝フォニックスソング生成
Claude Code＋Remotion ＝全自動制作

最大の壁は「歌詞設計」だった｜Sunoに正しく歌わせるコツ

フォニックスの核心は「レター名」と「音素」を正しく区別すること。これをSunoに歌わせる構造設計が、制作で一番難しいポイントでした。

たとえばアルファベットの「A」。レター名は「エイ」、音素は「ah（/æ/）」です。この2つを混同すると、フォニックスとして機能しません。

実際に採用した歌詞構造はこんな形です：

A says ah, A says ah,
ah, ah, alligator!

2行＝1フレーズ、空行でフレーズ区切り。この構造にすると、Sunoが正しく発音しやすくなるだけでなく、カラオケ字幕の表示タイミングとも連動します。使う単語は代表音を含む3〜6種類に絞り、子どもが覚えやすい語彙を厳選しました。

各単語（alligator, apple, antなど）には「どんな絵を生成するか」を定義したVisual Lexiconを用意しています。画像スタイルは、単語アセットが水彩博物画風（リアルな描写で子どもの興味を引く）、レターがフラットベクター（パステルカラーで見やすい）。全画像を白背景・中央配置・装飾なしで統一することで、子どもの視線が歌詞と絵に自然に集中する設計です。

正直に言うと、歌詞設計だけで何パターンも試行錯誤しました。Sunoに歌わせてみて「音素の発音が曖昧だな」と感じたら構造を見直し、また生成し直す。この繰り返しが制作で一番時間を使った部分です。でも、ここを妥協すると教材としての価値がなくなるので、納得いくまで調整しました。

AI×子育てカテゴリでは、知育絵本の制作プロセスも紹介しています。

コマンド1つで動画完成｜Claude Codeの5ステップ

Sunoで音源さえ作れば、あとはClaude Codeにコマンドを1つ渡すだけ。5つのステップが全自動で走り、カラオケ字幕付きMP4が完成します。

ステップ	やっていること	使うツール
STEP 1	Notionから歌詞・Visual Lexicon・設計情報を自動取得	Notion MCP
STEP 2	単語・レター画像を自動生成	Imagen 4
STEP 3	Suno音源から単語単位のタイムスタンプを取得	Whisper
STEP 4	カラオケ字幕・ビジュアルトラック生成	Claude Code
STEP 5	MP4レンダリング（1920×1080 / 30fps）	Remotion

各ステップには自動品質チェックが入っていて、画像の生成枚数やタイムスタンプの精度、動画ファイルのサイズなどを自動検証します。問題があれば該当ステップを自動で再実行（最大2回）するので、ユーザーが手動でエラーを直す場面はほぼありません。

ちなみに、動画レンダリングにRemotionを使っているのには理由があります。絵本制作ではffmpegを使っていましたが、カラオケ字幕では「歌唱中の単語を拡大＋下線＋縁取りで強調する」といったフレーム単位の細かいアニメーション制御が必要です。RemotionはReactベースなので、こうした演出をコンポーネントとして柔軟に書ける。ffmpegでは難しかった表現が、Remotionなら自然に実装できました。

つまり、ユーザーがやることは「Sunoで音源を作る」と「Notionでデータを整備する」の2つだけ。それ以外は全自動で動画が完成します。

Whisperの認識精度44%→97%に上げた方法

Whisperのpromptパラメータに歌詞テキストを渡すだけで、認識精度が劇的に向上しました。同じことをやる人には絶対知っておいてほしいティップスです。

カラオケ字幕を正確に表示するには、音源から「どの単語がいつ歌われているか」を正確に把握する必要があります。Claude Codeではこの処理にOpenAIのWhisperを使っています。

ところが、最初の認識精度は44%。カラオケ字幕がズレまくって、とても使える品質ではありませんでした。「これは無理かも…」と一度は諦めかけたくらいです。

解決策は意外にもシンプルでした。Whisperのpromptパラメータに、歌詞テキストをそのまま渡す。たったこれだけで認識精度が97%まで改善。

この1つのパラメータ設定だけで、カラオケ字幕の品質が劇的に変わります。フォニックスに限らず、歌の字幕を自動生成したい場面で汎用的に使えるテクニックかなと思います。

完成した動画と子どもの反応

50〜60秒の短さが「もう1回聞く」につながり、毎日続けられるサイクルが生まれました。

完成したフォニックス動画は、1レターあたり約50〜60秒。短いからこそ、子どもが「もう1回！」と自然にリピートしてくれます。

カラオケ字幕の効果も想定以上でした。歌っている単語がハイライトされることで、長男は文字そのものにも興味を持ち始めたんです。音だけでなく「見て覚える」体験にもなっているのは嬉しい誤算でした。

一番うれしかったのは、「つぎのレターも作って！」とリクエストが来るようになったこと。知育絵本を作ったときも同じ反応がありましたが、子どもが「次」を求めてくれるサイクルが生まれると、親としてのモチベーションも自然と続きます。

完璧な動画を作る必要はないと思っています。大事なのは、わが子のペースに合わせて「ちょうどいい教材」を作れること。その選択肢があるだけで、幼児教育の幅はぐっと広がるんじゃないかなと。

よくある質問

Q. プログラミングの知識は必要？

Claude Codeを使うので、コマンドラインの基本操作ができれば大丈夫です。コードを自分で書く必要はありません。セットアップさえ済めば、あとはコマンド1つで全自動です。

Q. 1レターあたりの制作時間は？

歌詞設計（Notion AI）に10分、Sunoでの楽曲生成に2〜3分、Claude Codeでの動画制作は自動で5〜10分。合計で約20分が目安です。

Q. 最低限必要なツールは？

Notion AI（歌詞・映像設計）、Suno（楽曲生成）、Claude Code（動画制作）、Remotion（レンダリング）の4つです。画像生成にはImagen 4、タイムスタンプ取得にはWhisperも使いますが、これらはClaude Codeが自動で呼び出すので個別にセットアップする必要はありません。

まとめ：ラボパパの結論

市販の教材は「万人向け」。でも、わが子のペースに合った教材は自分で作れる時代になりました。

Notion AIで設計し、Sunoで歌を作り、Claude Codeで動画に仕上げる。1レター約1時間。「買う」ではなく「作る」という選択肢が、忙しい共働き家庭にも開かれています。

完璧を目指す必要はありません。わが子が「もう1回！」と言ってくれる動画を、少しずつ作っていく。その過程自体が、親子の新しい体験になるかなと思います。