そうですね、僕の喫茶店は20代ですかね。今35なんですけど、20代前半からよく行ってましたね。私も母が50なんですけど、母が20代の頃にはどんどん喫茶店が減少傾向になってくる時代だったんですね。ちょうど震災があって、ファミレスであったりドトールだったり出てきて、だんだんと若干高齢の方が行かれることが多くなって、喫茶店離れが若干進んでいくみたいな時代だったと思うんですけど20代ってなるともうだいぶあれでした喫茶店離れと言いますか20代の同じ層の方って喫茶店行かれてました?行ってないですね友達とかと行ったり出会ったり仕事が終わってから行ったりとかあとは休憩中ですかねプライベートで喫茶店に行くか仕事の休憩の時に職場の近くにある喫茶店に行ってました喫茶店はその時から喫茶店のどういったところに惹かれていましたか?そうですね、僕はやっぱりあの空間が好きで、はい。っていうのがやっぱり一番、はい、喫茶店に行く頻度が高かった。で、あの、課題、研究のやつ、リポート見させてもらったんですけど、僕も、あの、お母さんと一緒でタボコセールから行ってたってところもあります。今はもう捨てないんですけど、はい。そうですよね。タバコ、喫茶店の魅力の一つでもありますよね。そうですよね。やっぱり喫茶店っていうね、名前にもなってるぐらい。なんかもともとのいろんな説があるんですけど、喫茶店ができたのも、タバコを吸う集まりから、喫茶店に発展していったっていう言言も読んだことがあって。へー、そうなんですね。みんなでこそこそ集まって、タバコを吸う立ち止まる場所みたいなところから、後から入ってきたっていうのも聞きましたね...(以下略)
Transcript to HTML ワークフロー手順書
ステップ1: 文字起こし生成
Step 1. 文字起こし生成

ソース音声ファイル(Kissa_compressed.m4a
)から話者を分類しつつ、自動的に文字起こしを生成します。
使用ツール
AssemblyAI Playground - 音声文字起こし
アクセス先: https://www.assemblyai.com/playground
手順
- AssemblyAI Playgroundにアクセスし、ソース音声ファイル(
Kissa_compressed.m4a
)をアップロード。 - 話者分類(Speaker diarization)を有効にして、自動文字起こしを実行。
- 生成テキストを
元の文字起こし.txt
として保存。
出力: 元の文字起こし.txt
注記: AssemblyAIは話者を自動的に分類しますが、音声の状態によっては誤認識することもあります。
内容をプレビュー(冒頭部分)
ステップ2: 文字起こしの整形
Step 2. 文字起こしの整形
AIが生成した生の文字起こしを、話者情報(Aさん、Bさんなど)を元に整理し、読みやすく整形します。
使用ツール
Gemini 2.5 Pro - テキスト整形
手順
- Gemini 2.5 Proに
元の文字起こし.txt
の内容を入力。 - 下記プロンプトを使用して整形を実行。
下記の文字起こしを話者ごとに整形してください。
発話者が明確化され、会話の論理構造が整理されます。
出力: 整理した文字起こし.txt
内容をプレビュー(冒頭部分)
以下は、提供された文字起こしを話者ごとに整形したものです。 *** ### 話者A そうですね、僕の喫茶店は20代ですかね。今35なんですけど、20代前半からよく行ってましたね。 ### 話者B 私も母が50なんですけど、母が20代の頃にはどんどん喫茶店が減少傾向になってくる時代だったんですね。ちょうど震災があって、ファミレスであったりドトールだったり出てきて、だんだんと若干高齢の方が行かれることが多くなって、喫茶店離れが若干進んでいくみたいな時代だったと思うんですけど。20代ってなるともうだいぶあれでした、喫茶店離れと言いますか、20代の同じ層の方って喫茶店行かれてました? ### 話者A 行ってないですね。友達とかと行ったり出会ったり、仕事が終わってから行ったりとか、あとは休憩中ですかね。プライベートで喫茶店に行くか、仕事の休憩の時に職場の近くにある喫茶店に行ってました。 ### 話者B 喫茶店はその時から喫茶店のどういったところに惹かれていましたか? ### 話者A そうですね、僕はやっぱりあの空間が好きで。はい。っていうのがやっぱり一番、はい、喫茶店に行く頻度が高かった。で、あの、課題、研究のやつ、リポート見させてもらったんですけど、僕も、あの、お母さんと一緒でタバコ吸えるから行ってたってところもあります。今はもう吸わないんですけど、はい。 ### 話者B そうですよね。タバコ、喫茶店の魅力の一つでもありますよね。 ### 話者A そうですよね。やっぱり喫茶店っていうね、名前にもなってるぐらい。なんかもともとのいろんな説があるんですけど、喫茶店ができたのも、タバコを吸う集まりから、喫茶店に発展していったっていう言説も読んだことがあって。 ### 話者B へー、そうなんですね。 ### 話者A みんなでこそこそ集まって、タバコを吸う立ち止まる場所みたいなところから、後から入ってきたっていうのも聞きましたね。やっぱりそこでタバコなんてどこでも吸えるんですよ。ただやっぱり落ち着ける空間っていうのがその次ですかね。なんで喫茶店に行くかって言ったらタバコも吸えるんですけど、くつろげる空間がそこにあるっていうので。 ...(以下略)
ステップ3: 会話型HTMLの生成
Step 3. 会話型HTMLの生成
整形済みテキストを、LINEやSlackのような会話形式のHTMLドキュメントに変換します。
使用ツール
Gemini 2.5 Pro - HTML生成
手順
整理した文字起こし.txt
の内容を入力。- 下記プロンプトを使用してHTML化。
下記の文字起こしを会話型のHTMLにまとめてください。発話者の個性を残しつつ読みやすく整形。
出力: チャット風.html
ステップ4: 音声概要の作成
Step 4. 音声概要(ポッドキャスト)の作成

アップロードした文字起こしを元に、AIが内容を要約した音声(ポッドキャスト)を自動で作成します。
出力: 音声概要(ポッドキャスト)
使用ツール
NotebookLM - AIアシスタント、音声サマリー
手順
- NotebookLMのソースに
整理した文字起こし.txt
をアップロードします。 - ノートブック上部に表示されるアクション候補から「音声概要」を選択します。
- 自動的にポッドキャストが生成され、再生・確認できます。
参考: 元の音声
追加のTipsと注意点
- 品質管理: 各ステップでAI出力を確認し、必要に応じて手動修正を行ってください。特に文字起こしの精度やHTMLのレイアウト。
- ツールの利用: AssemblyAIやGeminiは有料プランが必要な場合があります。無料枠内で利用できるようにファイルサイズを調整。
- バージョン管理: ワークフローをGit等で管理し、変更履歴を残すことを推奨。
- 拡張: 音声品質が低い場合は、事前に編集ソフトでノイズ除去を行うと精度が向上します。