✦ プロジェクトの概要 (TL;DR)
講義中に板書・ノート・理解を同時にこなすのは難しい——という自分の課題から作った、講義音声の議事録ジェネレーターです。録音した音声をWhisperで文字起こしし、その結果をGeminiで見出し・要点・キーワードを備えた議事録へ自動整形します。聴くことに集中でき、後から読み返せる形に。実装の過程はZennに記事化しました。企画から実装まで個人で担当しています。
01 課題
Challenge
聴く・書く・理解するを同時にできない
講義中はノートを取ることに気を取られ、肝心の内容理解がおろそかになりがち。後から見返しても、断片的なメモでは話の流れを追えない——という自分の困りごとが出発点でした。
- 板書とノートに気を取られ、話そのものを聴けない
- 手書きメモは断片的で、後から流れを再構成できない
- 録音しても長すぎて、結局聴き直せない
02 解決策
Solution
文字起こしから議事録まで自動で
音声をWhisperで文字起こしし、その結果をGeminiで議事録(見出し・要点・キーワード)に自動整形する流れを組みました。ノートを取る作業から解放し、講義そのものへ集中できる状態を目指しています。
- Whisperによる音声の文字起こし(タイムスタンプ付き)
- Geminiによる議事録への自動整形(見出し・まとめ・キーワード抽出)
- 出力に対応(コピー / .txt / .md / PDF ダウンロード)
- ハルシネーション再解析(AIの誤りを再チェック)
- Whisperモデル選択・話者分離などの設定
03 成果
Outcome
文字起こしの先の「議事録」まで自動化できた
ただ文字起こしするだけでなく、Geminiで議事録に整形して『あとで読み返せる』状態まで実現できたことが成果です。実装で得た知見はZennに記事化しました。
Whisper×Gemini議事録自動整形PDF / Markdown 出力
✦ 技術スタック
PyPython
WWhisper
GGemini API
ご質問やご依頼など、お気軽にご連絡ください。





GitHub で見る