以下、v0.0.2時点の設定を控えておく。
Transcriptionは日本語翻訳が必要なのでLocalWhisper一択、Smallだとあまり役に立たないので、medium以上がいい。
SummaryはBuilt-In AI、Gemma3_4Bにした。種類変えてもそれほど変わらない。
入力デバイス、出力デバイスはマイク+PCの出力をそれぞれ割り当てるとデータを取りやすい。
文字起こしについては、独自の単語だとうまく取れないので、それ以外の部分をしっかり言語として文字起こしするのがよさそう。
WAVファイル読み込みは現状はできない。今後に期待かも。(他のやつはPython書けばできるけどそこまでやる理由もないとしておく
録音については最初にブランク、最後にも余裕を持たないと最後まで認識してくれない。なのではじめは5分程度放置、会話終了後は15分程度放置でもよさそう。時間が長くなるほど家の環境では文字起こしが追いつかない。そして60分録音なのに途中で止まりやがったので、安全策を取って45分→Max90分くらいは録音をしておいたほうがよさそう。
実際60分程度録音したところ、止めた時点で30分未満の文字起こししかできてないので、気長に待つのがよさそう。
2回目。同じことしたら今度は前半15分何も記録しないという。何をやってんだ。複数回回すくらいならWAVファイル食わせる仕組みを構築したほうがいいのかなと思い始めてる。
あとデータについては、どうもCドライブ固定らしく、音声ファイルや映像ファイルを保存するのもあり、システムドライブの容量が大変なことになりそうなので早々にデータ移動すべき。