machia's diary

文書の過去の版を表示しています。

1/25日記

プログラム

文字起こしができそうな環境について色々探していたら、こんなのを見つけた。
https://github.com/Zackriya-Solutions/meeting-minutes
フロントエンドは使いやすくなっている様子。（全部一個の実行ファイルに収めたと思われる）
試しに録音してある音声を使って文字起こしをしてみた。

なんでここまで必死になっているかというと、正直仕事での打ち合わせに耐えられないというのがある。
まず、元々自分の症状からして会話によって理解だったり記憶にとどめておくのが苦手。この時点で今の仕事を続けるのかという疑問はあるけど、自分の行きたい業界はもうないに等しいので、それだったら金のための仕事を続けていくのがいい。ということで自分で書き出すだけではなくトランスクリプトが必要。
で、Teamsのトランスクリプトもないよりマシというかあるだけ嬉しいんだけど、部屋を作った人しかダウンロードができなくて、それ以外の人は適時生成されるトランスクリプトでしか見ることができないという、あんまりな仕様。
自分の状況を補填するためにTeamsのトランスクリプト使いたいのに、上記みたいな仕様だと適当にピックアップして、かつ音声聞きながら遡っていくみたいな事しなくてはいけないため、もう一回音声聞いているのと変わらなくなるんだよね。
なので、仕事上Teamsに頼らず別の方法で文字起こしができないかと考えて色々方法を模索している。

以下、v0.0.2時点の設定を控えておく。
Transcriptionは日本語翻訳が必要なのでLocalWhisper一択、Smallだとあまり役に立たないので、medium以上がいい。
SummaryはBuilt-In AI、Gemma3_4Bにした。種類変えてもそれほど変わらない。
入力デバイス、出力デバイスはマイク＋PCの出力をそれぞれ割り当てるとデータを取りやすい。
文字起こしについては、独自の単語だとうまく取れないので、それ以外の部分をしっかり言語として文字起こしするのがよさそう。
WAVファイル読み込みは現状はできない。今後に期待かも。（他のやつはPython書けばできるけどそこまでやる理由もないとしておく
録音については最初にブランク、最後にも余裕を持たないと最後まで認識してくれない。なのではじめは5分程度放置、会話終了後は15分程度放置でもよさそう。時間が長くなるほど家の環境では文字起こしが追いつかない。そして60分録音なのに途中で止まりやがったので、安全策を取って45分→Max90分くらいは録音をしておいたほうがよさそう。
実際60分程度録音したところ、止めた時点で30分未満の文字起こししかできてないので、気長に待つのがよさそう。
2回目。同じことしたら今度は前半15分何も記録しないという。何をやってんだ。複数回回すくらいならWAVファイル食わせる仕組みを構築したほうがいいのかなと思い始めてる。
あとデータについては、どうもCドライブ固定らしく、音声ファイルや映像ファイルを保存するのもあり、システムドライブの容量が大変なことになりそうなので早々にデータ移動すべき。

ゲーム開発

https://www.kickstarter.com/projects/mecha-systems/mecha-comet-modular-linux-handheld-computer?ref=user_menu
プレッジしておいた。
今開発しようとするとモダンな環境のデータが必要になるし、それ考えると最新のOS使えるほうが良さそうと思って。
あとどうも5月に届くらしい。（製造が遅れるかもだけど