ユーザ用ツール

サイト用ツール


2026:01:25

文書の過去の版を表示しています。


1/25日記

プログラム

  • 文字起こしができそうな環境について色々探していたら、こんなのを見つけた。
  • フロントエンドは使いやすくなっている様子。(全部一個の実行ファイルに収めたと思われる)
  • 試しに録音してある音声を使って文字起こしをしてみた。

  • なんでここまで必死になっているかというと、正直仕事での打ち合わせに耐えられないというのがある。
  • Teamsのトランスクリプトもないよりマシなんだけど、部屋を作った人しかダウンロードができなくて、それ以外の人は適時生成されるトランスクリプトでしか見ることができずだいぶクソな仕様。
  • まず、元々自分の症状からして会話によって理解だったり記憶にとどめておくのが苦手。この時点で今の仕事を続けるのかという疑問はあるけど、自分の行きたい業界はもうないに等しいので、それだったら金のための仕事を続けていくのがいい。
  • 上記の自分の状況を補填するためにTeamsのトランスクリプト使いたいのに、上記みたいな仕様だと適当にピックアップして、かつ音声聞きながら遡っていくみたいな事しなくてはいけないため、もう一回音声聞いているのと変わらなくなるんだよね。
  • なので、Teamsに頼らず自分で文字起こしができないかと考えて色々方法を模索している。

  • Transcriptionは日本語翻訳が必要なのでLocalWhisper一択、Smallだとあまり役に立たないので、medium以上がいい。
  • SummaryはBuilt-In AI、Gemma3_4Bにした。種類変えてもそれほど変わらない。
  • 録音については最初にブランク、最後にも余裕を持たないと最後まで認識してくれない。
  • 入力デバイス、出力デバイスそれぞれ用意したほうがデータ取りやすい。
  • ただ独自の単語だとうまく取れないので、それ以外の部分をしっかり言語として文字起こしするのがよさそう。
  • WAVファイル読み込みは現状はできない。今後に期待かも。(他のやつはPython書けばできるけどそこまでやる理由もないとしておく
2026/01/25.1769324065.txt.gz · 最終更新: 2026/01/25 15:54 by machiaworx