ユーザ用ツール

サイト用ツール


2025:02:20

2/20日記

プログラム

  • ふといろいろ眺めてみたところ、音声認識なんて分野がある。
  • 以前から入力について指がきかなくなった時にどうやって入力すればいいだろうかと考えていた。
  • 入力ソフトだと下記のようなものがある。
  • ただそもそもGoogleの音声認識を使っており、そうなるとオンラインが前提になってしまうのがネックかと思った。
  • 主な用途は文章作成とプログラムなので、せめて口頭でMiniScriptくらいは書けるようにしたい。

  • オフラインの音声認識DBについては、Voskっていうのがある。
  • とりあえず日本語を認識できるか確認した。
  • ただやり方に違いがあって、モデルは別途ダウンロードか解凍しているみたい。これはvoskインストールしたときにモデルも一緒にpipで落としてきたせいかなと思うし、大規模モデルはどうやって使えばいいかは別途確認しておく。
python test_microphone.py --model ja
  • まずは日本語を認識してるのを確認した。すごいな、結構しっかり認識してる。

  • 某オープンソースのWindows対応について、pull requestの準備してた。
  • ソースコードの書き換えは以前からやっていたのと、ビルドももう自動化したほうがええやろ!オプション調べたらもう自動化もできる!と考えて、展開場所や生成された実行ファイルの移動が行えるようにバッチを書いた。
  • ここらへんlinuxとかはmakeがあるからビルドが楽なんだよなあ・・・と思わざるを得ない。
  • あとWindows環境は何故かSDLのパス周りでLinuxと想定しているビルド環境が違うのが謎い。
    SDL_imageを使おうすると、何故かSDL2フォルダに入っている前提になっているのが「Windows限定で」起こるみたいでさすがになんやこれってなったのでWindows環境限定のディレクティブで回避させた。

その他

  • 昨日今日は平日休みという貴重な機会だったんだけど、結局引きこもっていた。
  • 用がないとまったく外にでない感じになってるので、これいいのか悪いのか。
  • ただ、医者いけたからよしとする。
2025/02/20.txt · 最終更新: 2025/02/21 05:43 by machiaworx