2025:02:20 [machia's diary]

サイドバー

日記メニュー

2026年

2025年

2024年

2023年

その他

about

2025:02:20

2/20日記

プログラム

ふといろいろ眺めてみたところ、音声認識なんて分野がある。
以前から入力について指がきかなくなった時にどうやって入力すればいいだろうかと考えていた。
入力ソフトだと下記のようなものがある。
https://circle-road.com/?page_id=3427
ただそもそもGoogleの音声認識を使っており、そうなるとオンラインが前提になってしまうのがネックかと思った。
主な用途は文章作成とプログラムなので、せめて口頭でMiniScriptくらいは書けるようにしたい。

オフラインの音声認識DBについては、Voskっていうのがある。
とりあえず日本語を認識できるか確認した。
https://qiita.com/hatt_takumi/items/0aedc8f6768cd8efee5e
ただやり方に違いがあって、モデルは別途ダウンロードか解凍しているみたい。これはvoskインストールしたときにモデルも一緒にpipで落としてきたせいかなと思うし、大規模モデルはどうやって使えばいいかは別途確認しておく。

python test_microphone.py --model ja

まずは日本語を認識してるのを確認した。すごいな、結構しっかり認識してる。

某オープンソースのWindows対応について、pull requestの準備してた。
ソースコードの書き換えは以前からやっていたのと、ビルドももう自動化したほうがええやろ！オプション調べたらもう自動化もできる！と考えて、展開場所や生成された実行ファイルの移動が行えるようにバッチを書いた。
ここらへんlinuxとかはmakeがあるからビルドが楽なんだよなあ・・・と思わざるを得ない。
あとWindows環境は何故かSDLのパス周りでLinuxと想定しているビルド環境が違うのが謎い。
SDL_imageを使おうすると、何故かSDL2フォルダに入っている前提になっているのが「Windows限定で」起こるみたいでさすがになんやこれってなったのでWindows環境限定のディレクティブで回避させた。

そして元々Mac/Linuxをメイン環境としているため、試しにLinuxでビルドできる環境を作成してた。
参考:
https://webdesign-programming.com/virtualbox-ubuntu-install/#Ubuntu-4
なんで解像度落とさないとインストールが実行されないのさ・・・ｗ

その他

昨日今日は平日休みという貴重な機会だったんだけど、結局引きこもっていた。
用がないとまったく外にでない感じになってるので、これいいのか悪いのか。
ただ、医者いけたからよしとする。

2025/02/20.txt · 最終更新: 2025/02/21 05:43 by machiaworx