音声入力アプリ3種の認識率テストとブログを執筆する方法まとめ

昨今、発展の目覚ましい音声を使ったデバイスのコントロール。

Googleアシスタントや、アマゾンのアレクサ、iPhoneのSiriなど、近年非常に身近な存在となっている音声コントロール。

技術の向上とともに、音声の認識率も飛躍的に向上していることもあり、この度、ブログを書くことに使えないかと思い、巷で利用されている音声認識機能を一通りテストしてみることにしました。

ちなみに、この記事自体が音声入力によって執筆された記事となります。

音声入力を使ってブログを書く

HEY

音声入力を使ってブログを書くことにおいて、いくつかの障壁があります。

今回テストを実施した音声入力方式は、以下に挙げる条件を満たしたものです。

条件
  • 無料で使える。
  • 経路はどうあれ、ブログとしてアップできる。(文字起こし出来る)

実は音声入力ソフトは、無料で使えるものから有料のものまで、幅広く存在します。

有名なものであれば「ドラゴンスピーチ」「Amivoice(サービス終了)」なんかがそうですね。

今回の検証にはこれら有料のソフトは使わないことにします。

また、無料の音声認識ソフトであっても、最終的に発話した音声を文字として取り出し、ブログにアップロードできる状態になるものに限っています。

どういう意味かと言うと、例えば有名なアマゾンの「アレクサ」などは、スマホアプリの「メッセージ」機能を使えば、文字に起こすところまではできるのですが、その文字をコピーすることができず、どうしてもブログにアップロードするまでの経路を見いだすことができませんでした。

あくまで最終形が「ブログへのアップロード」と言うことを目標にします。

これらの条件を満たし今回のテストにエントリーした音声入力ソフトたちを紹介します。

今回テストした音声認識
  1. Windows標準音声入力
  2. iPhone標準音声入力
  3. Googleドキュメント音声入力

「Siriとかコルタナじゃないんだ」と思った人もいるかもしれませんが、いわゆる“AIアシスタント“は主にコマンドを操作するものですので、あえてこのように紹介させていただきました。

ちなみにワードプレスには音声入力をサポートするプラグインが存在しています。検討に挙げましたが、インストールしたところ一切動きませんでしたので却下しました。

各音声入力の精度テスト

実際にテストする前に、前提と各音声認識ソフトの使い方を合わせて紹介します。

テストの前提

テストにおいて出来る限り公平を期すため、音声の入力デバイスは手元にあったヘッドセットに統一しています。

今回のテストに使った製品はこちら。

また今回読み上げる文章も統一しています。

以下の文章を読み上げ、音声入力の精度テストを行ってみたいと思います。

音声認識とは、人間の声などをコンピューターに認識させることである。話し言葉を文字列に変換したり音声の特徴をとらえて声を出している人を識別したりする機能を指している[1]。
話し言葉を文字列に変換する機能は、指を用いてキーボードから入力する方法に代わるものである。 文字列(文章)を入力する機能だけを呼び分ける場合は「音声入力」あるいは「ディクテーション(聞き取り)」と言う。
(ちょうどキーボードから文字列やショートカットを入力してアプリケーションを操作できるように)音声認識でアプリケーションを操作することも可能である。音声でアプリケーションを操作することは「音声操作」と言う。
「音声認識」に話者が誰なのか識別する機能を含めることもある。これは、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう機能であり、この機能を特に呼び分ける場合は「話者認識」とも言う。

Wikipediaより

やたらと括弧があってめんどくさそうな文章です(笑)

今回はぶっつけ本番の一発勝負、忖度なし修正なしと言うことでやっていきたいと思います。(明らかに自分が読み間違えた場合を除く)

またソフトによっても、一度に入力可能な文章量が違いますので、可能な限り長文で入力し、限度が来たところで複数回に分けて入力することとします。

iPhone標準音声入力

みんな大好き、iPhoneの標準の音声入力のテストです。

iPhone自体はスマートフォンですので、そのままワードプレスにアクセスして、文章を作成することも可能ではありますが、修正や長い文章を作成する事を考えると、使い勝手が良いとは言えません。

今回のテスト自体は、修正をしない前提ですが、より実践向きの使い方として良い方法を発見しましたので、合わせて紹介させていただきます。

iPhoneの音声入力をPCに反映させる

iPhoneの音声入力を最終的にブログの形にするために、いくつかの手段が考えられます。

  • ワードプレスを開いて直接入力
  • Evernoteに音声入力→同期→PCでコピペ
  • DropBoxにテキストファイルを作成→同期→PCでコピペ

等々…。

上でも述べた通り、ワードプレスへの直接入力も可能ですが、修正や長文の入力などを考慮した時、実践向きではありません。

EvernoteやDropboxを使う方法も思いつきましたが、結局、iPhone側のアプリで修正等を行うことになるので、ワードプレスに直接入力した場合とさほど変わりません。

色々探し検討した結果、なんと、 iPhoneへの入力を直接PCに反映させるアプリを発見しました。

Remote Mouse

remote mouse

https://apps.apple.com/jp/app/remote-mouse/id385894596

このアプリを経由するとiPhoneがPCのキーボードやトラックパッドの代わりになり、入力を直接PCに反映させることが出来ます。

割と神。

ちなみに僕の環境では、サーバー側のアプリケーションが最新バージョンだと、一度サーバーを終了すると、再度立ち上げすることができない不具合が発生したので、少し古いバージョン2.5を探してインストールしています。

iPhone標準音声入力テスト本番

万を持して、テストの結果です。

iPhone標準音声入力テスト結果

音声認識とは、人間の声などをコンピューターに認識させることである。話し言葉を文字列に変換したり音声の特徴捉えて声を出している人を識別したりする機能を指している(1冊)。話し言葉を文字列に変換する機能は、指を用いてキーボードから入力する方法にわるものである。文字列(文章)を入力する機能だけを読み分ける場合は「音声入力」あるいは「ディクテーション(聞き取り)」と言う。(ちょうどキーボードから文字列やショートカットをしてアプリケーションを操作できるように)音声認識でアプリケーションを操作することも可能である。音声でアプリケーションを操作することは「音声操作」と言う。「音声認識」に話者が誰なのか識別機能を含めることもある。これは、あらかじめ記録しておいた音声パターンと比較して個人認証などを行う機能であり、この機能を特に呼び分ける場合は「話者認識」とも言える

ヤバくないすか?

青下線が原文と異なる箇所ですが、ほぼ変換による違い。気になる箇所と言えば、

  • 「捉え」の前の「を」が脱字している。
  • [](角カッコ)が上手く認識できなかった。
  • 「入力」を「略」と認識。
  • 文末の「言う」を「言える」と誤認。

この4箇所くらいですね。漢字への変換も括弧系の入力も音声で行っていて、そのまま記載しているので、精度は抜群です。

ちなみに今回はスルーしていますが、改行も音声入力できます。

角カッコに関しては、もしかしたら言い方が違ったのかと思い、後から色々試してみましたが、[]←これを呼び出す言い方が分かりませんでした。ちなみにテストの時は「かくかっこ」と発声しています。

Googleドキュメント音声入力

Googleアシスタント

Googleも音声アシスタントのデベロッパーのうちの1社です。

Google音声アシスタントからブログ作成への経路

Google系の音声入力は色んなところで使えますので、ブログを作成する方法もいくつか思いつきましたが、今回はGoogleドキュメントに搭載されている音声入力から文章を作成し、それをワードプレスにコピペすると言う方法を仮定してテストしてみました。

Googleドキュメント

今回エントリーした中で、唯一Googleドキュメント音声入力のみワードプレスへの直接入力が出来ません。

Androidスマホからワードプレスを開けば直接入力自体は可能なのですが、iPhoneの時と同様の考えで、修正・長文を考えるとPCで編集できるスタイルが望ましいです。

AndroidにもRemote Mouse的なアプリも存在しているのかもしれませんが、普段Androidを使っていなくて今回探しきれなかったので、上記方法でテストすることにしました。

Googleドキュメント音声入力テスト本番

Googleドキュメント音声入力テスト結果

音声認識とは人間の声などをコンピューターに認識させることであるまる話し言葉を文字列に変換したり音声の特徴を捉えて声を出している人を識別したりする機能をさせている角括弧角括弧閉じ丸話し言葉を文字列に変換する機能は全指を用いてキーボードから入力する方法に代わるものである丸文字列括弧文章括弧閉じを入力する機能だけ及び分ける場合は鉤括弧音声入力かぎかっことじあるいはかぎかっこ育成所んかっこ聞き取りかっことじかぎかっことじとゆう丸かっこちょうどキーボードから文字列やショートカットを入力してアプリケーションを操作できるようにかっこ音声認識でアプリケーションを操作することも可能であるまる音声でアプリケーションを操作することはかぎかっこ音声操作かぎかっこというまるかぎかっこ音声認識かぎかっことじには者が誰なのか好きですする機能を含めることもあるまるこれはあらかじめ記録しておいて音声パターンと比較して個人認証などを行う機能でありこの機能を特に選り分ける場合は破棄格好話者認識かぎかっことじとも言う 。

いや、括弧が…。入力終わってから見てみてビックリしました(笑)

調べたところ、Googleの音声入力は括弧や句読点などの入力を想定していないようです。

…。

ぶっつけ本番一発勝負とは言いましたが、流石にこれは・・・。
想定していない入力のせいで、文脈を見ながら適宜自動修正する機能も上手く働いていないように感じますね。

という事で、泣きの一回。

句読点括弧は無視して、純粋に文章のみを読み上げることにします。

Googleドキュメント音声入力再テスト結果

音声認識とは人間の声などをコンピューターに認識させることである
話し言葉を文字列に変換したり音声の特徴をえて声を出している人を識別したりする機能をさせている
話し言葉を文字列に変換する機能は指を用いてキーボードから入力する方法に代わるものである
文字列文章を入力する機能だけおよび分ける場合は音声入力あるいはディクテーションき取りと言う
ちょうどキーボードから文字列やショートカットを入力してアプリケーションを操作できるように音声認識でアプリケーションを操作することも可能である
音声でアプリケーションを操作するは音声操作と
音声認識に者が誰なのか識別する機能を含めることもあるこれはあらかじめ気力しておいた音声パターンと比較して個人認証等をう機能でありこの機能を特に選り分ける場合は話者認識とも言う

かなりマシになりましたね。句読点がなく、そのままだとあまりに見にくかったので、改行だけ手動で入れていますが、認識率はiPhoneとほぼ互角でしょうか。

おかしな箇所はほぼ変換か、近くに括弧があってそのまま読み上げると文脈が変になる箇所ですね。

  • 「指し」を「させ」に誤認。
  • 「話者」を「は者」に誤認。
  • 「記録」を「気力」に誤認。

気になるのはこの辺でしょうか。

サ行が多いので、僕の滑舌の問題の気がしなくもないですが…(笑)

認識率はかなりのものですね。

とは言え、括弧はさておき、句読点が入力不可である点を踏まえると、iPhoneの標準音声入力の方が、使い勝手は良さそうです。

iPhoneより優れた点としては、音声入力の受付時間が超ロングランです。
息が長い。

iPhoneだと、ある程度読み上げると勝手に音声入力モードを切られてしまうのですが、Googleは全文読みきってもまだ入力を続けることが出来ました。

ただ、そんな長い文章を作れたとしても、後から句読点入れなければいけない事を考えると…。

Windows標準音声入力

Windows音声認識

意外と知らない人も多いかもしれませんが、Windowsには標準で音声入力の機能が備わっています

Windows10を使っている方であれば、音声アシスタントのコルタナを知っていると思いますので、なんとなく音声入力ができそうな事は理解できると思います。

Windows標準音声入力からブログ作成への経路

windowsの標準音声入力からブログ作成への経路に関してですが、ワードプレスへの直接入力も出来るようなんですが、どうもこれがうまく動作しない。

ということで、ワードプレスの直接の入力は諦めて、wordを立ち上げ、その中で音声入力を使い執筆。
そこからコピペしてワードプレスに反映させると言う手順を踏むことにしました。

Windows標準音声入力テスト本番

Windows標準音声入力テスト結果

音声認識とは、人間の声などをコンピューターに認識させることである。話し言葉をに変換したり恩赦の特徴をとらえて声を出している人を識別したりする基本を指している。話し言葉をし烈に変換する機能は、指を用いてキーボードから入力する方法にわるものである。文章を入力する基本気をより分ける場合は音声入力あるいは、資本聞き取りと。所の仕事からやショートカットを入力してアプリケーションを称賛おねしょを操作することも可能である。温泉にアプリケーションを操作することは音声操作とう。音声認識にはしゃれ七日識別するくれることある。これはあらかじめ記しており馬関比較して個人認証などを行気もないこの基本を特により分ける場合は5社認識とのいる

無茶苦茶ですね(笑)

「賞賛おねしょ」には笑いました(爆)

変換や微妙な言葉の読み取り違いはさておき、そもそも日本語にすらなっていない箇所も多数あります。

実践で使うには、あまりにも精度が低いですね。

音声入力でのブログ執筆法-総括-

使ってきた中では、iPhoneの標準音声入力によるブログの執筆が1番使いやすかったように感じます。

各種記号が音声によって入力できる点が良かったですね。

発話自体の認識率は、Googleアシスタントの音声入力もそれほど変わらないものでしたが、やはり句読点が入力できる点は、大きなアドバンテージですよね。

この記事を書きながら、自分自身がどの程度の速さでキーボードの入力ができるのかが気になり、こちらのサイトでテストを受けてみました。

キーボードの入力自体にはそこそこの自信があったのですが、実際にテストした結果5分間で日本語の文字数で680文字程度が限界でした。(サイトに依ると準二級らしい)

対して、音声入力は、かなーりゆっくり発声しても、5分間で軽く1,000字は達成できました

よく3000字から4000字程度の文章がSEOに強い、なんて言われたりもしますが、音声入力を使えば15分程度で達成できることになります。

生産性を上げるためにも使わない手は無いですね。

当ブログのようにソースコードが文章の間にガンガン入ってくるような、テック系ブログにはあまり向かないかもしれませんが、文章中心の読み物系のブログなんかであれば、音声入力でブログを執筆するメリットは大きくありそうですね。