国際IQテストの信憑性を調べてみた



当サイトでも以前紹介させていただいた、有料にてIQテストを受けることができるサイト https://international-iq-test.com/ ですが、記事自体がサイト内でも人気のようですので、追加の調査をしてみました。

信憑性と言うと少し大げさですが、実際にどういった方式でIQを算出しているのか、結果として提示されるIQはどれほど信用に値する数値なのか、気になったため調べてみました。

ちなみに紹介記事はこちらです。

調査概要

国際IQテストのサイトトップページでは、直近20件のテストを受けた方の結果がリアルタイムで掲載されています。

Pythonのスクリプトでそれらの結果を定点観測し、ある程度のデータが溜まった時点で解析するという方法をとりました。

取得したデータを元に、

  • どういった方式でIQの値を算出しているのか?
  • 分布は適切なのか?

などを推測・解析していきたいと思います。

調査に使ったスクリプト紹介

今回の調査はPythonのスクレイピングと、統計解析用のライブラリを使いました。あんまり興味のない方は読み飛ばしてください。

データの取得

データの定点観測/取得用のソースコードは上記の通りです。

後はこれをサーバーにアップロードして、CRONで10分おきにスクリプトが動作するように設定するとCSVにどんどん受験者の結果データが蓄積されていきます。

https://lets-hack.tech/wp-content/python/international-iq-test/data/data.csv

取得したデータを解析してみる

とりあえず、取得したデータを解析するためのスクリプトの下準備です。

理想的なIQの出現率と視覚化

現代で広くIQとして認識されている数値は2種類存在しますが、今回はDIQと呼ばれる、いわゆる偏差値に近い計算の方法で算出されていると仮定します。

100を中央値とした標準偏差15として補正した場合のIQの出現率は以下の様なグラフとなります。

IQの理想の出現率のモデル
IQの理想の出現率のモデル

スクリプト例は下記。

正規分布する100を中央値、標準偏差15としたランダムな値を生成して、それを視覚化したものです。要するに理想的な形をとるダミーデータですね。

縦軸に出現回数、横軸にIQを取っていて、100から離れるにしたがって出現数がきれいに下がっていく様子が直感的に分かるかと思います。

正規分布のイメージ
正規分布の出現率

ついでに中央値、平均値、最小値、最大値、歪度、尖度、シャピロウィルク検定もやっときます。

最大値くらいまでは意味が分かる方が大半かと思いますが、歪度、尖度、シャピロウィルク検定は中々聞くことが少ないかと思いますので、軽く解説。

正規分布
  • 歪度
    出現の左右対称性。0に近いほど中央値を境に対称な出現率であり、正の値に伸びるほど右に伸びていると判断できる。
  • 尖度
    0(または3)を基準としたグラフの尖り方。基準である正規分布の尖度よりも大きければ分布は尖っており、小さければ緩やかな分布である。
  • シャピロウィルク検定
    そのデータの分布が「正規分布である」かどうかを調べるための便利な公式。P値が0.05を超えるとそのデータは「正規分布である」と言ってもよいことになる。

ぶっちゃけ、シャピロウィルク検定の中身に関しては僕もほぼわかってません(笑)
ただ、この関数があるので、数字の意味さえ読めれば特に分かる必要性がありませんね。

先人の英知、プライスレス。

国際IQテストのIQ出現率を視覚化

実際に国際IQテストのサイトから取得したデータを元に、理想の出現率を視覚化したのと同じようにやってみます。

国際IQテストのIQ出現率
国際IQテストのIQ出現率

理想の形と比べるとかなり歪であることがパッと見で分かります。

ただ一応100付近を中心とした山型にはなっていますね。

シャピロウィルク検定によると、正規性は認められないという結論になります。

ダミー(理想)データと実データを重ねてみる

ダミーデータと実際のデータを重ねてみる
オレンジが実際のデータ

データのサンプルの件数は両者とも750件です。ブルーが理想値のダミーデータ、オレンジが実際に測定されたIQの出現回数です。

こうしてみるとそこそこ重なっているような気もしますが、実際のデータはIQ120付近が理想値よりあからさまに突出して多いこと、逆に80以下、142以上の出現を切って捨てたかのようになくなっていることが目につきますね。

理想とのズレ
理想とのズレが大きい部分

分析と考察

ここからは推測を含む部分が多くなります

まず国際IQテストの結果を取得したデータを見る限り、「正規性は認められない」と言う結論になるかと思います。

では、それをもって直ちに「このテストが信用に値しないのか」と言われれば僕が考える答えは「No」です。

国際IQテストのIQの算出法について

IQの算出法に関してですが、オンラインでのIQテストのアプリケーションをデザインする際の算出方法としては2パターンが考えられるかと思います。

  • 実際のオンラインテスト受験者の得点をもとにIQを割り出す。
  • 事前に十分な量のサンプル受験者データを用意しておき、そのデータをもとに受験者のIQを算出する。

つまり、事前に準備したデータからIQを割り出すか、リアルタイム算出するか、という2通りです。

前者の方式であれば、出現するIQはキレイに正規分布に従いますので、見た目のIQ出現率自体は非常にそれらしいものになると思います。

ただ、この方式をオンラインのIQテストで実施してしまうと、いくつかの致命的な問題が出てきます。

  • 2回目以降の受験者もデータに含めてしまう可能性がある。
  • 問題が外部に漏れた時に、答えを知った状態参加した受験者のデータも計算に含めてしまうことになる。
  • 受験したタイミングで測定される(測定された)IQが後々変わる可能性がある。(母集団が変化するため)

このように最終的に算出されたIQの出現率自体は整いますが、内容としては非常にアンフェアなものになる可能性が高いです。

ですので、国際IQテストでの算出方法は後者であると考えるのが普通かなと思います。

明らかにデータが偏っている点に関して

実際のIQデータに関して、グラフを見れば明らかですが、115以降の高IQ値の出現率が非常に高くなっている点80未満と142以上が切って捨てたかのように出現率が低くなっている点が少し不自然に感じる方も多いでしょう。

IQ142以上が出現していない点

なだらかに出現率が下がっているのは見て取れますが、IQ 142を境に出現が0になります。

ダミーのデータでもIQ 150以上が2件ほど出現している点を考えてもこれは明らかに不自然です。

この点に関しては IQ 142 がこのテストにおける最高計測値である可能性が非常に高いです。

このテストの問題数は40問。仮に全問正解者(または全問不正解者)がいた場合は、その人のIQはこのテストでは計測不能となります。

この部分に関しては最高計測値が原因であるという推測でほぼほぼ間違いないと思います。

IQ 80以下が極端に少なくIQ 115以上が多い点

この部分に関してはあくまで推測の域を出ませんが、テスト自体に何かがあると言うよりは、このテストの受験者側に偏りがある可能性が考えられます。

  1. ネットでIQテストを受けるようなタイプの人(しかも有料)がそもそも高いIQを持っている可能性が高い?
  2. テストの問題を解き終わってから料金を催促されるため、テストの結果にある程度自信がなければ、お金を払ってまで結果を見たいと言う人が少ない可能性が高い?
  3. SNSとかで「俺すげぇ」したいために、2回目以降の受験をしている可能性がある。

あくまでサイト上に掲載されるIQのスコアは「お金を払った人のもの」です。(5ユーロですが)

この時点で、結果のデータにそこそこのバイアスがかかる事は容易に予測できるかと思います。

少し難しい言葉で「生存バイアス」と言ったりもします。

受講者に対するヨイショをする意図があるのであれば、そもそも100以下のIQとか出現してるのが不自然ですし、サイト側からしてみれば、もう金は払ってもらってるわけですから結果の公開時点で無理にヨイショする必要は一切ないわけです。

収益に影響しませんからね(笑)

ちなみに中央値、平均値がIQ 106 ~ IQ 107くらいですので、高い方に偏っているのは明らかですね。

加えてテスト自体に時間制限がないことも中央値・平均値を引き上げている要因になっているかもしれません。

結論

以上のことを踏まえて、僕の感想としては「意外とちゃんとしてそう」という事です。(あくまで個人の見解です)

そもそも100以下のIQも結構な割合で算出されるようですので、テスト自体の意図的な「よいしょ」はあまり感じませんね。

慎重で、じっくり考えこんで時間を十分にかける方は5~10ポイントほど高いIQが表示される可能性が高いと思いますので、より正確な値を知りたければ受験時に自身で制限時間を設けたりするのもイイかもしれません。

40問ですので制限時間40分くらいが妥当でしょうか。

おそらくですが、最高計測値付近のIQが出た方なら結構な割合でMensa受かるんじゃないでしょうか。

MensaのリミットはSD15でIQ130という基準のようですので、このテストで10ポイントもその基準をオーバーしていれば十二分に受かる可能性はあると思います。
もちろん受講二回目とか、一日考え込んでテストやり切ったとかなら流石に論外ですが。

やや高めのIQが表示される可能性は制限時間の件もあり、否定は出来ませんが、このテストで悪いIQが出た方が逆に他のIQテストで高得点だったみたいなケースはかなり考えにくいかと思います。

自身で意図的に有利な結果が出るような操作をしなければ比較的他のテストなんかで得られる数値と近い値、もしくはそれ以上の信憑性のある数値は得られそうな気がします。