ベストアンサー
最初の2つの答えは正しいものですが、どちらもサンプリングの変動をエラーとして扱います。その場合、サンプリングエラーのより正確な用語。
サンプリングの変動は、単にサンプルごとの統計の変動です。実際のサンプルを比較して測定することも、データに関する知識から、または単一のサンプルから理論的に推定することもできます。
サンプリングエラーの例は、投票を行って人の割合を推定することです。次の選挙で民主党候補に投票する人。真の母集団の割合を知りたい。サンプルで民主党に投票すると言う割合は、抽選の運によって実際の母集団の割合とは異なる可能性があります。これはサンプリングエラーです。また、偏見や回答の記録ミス、その他の問題によって異なる場合があります。これらはサンプリングエラーではありません。
サンプリングエラーではないサンプリング変動の例は、1人あたりに持ち込む食品の量を決定しようとするケータリング業者です。イベントに。彼女は平均値だけでなく、サンプリングの変動にも関心があります。もちろん、イベントの種類、ゲストの年齢、時間帯などからも予測可能な変動があります。ただし、測定されたすべての制御因子で同一の2つのイベントであっても、消費される食品の量は異なります。
ケータリング業者が平均を知りたくない理由は、戦略的な選択ができるためです。たとえば、彼女は高価で生鮮食品を持ち込み、群衆の食欲を最小限に抑えるためだけに持ち込み、必要に応じてより安価で長持ちする食品を持ち出し、おそらく緊急のバックアップの生鮮食品を群衆が非常に飢えている場合。
回答
オーバーサンプリングとアンダーサンプリングは、機械学習で使用される2つの重要な手法です。クラスの不均衡を減らし、それによってモデルの精度を高めます。
分類は、類似したインスタンスの過去の特性を学習することによって、おそらく属する可能性のあるデータポイントのカテゴリを予測することに他なりません。
たとえば、
- 人が男性か女性かを予測する
- 銀行の顧客がローンを返済できるかどうかを予測します。
- どちらを予測するメールがスパムやスパム対策などである場合。
予測能力は、何かが起こっていると仮定して過去の多くの同様のインスタンスを調べることによってモデルによって得られます。将来起こることは過去の反映になります。現在、特に分類の問題では、各カテゴリはクラスと呼ばれます。
たとえば、人が男性か女性かを予測する場合、「男性」はクラスと見なされ、「女性」はクラスと見なされます。 」もクラスと見なされます。過去のインスタンスを使用してこれらのクラスの特性について学習する一方で、高精度のモデルを開発するには、これらのクラスをほぼ均等に分離する必要があります。
つまり、モデルに性別を予測する機能が必要な場合その場合、男性と女性の両方がある程度平等に参加する必要がある過去の少なくとも数千の記録からこの能力を学ぶ必要があります。クラスの分離がほぼ等しくない場合は、「クラスの不均衡」の問題と見なすことができます。
説明しようと思いますこれを例に挙げて-
映画がヒットになるかフロップになるかを予測するために、バイナリ分類の問題があると考えてみましょう。
独立変数として次の機能があります-
- 期間(分単位)
- ジャンル
- リリース月
データは次のようになります(サンプル1)–
ほとんどの場合、機械学習モデルは学習しますこのデータからの次の推測-
- 4月から5月にリリースされた映画は成功しています。
- コメディーのジャンルに属する映画はほとんど成功しました。
-
ホラージャンルに属する映画はほとんどが失敗でした。
- 6月にリリースされた映画- 7月はそれほど成功していません。
つまり、
の予測はどうなるでしょうか。新しいコメディ映画が4月にリリースされた場合、私たちのモデルは?
この映画が興行収入でかなりの金額を稼ぐ可能性が高いため、ヒットとして予測されます過去4月から5月にリリースされたすべてのコメディ映画が成功して以来、オフィス。
新しいホラー映画が7月にリリースされた場合、モデルの予測はどうなりますか?
私たちのモデルは、過去のデータからこれまでのところ成功したホラー映画はなく、視聴者が劇場に転向したことがない7月にも成功したため、フロップとして予測します。
このモデルの予測能力は過去の歴史を調べた経験から、リリース前でも成功した映画と失敗した映画の特徴を区別することができたので、写真に。
今、次のようにモデルへの入力データがあると考えてみましょう(サンプル2)-
ここに、過去のデータの90%はヒット映画の特性に属しており、フロップ映画の特性を学習するために存在するレコードは10%のみです。を使用してモデルを作成する場合上記のデータ(サンプル-2)では、それはwiだと思いますか良い予測を立てることができますか?
いいえ。
理由を詳しく見てみましょう。
新しいホラー映画が7月にリリースされた場合、モデルの予測はどうなりますか?
ここでは、モデルが正しい予測を行うという保証はありません。 (フロップ)フロップ映画の特徴について十分に学ぶことができなかったためです。
ホラー映画を1億ドルで制作し、リリース日を2021年6月22日に固定したとします。 、あなたはボックスオフィスでこの映画の可能な結果がどうなるか知りたいです。
したがって、サンプル-1でモデルを実行した場合クラスの均等な分離(ヒット/フロップ)が含まれている場合、結果は「フロップ」(実際には正しい)として予測されます。もしそうなら、次のような失敗の可能性に応じて予防策を講じることができたでしょう-
- リリース日の変更
- 映画の宣伝と宣伝を増やす
- 誇大広告などを増やすために映画の新しい予告編をリリースする。
ただし、サンプル-2 モデル の場合、結果はヒットとして予測され、それによって映画を決まった日付(6月22日)にリリースすることになります。
Sample-2のモデルの予測が間違っていた実際の理由は、6月に公開された映画とそれも理解できなかったためです。ホラーのジャンルは、学習データに同様の例がないため、興行収入で成功する可能性は非常に低いです。
一部のクラスのカウントが非常に少なく、残りのクラスのカウントが非常に多いデータセット内のこの不均一なプレゼンスレコードは、クラスの不均衡と呼ばれます。
このシナリオを克服する方法は?
2つの主な方法があります-
- オーバーサンプリング
- アンダーサンプリング
オーバーサンプリングは、存在感が非常に低いクラスに属するレコードの数を複製することに他なりません。上記の例では、「ヒット」カテゴリに属するレコードが9つあり、「フロップ」カテゴリに属するレコードは1つだけです。これで、「フロップ」カテゴリに属するレコードの数を、その存在を複製することで人為的に増やすことができます。
ここで、 「フロップ」カテゴリに属するレコードをさらに5つ人工的に作成し、両方のクラスに属するレコード数の差を狭めるようにしました。これは、オーバーサンプリングの典型的な例です。
アンダーサンプリングは、比較したときに非常に存在感のあるクラスに属するレコードの数を減らすことに他なりません。他のクラスに。
ここでは、「ヒット」に属するレコードの数を減らして、両方のクラスに属するレコード数の差が狭まりました。これは、アンダーサンプリングの典型的な例です。削除のレコードは、ランダムなプロセスによって厳密に選択され、制約やバイアスの影響を受けません。
お役に立てば幸いです!!! スパン>