AI を最大活用する専門用語集
AI に関する用語は進化し続けています。データと分析の分野で
知っておくべき主な AI 用語を解説します。
AI Copilot(AI アシスタント)
Algorithm(アルゴリズム)
Augmented Analytics(拡張アナリティクス)
Augmented Data Integration(拡張データ統合)
Augmented Data Quality(拡張データ品質)
Auto-Classification(自動分類)
AutoML(自動機械学習)
Automated Insights(自動化されたインサイト)
Balancing(バランス調整)
Bias
Citizen Data Scientist
(シチズンデータサイエンティスト)
Classification(分類)
Cognitive BI(コグニティブ BI)
Conversational AI(対話型 AI)
Data Cleaning
Data Foundation
Data Governance(データガバナンス)
Data Labeling(データラベリング)
Data Preparation
Data Provenance
Data Quality
Data Quality Intelligence
(データ品質インテリジェンス)
Data Science(データサイエンス)
Deep Learning(ディープラーニング)
Experiment(テスト)
Explainable AI(説明可能な AI)
Forecasting(予測)
Foundational Model(基盤モデル)
Generative AI(生成 AI)
Key Driver Analysis(キードライバー分析)
Large Language Model(大規模言語モデル)
Low-Code/No-Code(ローコード / ノーコード)
Machine Learning(機械学習)
Model Authoring(モデルオーサリング)
Model Deployment(モデルの展開)
Model Drift(モデルドリフト)
Model Training(モデルの学習)
Natural Language Query(自然言語クエリ)
Neural Network(ニューラルネットワーク)
Predictive AI(予測 AI)
Predictive Analytics(予測分析)
Prompt(プロンプト)
Regression(回帰分析)
Self-Supervised and Unsupervised Learning(自己教師あり学習 / 教師なし学習)
Sentiment Analysis(センチメント分析)
Shapely Values(シャープレイ値)
Structured and Unstructured Data(構造化データ / 非構造化データ)
Supervised Learning(教師あり学習)
Synthetic Data(合成データ)
Time Series Analysis(時系列分析)
Training Data(学習用データ)
What-If Scenarios(What-If シナリオ)
AI Copilot(AI アシスタント)
「Hey Siri、AI アシスタントってどういう意味?」Siri のような AI 搭載ソリューションは、自然言語のコマンドを理解して応答することができます。人間のようなインターフェースとは、ユーザーが音声プロンプトを入力すると、アシスタントがタスクを実行してカスタマイズした応答を返すという、人間同士のような会話を仲介する機能です。Amazon の Alexa / Apple の Siri / Microsoft の Copilot / Google Assistant など、多くの最先端のスマートデバイスに組み込まれており、普及し続けています。AI アシスタントは、利用者が AI に触れる最も身近な手段です。
Algorithm(アルゴリズム)
すべての AI モデルは、従うべき方向性や一連の指示を必要としています。この方向性や指示がアルゴリズムです。モデルに動きを指示して学習能力を決定します。アルゴリズムは学習用データを取り込み、これを基にタスクを実行します。アルゴリズムは、多くのタスクを完了し、現在の出力がどの程度目標に近づいているのかを学習。達成度に応じてプロセスを改良することができます。このように自己改良ができるため、プログラマーはアルゴリズムが意図したとおりに動作しているのかを確認し、厳密に管理して偏りを回避する必要があります。現在の機械学習と AI には、さまざまなタスクに対応する多様なアルゴリズムが存在します。データサイエンティストや機械学習エンジニアは、目の前の問題・データ・目標に基づいて、特定のアルゴリズム手法を適用する方法と理由を理解する必要があります。
Augmented Analytics(拡張アナリティクス)
拡張アナリティクスは、データ利用者と情報の対話を可能にし、人間の認知能力を強化します。Gartner 社は、「拡張アナリティクスは、データの準備、インサイトの生成や説明をアシストする機械学習や AI のようなテクノロジーを活用している」としています。こうしたテクノロジーの可用性は、分析機能をレベルアップし、人間のデータ探索を強化します。最終的には、人間が状況に基づいてデータを操作する能力を強化し、より多くの人が分析ツールを利用できるようになります。
Augmented Data Integration(拡張データ統合)
一般的に、データ統合の作業には多くの時間を要します。これは重要な作業ですが、データ専門家の時間を奪い、高度なスキルを最大限に活用できないため、比較的価値の低い業務であると言えます。拡張データ統合は、AI でデータ統合プロセスを高速化し、データ専門家の負担を軽減します。Gartner 社は、「データ管理作業の自動化で、手動のデータ処理に要する時間を 45% 削減できる」としています。自動化は業務内容を拡大します。データ専門家は、より複雑な作業や非常に重要な業務に専念できるようになります。
Augmented Data Quality(拡張データ品質)
データ品質は、企業のデータガバナンス戦略における重要な要素です。データセットの正確性・完全性・偏り・目的との適合性を判定することができます。分析対象の情報の品質を検証しなければ、システムを自動化しても意図したとおりに機能しません。この検証プロセスを自動化してデータ品質を強化することで、より迅速に作業を完了できるようになります。特に、時間を要する手動の大規模データセットの検証には最適です。これにより、高品質のデータを確保しながら、時間を要する重要な作業を効率化することができます。
Auto-Classification(自動分類)
分析プロセスは、必ずしも複雑なデータセットから詳細なインサイトを明らかにするプロセスではありません。文書やその他の資産を大まかに分類するだけで十分な場合は、センチメント分析と同様に、AI による自動分類という形式で強化することができます。自動分類は、事前に定義された基準に基づいて文書をスキャンし、人手を介さずに関連するタグやラベルを割り当てます。
モデルがスキャンするキーワードを企業のニーズに応じて調整し、データを整理することができます。ユーザーが迅速にコンテンツをカテゴリ分けできるため、コンテンツ管理に有用です。また、AI を活用した検索の可能性を引き出す基盤にもなります。
AutoML(自動機械学習)
AutoML™ は、専門知識がなくても機械学習を使用できるよう設計されたソリューションです。Gartner 社は、「AutoML は、データ準備・特徴量エンジニアリング・モデルエンジニアリングの自動化である」と定義しています。従来は、この 3 つの作業を完了するのに特定の専門知識が必要でした。AutoML は、十分な機械学習の専門知識がない開発者でも、非常に複雑な作業を完了し、ビジネスニーズに応じた高品質のモデル学習を可能にします。また、より多くのユースケースで、実績分析から予測分析に移行できるようになります。
Automated Insights(自動化されたインサイト)
自動化されたインサイトで、同時に 2 つのメリットを得ることができます。1 つは、AI で膨大なデータから実用的な情報を獲得できるようになります。もう 1 つは、技術的な専門知識に頼る手動の分析を行う必要がなくなります。
特に、ビジネス部門の従業員は、より迅速にビジネス上の意思決定ができるようになります。自動化されたインサイトソリューションは、機械学習・自然言語処理・統計分析を基盤とし、重要な発見や推奨されるアクションを容易に特定します。
Balancing(バランス調整)
バランス調整されていない機能が含まれるデータセットの場合、あるクラスの数が他のクラスの数を大幅に上回ります。これは不均衡クラスと呼ばれ、機械学習プロセスで考慮する必要があります。バランス調整のプロセスは、データサイエンティストにとって極めて一般的なプロセスです。データセットの不均衡を放置すると、分析の精度に重大な影響を与えたり、AI モデルに偏りが生じる可能性があります。対処には合成データを生成する際のリサンプリングなどの方法が有効ですが、最適な方法はデータセットの特性によって異なります。
Bias
Bias in AI is like a hidden trap that can skew your model’s predictions and decisions. It creeps in from various sources, including the training data, the algorithms, or even how the AI is deployed. If your training data has biases, such as underrepresenting certain groups, your AI will likely repeat those biases. That’s why it's essential for data scientists to spot and fix bias using techniques like balanced datasets and fairness checks, ensuring your AI operates fairly and transparently.
Citizen Data Scientist
(シチズンデータサイエンティスト)
分析・AI・データは、技術者の専売特許ではなくなっています。明らかに業務にデータを活用している業界や職種が増えているからです。「シチズンデータサイエンティスト」という新たな職種が出現しています。コーディングや統計の専門家ではなく、自身の職務において、データサイエンスに従事するビジネスアナリストを指します。
たとえば、シチズンデータサイエンティストはビジネス志向が強く、分析と戦略的な意思決定の間のギャップを解消する傾向にあります。データサイエンティストの業務を補完して得たインサイトを利用して、データに基づいた日々の意思決定をサポートします。これにより、専門家は高度な技術が必要な業務に専念できるようになります。
Classification(分類)
分類プロセスは、データや文書を事前に設定されたグループに分類する基本的な並べ替えを、機械学習で自動化します。たとえば、1 組になっていない大量の靴下を引き出しに放り込んでおいたとします。後で引き出しを開けると、靴下は自動的に 1 組みになって、運動用・仕事用・休日用に分類されているというイメージです。これは、分類アルゴリズムの機能をわかりやすく表した例です。最適な分類には、モデルの学習が不可欠です。特定のタグやキーワードを正しいカテゴリにマッピングする方法を、モデルに学習させる必要があります。モデルは、将来のデータセットを関連する各カテゴリに自律的に分類する方法を習得します。具体的には、予測的インサイトの獲得や隠れたパターンの発見を強力にサポートします。
Cognitive BI(コグニティブ BI)
コグニティブ BI は、従来の BI プロセスと、AI や自然言語処理などのコグニティブコンピューティングテクノロジーを組み合わせます。これにより、企業はデータ主導型の意思決定を行うことができます。複数のテクノロジーを融合し、マーケティングから財務まで、企業全体でデータの使用方法を変革します。また、実用的な価値の高いデータ主導型のインサイトへのアクセスを可能にします。
Conversational AI(対話型 AI)
AI を一般的な用途に適用する前に、人間の言語を理解して処理できるのか、模擬テストをする必要があります。そこで対話型 AI の出番です。これは、人間と AI の対話を可能にするモデルの一種です。対話型 AI は、チャットボットという形でカスタマーサービスで一般的に利用されています。キーワード検索から事前に定義された応答を提供し、質問への回答や問題解決を実行することができます。このテクノロジーは、対話型アナリティクスの基盤でもあります。人間の会話を理解してデータを導き出すことで、顧客とのやり取りから学習できるようになります。
Data Cleaning
Data cleaning is like giving your data a good scrub, getting rid of errors and inconsistencies. This includes removing duplicates, fixing inaccuracies, handling missing values, and ensuring uniform formats. Clean data is crucial for accurate AI models, as if your data is dirty it can result in misleading insights. By keeping your data clean, you ensure it’s ready for analysis, and your AI models can deliver trustworthy results.
Data Foundation
Think of a data foundation as the rock-solid base that holds up all your AI efforts. It covers everything from data collection and storage to management and analysis. This includes having strong data governance, top-notch data pipelines, secure storage, and efficient processing tools. With a robust data foundation, your data is accurate, consistent, and ready for action, helping you unlock AI’s full potential for smarter insights and better decisions.
Data Governance(データガバナンス)
効果的なデータ分析には、データの収集・保存・処理・破棄する方法を確立する社内ルールと基準を設定する必要があります。データガバナンスとは、こうした管理責任全体を網羅した用語です。適切なデータ統制の構造を整備することで、データセキュリティの保証を強化し、企業が保持するデータの信頼性を確保して、不正に使用されていないことを証明できるようになります。商業戦略におけるデータの役割が拡大し、企業が遵守すべきデータプライバシーの規制が進化していき、データガバナンスの重要性はますます高まっています。
Data Labeling(データラベリング)
データラベリングとは、ラベルまたはタグでデータに説明や情報を追加することで、データを理解しやすくし、機械学習アルゴリズムで使用できるようにするプロセスです。データに付けたラベルの情報に基づいた予測や分類を行うようアルゴリズムに学習させることができます。アルゴリズムは、ラベルのない新しいデータが提示された際に、正確な予測を開始できるようになります。
Data Preparation
Data preparation is the magic that turns raw data into gold. It involves cleaning, structuring, and enriching raw data to make it ready for AI model training. Proper data preparation ensures your data is accurate and consistent, setting the stage for high-performing AI. Investing in thorough data prep means better analytical insights and more effective AI-driven results.
Data Provenance
Data provenance is like a detailed diary for your data, tracking its journey from origin to final use. It records where the data comes from, how it’s transformed, and how it’s used, ensuring transparency and accountability. Knowing your data’s history is crucial for verifying its quality, staying compliant with regulations, and simplifying troubleshooting. By keeping detailed records of data provenance, you can trust your data and the AI models built on it.
Data Quality
Data quality is all about making sure your data is up to scratch – accurate, complete, consistent, reliable, and timely. High-quality data is the key to AI models that deliver valid and actionable insights. If your data is flawed, your AI's predictions will be too. That’s why organizations need to practice good data hygiene, with regular cleaning, validation, and monitoring to keep their data in top shape and ensure their AI is spot on.
Data Quality Intelligence
(データ品質インテリジェンス)
AI モデルの性能は、データの質に左右されます。低品質のデータで学習したモデルは、不正確で信頼性の低い結果をもたらす可能性があります。データ品質インテリジェンスは、自社のデータとデータ管理の強みを分析する際に、優れたデータ管理戦略の土台になります。こうしたインサイトから行動を起こすことが重要です。データの品質が低いと、常に信頼できる情報に基づいたデータ主導の意思決定を実行することができないからです。
Data Science(データサイエンス)
膨大なデータから価値あるインサイトや予測を得るには、統計学・コンピューターサイエンス・数学など、複数の分野を組み合わせる必要があります。この組み合わせが、データサイエンスです。生データから傾向を特定し、意思決定に活用できる情報に変換します。
データサイエンティストは、一般的に高度なデータスキルを有しています。データ収集からモデリング、ビジネスの状況に基づいた AI モデルの展開まで、さまざまな状況に対応することができます。企業がデータをより効果的に意思決定に活用する方法を模索する中、データサイエンスは多くの業界で急速に普及していきました。
Deep Learning(ディープラーニング)
すべての AI は人間の脳の意思決定を模倣しようとしますが、より多くのインスピレーションを必要とする分野もあります。ディープラーニングは、その構造だけでなく、データを処理・学習するのに相互接続された人工ニューロン層を使用します。そのため、ニューラルネットワークを基盤とする機械学習の一種であるとされています。
Forrester 社は、「この技術は、確率的に結果を予測したり、非構造化データを分類するニューラルネットワークの構築・学習・テストに最適である」としています。実際に、画像や音声の認識・言語翻訳・自動運転・推薦システムをサポートしています。
Experiment(テスト)
テストは、機械学習モデルを学習・評価・完成させるプロセスで、高度に構造化されています。データサイエンティストや AutoML のユーザーは、「実行」と呼ばれるすべての機械学習の作業を整理・管理することができます。この実行は、モデルを想定通りに動作させるために、何度も繰り返されることが多く、実行間の可視化と比較が必要になります。テストは、パターンを発見してモデルを微調整し、実際のビジネスへの展開を確実にする上で、非常に重要です。
Explainable AI(説明可能な AI)
AI は、インサイトの創出と結果の予測に長けていますが、同程度またはそれ以上に重要なのは、その結論に至った経緯を理解することです。説明可能性は、成果への影響、理解の促進、信頼の構築、最善の意思決定を行う上で必要不可欠です。しかし、すべての機械学習モデルが説明可能ではありません。そのため、アルゴリズムを選定する際は、意思決定が行われる状況を考慮して、説明可能性の指標が必要なのかを評価する必要があります。説明可能性が欠如している場合、ビジネスの意思決定プロセスに意図しない偏りが生じる可能性があります。
Forecasting(予測)
データ分析で AI を利用する基本的なメリットは、過去の情報を取得し、特定の時間枠内で予測を実行できることです。こうした時系列予測は、データから過去のパターンを特定し、単変量回帰分析または多変量回帰分析を使用して将来の結果を予測します。
AI 計画プログラムは、従来の予測システムを格段に上回る方法で、膨大な構造化データと非構造化データを評価して関連性とパターンを発見し、将来の事象を予測します。これにより、先を見据えた意思決定ができ、計画通りに物事が進まない場合に備えて、さまざまなシナリオを考慮することができます。
Foundational Model(基盤モデル)
AI は、学習用データと特定の用途を考慮した生成 AI モデルが開発されるまでは、基盤モデルと呼ばれていました。こうしたモデルは、より複雑なアルゴリズムを構築する基盤であり、ビジネスを展開する場に応じて適用されてきました。一般的には、大規模かつ広範なデータセットで基盤モデルに学習させます。ChatGPT の基盤として使用されている OpenAI 社の GPT-3 や GPT-4 が、これに該当します。
Generative AI(生成 AI)
AI の用途は無限ですが、AI がクリエイティブな役割の代用になるとは考えられていませんでした。しかし、生成 AI の登場で、状況は一変しました。生成モデルは、テキスト・音声・画像・動画・音楽など、新たなコンテンツを合成できるよう特別に設計されています。
しかし、新たに複雑なコンテンツを生成するのに必要なパターンと構造を学習するには、依然として人間の指示と膨大なデータが必要です。AI の分野には倫理的な懸念もあります。ディープフェイクは真実と虚偽の境界線を不明瞭にするため、特に問題になっています。
Key Driver Analysis(キードライバー分析)
キードライバー分析は、特定の結果に影響する主な要因を特定し、予測結果における重要な関連性を比較検討します。最も一般的な用途は、市場調査や顧客関係分析です。消費者行動の裏にある要因を理解し、顧客ロイヤルティなどのビジネス成果をサポートします。AI は、非常に複雑なデータセットを処理し、データのパターンと関連性を特定。最も重要な要因を発見するまで逆算し、分析を強化します。
Large Language Model(大規模言語モデル)
大規模言語モデルは、AI がテキスト・音楽・画像・動画などのコンテンツを生成するのに 利用されています。こうしたディープラーニングアルゴリズムは、既存の情報から学習して新たな生成物を生み出し、ChatGPT のような生成 AI 製品・ソリューションの基盤となっています。
Gartner 社は、「大規模言語モデルは、膨大な量のデータに基づいて学習されている。効果的に動作して高度な生成物を生み出すには、単語やフレーズ間のパターン、関連性を推測する必要がある」としています。そのため、大規模言語モデルの学習には、インターネットで公開されている膨大な情報を収集する必要があります。大規模言語モデルを搭載した製品が使用される度に、自己学習をして継続的に改善されていきます。
Low-Code/No-Code(ローコード / ノーコード)
デジタル製品やサービスの台頭で、ソフトウェアの開発スキルは、企業が求める重要なスキルの 1 つとなっていますが、依然として雇用が需要に追いついていません。問題の解決には、ローコード / ノーコードプラットフォームが求められています。コーディングの知識が不足しているユーザーでもソフトウェアの開発を可能にするためです。ほとんどがモジュール式のドラッグ&ドロップインターフェースやウィザードベースのインターフェースで、コーディングなしで構築することができます。
企業は、ローコードツール(専門開発者の限定的な関与が必要)またはノーコードツール(専門開発者の関与が不要)を、ニーズに応じて導入することができます。これにより、AI システムの構築を民主化し、専門開発者の時間を有効に活用できるようになります。
Machine Learning(機械学習)
機械学習は AI 分野の一種です。明示的なコンピューターシステムのプログラミングが不要で、データから自動的に学習できるようにします。最終的に、関係性や隠れたパターンを明らかにし、予測分析に活用します。一般的に、「データは多い方が良い」と考えられています。機械学習アルゴリズムは入力データから学習するため、より多くの情報で予測結果を改善することができます。これにより、画像認識・自然言語処理・教師あり / なし学習などの利用をサポートできるようになります。
Model Authoring(モデルオーサリング)
AI モデルの設計と作成のプロセスは、長期間で複雑になる可能性があります。また、データサイエンスと機械学習技術の専門知識も必要です。モデルオーサリングとは、実際の用途に対応できるモデルを開発するのに必要な一連の作業です。モデルの学習用データの収集と準備から始まり、モデルの展開と保守で完了します。これには、技術的スキル・創造性・問題解決能力が求められます。
Model Deployment(モデルの展開)
学習を完了した AI モデルは、実際の環境に実装できるようになります。このモデルを介して、新しいデータやリアルタイムのデータの「スコア付け」または予測を実行しますが、単に実装するだけでは不十分です。モデルの展開プロセスには、追加の作業が必要です。エンドユーザーや他のソフトウェアシステムが AI モデルを利用できるようになると、モデルは、広範囲にわたる未確認の新しいデータを学習します。これは、モデルが検出するパターンや関連性に影響を与えます。求める結果を継続的に提供できるようにするには、AI モデルを常に評価・テストする必要があります。
Model Drift(モデルドリフト)
AI モデルは、データセットに基づいて構築されます。データセットは、AI モデルが意思決定を行って生成物を提供するのに使用される情報銀行です。しかし、こうしたデータセットが更新されないまま放置されると、モデルの基となる仮定が成り立たないため、モデルの劣化を招く可能性があります。これが「モデルドリフト」です。この現象は、予測の正確性や関連性の低下、偽陽性・偽陰性の増大を引き起こします。モデルドリフトを迅速に検出・対処しなければ、モデルだけでなく、モデルが情報を提供する実際のアプリやプロセスの完全性も低下する可能性があります。
Model Training(モデルの学習)
AI システムを開発する際は、各モデルが、高品質のデータ、正しい関連性や結果の例から学習できるようにすることが重要です。この学習プロセスは、パターンを認識して予測をし、特定のタスクを実行するようモデルに教えることです。これは、出力に反映させるのに必要不可欠です。モデルを取り巻く状況や企業のニーズの変化に応じて、モデルは継続的に学習していきます。その過程で、構造化データへのリスクを低減する追加の学習が必要になる場合があります。定期的な学習や検証を行わずにモデルを放置していると、偏りや質の低い生成物を生み出すリスクが増大します。
Natural Language Query(自然言語クエリ)
AI ソリューションが高度になっていくと、増え続けるデータに依存するようになります。誰もが AI ソリューションを利用できるようにするには、技術的な知識や経験がなくても、日常的な言葉でデータクエリを実行できるようにすることが重要です。そこで自然言語クエリの出番です。
バーチャルアシスタントのような AI システムは、自然言語クエリでユーザーの入力情報を分析し、関連データを検索して、回答を返します。または、Gartner 社は、「こうした入力情報をエンコードされた構造化データに変換する」としています。テキストまたは口頭で質問できるレベルの自然言語クエリソリューションも存在します。これにより、非言語の情報を入力する必要がなくなり、誰もが AI システムを利用できるようになります。
Neural Network(ニューラルネットワーク)
人間の脳からインスピレーションを得たニューラルネットワークは、AI と機械学習を構成する基本要素です。計算モデルは、データを処理して学習するように設計されています。また、シナプスと同様に、相互接続されたノード(ネットワークまたはグラフ内のデータポイント)で構成されます。これらのノードは、入力層・隠れ層・出力層の 3 つで編成されており、ニューラルネットワークがデータ内の複雑な関連性を学習・モデル化する基盤となります。これにより、非線形レベルで関連性の分析を可能にします。
Predictive AI(予測 AI)
予測 AI は、データ主導型の意思決定を実現する重要な要素です。過去のデータからパターンを特定し、将来の事象や成果の見通し・予測・推定を生成します。AI アルゴリズムは、人間の認知能力を超越する膨大で複雑なデータセットを分析することができます。Gartner 社は、「今後何が起こるのかという質問に答えられる」としています。従来の予測分析で可能なレベルを上回る強化された予測により、膨大なデータを活用するプロセスに基づいた将来的なシナリオを作成できるようになります。
Predictive Analytics(予測分析)
分析は、過去のデータをベースにすべきです。まだ起きていないことを分析することはできませんが、分析結果から将来の成果を予測できないという意味ではありません。これが、予測分析の本質です。IBM 社は、「予測分析とは、データを統計モデリング・データマイニング技術・機械学習と組み合わせることである」と定義しています。予測分析は、過去のデータを学習してパターンを特定し、将来の傾向・事象・結果を予測するモデルを構築することができます。企業は、情報に基づいた意思決定を行い、競争上の優位性を確立できる予測分析を実装しています。
Prompt(プロンプト)
非常に高度なモデルでも、ベースとなるデータセットが複雑でも、AI は人間が入力する情報に依存しています。プロンプトは、AI モデルとの対話の出発点です。システムが特定のタスクを実行するようクエリや指示を出します。プロンプトは、単純な自然言語による質問から、状況を詳細に説明したリクエストまで、多岐にわたります。生成 AI のテストを行った世界中の利用者が認識しているように、明確なプロンプトは、モデルの出力の正確性と関連性に大きく影響する可能性があります。たとえば、プロンプトがモデルの能力や制限に従っていない場合、無効になる可能性があります。
Regression(回帰分析)
AI モデルはあらゆる種類のデータをベースにできますが、回帰分析は、主に数値に基づいた予測に使用される教師あり機械学習の手法です。回帰分析の最も一般的な形式は、線形回帰分析とロジスティック回帰分析の 2 つです。線形回帰モデルは、データポイント間に最適な直線(または曲線)をプロットし、連続値を予測します。一方、ロジスティック回帰分析は、特定の事象が発生する確率を評価する「二項分類」の分析手法です。基本的に、「はい / いいえ」で答えられる質問に回答します。回帰分析は、株価の予測や収益の見積もりといった定量データを定期的に使用する分野(金融・経済・医療・エンジニアリングなど)において、意思決定に必要な情報を入手するのに特に有益です。
Self-Supervised and Unsupervised Learning(自己教師あり学習 / 教師なし学習)
教師あり学習とは異なり、ラベル付きデータの不足が AI モデルの学習に支障をきたす可能性があります。自己教師あり学習は、ラベルのないデータからタスクを作成することができます。データ内の固有の構造やパターンを利用して、同じデータセットの一部を予測または生成します。たとえば、「画像修復」では、周囲のピクセルに基づいて画像の欠落部分を埋めることができます。さらに進化した教師なし学習では、明示的なラベルやターゲットを使用することなく、パターン・構造・グループを発見できるようモデルに学習させて、隠れたインサイトの獲得をサポートします。これは、異常検出などのテクノロジーの基盤となっています。
Sentiment Analysis(センチメント分析)
AI は、文章で表現された感情を理解できるのか?感情の理解は、依然として人間の特有の能力でが、初期段階で人間のサポートがあれば、センチメント分析を介して AI にも同様のことができます。文章から感情を正しく理解するには、ラベル付きデータでアルゴリズムに学習させ、特定の単語と感情を関連付ける必要があります。
Forrester 社は、「センチメント分析とは、オンライン上の文章を、肯定的・否定的・中立の 3 つに自動分類することである」と定義しています。より複雑なモデルであれば、より詳細な感情の評価が可能になるため、世論や大量の文章を理解するのに有益です。
Shapely Values(シャープレイ値)
予測モデルの構成を考慮すると、当然、他の値よりも一部の値が予測に影響します。開発者は、機械学習で予測結果を決定する各特徴量の重要性を説明する「シャープレイ値」に注視する必要があります。
この概念は、協力ゲームにおける各プレイヤーの貢献度を決定するゲーム理論に基づいています。目的は、入力値である各特徴量に対して、モデルの出力に対する「貢献度」を、数学的かつ公平に割り当てることです。これにより、モデルの機能性に関する貴重なインサイトを獲得できるだけでなく、モデルによる予測方法を確立します。最終的には、透明性と信頼性の向上にもつながります。
Structured and Unstructured Data(構造化データ / 非構造化データ)
データセットは、定義と編成方法に基づいて、構造化または非構造化に分類されます。一般的な構造化データは、表やデータベースに保存されているため、検索や分析が容易です。一方、非構造化データは、事前に定義された形式がなく、分類されていません。多くの非構造化データはテキスト形式で、E メール、ソーシャルメディアの投稿、顧客からのフィードバックなどが主な情報源です。こうしたデータを処理して有意義な結論を導き出すのは困難です。AI は、非構造化データからインサイトを抽出するのに有用です。これにより、これまで利用できなかった異種情報を発掘して、実用的なインサイトを獲得できるようになります。
Supervised Learning(教師あり学習)
教室で学生に指導する場合と同様に、正解への道筋を示すことが最善の方法である場合もあります。教師あり学習プロセスは、ラベル付きデータセットで AI モデルに学習させ、望ましい出力へと導きます。既知の正解を学習しているため、アルゴリズムを一般化して、未確認のデータに基づいた独自の決定や予測を行うことができます。この原理は、自然言語処理や回帰分析といった技術の基盤となっています。
Synthetic Data(合成データ)
AI モデルの学習に十分な実データがない場合、人工的に合成データを生成します。実データのすべての特徴や統計的特性を模倣し、パターン・分布・構造を模擬テストします。これにより、プライバシーに関する懸念も軽減します。開発者は、顧客データの漏洩リスクを回避する安全な方法で情報を取得できるようになります。IDC 社は、「合成データは、少量のデータの学習から生じる、一部の偏りを排除するのに有益である」と評価しています。
合成データの生成には、元のデータセットの特性を忠実に再現するよう慎重になる必要があります。モデルが正確な決定や予測を実行できないという、本質的なリスクが生じるからです。
Time Series Analysis(時系列分析)
時系列分析とは、一連のデータポイントが一定の期間と間隔で収集される場合、パターン・傾向・基盤となる構造の特定に使用される手法です。収集される情報は、収益額から売上頻度まで多岐にわたります。時系列分析は、ビジネスで広く使用されている手法です。過去データの分析や将来の予測分析など、傾向に関するインサイトを獲得し、データ主導型の意思決定を行うことができます。
Training Data(学習用データ)
すべての AI モデルは、ゼロから始まります。出力を開始するには、まず学習用データで AI モデルに実行プロセスを教える必要があります。モデルは、入力データからパターン・関係・ルールを学習します。
学習用データは、質・量・多様性を備えていることが重要となります。これらの要素は、AI を構築する基盤となります。データの量や質が不十分だったり、偏りがある場合、モデルは不正確な分析結果を返し続けることになります。強固な AI モデルを作成するには、学習用データセットの多様性と表現性が不可欠です。
What-If Scenarios(What-If シナリオ)
AI モデルから特定の結果を導き出したい場合、どの変数を調整すべきか?What-If シナリオは、仮説の潜在的な結果を検証し、AI の透明性・公平性・信頼性を高めます。シナリオは、「主要なサプライヤーが倒産したら?」といった単純なものから、「AI モデルが意識を持つようになったら?」という空想的なものまで、多岐にわたります。さまざまな変数がモデルに与える影響を調査することで、モデルの制限を容易に理解し、強化する方法を把握できます。これにより、より多くの情報に基づいた意思決定が可能になるだけでなく、モデルに対する説明責任も実現できるようになります。