CNN、R-CNN、YOLO などの画像認識アルゴリズムはコンピューター ビジョンに革命をもたらし、機械が人間のような精度で視覚データを解釈できるようになりました。このガイドでは、これらのアルゴリズムの仕組み、長所、実際のアプリケーション、プロジェクトに最適なアルゴリズムを選択する方法について説明します。

従来の手法とディープラーニング: 画像認識の進化
ディープラーニングが登場する前、画像認識システムは、視覚データのパターンを識別するために手動で設計されたルールとフィルターである手作りの特徴に依存していました。これらの従来の方法は労働集約的で、「特徴」を構成するもの (エッジ、テクスチャ、コーナーなど) を定義するにはドメインの専門知識が必要でした。当時としては画期的でしたが、これらの技術は、照明の変化、オブジェクトの向き、オクルージョンなどの現実世界の複雑さに苦労していました。ディープラーニング、特に畳み込みニューラルネットワーク (CNN) への移行はパラダイムシフトを示し、機械が生のピクセルデータから直接階層的な特徴を自動的に学習できるようになりました。この進化を分析してみましょう。
従来の画像認識: 手動による特徴エンジニアリング
従来のアルゴリズムは、数学モデルを使用して事前定義された特徴を抽出することに依存していました。これらの方法には次のものが含まれます。
- SIFT (スケール不変特徴変換): スケールや回転に対して不変なローカル特徴を検出して記述します。多くの場合、オブジェクトのマッチングに使用されます。
- HOG (方向勾配ヒストグラム): 歩行者検出でよく使用される、物体の形状を表すためにキャプチャされたエッジの方向。
- LBP (ローカルバイナリパターン): ピクセルの強度値を比較してテクスチャパターンを分析します。
- SURF (高速化された堅牢な機能): SIFT よりも高速で、計算負荷の少ない代替手段です。
これらの技術は綿密な調整を必要とし、制御された環境でのみ優れたパフォーマンスを発揮します。たとえば、HOG は静止画像内の人間の検出には優れていますが、雑然とした背景や動きのあるポーズではうまく機能しません。
従来の方法の限界
- 脆弱性: 照明、角度、または遮蔽の小さな変化によりパフォーマンスが低下しました。
- スケーラビリティ: 手動による機能設計では、多様なデータセットや大規模なデータセットを処理できませんでした。
- 労働集約型エンジニアは特定のタスクに合わせてモデルを最適化するために数か月を費やしました。
ディープラーニング: 自動特徴学習の台頭
ディープラーニングは、手動の特徴エンジニアリングを排除することで画像認識に革命をもたらしました。 CNN人間の視覚野にヒントを得て、特徴の空間階層を自動的に学習するレイヤーを導入しました。
- 低レベルの機能: 初期レイヤーはエッジ、コーナー、テクスチャを検出します。
- 中級レベルの機能: より深い層では、形状や部品 (例: 車輪、目) を認識します。
- 高レベルの機能最終レイヤーでは、パーツを組み立ててオブジェクト全体(車、顔など)を作成します。
この階層的学習により、CNN は多様なデータセットや環境にわたって一般化できるようになりました。従来の方法とは異なり、ディープラーニング モデルは大規模なデータセットで効果を発揮し、より多くのラベル付きサンプルを取り込むことで精度が向上します。
ディープラーニングの利点
- 堅牢性: スケール、回転、照明のバリエーションを処理します。
- スケーラビリティ: オブジェクトの検出やセグメンテーションなどの複雑なタスクに適応します。
- エンドツーエンドの学習: 特徴抽出と分類を単一のパイプラインに統合します。
従来の方法はコンピューター ビジョンの基礎を築きましたが、手動の特徴エンジニアリングに依存していたため、実際のアプリケーションには実用的ではありませんでした。CNN を活用したディープラーニングは、特徴抽出を自動化することでこれらのハードルを克服し、システムがデータから直接学習できるようにしました。計算量は増えますが、そのトレードオフ (優れた精度、適応性、スケーラビリティ) により、ディープラーニングは現代の画像認識における優位性を固めました。今日、ハイブリッド アプローチでは、従来の手法とニューラル ネットワークが融合されることがありますが、将来は間違いなく適応型の自己学習アルゴリズムが主流になります。
畳み込みニューラル ネットワーク (CNN): 現代の画像認識の基盤
畳み込みニューラル ネットワーク (CNN) は、ほとんどの最新の画像認識システムの基盤です。人間の視覚皮質の生物学的プロセスにヒントを得た CNN は、視覚データの空間階層を捉えることに優れており、分類、物体検出、セグメンテーションなどのタスクに比類のない性能を発揮します。入力データをフラットなベクトルとして扱う従来のニューラル ネットワークとは異なり、CNN は画像の空間構造を保持し、人間の知覚を反映する方法でパターンを学習できます。
CNN の仕組み: アーキテクチャとコアコンポーネント
CNN のアーキテクチャは、一連の特殊なレイヤーを通じて、生のピクセルから段階的に特徴を抽出し、改良するように設計されています。
畳み込み層
- CNN の心臓部であるこれらのレイヤーは、学習可能なフィルター (カーネル) を入力画像に適用します。各フィルターは画像上をスライドし、要素ごとに乗算と合計を実行して特徴マップを生成します。
- フィルターは、初期のレイヤーで低レベルの特徴 (エッジ、テクスチャなど) を検出し、より深いレイヤーで複雑なパターン (形状、オブジェクトの一部など) を検出します。
- 主なパラメータ: カーネルサイズ (例:3×3) ストライド (フィルタのステップサイズ)、および パディング (空間次元を維持するため)。
プーリングレイヤー
- 特徴マップの空間次元 (幅と高さ) を削減し、重要な情報を保持しながら計算コストを削減します。
- 最大プーリング: 最も顕著な特徴を強調しながら、領域から最大値を選択します。
- 平均プーリング: 平均値を計算します。データを平滑化するのに役立ちます。
活性化関数
- ネットワークに非線形性を導入し、複雑なパターンを学習できるようにします。
- ReLU (正規化線形ユニット): 計算効率と消失勾配の緩和のため、CNN のデフォルトの選択肢です。
完全に接続されたレイヤー
- 畳み込み/プーリング層によって抽出された高レベルの特徴を 1D ベクトルに平坦化します。
- Softmax (マルチクラス タスクの場合) や Sigmoid (バイナリ タスクの場合) などの手法を使用して分類を実行します。
CNN のトレーニング: バックプロパゲーションから最適化まで
CNN は、勾配降下法を使用して予測誤差を最小限に抑えるプロセスであるバックプロパゲーションを通じてフィルターと重みを調整することで学習します。主な手順は次のとおりです。
- フォワードパス: 入力画像はレイヤーごとに処理され、予測が生成されます。
- 損失計算: 損失関数 (例: クロスエントロピー) は、予測値と実際の値との差を定量化します。
- バックワードパス: 各パラメータに対する損失の勾配が計算されます。
- 体重更新Adam や SGD (確率的勾配降下法) などの最適化ツールは、重みを調整して損失を減らします。
最新の CNN は、バッチ正規化 (トレーニングを安定化するため) やドロップアウト (過剰適合を防ぐため) などの手法を活用してパフォーマンスを向上させます。
CNNの強み
- 階層的特徴学習: 単純なものから複雑なものまで特徴を自動的に抽出し、手動エンジニアリングを排除します。
- 翻訳不変性: 画像内の位置に関係なくオブジェクトを認識します。
- パラメータの共有: フィルターは画像全体で再利用されるため、メモリ要件が削減されます。
- スケーラビリティ: 深度を調整することでさまざまなタスクに適応します (例: ResNet-50 と ResNet-152)。
CNNの限界
- 計算コスト: ディープ CNN (例: VGG-16) のトレーニングには、ハイエンドの GPU と大規模なデータセットが必要です。
- 固定入力サイズほとんどの CNN では、画像を均一な解像度にサイズ変更する必要があり、詳細が失われる可能性があります。
- 空間認識力の欠如: 全体的な文脈や遠くにある物体間の関係を理解するのに苦労します。
CNNの応用
- 医療画像: X 線や MRI で腫瘍を検出する (例: 乳がんに対する Google の LYNA)。
- 顔認識: セキュリティ システムとスマートフォン認証 (例: Apple Face ID) を強化します。
- 自動運転車: 歩行者、交通標識、障害物をリアルタイムで識別します。
- 農業: ドローンで撮影した画像を通じて作物の健康状態を監視します。
CNNの進化と変種
LeNet-5 (1998) や AlexNet (2012) などの古典的なアーキテクチャがこの分野の先駆者でしたが、新しいモデルは限界を押し広げています。
- レスネット: 残差接続を導入して超深層ネットワーク (100 層以上) をトレーニングします。
- インセプションネット: 効率的な特徴抽出のために、同じレイヤー内でマルチスケール フィルターを使用します。
- モバイルネット: 深さ方向に分離可能な畳み込みにより、モバイル/エッジ デバイス向けに最適化されています。
CNN は画像認識を再定義し、従来の方法とは比べものにならない自動化、精度、適応性の組み合わせを提供しています。計算要件などの課題は依然として残っていますが、ハードウェア効率とモデル最適化の進歩により、実世界への影響は拡大し続けています。ヘルスケアからロボット工学まで、CNN は AI ツールキットに欠かせないツールであり続け、生物の視覚を模倣することは可能であるだけでなく、革命的であることを証明しています。

領域ベース CNN (R-CNN ファミリー): 物体検出における先駆的な精度
マシンが画像を分類するだけでなく、画像内の複数のオブジェクトの位置を特定して識別できるようにするという探求は、コンピューター ビジョンの基礎となっています。R-CNN ファミリーが登場する前、オブジェクト検出システムは、位置特定と分類を別々のタスクとして扱う非効率的なパイプラインに依存していました。スライディング ウィンドウ アプローチやヒストグラム ベースのテンプレートなどの初期の方法は、計算コストが高く、エラーが発生しやすく、オブジェクトのサイズ、方向、およびオクルージョンの変動に苦労していました。2014 年に導入された領域ベース畳み込みニューラル ネットワーク (R-CNN) はパラダイム シフトを示し、CNN のパワーと領域提案戦略を組み合わせて、これまでにない精度を実現しました。このアルゴリズム ファミリー (R-CNN、Fast R-CNN、Faster R-CNN、および Mask R-CNN) は、速度よりも精度を優先することでオブジェクト検出を再定義し、詳細を見逃すと重大な結果を招く可能性があるアプリケーションに不可欠なものとなっています。その進化、革新、および永続的な影響について見ていきましょう。
コアイノベーション: R-CNN から高速 R-CNN へ
R-CNN ファミリーの旅は、領域を提案し、それを分類して改良するという新しい 2 段階のフレームワークを導入したオリジナルの R-CNN から始まりました。
R-CNN(2014):
- 地域提案: 従来のアルゴリズムである選択的検索を使用して、色、テクスチャ、強度に基づいてピクセルをグループ化し、画像ごとに約 2,000 個の候補領域を生成しました。
- 特徴抽出各領域のサイズが変更され、事前トレーニング済みの CNN (AlexNet など) に入力されて特徴が抽出されました。
- 分類と回帰: 特徴は SVM を使用して分類され、境界ボックスは線形回帰によって調整されました。
R-CNN は画期的ではあったものの、致命的な欠陥がありました。
- 極度の遅さ: 画像ごとに 2,000 領域を処理するのに約 50 秒かかりました。
- 冗長な計算各領域は独立して処理され、共通の特徴抽出は行われませんでした。
Fast R-CNN (2015) は、次の 2 つの重要な革新によってこれらの問題に対処しました。
- 共有機能マップ画像全体が CNN によって 1 回処理され、統一された特徴マップが生成され、冗長な計算が排除されました。
- RoIプーリング: 関心領域 (RoI) が特徴マップ上にマッピングされ、固定サイズのベクトルにプールされ、効率的なトレーニングと推論が可能になりました。
結果:
- 速度が画像あたり 50 秒から 2 秒に向上しました。
- PASCAL VOC の平均精度 (mAP) は 58% から 68% に上昇しました。
ブレークスルー: より高速な R-CNN とマスク R-CNN
R-CNN ファミリーの次の飛躍は、領域提案生成をニューラル ネットワークに統合し、ピクセル レベルのタスクに拡張した Faster R-CNN (2016) と Mask R-CNN (2017) によってもたらされました。
より高速なR-CNN:
- 地域提案ネットワーク (RPN): 選択的検索に代わる完全な畳み込みネットワーク。RPN は、アンカー ボックス (複数のスケール/アスペクト比で事前定義された形状) の「オブジェクト性」スコアと境界ボックスの調整を予測しました。
- 統合アーキテクチャRPN は検出ネットワーク (Fast R-CNN) と機能を共有し、エンドツーエンドのトレーニングを可能にしました。
- パフォーマンス: PASCAL VOC で 73% mAP を達成しながら、推論時間を画像あたり 0.2 秒に短縮しました。
マスクR-CNN:
- ピクセルレベルのセグメンテーション: Faster R-CNN に並列ブランチを追加して、各 RoI のバイナリ マスクを予測し、インスタンスのセグメンテーションを可能にしました。
- ROIの調整: セグメンテーション タスクにとって重要な空間整合性を維持するために、RoI プーリングをサブピクセル精度の方法で置き換えました。
強みと限界
強み:
- 比類のない精度: 重なり合うオブジェクトがある複雑なシーンでは、シングルステージ検出器 (YOLO、SSD など) よりも優れた性能を発揮します。
- 汎用性: 分類、検出、セグメンテーション、キーポイント推定に適応可能。
- カスタマイズ性: バックボーン ネットワーク (ResNet、VGG など) は、速度と精度のトレードオフのために交換できます。
制限事項:
- 計算オーバーヘッド: 2 ステージ パイプラインは YOLO や SSD よりも遅いため、リアルタイム アプリケーションには適していません。
- トレーニングの複雑さ: 大規模なラベル付きデータセットと慎重なハイパーパラメータ調整 (例: アンカー ボックス スケール) が必要です。
R-CNN ファミリーは、精度と自動化が共存できることを証明することで、物体検出に革命をもたらしました。YOLOv8 や DETR などの新しいモデルは速度とシンプルさを優先していますが、R-CNN によって導入された原則は依然として基礎的なものです。Faster R-CNN と Mask R-CNN は、医療用画像処理、衛星分析、自律システムなど、精度が譲れない分野で今でも広く使用されています。その 2 段階アプローチは、計算量が多いものの、視覚データのコンテキスト、スケール、空間関係を理解するためのベンチマークとなっています。AI が進歩しても、R-CNN ファミリーの遺産は存続し、全体像を把握するには、機械がまず細部に焦点を合わせることを学ばなければならない場合があることを私たちに思い出させてくれます。

YOLO (You Only Look Once): リアルタイム物体検出の革命
速度が精度と同じくらい重要なリアルタイムの物体検出の需要は、自動運転、ライブ監視、拡張現実などのアプリケーションで急増しています。 YOLO が 2016 年にデビューする前は、Faster R-CNN などの最先端のモデルは精度を優先していましたが、画像 1 枚あたり 0.2~2 秒という遅い速度で動作し、時間に敏感なタスクには実用的ではありませんでした。そこで登場したのが、画期的なシングルステージ検出器である YOLO (You Only Look Once) です。この検出器は、画像を 1 回のパスで処理することでこの分野を再定義し、精度を犠牲にすることなく前例のない速度を実現しました。Joseph Redmon と Ali Farhadi によって開発された YOLO の「一度だけ見る」という哲学は、物体検出を複数ステップのパズルから統合されたエンドツーエンドのプロセスに変えました。検出を回帰問題として扱うことで、YOLO は領域提案の必要性を排除し、競争力のあるパフォーマンスを維持しながら計算時間を大幅に短縮しました。このセクションでは、YOLO のアーキテクチャ、進化、そしてミリ秒が重要となる業界への永続的な影響について説明します。
コアアーキテクチャ: YOLO がスピードとシンプルさを実現する方法
YOLO の革新性は、合理化されたグリッドベースのオブジェクト検出アプローチにあります。その仕組みは次のとおりです。
グリッド分割
- 入力画像は S×S グリッド (例: YOLOv1 では 7×7) に分割されます。各グリッド セルは B 個の境界ボックスとそれに関連付けられた信頼スコア (ボックスにオブジェクトが含まれる確率 × グラウンド トゥルースとの IoU) を予測します。
- 各境界ボックスには 5 つのパラメーターがあります。 x, y (中心座標)、幅、高さ、信頼度。
統合予測
- 2 段階検出器とは異なり、YOLO は 1 回のフォワード パスで境界ボックスとクラス確率を同時に予測します。
- 各グリッド セルは、そのセル内のすべての境界ボックスで共有される C クラスの確率 (「車」、「人」など) も予測します。
損失関数
- 位置推定損失 (ボックス座標のエラー)、信頼性損失 (オブジェクトの存在)、分類損失 (クラス予測) を組み合わせます。
- 二乗和誤差を使用して、オブジェクトを含むボックスの位置特定精度を優先します。
後処理
- Non-Max Suppression (NMS) は、重複するボックスを結合し、最も信頼性の高い予測のみを保持します。
このアーキテクチャにより、YOLOv1 は 45 FPS (Faster R-CNN の 5 FPS に対して) で画像を処理できるようになり、初めてリアルタイム検出が可能になりました。
YOLO の進化: v1 から YOLOv8 まで、そしてそれ以降
2016 年以来、YOLO は速度、精度、汎用性のバランスを取りながら、反復的な改善を行ってきました。
YOLOv1 (2016)
- シングルステージ検出の先駆者でしたが、小さな物体と位置特定精度に苦労しました。
- 7×7 グリッドとセルあたり 2 つの境界ボックスに制限されます。
YOLOv2 (2017)
- アスペクト比の処理を改善するために、アンカー ボックス (定義済みの境界ボックスの形状) を導入しました。
- バッチ正規化と高解像度の入力を追加し、PASCAL VOC の mAP を 63.4% から 78.6% に向上しました。
YOLOv3 (2018)
- 3つの検出ヘッド(小型、中型、大型物体用)を備えたマルチスケール予測フレームワークを採用しました。
- マルチラベルのサポートのために、Softmax を独立したロジスティック分類器に置き換えました。
YOLOv4 (2020)
- 統合された Bag of Freebies (モザイク増強などのトレーニング トリック) と Bag of Specials (例: Mish アクティベーション、CIoU 損失)。
- COCOで43.5% APで65 FPSを達成しました。
YOLOv5 (2020)
- 簡素化されたアーキテクチャと自動アンカーチューニングを備えた非公式の PyTorch 実装。
- 導入の容易さと産業用途に重点を置いています。
YOLOv6(2022)およびYOLOv7(2022)
- 再パラメータ化されたバックボーンおよび動的なラベル割り当てを備えたエッジ デバイス向けに最適化されています。
YOLOv8 (2023)
- アンカーフリー検出と高度なインスタンスセグメンテーション機能を導入しました。
YOLO バージョンの主なイノベーション
- アンカーボックス: 多様なオブジェクト形状の処理が改善されました (YOLOv2)。
- マルチスケール予測: ピラミッド特徴マップ (YOLOv3) を介してさまざまなサイズのオブジェクトを検出しました。
- 自己トレーニング: 半教師あり学習 (YOLOv7) にラベルなしデータを活用しました。
- アンカーフリー検出: 定義済みのアンカーを排除することでアーキテクチャを簡素化しました (YOLOv8)。
強みと限界
強み
- 猛スピード: 30~150 FPS でビデオ ストリームを処理します。リアルタイム アプリケーションに最適です。
- シンプルさ: シングルステージ パイプラインにより、展開の複雑さが軽減されます。
- スケーラビリティ: YOLO-Nano のような軽量バージョンを介してエッジ デバイス (ドローン、スマートフォンなど) に適応可能。
制限事項
- 精度のトレードオフ: 2 段階モデルと比較すると、混雑したシーンや小さなオブジェクトでは苦労します。
- ローカリゼーションエラー: 初期のバージョンでは、雑然とした環境では誤検知が多く発生しました。
YOLO はリアルタイムの物体検出を民主化し、速度と精度は必ずしも相反するものではないことを証明しました。DETR (Detection Transformer) などのモデルが注目度ベースのメカニズムでその優位性に挑戦する一方で、YOLO のシンプルさと効率性により、瞬時の判断を必要とする業界の最前線に留まっています。今後のイテレーションでは、トランスフォーマーを統合したり、ニューロモルフィック コンピューティングを活用したり、自己教師あり学習を採用したりして、現在の制限に対処する可能性があります。しかし、AI が機械による世界の認識方法を変え続ける中、YOLO の核となる哲学である「一度見て、すぐに行動する」は、指針として残ります。
Flypix で画像認識アルゴリズムを活用する方法
で フライピックスでは、CNN、YOLO、R-CNN バリアントなどの高度な画像認識アルゴリズムの力を活用して、地理空間画像や航空画像を実用的な洞察に変換します。当社のプラットフォームは、領域ベースの検出の精度とシングルステージ モデルの速度を組み合わせて、業界が衛星画像からドローン映像まで、膨大なデータセットをこれまでにない効率で分析できるようにします。これらのアルゴリズムを統合することで、リアルタイムのオブジェクト追跡、土地利用分類、異常検出などの課題に対処し、ソリューションが重要な環境 (災害対応など) と日常的な産業検査の両方に適応できるようにします。
アルゴリズム主導のアプローチ
- より高速なR-CNN: これを高解像度の衛星画像における詳細な物体の位置特定に導入し、ピクセルレベルの精度でインフラストラクチャの変化や環境の変化を特定します。
- YOLO のバリエーション: 速度が最適化された軽量の YOLO アーキテクチャを使用して、ライブドローン監視、移動資産の追跡、建設の進捗状況をリアルタイムで監視します。
- ハイブリッドCNNカスタム CNN アーキテクチャは、当社の特徴抽出パイプラインの基盤となり、マルチスペクトル データの解釈を通じて作物の健康分析や都市計画などのタスクを可能にします。
これらのアルゴリズムを組み合わせることで、最先端の研究と実用的でスケーラブルなソリューションの間のギャップを埋め、画像認識の未来は 1 つのモデルを選択することではなく、それらの長所を賢く統合することにあることを証明します。
結論
CNN、R-CNN、YOLO などの画像認識アルゴリズムは、機械が視覚データを解釈する方法に革命をもたらし、医療診断から自律走行車まで、さまざまな進歩を支えています。CNN が階層的な特徴学習で基礎を築いたのに対し、R-CNN ファミリーは領域ベースの検出を通じて精度を優先し、YOLO はシングルパスの効率性でリアルタイム処理を再定義しました。各アルゴリズムは、医療用画像処理からライブ監視まで、さまざまなアプリケーションに対応するために、速度、精度、スケーラビリティのバランスをとるという独自の課題に取り組んでいます。
テクノロジーが進化するにつれ、画像認識の未来はこれらのモデルの長所を融合することにかかっています。軽量アーキテクチャ (YOLO-Nano など)、トランスフォーマーベースのビジョン モデル、倫理的な AI フレームワークなどのイノベーションは、適応性を高め、計算コストを削減し、バイアスを軽減することを約束します。最終的に、これらのアルゴリズムは単なるツールではなく、機械が人間の能力を拡張し、業界全体の進歩を促進する、よりスマートで視覚を認識する世界への触媒です。これらの継続的な進化により、人間と AI の両方にとって、実際に見ることが信じることである未来が形作られます。
よくある質問
画像認識アルゴリズムにより、機械は視覚データを解釈および分析し、分類 (オブジェクトの識別など)、位置特定 (位置の検出)、セグメンテーション (ピクセルレベルのラベル付け) などのタスクを実行できます。画像認識アルゴリズムは、医療診断から自動運転まで、さまざまなアプリケーションに活用されています。
手動で設計された特徴 (エッジやテクスチャなど) に依存する従来の方法とは異なり、CNN は畳み込み層、プーリング、非線形アクティベーションを通じて、生のピクセル データから直接階層的な特徴を自動的に学習します。これにより、スケール、照明、方向の変化に対してより堅牢になります。
YOLO は、検出を回帰問題として扱い、画像を 1 回のパスで処理します。一方、R-CNN バリアントは 2 段階のアプローチ (領域提案 + 分類) を使用します。YOLO のグリッドベースの予測により、個別の領域提案手順が不要になり、計算時間が大幅に短縮されます。
CNN は、医療用画像処理 (腫瘍検出)、顔認識システム、農業モニタリング (作物の健康分析)、写真のタグ付けなどのタスクに優れています。空間階層を学習する能力があるため、複雑な視覚パターンを分類するのに最適です。
より高速な R-CNN は、乱雑なシーンでの詳細なオブジェクト検出を必要とする精度が重要なタスク (衛星画像分析など) に適していますが、YOLO は、速度が最も重要となるビデオ監視や自律走行車などのリアルタイム アプリケーションに適しています。
現在のトレンドには、エッジデバイス向けの軽量モデル(YOLO-Nano など)、グローバルコンテキスト理解のためのトランスフォーマーベースのアーキテクチャ(Vision Transformers)、トレーニングデータのバイアスに対処するための倫理的な AI フレームワークなどがあります。CNN とトランスフォーマーを組み合わせたハイブリッドモデルも注目を集めています。