バーチャルコース「サンプルベースの学習方法 - バーチャルコース - Coursera」は、さまざまなコンテンツのコースであり、約 22 時間のビデオ授業を提供しています。 完了までXNUMX時間。 その重要な機能を確認し、オレンジ色のボタンをクリックして、Coursera e-Learning プラットフォームの詳細情報を確認してください。
このコースでは、エージェント自身の経験から学び、環境との試行錯誤の相互作用に基づいて最適に近いポリシーを学習できるさまざまなアルゴリズムについて学習します。 実際の経験から学ぶことは、環境のダイナミクスに関する予備知識を必要とせず、最適な行動を実現できるため、驚くべきことです。 直感的にシンプルで強力なモンテカルロ法と、Q 学習を含む時差学習法について説明します。 モデルベースのスケジューリング (動的計画法に似ています) と一時的な差分更新を組み合わせて学習を大幅にスピードアップできるアルゴリズムという、両方の世界を最大限に活用する方法を調査して、このコースを終了します。 このコースを修了すると、次のことができるようになります: - サンプリングされた経験から価値関数を推定するための XNUMX つの戦略として、時間差とモンテカルロ学習を理解する - モデル内で動的計画法スイープの代わりにサンプリングされた経験が使用される場合の探索の重要性を理解する- モンテカルロと動的計画法と TD の関係を理解する。 - TD アルゴリズムを実装して適用し、価値関数を推定する - 期待される Sarsa と Q 学習 (制御のための XNUMX つの TD 手法) を実装して適用する - ポリシー内の制御とポリシー外の制御の違いを理解する - 経験に基づいて計画を理解するシミュレーション (従来の計画戦略とは対照的に) - シミュレートされた経験を使用する Dyna と呼ばれる RL へのモデルベースのアプローチを実装する - 動的プログラミング スイープではなくサンプル エクスペリエンスを使用する場合、Dyna を使用した場合のサンプル効率の改善を確認するために実証研究を実施するモデル内: モンテカルロと動的計画法および TD の間の接続を理解する。 - TD アルゴリズムを実装して適用し、価値関数を推定する - 期待される Sarsa と Q 学習 (制御のための XNUMX つの TD 手法) を実装して適用する - ポリシー内の制御とポリシー外の制御の違いを理解する - 経験に基づいて計画を理解するシミュレーション (従来の計画戦略とは対照的に) - シミュレートされた経験を使用する Dyna と呼ばれる RL へのモデルベースのアプローチを実装する - 動的プログラミング スイープではなくサンプル エクスペリエンスを使用する場合、Dyna を使用した場合のサンプル効率の改善を確認するために実証研究を実施するモデル内: モンテカルロと動的計画法および TD の間の接続を理解する。
世界で最も権威のある大学で自宅から準備してください。
Courseraのコースの質は、多くの場合学部長で博士号を取得しているインストラクターによってサポートされています。
Courseraの学生の85%以上が、昇進や昇給などのキャリア上のメリットを報告しています。
世界中の何百万人もの学生が、Courseraで個人的および専門的な目標を達成しています。
Courseraは、世界中のオンライン学習を提供するために、200を超える主要な大学や企業からのコースを提供しています。 CourseraPlusサブスクリプション付き, すべてのコースの 90% 以上に無制限にアクセスでき、Coursera で最も人気のある専門資格と専門分野にアクセスできます。
データサイエンス、ビジネス、自己啓発。 一度に複数のコースに登録し、無制限の証明書を取得し、キャリアを開始、成長、さらには変更するための需要の高い仕事のスキルを学ぶことができます。
COURSERA PLUS の年間サブスクリプションで、最大限に活用し、500 米ドル以上節約する方法を発見してください*
*500 米ドルの月額サブスクリプションから、プロモーションを利用した年間サブスクリプションに移行すると、12 か月で最大 59 米ドル節約できます。 通常の年間サブスクリプションは 399 米ドルです。 このプロモーションでは、299 米ドルしかお支払いいただけません。 黄色いボタンをクリックして、すべてを調べてください。
こんにちは。どうすればお手伝いできますか? コースに興味がありますか? 何の主題についてですか?
レビューを追加