《实验手册示范文本.docx》由会员分享,可在线阅读,更多相关《实验手册示范文本.docx(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实验实验手册手册本次强化学习的实验主要使用 python 作为编程语言,实验框架取自于 EDX 在线学 习网站中的公开课程,由微软提供的Reinforcement Learning Explained,而其中的部分 代码取自 https:/ 云在线平台 azure,http:/ Jupyter 软件, Jupyter 是一个在线的响应式编程平台,可以在线编写 python,java 等语言。准备实验环境,设置个人云账号:1. 使用微软云平台需要注册一个微软账号,注册之后可以登录到微软云平台进行 操作;2. 打开 https:/ 去下载实 验框架;3. 点击 clone 去复制文件所需要的文件,
2、注意保持你的 repo 为 private(私有)。完成 后即可以打开 repo 中的文件进行修改和运行。本次实验使用到以下的一些软件,(当在云端运行这些文件,微软云已近自动为你 配置需要的软件):1. Anaconda (https:/ 一个开源的软件,可以快速和容易的使 用 python 和 R 语言来进行数据分析和机器学习开发;2. Open AI Gym (https:/ Gym 是一个强化学习开发工具集,用于开 发和比较强化学习的算法;3. Microsoft Cognitive Toolkit (CNTK) (https:/ toolkit/): 微软的深度学习开发工具4. Cha
3、iner (https:/chainer.org/): 一个非常强大,灵活的深度学习开发工具,可以 使用 CUDA GPU 硬件一一一 熟悉开发环境进入 LabFiles,首先查看已有的环境文件。进入 libenvs 检查两个环境文件 simple_rooms.py cliff_walking.py 在接下来的实验中,将使用上面所提到的两个运行环境。环境文件都定义了 python class(类),而这些 class 提供里必要的环境接口和运行函数。环境文件包含有如下几个 部分,反馈奖励(reward),策略(policy)和根据行动在环境中进行运行。 1.1 simple_roomssimp
4、le_rooms 是一个简单的 4x4 网格环境(environment),初始状态从网格空间的左 上角开始(黄色位置)。最终目标是到达右下角的绿色位置,每一个网格指代一个状 态,而在每一个网格位置可以执行四个动作,上、下、左、右。当执行动作的方向为墙 体时,智慧体(agent)的状态不改变,停留在当前位置。1.2 cliff_walking cliff_walking 是一个 4x12 的网格环境,每一个网格对应一个状态,但其中有“悬崖” 状态,当智慧体进入悬崖状态则本次任务失败。本环境的初始状态为左下角的黄色 位置,最终目标为右下角的绿色位置。在每一个位置,智慧体可以执行四个动作,上、 下
5、、左、右。一一一 实验报告2.1 熟悉以上提到的两个环境,在代码中找到以下问题的答案 在到达非目标状态(终止状态之前),每一个步骤获得的奖励是什么? 到达目标状态时,获得的奖励是什么?查看 lib 文件下的 simulation.py 文件。此文件模拟智慧体(agent)根据策略(policy)在环 境(environment)下执行的情况,并且进行图形化显示。2.2 打开 Module1 文件夹中的 Ex1.3 Random.ipynb,在本次实验中 RandomAgent 实现了 一个随机策略,即当智慧体到达一个状态后随机的选择下一个动作。保存实验中所产生 的图片结果,并解释一下问题?一1一在 SimpleRoomEnv 中运行 5 个 episode(集)的情况下,智慧体能否到达终止 状态?为什么? 一2一在 Cliff_walking 中运行 10 个 episode(集)的情况下,智慧体能否到达终止状 态?为什么? 一3一在 Cliff_walking 中运行 100 个 episode(集)的情况下,智慧体能否到达终止状 态?为什么?
限制150内