国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

強化學習在決策分析類課程中的教學探索

2024-11-07 00:00:00王天宇楊敏
教育教學論壇 2024年36期
關(guān)鍵詞:強化學習決策分析課程改革

[摘 要] 近年來,強化學習不斷成為研究和應用的熱點話題,受到廣泛關(guān)注??紤]到強化學習與決策過程分析的緊密關(guān)聯(lián),將強化學習納入決策分析類課程成了一個不可忽視的需求。探討如何在“決策分析導論”中融合強化學習模型的方法。與傳統(tǒng)“機器學習”和“強化學習”課程不同,教學策略強調(diào)對概念的理解,減少公式復雜性,更多地展現(xiàn)其實際應用和案例,如AlphaGo、MIT機器狗等熱門話題,以增強學生的學習興趣。特別是通過改良的尋寶游戲示例,進一步深化學生對智能體與環(huán)境交互的認知。這種教學探索不僅豐富了課程內(nèi)容,還為管理類教學方法帶來了創(chuàng)新,期望更好地培養(yǎng)新一代決策者。

[關(guān)鍵詞] 強化學習;決策分析;教學模式;課程改革

[基金項目] 2021年度北京航空航天大學經(jīng)濟管理學院課程團隊建設項目“決策分析”(KCTD-2021-JCFX);2023年度北京航空航天大學工業(yè)工程專業(yè)一流專業(yè)建設項目;2022年度北京航空航天大學研究生教育與發(fā)展研究專項基金“促進知識共享的工程項目管理課程教學設計——一種激進建構(gòu)主義的視角”(JG2022006)

[作者簡介] 王天宇(1990—),男,山東東營人,博士,北京航空航天大學經(jīng)濟管理學院講師,主要從事行為運籌學研究;楊 敏(1975—),男,江西樂安人,博士,北京航空航天大學經(jīng)濟管理學院副教授(通信作者),主要從事風險和決策分析與項目管理設計研究。

[中圖分類號] G642.0 [文獻標識碼] A [文章編號] 1674-9324(2024)36-0001-04 [收稿日期] 2023-08-23

強化學習(reinforcement learning)是蓬勃發(fā)展的深度學習在決策分析領(lǐng)域的新興方向。通過模擬代理在動態(tài)環(huán)境決策中持續(xù)試錯學習優(yōu)化策略以最大化預期收益的方法,應對實際問題中的不確定性、復雜性,并為決策制定提供更精準、靈活的解決方案,推動決策分析領(lǐng)域的實踐與創(chuàng)新。強化學習在自動駕駛、智能游戲及金融投資等領(lǐng)域中被廣泛應用,用于訓練智能體在復雜環(huán)境中不斷調(diào)整決策,實現(xiàn)最優(yōu)化的行為策略。同時,為引導高等學校瞄準世界科技前沿,不斷提高人工智能領(lǐng)域科技創(chuàng)新、人才培養(yǎng)和國際合作交流等能力,為我國新一代人工智能發(fā)展提供戰(zhàn)略支撐,2018年4月教育部印發(fā)了《高等學校人工智能創(chuàng)新行動計劃》。雖然“機器學習”課程建設已經(jīng)得到了快速發(fā)展[1],但強化學習在決策分析領(lǐng)域內(nèi)容的結(jié)合的探索仍然較少。本文以高等院校管理類課程“決策分析導論”為例,介紹在管理類研究生課程中引入強化學習的嘗試和探索,分析并提出針對管理類課程教學方法改革的一些措施。

一、課程建設背景

(一)“決策分析導論”課程現(xiàn)狀

決策分析(decision analysis)研究如何在不確定性條件下做出理性的決策。它基于主觀概率論和效用理論,提供了一套完整的公理系統(tǒng)指導決策[2],包括規(guī)范決策(應該如何決策)和描述決策(人們實際如何決策)兩大領(lǐng)域[3]?!皼Q策分析導論”課程現(xiàn)階段內(nèi)容是決策分析領(lǐng)域的基礎(chǔ)知識,包括決策陷阱、理性決策行為、不確定情況下的決策分析、多屬性決策分析以及多人決策分析等內(nèi)容,旨在培養(yǎng)學生在復雜決策環(huán)境下的分析能力和決策能力。其知識背景發(fā)展始于20世紀中葉,隨著不同學科的融合和技術(shù)的進步,這些概念逐漸深化和應用于實際決策問題中,如多屬性決策分析的發(fā)展與決策分析和運籌學的交叉有關(guān),起源可以追溯到20世紀中葉。層次分析法(analytic hierarchy process, AHP)由美國運籌學家托馬斯·塞蒂(T. L. Saaty)于20世紀70年代中期提出,而TOPSIS法和其他多屬性決策方法則在隨后的幾十年中逐步發(fā)展完善。期望效用理論是20世紀中期出現(xiàn)的概念,由諾貝爾經(jīng)濟學獎獲得者馮·諾依曼和約翰·納什等人發(fā)展起來。針對“決策分析導論”課程的教學改革包括挖掘該課程中的思政元素,或引入Excel等工具輔助決策[4-5]。

(二)強化學習

強化學習是一種試錯的機器學習方法,通過智能體與環(huán)境的互動來學習。智能體根據(jù)其動作從環(huán)境中獲得反饋,然后利用這些反饋更新其知識和經(jīng)驗在未來做出更好的決策。強化學習屬于機器學習技術(shù)的一部分,但與監(jiān)督學習、非監(jiān)督學習等其他方法有所不同。強化學習的學習過程中沒有預先提供正確答案,而是通過獎勵反饋和實驗試錯來學習。這種學習過程具有延時性,智能體的動作會影響后續(xù)的環(huán)境反饋。強化學習是一個與時間序列相關(guān)的過程,涉及序貫決策的制定。隨著深度學習模型的發(fā)展,深度強化學習技術(shù)將深度學習與傳統(tǒng)強化學習相結(jié)合,實現(xiàn)了對復雜環(huán)境的更好表征。這種技術(shù)在自動駕駛、機械臂控制等復雜場景中有重要應用。著名的深度強化學習應用之一是谷歌DeepMind于2016年開發(fā)的AlphaGo程序,通過強化學習在圍棋領(lǐng)域取得了突破,先后戰(zhàn)勝了圍棋大師李世石和柯杰。這一成就引起了廣泛的關(guān)注,也使深度強化學習開始受到更多學生的關(guān)注。此外,深度強化學習技術(shù)還在生物工程、機械制造、化學分析、藥物合成等領(lǐng)域有應用,能夠推動各個需要決策支持的學科的發(fā)展。

二、基于強化學習的計算機輔助決策內(nèi)容教學探索

(一)教學內(nèi)容重點和難點

因大多數(shù)高校開展了機器學習、人工智能類相關(guān)課程的教學工作,學生對從監(jiān)督學習、非監(jiān)督學習到強化學習都有概念性的涉獵。特別是強化學習,一般不作為重點內(nèi)容學習。此外,由于“決策分析導論”課程面向管理類專業(yè)方向研究生,學生在本科階段所選擇的相關(guān)課程,如“機器學習導論”“數(shù)據(jù)挖掘?qū)д摗钡惹皩дn程以淺嘗輒止的科普類教學為主。學生通常“知其然而不知其所以然”,甚至未必“知其然”。這是因為,作為機器學習和決策科學的交叉,對強化學習的理解本身需要扎實的基礎(chǔ)知識。不僅包括管理類本科課程“概率與統(tǒng)計”“最優(yōu)化方法”等,也包括學生較為薄弱的“隨機過程”。此外,對機器學習的深入理解,需要學生有對算法和計算復雜性理論的深刻理解。例如,強化學習本身作為一種啟發(fā)式算法(heuristic algorithm),其優(yōu)勢在于較小的計算復雜度和出色的表現(xiàn)。然而,大部分學生并不清楚如何度量計算的復雜度和啟發(fā)式算法的表現(xiàn)。總之,差異化較大的前導課程教學背景和薄弱的算法相關(guān)理論基礎(chǔ),成了在“決策分析導論”課程中引入強化學習的教學難點。

(二)面向管理類學生的教學設計

面向管理方向?qū)W生差異化較大的前導課程教學背景和薄弱的算法相關(guān)理論基礎(chǔ)的特點,為了保證不同背景的學生可以在課程學習過程中有較好的收獲,筆者采用基礎(chǔ)扎實、前沿引領(lǐng)、實驗豐富、循序漸進的教授方式。具體方式如下。

1.前導課程知識的簡要補充。針對差異化較大的前導課程教學背景這一特點,有必要為學生進行前導知識的補充和鋪墊。這對沒有選修過相應課程的學生來說,其與強化學習之間的邏輯關(guān)系并不明確。因此,不同于其他課程回顧性地介紹背景知識,“決策分析導論”課程既要把背景知識當作新知識來講,又要主次分明、結(jié)合本課程的教學特點。例如,在介紹機器學習基礎(chǔ)理論時,“決策分析導論”課程選取決策樹和人工神經(jīng)網(wǎng)絡作為重點,其他模型,甚至非監(jiān)督學習(unsupervised learning)僅做簡要提及或忽略。決策樹本身可作為監(jiān)督學習(supervised learning)的代表性算法,其具有良好的可解釋性,更易于理解和講授,而作為“決策分析”課程內(nèi)容,在此過程中有必要向?qū)W生闡述清楚“決策樹”這一名詞在決策分析方法和機器學習模型中代表不同的含義:在前者中,決策樹作為決策主體用于風險決策以最大收益期望值或最大效用期望值為原則進行決策分析的工具,其每個節(jié)點代表一個決策點(decision)或一個事件點(event);而在后者中,決策樹并不是決策主體使用的工具,而是機器學習進行有監(jiān)督分類(classification)的模型,所謂的“決策”其實是計算機的決策,更確切地說,應為“判斷”。

通過以上解釋,提前規(guī)避了學生在今后科研或?qū)W習過程中接觸“決策樹”這一模型,與“決策分析導論”課程以及運籌學中的“決策樹”可能產(chǎn)生的混淆。

2.模型抓重點,少公式、多講解。在介紹強化學習模型時,緊扣與“決策分析導論”課程之間的相關(guān)性和與“機器學習”“強化學習”這些專業(yè)課之間的差異化?!皼Q策分析導論”課程整體以概念、方法和理解為主,涉及的公式推導較少。在筆者的教學經(jīng)驗中,在介紹機器決策和機器輔助決策時突然引入大量公式推導會導致學生理解困難,以及后續(xù)注意力無法集中。為此,筆者僅保留無法規(guī)避的公式,如貝爾曼方程(Bellman equation)等。

給出公式本身,先簡單解釋各個變量的含義,即R為當前狀態(tài)s的收獲,Psa為轉(zhuǎn)移到s'狀態(tài)的概率,γ為折現(xiàn)率," " " "分別為動作和狀態(tài)空間。但重點向?qū)W生強調(diào)本公式代表的意義和遞歸計算的思想,即狀態(tài)的價值函數(shù)(value function)是由自己本身定義的。這對于沒有算法理論基礎(chǔ)的學生來說理解并不容易,則需要拓展對遞歸算法的介紹。反之,不應以過多時間展示貝爾曼方程是如何推導得出的。

3.突出應用和案例。在教學中引入大量的應用實例講解,這得益于強化學習廣泛的應用屬性和話題屬性。例如,學生從自媒體、社交媒體廣泛地了解關(guān)于AlphaGo如何戰(zhàn)勝人類圍棋大師,以及美國麻省理工學院(MIT)設計的機器狗如何通過訓練從走路摔倒到熟練完成跑跳動作等新聞?!皼Q策分析導論”課程將重啟AlphaGo、MIT機器狗等具有熱度的話題,讓學生對其模型、訓練過程和算法有更深入的理解。此外,介紹單智能體強化學習經(jīng)典算法DQN最早成功應用于雅達利(Artari)游戲,其趣味性和娛樂性有效吸引學生注意力和課堂專注度。在此過程中為了深化學生對強化學習中智能體與環(huán)境的探索交互過程的認知,筆者采用改良的經(jīng)典尋寶游戲(robot in a room),通過講述強化學習算法Double DQN如何在尋寶游戲中學習、反饋和決策,培養(yǎng)學生泛化這一過程的能力。

尋寶游戲是廣泛應用于強化學習教學中經(jīng)典的例子,如Carnegie Mellon University的10-601B和University of California, Berkeley的CS188。一個機器人在地圖中采取某種移動策略以達到某個目標地點并獲得最大收益,如圖1所示。該經(jīng)典例子是確定性問題(deterministic),即若機器人采取某個移動行為,則必然導致相應的移動結(jié)果。筆者在教學中發(fā)現(xiàn)經(jīng)典版本的問題過于簡化決策環(huán)境,學生完全無法體會為何以馬爾可夫決策過程(Markov decision process)建模。此問題以基于規(guī)則(rule-based)的策略就可以迎刃而解,即“總是通往目標地點的最短路徑”。為此,筆者將此例改為隨機環(huán)境,即解釋為“機器人所在環(huán)境有頻發(fā)地震,在機器人選擇左行時,有80%的概率在下一時刻到達左方,也有10%的概率啟動失敗,和10%的概率因地震而偏移至下方”。這令問題更接近現(xiàn)實情況,也更適用于MDP模型,讓學生對隨機問題決策和混合策略有更具象的理解。

結(jié)語

強化學習在決策分析領(lǐng)域蓬勃發(fā)展,通過試錯學習優(yōu)化策略以應對實際問題的不確定性和復雜性。在管理類課程中引入強化學習,筆者通過補充前導知識、突出模型應用和案例,提高了學生的學習興趣。盡管面臨學生背景差異和算法理論難點,創(chuàng)新的教學設計使強化學習融入課程,為學生提供了更豐富的學習體驗。這一探索為管理類課程的教學方法改革提供了啟示,有望助力新一代決策者在復雜決策環(huán)境中取得更好的效果。

參考文獻

[1]李君,陳萬明,董莉.“新工科”建設背景下人工智能領(lǐng)域研究生培養(yǎng)路徑研究[J].學位與研究生教育,2021(2):29-35.

[2]BIER V M , FRENCH S. From the editors: decision analysis focus and trends[J].Decision analysis,2020,17(1):1-8.

[3]KEENEY R L , SEE K E , VON WINTERFELDT D. Evaluating academic programs: with applications to US graduate decision science programs[J].Operations research,2006,54(5):813-828.

[4]何明宇,侯忠坤.淺議EXCEL在風險決策分析教學中的應用[J].商場現(xiàn)代化,2012(21):178-180.

[5]陳俊霖,李明珍,楊雨.管理決策分析課程教學中課程思政研究[J].高教學刊,2021,7(33):153-156+160.

The Teaching Exploration of Reinforcement Learning in Decision Analysis Courses

WANG Tian-yu, YANG Min

(School of Economics and Management, Beihang University, Beijing 100191, China)

Abstract: In recent years, reinforcement learning has become a hot topic in research and application, and has attracted wide attention. Considering the close correlation of reinforcement learning in the analysis of the decision process, the inclusion of reinforcement learning in the decision analysis course becomes a demand that cannot be ignored. This paper discusses how to integrate reinforcement learning models in the introduction to decision analysis. Different from the traditional machine learning and reinforcement learning courses, this teaching strategy emphasizes the understanding of concepts, reducing formula complexity, and presents more practical applications and cases, such as AlphaGo and MIT robot dog, to enhance students’ interest in learning. In particular, through the improved examples of the treasure hunting, it can further deepen the students’ cognition of the interaction between the agent and the environment. This kind of teaching exploration not only enriches the course content, but also brings innovation to the management teaching method, hoping to better cultivate a new generation of decision makers.

Key words: reinforcement learning; decision analysis; teaching mode; curriculum reform

猜你喜歡
強化學習決策分析課程改革
基于大數(shù)據(jù)應用的智能公交決策分析平臺
當前軍事決策分析關(guān)注的幾個問題
基于強化學習的在線訂單配送時隙運能分配
論“以讀促寫”在初中英語寫作教學中的應用
智能交通車流自動導引系統(tǒng)
分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
“雙創(chuàng)”形勢下高職財務管理課程改革探索
項目教學法在微電影制作教學中的應用
中國市場(2016年35期)2016-10-19 03:02:20
基于創(chuàng)意的對口單招色彩課程改革突破點研究
成才之路(2016年25期)2016-10-08 09:50:05
校企協(xié)同實施高職專業(yè)課程改革的實踐研究
科技視界(2016年20期)2016-09-29 12:54:06
彰化市| 娄烦县| 昌乐县| 阳新县| 奉化市| 香港| 白朗县| 施秉县| 当涂县| 乌拉特后旗| 和静县| 广饶县| 射洪县| 桂东县| 扎囊县| 白玉县| 南投市| 陇西县| 承德市| 探索| 镇原县| 资源县| 双鸭山市| 石城县| 金坛市| 米易县| 扬州市| 柳州市| 牡丹江市| 肃宁县| 邹城市| 巴彦县| 临夏市| 崇明县| 甘谷县| 大余县| 辰溪县| 佛山市| 嵩明县| 高青县| 铁力市|