DriteStudio
DRITESTUDIO云基础设施
首页
文章关于我们联系我们状态
0%
Q-Learning คืออะไร?
返回文章列表

Q-Learning คืออะไร?

Q-Learning คืออะไร?

Windows-September 2, 2023-更新: February 24, 2026

Q-Learning คืออะไร?

Q-Learning เป็นวิธีหนึ่งในการเรียนรู้แบบเสริมเหรียญในปัญหาการตัดสินใจ โดยมุ่งหวังให้ตัวแบบเรียนรู้การกระทำที่จะให้ผลลัพธ์ที่ดีที่สุดในสิ่งแวดล้อมที่เปลี่ยนแปลงได้

ขั้นตอนการทำงานของ Q-Learning

  1. กำหนด State (สถานะ) และ Action (การกระทำ): กำหนดชุดของสถานะที่เป็นไปได้และการกระทำที่ตัวแบบสามารถทำได้ในแต่ละสถานะ

  2. สร้างตาราง Q-Value (ค่า Q): สร้างตารางที่เก็บค่า Q-Value ซึ่งเป็นค่าประมาณการของความคุ้มค่าในการกระทำในแต่ละสถานะ

  3. เริ่มต้นค่า Q-Value: กำหนดค่าเริ่มต้นของ Q-Value สำหรับทุกสถานะและการกระทำ

  4. วนรอบการเรียนรู้: ในแต่ละรอบการทำงาน

    • ตัวแบบทำการกระทำในสถานะปัจจุบันตามนโยบาย (Policy) ที่กำหนดโดย Q-Value
    • ตัวแบบได้รับค่าประสบการณ์ (Reward) จากสิ่งแวดล้อมและย้ายไปสถานะใหม่
    • อัปเดตค่า Q-Value ของสถานะและการกระทำตามสูตร Q-Learning
  5. เรียนรู้และปรับปรุง: ดำเนินการวนรอบการเรียนรู้เพื่อปรับปรุงค่า Q-Value จนกระทั่ง Q-Value converge หรือไม่เปลี่ยนแปลงมากแล้ว

ตัวอย่างโค้ด Python สำหรับ Q-Learning

import numpy as np

# กำหนดจำนวนสถานะและการกระทำ
num_states = 6
num_actions = 2

# สร้างตาราง Q-Value และกำหนดค่าเริ่มต้น
Q = np.zeros((num_states, num_actions))

# พารามิเตอร์การเรียนรู้
learning_rate = 0.1
discount_factor = 0.9
num_episodes = 1000

# วนรอบการเรียนรู้
for episode in range(num_episodes):
    state = np.random.randint(0, num_states)
    done = False
    
    while not done:
        action = np.argmax(Q[state, :])
        next_state = np.random.choice(num_states)
        reward = -1 if next_state != num_states - 1 else 10
        
        Q[state, action] = Q[state, action] + learning_rate * (reward + discount_factor * np.max(Q[next_state, :]) - Q[state, action])
        
        state = next_state
        if state == num_states - 1:
            done = True

# พิมพ์ผลลัพธ์ Q-Value
print("Q-Value:")
print(Q)

ในตัวอย่างโค้ดดังกล่าว เราจะพบว่ามีการสร้างตาราง Q-Value และทำการเรียนรู้ Q-Learning โดยใช้การอัปเดตค่า Q-Value ในแต่ละขั้นตอนของการกระทำในสิ่งแวดล้อม โดยพารามิเตอร์เช่น learning rate และ discount factor จะมีผลต่อกระบวนการเรียนรู้และปรับปรุงค่า Q-Value ในแต่ละรอบการเรียนรู้
分享文章:
查看更多文章
D

DriteStudio

泰国云服务、VPS、Hosting 与 Colocation 提供商

由 Craft Intertech (Thailand) Co., Ltd. 运营

DRITESTUDIO云基础设施

泰国 沙没沙空府 潘泰诺拉辛 邦坤天-柴塔莱 Delight Village 17巷 100/280 74000

服务

  • VPS 托管
  • 独立服务器
  • 虚拟主机
  • 安全解决方案

公司

  • 关于我们
  • 联系我们
  • 系统状态

支持

  • 支持工单
  • 文档
  • 帮助中心

© 2026 Craft Intertech (Thailand) Co., Ltd. 保留所有权利。

隐私政策服务条款退款政策

我们使用 Cookie

我们使用 Cookie 来增强您的浏览体验、分析网站流量并个性化内容。点击"全部接受"即表示您同意我们使用 Cookie。 隐私政策