ReubenSun

强化学习

强化学习跟同事聊了一会强化学习做AI游戏，感觉难度很大很麻烦，遂断更游戏的奖励频率过低，电子游戏很难像围棋那样计算每一步的收益，就像训狗一样，你让狗坐下给一次奖励，训练效果会很好，但让狗做非常多复杂的组合动作再给一次奖励，就很难训练数据难以收集，AI玩游戏通常是现有一个游戏，再去做AI，这些AI公司一般都没有与游戏公司合作，于是难以拿到原始的状态同步信息，只能抓取屏幕提取参数，难以...

2024-10-07 ai

阅读全文

OpenAI API

OpenAI API 我这里使用的Step开放平台，其API与OpenAI兼容 Python可以使用openai库轻松调用一些大模型服务，对Agent工程师来说非常有用对话 from openai import OpenAI client = OpenAI(api_key="xxxxx", base_url="https://api.stepfun.com...

2024-09-13 ai

阅读全文

扩散模型玩DOOM

扩散模型玩DOOM 《Diffusion Models Are Real-Time Game Engines》近期谷歌发布了一个用AI玩DOOM的工作，由两部分组成。一个是基于强化学习玩游戏，一个是基于扩散模型生成游戏画面 INTRODUCTION 电子游戏运行时在loop，每个loop由三部分组成：监听输入更新游戏状态渲染画面可交互的世界模拟不只是一个高帧率视频生成，还需...

2024-09-12 ai

阅读全文

Tensorboard 使用

Tensorboard 使用 Tensorboard是一个用于监控训练过程的UI 安装 pip install tensorboard 启动找到训练的log文件夹，找到一个形如events.out.tfevents.xxxx.xxx.xxx.x的文件，运行 tensorboard --logdir=log/xxxx 会启动一个服务，访问这个链接就可以查看当前训练信息如果训练在服务器中，可...

2024-07-02 ai

阅读全文

ControlNet

ControlNet ControlNet是在Stable Diffusion模型上添加辅助模块，添加额外条件来控制AI绘图过程 ControlNet将SD模型复制两份，一份锁定，一份使用额外数据进行微调，最后将两份合并绘图。于是我们可以使用少量图片实现微调，同时保持SD数十亿张图的训练效果参数介绍运行你的SD，在浏览器打开xxx:port/docs即可查看SD的Fast API ...

2024-06-05 ai

阅读全文

AI 常用术语

AI 常用术语刚刚加入AI公司，听组会听的头都大了，沟通过程中很多术语都不了解，于是简单学习记录一下机器学习 Ground Truth 真实值 ACC Accuracy 准确率=正确预测数/总样本数 Loss 损失 Epoch 在模型训练过程中，数据集被完整遍历一遍的过程 Overfit 过拟合 SOTA State of the Art 表示在某个特定领域中的最好成果、最佳实践...

2024-05-08 ai

阅读全文

PyTorch学习记录

PyTorch学习记录 PyTorch是一个Python机器学习框架基础语法张量 Tensors Tensors很像矩阵、向量，在PyTorch中使用Tensors编码输入和输出构造 import torchimport numpy as np# 直接构造data = [[1, 2],[3, 4]]x_data = torch.tensor(data)# 使用numpy array...

2024-03-30 ai

阅读全文