ReubenSun

强化学习与扩散模型

强化学习与扩散模型在不远的过去，强化学习被各种唱衰，环境难以模拟、算法难以泛化、激励难以设计、应用场景有限等等。很多人认为强化学习很酷，但就是“没用”。但随着LLM的兴起，RL可以帮助LLM实现对齐人类偏好、提升生成质量、低成本Post Train，RL瞬间成为了一种杀手级应用。最近一段时间，无论是LLM、Diffusion、具身智能，都开始搞RL了。 RL这种范式，在Diffusion训...

2025-11-12 ai

阅读全文

AI 文章阅读

AI 文章阅读 follow 周舒畅的知乎文章，包含AI辅助创作论文阅读方法：分析论文的motivation 列举论文的核心创新点，并找出支撑这些创新点的关键技术论文有哪些显著结果详细说明流程步骤自由能理论 Free Energy Principle, FEP 任何自组织系统为了维持其存在，都必须通过行动和感知来最小化其变分自由能，从而间接最小化与环境之间的“惊奇”（S...

2025-07-07 ai

阅读全文

常用数据集

常用数据集 3D重建 Mip-NeRF 360 https://jonbarron.info/mipnerf360/ 几个，室内室外环绕拍摄，RGB图片 DL3DV-10K https://huggingface.co/datasets/DL3DV/DL3DV-ALL-4K 10k，室内室外手机移动拍摄，RGB图片+Pose CO3D https://ai.meta.com/dat...

2025-04-23 ai

阅读全文

实用AI工具

实用AI工具图片图片去背景使用RMBG为图片去背景 from PIL import Imageimport torchfrom torchvision import transformsfrom transformers import AutoModelForImageSegmentationimport osfrom tqdm import tqdmmodel = AutoModel...

2025-03-26 ai

阅读全文

AI 常用术语

AI 常用术语记录一些AI常用术语机器学习 AGI（通用人工智能）：能像人一样在多数认知任务上通用地学习、推理、适应与创造 ASI（超级人工智能）：在几乎所有领域都远超人类智能的系统监督学习 Supervised Learning 目标：从标记好的数据中学习输入到输出的映射，以泛化到新数据。回归（Regression）：预测连续型变量的值，如股票价格预测。分类（Classif...

2025-02-05 ai

阅读全文

Diffusion

Diffusion 扩散原理生成模型的目标是：给定一组数据，构建一个分布，生成新的数据在物理学中很多微观过程都是时间可逆的，如果能知道当前系统的状态，理论上可以求出上一时间的状态。受此启发，如果我们知道从一幅画上如何一步步加噪声，也许能学会如何从噪声出发一步步去噪声得到一幅画。扩散模型是一类概率生成模型，定义了两个马尔可夫过程：前向过程：一个固定的马尔可夫链，将数据分布逐步添加高斯...

2025-01-17 ai

阅读全文

微调大模型

微调大模型直接推理 Llama3 import transformersimport torchmodel_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"pipeline = transformers.pipeline( "text-generation", model=model_id, ...

2024-10-30 ai

阅读全文

WSL 深度学习环境搭建

WSL 深度学习环境搭建 Win11，N卡很多人只有一台Windows电脑，装双系统很麻烦，尤其是一个有N卡驱动的Linux，而WSL2环境搭建非常方便之前有写过一篇Linux入门，但是内容记的太杂了，这里精简一下安装WSL2 在Windows Terminal（如果没有，去微软的store中下载）中输入 wsl --install 默认会安装一个最新的Ubuntu 安装GCC...

2024-10-30 ai

阅读全文

OpenAI API

OpenAI API 我这里使用的Step开放平台，其API与OpenAI兼容 Python可以使用openai库轻松调用一些大模型服务，对Agent工程师来说非常有用对话 from openai import OpenAI client = OpenAI(api_key="xxxxx", base_url="https://api.stepfun.com...

2024-09-13 ai

阅读全文

PyTorch学习记录

PyTorch学习记录 PyTorch是一个Python机器学习框架张量创建一个张量 torch.tensor([1,2,3]) # tensor([1, 2, 3]) torch.zeros(2,3) # tensor([[0., 0., 0.], # [0., 0., 0.]]) torch.ones(2,2) # tenso...

2024-03-30 ai

阅读全文