Skip to content
返回

开源项目2

创建: 06:39
更新: 20:15

开源项目相关微博内容

之前存的一些可能会用上的开源项目介绍和地址,整理成两篇文章,这是第二篇。

对微信群的历史总结、查询 - MCP 协议的超酷案例

https://weibo.com/1727858283/P3hfmfkBE?pagetype=groupfeed

Claude 新的 MCP 协议的超酷案例,用户直接从 Claude 客户端发消息,就可以对微信群的历史总结、查询。比如你早上起来一看群里上千条消息,就给 Claude 发一条消息:“他们一大早在聊啥?”,于是 Claude 就访问 MCP Server 去查询最新的消息,并总结回复给你。

这种 MCP 模式很酷的在于,你不需要自己去部署 AI 模型、不需要额外付 Token 费用,就可以借助 Claude AI,操作你本地的数据(当然你需要自己权衡隐私问题)!

现在 MCP 的开发门槛还有点高,但是应该很快就会有官方或者第三方的傻瓜式插件,拖拖拽拽就可以在本机用上 Claude 这么强大的 AI 以及类似于总结微信聊天记录的应用。

作者: 艾逗笔
即刻:网页链接
X:x.com/idoubicc/status/1864135841125421356 项目地址:github.com/mcpservers/mcp-server-chatsum 网页链接

@黄健楸:折腾wechaty的话……可以考虑转而折腾破解windows端的微信聊天数据库,这个操作比较难风控到

ViT 论文

谷歌 DeepMind 的三名研究员 Alexander Kolesnikov、Xiaohua Zhai、Lucas Beyer 转投 OpenAI,合作打造 OpenAI 苏黎世办公室,三人将致力于开发多模态 AI,即能够处理图像到音频等多种媒介的人工智能模型。

三人均是大名鼎鼎的 ViT 论文(An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)作者。

其他研究还包括:
big_vision: 网页链接
WebLI: 网页链接
SigLIP: 网页链接
PaliGemma: 网页链接

wechatDataBackup - 微信聊天记录导出工具

跟大家分享一个实用的微信聊天记录导出工具:wechatDataBackup。

提供类似微信简易操作界面,可一键导出聊天记录,支持图片、视频、链接、语音、文件、表情等类型的信息保存。

GitHub:github.com/git-jiadong/wechatDataBackup

此外,还支持按类型、日期、群成员进行检索,以及多开账号选择导出和数据切换。

有需求的同学不妨试试。

Maxun - 开源的自动化网页数据爬取工具

推荐 GitHub 上一款开源的自动化网页数据爬取工具:Maxun。

无需代码,通过可视化界面构建自定义机器人,实现自动化网页数据爬取,支持执行捕获列表、文本或截图等操作。

GitHub:github.com/getmaxun/maxun

此外,还支持数据提取、处理分页和滚动、指定机器人运行时间、将网页数据转换为 API 或导出 Excel 表格等等功能。

目前该工具正在快速迭代更新,感兴趣的同学可以关注尝试下。

远程工作的相关资料

这个 repo 收集了大量关于远程工作的相关资料,包括工作保障、财务税务问题、团队管理问题等:h++ps://github.com/greatghoul/remote-working

还罗列了一些支持国内远程的公司和招聘入口:h++ps://github.com/greatghoul/remote-working/blob/master/teams/README.md ​​​

Exbody2 - 通用的全身追踪框架

UC San Diego、伯克利、MIT、英伟达等提出的 Exbody2,通用的全身追踪框架,能够接受任何参考动作输入并控制人形机器人模仿该动作。

该模型在模拟环境中通过强化学习进行训练,随后迁移至现实世界。它将关键点追踪与速度控制解耦,并有效利用特权教师策略将精确的模仿技能提炼到目标学生策略中,从而实现对跑步、蹲下、跳舞及其他复杂动态动作的高保真复制。

项目地址:网页链接

i陆三金的微博视频

video-analyzer - AI视频分析工具

一款AI视频分析工具:video-analyzer,基于Llama3.2 Vision和OpenAI Whisper构建,可本地运行

自动提取关键帧,智能识别画面内容,可处理长视频

生成自然语言描述 ,可输出详细的JSON格式分析结果,包括元数据、音频转录、逐帧分析和视频描述等

github:网页链接

WebChat - 一个无需注册、去中心化的匿名聊天扩展

WebChat - 让网页充满趣味互动

> 一个无需注册、去中心化的匿名聊天扩展

你是否曾经在浏览网页时,希望能和同样在看这个页面的人即时交流?现在,这个愿望实现了。

WebChat是一款革新性的浏览器扩展,它能够:
- 在任何网页上创建聊天室,让静态页面焕发生机
- 采用WebRTC技术实现端到端加密,保护你的隐私
- 完全去中心化设计,无需服务器即可运行
- 所有数据本地存储,隐私安全无忧

核心特色:
- Chrome应用商店官方认证
- GitHub开源项目支持
- 完全免费使用

无论你是在追剧、看文章还是浏览购物网站,WebChat都能让你随时找到志同道合的伙伴。打开一个网页,就等于打开了一扇交友之门。

GitHub:github.com/molvqingtai/WebChat

NewsNow - 阅读实时热门新闻工具

分享 GitHub 上一个优雅地阅读实时热门新闻工具:NewsNow。

划分为国内、国际、科技、财经几大类,涵盖了微博、知乎、抖音、GitHub、华尔街、Hacker News、IT之家、V2EX 等主流平台。

GitHub:github.com/ourongxing/newsnow

感兴趣的同学,可直接部署到 Cloudflare Pages、Vercel 等平台使用。

MiniMind 大道至简 - 直接从0开始训练一个极其轻量的语言模型

微型语言模型项目:MiniMind”大道至简”

github.com/jingyaogong/minimind
本项目的目标是把上手LLM的门槛无限降低, 直接从0开始训练一个极其轻量的语言模型。最快仅用3小时,即可训练出仅为26.88M大小的微型语言模型MiniMind。

MiniMind发布了大模型极简结构,数据集清洗和预处理、监督预训练(Pretrain)、有监督指令微调(SFT)、低秩自适应(LoRA) 微调,无奖励强化学习直接偏好对齐(DPO)的全阶段代码,也包含拓展共享混合专家(MoE) 的稀疏模型;拓展视觉多模态VLM: MiniMind-V。

这不仅是一个开源模型的实现,也是入门大语言模型(LLM)的教程。

EXO Private Search - 一款保护隐私的搜索系统

一款保护隐私的搜索系统:EXO Private Search,支持在本地LLM中搜索数据,同时保护查询隐私,服务器永远不会知道你在搜什么

它用隐私信息检索技术,确保搜索查询不会被服务器看到,所有敏感计算都在本地完成,服务器只接收加密后的查询请求,并返回加密后的结果

使用K-means聚类算法对数据进行预处理,提高搜索效率
github:网页链接

Roo-Cline - Cursor 的开源替代

云端-> 闭源-> 开源-> 本地。//@宝玉xp://@闫辉_Life加加:转发微博

https://weibo.com/2169039837/P89a3arAS

Cursor 的开源替代这么快就来了!Roo-Cline,不但拥有 cursor 原本的功能,甚至可以命令行交互,以及打开浏览器做基于AI的交互测试!

具体可以看视频50s左右的位置,当AI编程完毕后,他会请求打开浏览器做测试。

并且这个项目兼容OpenAI格式的接口,这意味着你完全可以在本地部署一个Qwen2.5-Coder-32B (int4量化的32G的Mac就能跑起来) 或者 Llama-3.3,完全不花钱在本地就能完整复刻 Cursor 全部功能了。

地址:github.com/RooVetGit/Roo-Cline

browser-use-webui - 基于Browser Use的一款浏览器AI助手

基于Browser Use的一款浏览器AI助手:browser-use-webui,在原来的基础上做了功能增强

提供了一个Web 界面,支持多种browser-use功能

扩展了对DeepSeek、Gemini、OpenAI、Azure OpenAI、Anthropic、Ollama等LLM的支持

可以使用自己的浏览器,避免重复登录认证问题,支持高清屏幕录制,具备提示词优化能力

github:网页链接

OpenAI 官方出的三个结构化提取示例应用

OpenAI 官方出的三个结构化提取示例应用:

1. 简历信息提取(Resume Extraction)
展示如何将非结构化的简历文本转换为结构化的信息展示,适合需要自动化文档处理的场景

2. 生成式 UI(Generative UI)
演示如何动态生成 UI 组件,适合需要灵活界面生成的应用场景

3. 客服助手(Conversational Assistant)
结合了多轮对话、工具调用和生成式 UI,提供了构建可靠工作流程的客服会话助手的完整示范

项目地址:openai/openai-structured-outputs-samples 网页链接

第一个简历提取的例子最简单,首先借助 pdf2json 解析 pdf 为文本格式,然后让GPT-4o-mini解析,提示词就一句话:
“从提供的简历文本中提取相关字段。如果无法识别必填字段,请将其留空。”
但是要配合 JSON Schema,可以把内容解析为指定的JSON格式:
姓名、职位、住址、联系方式、工作经历等等

第二个动态生成 UI 的例子稍微复杂一点,GPT-4o-mini 就无法胜任了,得 GPT-4o 模型才行,提示词里面定义了什么情况下该用什么组件,使用什么样式等等,它比较巧妙的是把每一个 UI 组件都定义成一个工具,或者说工具函数,然后每一个工具函数的参数就相当于组件的参数,借助API的工具调用(Function calling)功能,让 AI 选择合适的工具(其实就是UI组件)。

提示词:
***
基于用户输入生成UI组件,尽可能相关地回答问题。
你可以组合不同的组件来最好地匹配用户的需求。
例如,
请遵循以下准则:
- 如果用户输入最适合用多个组件来回答,使用卡片组件并在其中包含多个子组件。
- 当需要返回一系列内容时,使用轮播组件来单独显示每个项目。
- 对于接受’classes’属性的UI组件,你可以使用tailwind类来设置样式(使用类来设置背景和文本颜色,以及边距和内边距,在适当的时候也可以使用flex、flex-col等相关类)。
- 对于可以用一组数值回答的问题(如高度、宽度、重量等),使用柱状图组件。
- 对于需要比较多个事物或者可以用列和行展示信息的问题,使用表格组件。
- 在适当的时候,使用标题来显示一个标题文本。
- 当使用柱状图或表格时,将它们作为卡片组件的子组件,并包含带标题的标题组件。
- 当你不确定使用哪个组件时,使用带容器的项目组件(你可以用tailwind类来设置样式)
***

但第二个例子有点为了用 Function Calling 而用 Function Calling 的意思,实际上要做复杂的 UI,并不需要 Function Calling,同样可以给它一个组件列表,直接让它选用合适的组件列表输出完整的 React 代码就好了
第三个例子是个客服的例子,内置了一系列客服工具,包括:获取产品列表、获取产品详情、获取订单、提交售后申请、退货、添加到购物车功能,会根据用户的请求选择合适的工具。根据工具查询到信息后,还可以配合第二个动态 UI 的例子,把商品信息使用内置组件用美观的方式列在会话中。

提示词:
***
你是一个销售计算机配件商店的客服助手。
你可以帮助顾客处理订单、退货和解答其他问题。

如果顾客想要退货,你可以:
- 使用get_orders工具查找相应的订单,并等待用户确认他们想要退回的具体订单
- 询问问题所在以便提交售后申请
- 使用file_claim工具提交售后申请
- 创建退货记录
- 告知用户他们将通过电子邮件收到退货详细信息

你还可以通过获取产品列表来帮助顾客购买新产品。
你可以根据已知信息比较这些产品,但如果用户想了解某个特定产品的更多信息,你可以使用get_product_details工具获取该产品的更多详细信息。

在任何时候只要你有数据要展示,就使用generate_ui工具来显示它。
用户将会看到显示的内容,所以不需要在后续消息中重复这些信息。

例如,如果你有一个商品或订单列表,你可以使用generate_ui工具,配合轮播组件和订单或商品作为子项来显示它们。
如果用户要求比较数据,你可以再次使用generate_ui工具来直观地显示比较结果。
如果要求比较或概述数值,使用bar_chart(柱状图)组件。
如果要比较无法用柱状图表示的内容或多个事物,使用table(表格)组件。
将这些表格或柱状图组件包装在带有标题的card(卡片)组件中,添加描述性标题来说明你在展示什么。

在显示内容之后,不要重复你已经显示的内容,只需询问用户是否还需要其他帮助。
***

Agent Laboratory - 基于LLM的一个研究助手

酷,基于LLM的一个研究助手:Agent Laboratory,它可以辅助查文献、写代码、写论文,自动化掉重复工作,让你专注在创意和做关键思考上

两个核心能力,代码助手,帮你把研究想法转成实际代码,会自动改进和优化代码; 写作助手,自动生成学术论文格式,整合实验结果,生成专业的研究报告

支持两种使用模式,全自动和协作模式

github:网页链接

City Roabs - 将该城市的主要道路渲染成黑白色的线路图

OpenStreetMap - 输入一个城市名很快就能将该城市的道路信息获取下来

分享 GitHub 上一个颇有趣的开源项目:City Roabs。

输入你喜欢的城市名称,即可将该城市的主要道路渲染成黑白色的线路图。

GitHub:github.com/anvaka/city-roads

数据来源于 OpenStreetMap,输入一个城市名很快就能将该城市的道路信息获取下来。

AI Agent Service Toolkit - 快速构建完善 AI Agent(智能体)服务的工具包

推荐 GitHub 上一个可用来快速构建完善 AI Agent(智能体)服务的工具包:AI Agent Service Toolkit。

包含了 LangGraph Agent、FastAPI 服务、Streamlit 应用等工具,并提供模板,轻松助力我们构建和运行专属的 Agent。

GitHub:github.com/JoshuaC215/agent-service-toolkit

从 Agent 的定义再到可视界面的构建,借助该工具包,相信大家的效率定有所提升且更容易入手。

UI-TARS - 无需预定义工作流或手动规则的端到端任务自动化

字节居然开源了两个(GUI)代理模型 UI-TARS

还有 PC/MacOS 应用程序,用于通过 vLMS 控制计算机

UI-TARS 将所有关键组件集成在一个单一的VLM中,从而实现无需预定义工作流或手动规则的端到端任务自动化

软件可以直接安装使用,快试试吧

软件的模型支持本地和云端部署,云端的话需要填写你自己的 Huggingface API Key

项目地址:github.com/bytedance/UI-TARS
软件下载:github.com/bytedance/UI-TARS-desktop

歸藏的AI工具箱的微博视频

open-r1 - DeepSeek-R1 的复现项目

huggingface官方出了个DeepSeek-R1 的复现项目,叫open-r1。也是出息了,之前都是国内出复现o1、复现sora的项目,这次开始被复现了
github.com/huggingface/open-r1

Open R1 是一个开源项目,旨在完整复现 DeepSeek-R1(深度求索公司开发的智能体模型)的技术框架,并推动社区协作进一步完善。该项目通过模块化设计简化了复现流程,目标是让研究者和开发者能够自由复现、改进并基于 R1 的技术路线构建自己的模型。
核心目标:
⭐开源复现:填补 DeepSeek-R1 技术流程中的缺失环节,提供可复现的训练、评估和数据生成工具。
⭐协作共建:通过社区力量逐步完善模型训练流程(如数据生成、强化学习优化等)。
⭐技术透明化:以代码和文档形式公开 R1 的实现细节,降低技术门槛。
项目分三步推进,参考 DeepSeek-R1 技术报告:
⭐复现 R1-Distill:
通过蒸馏(Distillation)从原始 DeepSeek-R1 提取高质量知识库,训练轻量级模型。
⭐复现 R1-Zero:
构建纯强化学习(RL)训练流程,需大规模数学、推理和代码数据支持。
⭐多阶段训练验证:
展示从基础模型到多阶段 RL 调优的全流程,验证技术可行性。

Simba - 开源知识库系统

看到一个开源知识库系统 Simba,这个库可以轻松收纳各种文档,并且与任意RAG系统集成作为后端知识库。

地址:github.com/GitHamza0206/simba

DeepSeek 5天开源周汇总

DeepSeek 5天开源周(实际今天第6天也放出来一个”DeepSeek-V3/R1 推理系统概述”)总结:覆盖硬件加速、模型训练、数据处理等,均围绕*降低算力成本*与*提升硬件效率*展开,通过开源代码实现技术普惠。

Day 1:FlashMLA—GPU算力压榨新标杆
- 专为Hopper GPU优化的高效解码内核,动态分配算力资源,解决AI处理变长序列(如长/短文本)时的资源浪费问题。实测显示,翻译、内容生成等任务效率提升显著,成本降低30%。
- 挑战英伟达CUDA生态的封闭性,证明开源工具同样能最大化硬件性能,推动开发者对算力的精细化利用。

Day 2:DeepEP—MoE模型通信效率革命
- 首个针对混合专家模型(MoE)的开源通信库,支持低精度计算(FP8),减少多专家协同训练的延迟与算力消耗,提升训练速度20%。
- 降低分布式训练的硬件门槛,助力中小团队参与大模型研发,加速MoE架构的普及。

Day 3:DeepGEMM—矩阵计算的“省电小能手”
- 通过FP8低精度计算优化矩阵乘法(AI训练核心操作),结合CUDA误差修正技术,兼顾速度与精度,代码仅300行,易部署。
- 简化高性能计算开发流程,推动边缘计算与低功耗芯片(如国产ASIC)的应用场景扩展。

Day 4:DualPipe & EPLB—并行计算的“时间管理大师”
- DualPipe:双向调度流水线任务,解决多任务并行中的等待问题;
- EPLB:动态复制任务至空闲GPU,实现负载均衡,避免资源闲置。
- 提升集群利用率,降低超算中心运营成本,为云计算服务商提供高效解决方案。

Day 5:3FS—数据处理的“极速引擎”
- 分布式文件系统结合SSD与RDMA网络技术,数据读取速度达6.6TB/秒,满足海量训练需求。
- 推动存储与网络技术的协同创新,加速AI大模型训练周期,助力超大规模数据应用落地。

Day 6:V3/R1推理系统—吞吐量与成本的“双杀”
- 通过跨节点边缘计算(EP)驱动的批量扩展计算和通信重叠技术,显著提升吞吐量和降低延迟。具体表现为每个H800节点每秒可处理73.7k输入令牌,输出达14.8k令牌,满足高并发、实时性需求场景(如视频流分析、大规模即时推理)。
- 系统成本利润率高达545%,结合DeepSeek此前开源的训练优化工具链,实现从训练到推理的全链路降本增效。
- 提供标准化API接口,开发者可快速集成至现有应用,支持个性化功能扩展(如定制化AI绘画、写作工具后端)。

行业影响:重构AI竞争格局
1. 挑战英伟达:DeepSeek开源工具直击英伟达CUDA生态的软硬件耦合优势,为国产GPU/ASIC提供替代路径。
2. 推动技术民主化:中小开发者可基于开源模块快速搭建AI应用,降低创新门槛,催生更多细分场景解决方案。
3. 倒逼行业转型:迫使闭源厂商(如OpenAI)重新评估商业模式,加速全球AI开源生态的竞争与合作。

汇总:github.com/deepseek-ai/open-infra-index

DeepSeek 开源周第 6 天彩蛋

https://weibo.com/1727858283/PgwaiEd1R#repost

DeepSeek 开源周第 6 天彩蛋 – DeepSeek-V3/R1 推理系统概览
排版好的版本:网页链接

通过以下方式优化吞吐量和时延:
🔧 基于跨节点 EP 的批量扩展
🔄 计算与通信重叠
⚖️ 负载均衡

DeepSeek 在线服务统计数据:
⚡ 每个 H800 节点每秒输入/输出分别达 73.7k/14.8k token
🚀 成本利润率 545%

💡 希望本周的分享能为社区带来帮助,也期待与大家一起推进通用人工智能(AGI)的目标。

第 6 天:再一个彩蛋,DeepSeek-V3/R1 推理系统概览

系统设计原则

在服务 DeepSeek-V3/R1 的推理任务时,我们的优化目标是:更高的吞吐量(throughput)与更低的时延(latency)。

为实现这两个目标,我们采用了跨节点的 Expert Parallelism(EP)策略。
• 首先,EP 显著提升了批量大小,从而提升了 GPU 矩阵计算效率,并带来更高的吞吐量。
• 其次,EP 将专家分布到多个 GPU,每块 GPU 仅处理一小部分专家(减少内存访问需求),从而降低时延。

然而,EP 同时也会带来更高的系统复杂度,主要体现在两个方面:
1. EP 引入了跨节点通信。为了实现高吞吐,需要在计算流程中精心设计,让计算与通信相互重叠。
2. EP 涉及多个节点,因此必须结合数据并行(DP)策略,并且需要在不同的 DP 实例之间进行负载均衡。

本文将重点介绍我们如何通过以下方式应对这些挑战:

• 采用 EP 扩大批量规模,
• 将通信时延隐藏在计算过程之后,
• 并且进行负载均衡。

大规模跨节点 Expert Parallelism(EP)

由于 DeepSeek-V3/R1 模型含有大量专家(expert),且每层仅激活 256 个专家中的 8 个,模型存在极高的稀疏度,需要极大规模的整体批量才能保证单个专家的批量规模充足,从而实现更高吞吐量和更低时延。大规模的跨节点 EP 因此至关重要。

我们采用了预填充(prefill)与解码(decode)分离的架构,并在两个阶段使用不同的并行度:
• 预填充阶段 [Routed Expert EP32, MLA/Shared Expert DP32]:每个部署单元由 4 个节点组成,包含 32 个重复的路由专家(routed experts),其中每个 GPU 处理 9 个路由专家和 1 个共享专家。
• 解码阶段 [Routed Expert EP144, MLA/Shared Expert DP144]:每个部署单元由 18 个节点组成,包含 32 个重复的路由专家,其中每个 GPU 处理 2 个路由专家和 1 个共享专家。

计算与通信重叠

大规模跨节点 EP 会产生较大的通信开销。为降低通信对性能的影响,我们采用了“双批次(dual-batch)重叠”策略,将一个批次切分为两个微批(microbatch),在预填充阶段,这两个微批交替执行,其中一个微批的通信过程与另一个微批的计算过程重叠,从而隐藏通信开销并提升整体吞吐。

图 1:预填充阶段的通信与计算重叠示意

在解码阶段,由于不同阶段执行时长并不均衡,我们将注意力层(attention layer)进一步拆分为两个步骤,并使用 5 阶段流水线,保证通信与计算在更细粒度上进行无缝重叠。

图 2:解码阶段的通信与计算重叠示意

更多关于我们通信与计算重叠机制的细节,可参见:网页链接

实现最佳负载均衡

大规模并行(包括 DP 和 EP)带来的一个核心问题是:如果某一张 GPU 在计算或通信负载上过重,就会变成整个系统的性能瓶颈,从而导致其他 GPU 空闲,无法充分利用资源。为最大化资源使用率,我们需要让所有 GPU 在计算和通信的负载方面尽可能平衡。

1. 预填充负载均衡器(Prefill Load Balancer)
• 主要问题:不同 DP 实例内的请求数量和序列长度各不相同,导致核心注意力计算(core-attention)和发送(dispatch send)负载不平衡。
• 优化目标:
• 平衡各 GPU 之间的核心注意力计算量(core-attention 计算负载均衡)。
• 确保每个 GPU 接收到的输入 token 数量大致相同(dispatch send 负载均衡),避免个别 GPU 处理时长过久。

2. 解码负载均衡器(Decode Load Balancer)
• 主要问题:不同 DP 实例内的请求数量和序列长度各不相同,导致核心注意力计算(与 KVCache 使用量相关)和发送(dispatch send)负载不平衡。
• 优化目标:
• 平衡各 GPU 的 KVCache 使用量(核心注意力计算负载均衡)。
• 使每个 GPU 接收到的请求数大致相同(dispatch send 负载均衡)。

3. 专家并行负载均衡器(Expert-Parallel Load Balancer)
• 主要问题:对于某些 MoE(Mixture of Experts)模型,部分专家的调用量先天较高,导致专家之间的计算负载存在不平衡。
• 优化目标:
• 使各 GPU 的专家计算负载相对均衡(即尽量降低所有 GPU 的最大专家处理负载)。

DeepSeek 在线推理系统示意图

图 3:DeepSeek 在线推理系统示意图

DeepSeek 在线服务统计数据

DeepSeek-V3/R1 的推理服务均基于 H800 GPU,并使用与训练一致的精度。具体而言,矩阵乘法和专家分发(dispatch)均采用与训练相同的 FP8 格式,而核心 MLA 计算和合并(combine)阶段则使用 BF16 格式,以保证服务性能的最优表现。

此外,考虑到白天负载高、夜间负载低,我们在白天高峰期会在所有节点上部署推理服务,夜间负载较低时则减少推理节点数量,将部分资源用于研究和训练。在过去 24 小时(UTC+8 2025/02/27 中午 12:00 至 2025/02/28 中午 12:00)的统计中,V3 和 R1 推理服务最高同时占用 278 个节点,平均占用为 226.75 个节点(每个节点包含 8 张 H800 GPU)。假设每张 H800 GPU 的租用成本为每小时 2 美元,则单日总成本约为 87,072 美元。

图 4:H800 推理服务节点使用情况

在这 24 小时的统计周期(UTC+8 2025/02/27 中午 12:00 至 2025/02/28 中午 12:00)里,V3 和 R1 的数据如下:
• 总输入 token 数:6080 亿,其中 3420 亿 token(占比 56.3%)命中磁盘 KV 缓存。
• 总输出 token 数:1680 亿。平均输出速度为 20–22 token/s,平均每个输出 token 对应的 kvcache 长度为 4989 个 token。
• 每个 H800 节点在预填充阶段平均可实现约 73.7k token/s 的输入吞吐量(包含缓存命中的部分),在解码阶段平均可实现约 14.8k token/s 的输出吞吐量。

上述数据包含所有来自网页、APP 及 API 的请求。如果将所有 token 均按照 DeepSeek-R1 的计费标准(*) 来计费,则每日理论收入为 562,027 美元,成本利润率达 545%。

(*) R1 收费标准:输入 token(缓存命中)$0.14/M、输入 token(缓存未命中)$0.55/M、输出 token $2.19/M。

但我们的实际收入显著低于此估算,原因包括:

• DeepSeek-V3 的定价远低于 R1,
• 只有部分服务会收费(网页和 APP 访问目前免费),
• 夜间低负载时段会自动启用折扣。

图 5:成本与理论收入示意图

原文:网页链接

@QuantumDreaming:回复@QuantumDreaming:另外,这也解释了我一直以来的困惑——他们哪里来的可持续的钱支持网页版的免费全球使用的。//@QuantumDreaming:按照梁文峰去年的说法,他们并不是亏损提供 API 的,都是预留了一些利润的,现在具体数据出来了——“DeepSeek 在线服务统计数据: ⚡ 每个 H800 节点每秒输入/输出分别达 73.7k/14.8k token 🚀 成本利润率 545%”

WhisperChain - 一款自带润色功能的实时语音转录工具

一款自带润色功能的实时语音转录工具:WhisperChain
自动清理口头禅,优化表达,做会议记录、写语音文档等比较实用

它会用更正式的词汇替换口语化表达,让内容更简洁清晰,且保持核心意思不变

比如”这个东西卖得特别好,赚了不少钱,客户都说好…”它会转录为”该产品市场表现优异,创造了可观的营收,获得了客户的普遍好评”

处理好后自动存入剪贴板,即时可用

github:网页链接

Klee - 很好用的开源本地版知识库

发现个很好用的开源本地版知识库——Klee。

有点类似本地版 Notion 的感觉。使用体验很流畅,完全不需要写一行代码,全都下一步即可安装完成并配置好本地大模型。特别适合懒得折腾或者完全不懂大模型,但是想在本地使用的同学(有些数据不能传到网上)。

这个项目使用Electron+React实现。内置了ollama,可以直接下载模型并在本地使用。也可以使用官方提供的API或自己配置API。图为我测试 DeepSeek-R1-Distill-Qwen-7B. 我的 3080ti可以流畅运行。

(注意ollama标记的这几个小的deepseek实际上是蒸馏后的llama和qwen。做些本地简单任务还是可以的。另外它也有满血版DeepSeek-R1, 如果想本地用请准备好大显卡。)

另外这个项目是开源的,因此可以自己fork并按照你的想法定制。

地址:github.com/signerlabs/Klee

Nanobrowser - AI网页自动化工具

AI网页自动化工具:Nanobrowser,OpenAI Operator的开源替代,本地浏览器运行

支持多智能体协作、任务自动化、多模型选择

可以用它自动执行重复的网页操作,像填表单、点按钮、提取数据等

支持交互式操作和实时反馈,通过侧边栏界面,可以与AI进行交互,提供指令、提出问题,可实时查看任务执行的状态及结果

github:网页链接

Web Search工具、File Search工具、Computer Use工具 - 一套全新的工具,帮助开发者更轻松地创建AI智能体(Agent)

OpenAI刚刚发布了一套全新的工具,帮助开发者更轻松地创建AI智能体(Agent)。

过去,开发AI智能体时,开发者通常需要自己拼凑不同的API,不仅麻烦,效率也低。OpenAI新推出的三个内置工具有效解决了这些痛点:

第一,Web Search工具,让AI智能体能够实时搜索网络,获取最新的事实信息,回答更准确。

第二,File Search工具,升级后支持元数据筛选和直接访问向量数据库,更好地利用企业或个人私有数据,轻松实现知识检索(RAG)功能。

第三,Computer Use工具,能控制电脑自动执行任务,甚至操作没有API的旧软件,实现复杂任务自动化。

OpenAI同时还推出了全新的Responses API,不仅能支持多轮对话,还能同时调用多个工具,简化复杂流程,提升效率。它将在未来逐步替代Assistant API(计划于2026年停止服务)。

此外,OpenAI的开源智能体编排框架Swarm现已正式升级为Agents SDK,更适合生产环境,支持智能体间的协作、任务交接、流程监控和追踪,开发者只需几行代码就能构建强大的多智能体系统。

OpenAI 首席产品官 Kevin Weil 在直播的最后总结说:“2025 年将会是 AI 智能体爆发的一年, 也是 ChatGPT 和我们开发者工具从‘仅仅回答问题’ 升级为‘真正能在现实世界里为你执行任务’的一年。”

- OpenAI 官方博客 网页链接
- 内置工具官方文档 platform.openai.com/docs/guides/tools?api-mode=responses
- Responses API 官方文档 platform.openai.com/docs/api-reference/responses
- Agents SDK (Python) 开源项目 网页链接

宝玉xp的微博视频

Parlant - AI Agent的对话设计引擎

看到个AI Agent的对话设计引擎——Parlant

相信大家都打过移动客服,客服会根据你按的数字键进入下一个对话。这个工具的功能类似,你可以预设用户的提问,然后针对每个提问场景来编写功能,比如是RAG查询还是调用函数去给客户订票等等。

估计企业客户会对这个框架比较感兴趣,用来搭建自己的智能客服。

地址:github.com/emcie-co/parlant

FilePizza - 解决文件传输难题的开源免费工具

日常大文件传输分享,通常会选择网盘或硬盘,但往往会遇到传输慢、存储有限、安全性等问题。

GitHub 上有一款刚好能解决文件传输难题的开源免费工具:FilePizza。

无需注册、无需安装、无需等待上传,直接在浏览器间点对点传输文件,快速又安全,且不经过任何服务器存储。

GitHub:github.com/kern/filepizza

同时没有文件大小限制,支持多文件批量发送,可设置密码访问保护文件传输。

上传文件后,会生成二维码或短链方便分享下载,还能实时监控传输进度。

Vecto3d - 将任何 SVG 图标一键生成 3D 模型

虽然使用 Blender 能将 Logo 图标转换为 3D 效果,但复杂操作让小白望而却步。

现在 GitHub 上有一个超级简单的开源工具:Vecto3d,能够将任何 SVG 图标一键生成 3D 模型。

GitHub:github.com/lakshaybhushan/vecto3d

主要功能:

- 简单直观的操作界面,无需 3D 建模知识即可上手;
- 可调节模型厚度和倒角效果;
- 多种材质选择(玻璃、金属、塑料等);
- 支持自定义环境背景图片;
- 导出 STL、GLB 和 GLTF 等多种 3D 模型格式;
- 可导出高清、2K 和 4K 质量的 PNG 图片;
- 提供”Vibe 模式”,添加梦幻效果和柔和阴影。

在线体验: 网页链接

同时提供了在线免费使用网站,无需下载安装,可以收藏有空玩下。

5 个用于智能体记忆的框架,100% 开源

https://weibo.com/2192828333/Pk02CvmSK?pagetype=homefeed

RAG 并不是真正的记忆。智能体(AI Agent)需要长期记忆来维持上下文并实现持续学习。以下是 5 个用于智能体记忆的框架,100% 开源。

1. Graphiti 构建了具有时间感知的知识图谱,这些图谱会随着时间推移,随着关系和上下文的变化而演变,从而适应智能体的需求。

网页链接

2. Letta 是一个开源框架,用于构建具有高级推理能力和透明且长期记忆状态的智能体。Letta 框架是 “白盒” 设计,并且与模型无关。此外,它还允许用户在自己的服务器上以可视化方式测试、调试和观察智能体的行为。

网页链接

3. Mem0 是一个为智能体设计的智能记忆层,能够通过与用户的交互主动学习并适应变化。它结合了大语言模型(LLM)和向量存储技术。LLM 负责从对话中提取关键信息,而向量存储则用于语义搜索和记忆检索。

网页链接

4. Memary 赋予 AI 智能体类似人类的记忆能力。它通过知识图谱跟踪实体知识、偏好和聊天历史记录,并且该知识图谱会随着智能体与用户的交互自动更新。

网页链接

5. Cognee 是一个 Python 库,将知识图谱与 RAG 结合起来,为智能体和应用程序构建不断演化的语义记忆。它利用动态知识图谱来维护不同信息之间的关系。

网页链接

meta-agent - 一个基于OpenAI Agent SDK来构建Agent的工具

一个基于OpenAI Agent SDK来构建Agent的工具:meta-agent,用自然语言描述即可构建一个AI助手

meta-agent本身是多agent架构,不同的agent负责不同的任务,包括规范分析、工具设计、代码生成和验证等

它会把自然语言规范转换为结构化的数据模型,根据数据模型生成Python代码

设有验证机制,确保agent可正常运行

github: 网页链接

Vibe Draw - 用Claude 3.7将图片转成3D

@黄建同学:这个项目其实是开源的。在这里: 网页链接 。粗略看了下代码,(如果我没看漏),是用Claude 3.7将图片转成3D。申请试用: 网页链接

@wuKun655:不知道图生3D用的什么模型

@黄建同学 这下好了,不止 Vibe Coding (AI工程师),Vibe Draw,Vibe 3D也都要来了↓

视频演示了 草图->精修图-> 3D

黄建同学的微博视频

Free Search API - 给大模型用的搜索接口框架

看到一个给大模型用的搜索接口框架 Free Search API

算是个可以用的本地替代,简单来讲这个框架把 Google 的搜索接口包装成了RESTAPI

地址:github.com/HanzlaJavaid/Free-Search

Basic Memory - 一个支持通过与AI的对话来构建持久语义图谱的知识管理系统

一个支持通过与AI的对话来构建持久语义图谱的知识管理系统:Basic Memory
特点是所有知识都以Markdown格式存储在本地,核心是会建立知识关联

无缝集成Obsidian,可以直接在Obsidian中查看编辑笔记

实时保存对话内容,并把信息整理成结构化的笔记,双向交互,AI和用户都可以读写同一文件

github: 网页链接

Cua - 为Mac提供Computer Use 的AI Agent能力

公开 Cua 已经快4K⭐了,为Mac提供Computer Use 的AI Agent能力↓

Cua(发音为“koo-ah”,是 Computer-Use Agent 的缩写)是一个开源框架,它将高性能虚拟化与 AI 代理功能相结合,为 AI 系统与桌面应用程序交互提供安全、隔离的环境。

Demo视频演示了自动在Cursor上修复bug。

Cua 提供了两种主要功能:

1. 高性能虚拟化- 用来在 Apple Silicon 上创建并运行具有接近原生性能(高达原生速度的 90%)的 macOS/Linux 虚拟机Apple’s Virtualization.Framework。

2. 计算机使用界面和代理——允许AI 系统观察和控制这些虚拟环境的框架——与应用程序交互、浏览网页、编写代码和执行复杂的工作流程。

访问:github.com/trycua/cua

ElevenLabs的MCP

公开 ElevenLabs的MCP也出来了,ElevenLabs+Claude+Cursor三组合,可以让AI助手打电话给你订披萨😆

基于这个MCP,就可以把AI助手和语音技术深度结合,让AI助手能进行真实的语音交互

支持Claude Desktop 、 Cursor 、 Windsurf 、 OpenAI Agents等MCP客户端生成语音、克隆声音、转录音频等

github: 网页链接

sitemcp - 把任意网站变成MCP服务器

把任意网站变成MCP服务器的一个项目:sitemcp

sitemcp会抓取网站内容并缓存,支持使用micromatch指定抓取的页面路径以及CSS选择器来精细化选择页面内容,并把抓取的内容用作MCP服务器的数据源

它等于是把静态网站变成了一个可交互的知识库,配合MCP客户端进行提问,解锁了更丰富的应用场景

github: 网页链接

AI新闻小编 - 每天自动给你发送最新的AI行业动态

一个”AI新闻小编”工具,每天自动给你发送最新的AI行业动态

它基于firecrawl和 Gemini 2.5 Pro自动搜索网络上最新的AI动态,整理总结,然后按时发送到邮箱

github: 网页链接

DevDocs - 自动爬取、提取并组织技术文档,将以往需要花数周理解文档的时间缩短至几个小时

开发者经常需要查看技术文档,这不仅是一项既耗时又繁琐的工作。

为了解决这个痛点,一款专为程序员打造的文档爬取和处理工具:DevDocs,开源了!

它能够自动爬取、提取并组织技术文档,将以往需要花数周理解文档的时间缩短至几个小时,极大提升我们的开发效率。

GitHub:github.com/cyberagiinc/DevDocs

主要功能:

- 智能爬取功能,支持 1-5 层深度的网站结构爬取;
- 自动发现链接和子 URL,全面映射网站结构;
- 并行处理技术,实现高速文档爬取与智能缓存;
- 干净提取内容,去除冗余信息易于理解;
- 支持 MD 和 JSON 导出格式,方便 LLM 训练。

除此之外,还内置 MCP 服务器,支持集成到 Claude、Cursor、Cline 等 AI 应用,实现聊天对话查询文档。

提供 Docker 快速部署方式,简单配置下,即可使用。

Minimax的MCP

Minimax的MCP,通过Windsurf或Cursor使用Minimax的图像生成和TTS功能

Minimax的TTS效果还是不错的,也支持自定义语速、音量、音调、情感等设置,LaTeX公式朗读、自定义发音、字幕生成等

github: 网页链接

Chatlog - 一个基于 MCP 实现聊天记录总结和查询的开源工具

一个基于 MCP 实现聊天记录总结和查询的开源工具:Chatlog,完美解决我们群聊消息过多没时间查看的问题。

提供简单易用的操作界面和命令行工具,支持微信 3.x 和 4.0 版本,实现查询聊天记录、联系人、群聊以及最近对话等信息。

GitHub:github.com/sjzar/chatlog

通过 MCP SSE 协议,可与任何支持 MCP 的 AI 助手集成使用,如 Claude、ChatWise、Cherry Studio 等。

LocAgent - 辅助代码定位的工具

程序员工具,一款开源的辅助代码定位的工具:LocAgent,它通过图结构引导LLM进行代码定位

就是把代码库解析为有向异构图,让LLM在图上搜索和推理,利用图结构和LLM的推理能力,准确定位代码

支持 LLM 通过多跳推理进行代码定位

使用微调后的Qwen-2.5-Coder-Instruct-32B,LocAgent在文件级定位上达到了92.7% 的准确率,相比现有的SOTA专有模型,成本降低了约86%

github: 网页链接

Jupyter MCP Server - 让AI助手直接在你的Jupyter笔记本中添加代码/文字

Jupyter MCP Server,让AI助手直接在你的Jupyter笔记本中添加代码/文字

比如用Python分析一个数据集,“计算一下这个数据集的平均值和标准差”,你可以用自然语言给Claude

Claude不仅可以生成结果,还可以直接把计算平均值和标准差的Python代码添加到Jupyter Notebook里,甚至可以让它运行这段代码,把结果可视化出来

github: 网页链接

Tutorial-Codebase-Knowledge - 自动分析 GitHub 仓库并生成适合初学者的通俗易懂教程,清晰解释代码如何运行,还能生成可视化内容来展示核心功能

GitHub 上有非常多优秀的代码库,但我们常常会感到无从下手,理解别人编写的代码结构需要花费大量时间和精力。

现在有一款名为 Tutorial-Codebase-Knowledge 的开源 AI 工具,正好解决了这个痛点。

它能自动分析 GitHub 仓库并生成适合初学者的通俗易懂教程,清晰解释代码如何运行,还能生成可视化内容来展示核心功能。

GitHub:github.com/The-Pocket/Tutorial-Codebase-Knowledge

主要功能:

- 爬取 GitHub 仓库并从代码中构建知识库
- 分析整个代码库以识别核心抽象概念及其交互方式
- 将复杂代码转化为初学者友好的教程
- 生成清晰的代码结构可视化
- 已成功应用于多个流行仓库如 FastAPI、Flask、NumPy Core 等

使用该工具也非常简单,只需克隆代码到本地,安装依赖,配置 LLM,即可通过简单命令生成完整的代码库教程。

MarkItDown MCP - 支持将微软的一系列文档转换为 Markdown 文档格式

MarkItDown MCP 支持将微软的一系列文档转换为 Markdown 文档格式

支持:PDF、PPT、Word、Excel、ZIP 文件、EPubs等

这太猛了,Office 三剑客都有

详细信息: 网页链接

微软发布了一个文档转换MCP:markitdown-mcp,用于将网页链接(http/https)、本地文件以及数据转换为Markdown格式!

主要是调用MarkItDown进行格式转换。可以通过Docker运行或直接安装,也可以与Claude等AI工具集成使用

github: 网页链接

git-sync - Git 仓库备份同步工具

如果我们担心自己 GitHub 账号哪天被封或意外删除导致代码丢失,不妨看下。

这款简单实用的 Git 仓库备份同步工具:git-sync,它能自动备份所有 Git 仓库到本地,确保我们随时都能访问自己的代码,防患于未然。

GitHub:github.com/AkashRajpurohit/git-sync

主要功能:

- 自动备份所有仓库到指定本地目录
- 支持定期同步,保持备份与远程仓库同步
- 支持多种克隆模式(bare、shallow、mirror、full)
- 并发同步多个仓库,大幅提高备份速度
- 支持 GitHub、GitLab、Bitbucket等 所有主流 Git 平台
- 完成同步后发送通知,及时掌握备份状态

提供多种安装方式,可通下载二进制文件或使用 Docker 镜像快速部署。

Persona Engine - AI 虚拟助手项目

https://weibo.com/2169039837/Pof4z8fnL?pagetype=homefeed

来看这个AI 虚拟助手项目—— Persona Engine (人格引擎)

它结合了大语言模型,Live2D,自动语音识别,文本转语音,实时语音克隆。达到了直接跟虚拟人物对话的能力。当然可以直接集成到 OBS 里面做AI虚拟主播

地址:github.com/fagenorn/handcrafted-persona-engine

Dive - 一款支持 Windows 和 Linux 的桌面应用程序,能够支持所有 LLMs 工具调用。目前,它是安装 MCP 服务器的最简单方法

https://weibo.com/1233486457/Poqxs6fwq?pagetype=groupfeed

简单来讲它是个本地 MCP Server 终端,可以通过这个工具来使用 MCP 调用各种其他工具. 比如打开这个再打开 Blender,搭配 BlenderMCP,你就能连接 Blender 用大模型帮你建模了.(工程师可能更倾向于用代码编辑器比如Cursor/Windsurf)

Dive 是一款支持 Windows 和 Linux 的桌面应用程序,能够支持所有 LLMs 工具调用。目前,它是安装 MCP 服务器的最简单方法。Dive 提供实时工具调用嵌入和高效系统集成,旨在为开发者提供更灵活、更高效的开发工具。

地址:github.com/OpenAgentPlatform/Dive

@挨踢牛魔王:这一说提醒了我,整个重构理论都可以基于AI改写了。

@karminski-牙医:这玩意更新了0.8, 最大的改动是,他们花了2周时间从 TypeScript 重构为了 Python。这种作死行为在过去通常是有着巨大风险,耗时以月为单位,而且大概率失败的。现在用 AI,重构2周就搞定了

@karminski-牙医 是不是天天听到 MCP 却不知道怎么用?来看这个——Dive

https://weibo.com/2169039837/PorBOdeKv?pagetype=homefeed

回复 @APCR248:我建议新项目除非面对特别窄的领域,否则就首选python。

@APCR248:看起来我正在逆潮流而动,正在把一个 Python 的 AI 应用重构为 Typescript

BitPlay - Torrent 视频流媒体 Web 应用

在网上找到的视频资源时,往往是 Torrent 还需要下载到本地,有时候网络慢等上半天才能看上电影。

给大家推荐一款强大的 Torrent 视频流媒体 Web 应用:BitPlay。

它能让我们直接在浏览器中播放种子视频,无需等待完整下载,同时支持 SOCKS,还集成了 Prowlarr 和 Jackett 搜索功能,一站式解决资源查找问题。

GitHub:github.com/aculix/bitplay

主要功能:

- 直接串流:从磁力链接或种子文件直接播放视频,无需完整下载
- 简洁的 Web 界面:通过浏览器访问和控制,操作简单直观
- SOCKS5 代理支持:为所有种子相关流量配置代理,保护隐私
- 搜索集成:连接 Prowlarr 或 Jackett 实例,在应用内直接搜索多个索引器
- 实时字幕转换:自动将 SRT 字幕转换为浏览器兼容的 VTT 格式

提供 Docker 一键部署方式,也支持直接用 Go 运行,适合各种使用场景。

SkyReels-V2 - 一款旨在突破现有生成式视频模型局限的无限长度视频生成模型

https://weibo.com/2192828333/PopZ95ONU?pagetype=homefeed

目前,大部分视频生成模型一次性只能生成 5-10 秒长度的视频。 SkyReels-V2 则是一款旨在突破现有生成式视频模型局限的无限长度视频生成模型。这几年,视频生成领域在扩散模型和自回归框架的推动下取得了长足进展,但始终存在几个难以调和的挑战。在提升画面视觉质量的同时,运动状态往往被牺牲,视频时长受限于分辨率和带宽,且现有大模型难以准确解析视频的镜头语言,导致生成内容缺乏专业的电影感。SkyReels-V2 的出现,正是为了解决这些瓶颈。

该模型的核心创新在于引入了 Diffusion Forcing 扩散强制机制,这是目前首个可支持无限时长连续生成的方案。与传统扩散模型一刀切的噪声调度不同,Diffusion Forcing 允许每一个 Token 拥有独立的噪声等级,模型可以灵活地在序列中部分掩码、部分恢复,实现任意长度视频的无缝续写。理论上,这相当于为生成模型提供了 “随时接续” 的能力,极大拓展了电影级视频的生成长度与连续性。

在数据处理和训练策略上,SkyReels-V2 利用了多模态大模型的集成思路。团队构建了完善的视频标注体系,其中 SkyCaptioner-V1 担任视频描述生成器,基于 Qwen2.5-VL-7B-Instruct 进行定制化微调,并在两百万规模的视频数据集上平衡标注。该模型在镜头类型、角度、主体位置、表情等多个维度的标注准确率上,超越了目前的主流开源模型,为后续生成模型的训练提供了高质量的语义基础。

在生成质量优化环节,SkyReels-V2 引入了强化学习机制。针对长视频中大幅度、可变形运动的生成难题,团队采用了半自动化的偏好标注流程,将自动生成的运动对与人工评估结合,训练了专门的奖励模型以优化运动表现。这种方法有效提升了模型对物理规律和运动连贯性的把握,同时避免了对画面质量和文本对齐度的损害。

此外,SkyReels-V2 还采用了两阶段的高质量监督微调策略,分别针对 540p 与 720p 不同分辨率进行优化。第一阶段的微调聚焦于概念均衡与模型初始化,第二阶段则更重视分辨率提升和整体画质细节的打磨。配合强大的计算资源调度体系,这一流程使得生成结果在专业评测中表现优异。

在性能评测方面,SkyReels-V2 在自建的 SkyReels-Bench 和公开的 V-Bench 基准上,均取得了领先的综合得分,尤其是在指令遵循性、一致性、视觉质量等维度上优势明显。无论是文本到视频(T2V)还是图像到视频(I2V)任务,SkyReels-V2 都显示出对现有主流开源模型的全面超越,部分指标已逼近甚至媲美商业闭源系统。

SkyReels-V2 详细介绍: 网页链接
SkyReels-V2 项目地址: 网页链接
SkyReels-V2 论文地址: 网页链接

程序员在家做饭方法指南

程序员在家做饭方法指南。
地址:anduin2017.github.io/HowToCook/
用更清晰精准的描述来整理常见菜的做法,以方便程序员在家做饭。 ​​​

HowToCook-MCP Server

https://weibo.com/2194035935/Poy8v1u2E?pagetype=homefeed

之前发过一个很火的程序员在家做饭指南( 微博正文 ),现在worryzyy把它做成了一个MCP Server “HowToCook-MCP Server”项目,让 AI 助手能够为你推荐菜谱、规划膳食,解决”今天吃什么”的世纪难题!。

github.com/worryzyy/HowToCook-mcp

该 MCP 服务器提供以下美食工具:

📚 查询全部菜谱 - 获取所有可用菜谱数据,做菜百科全书 — 慎用这个—上下文太大
🔍 根据分类查询菜谱 - 按照分类筛选菜谱,想吃水产?早餐?荤菜?主食?一键搞定!
🧩 智能推荐膳食 - 根据你的忌口、过敏原和用餐人数,为你规划整整一周的美味佳肴
🎲 不知道吃什么 - 选择困难症福音!根据人数直接推荐今日菜单,再也不用纠结了

Index - 一个开源浏览器代理,用于自主执行网络复杂任务,由具备视觉能力的推理型语言模型(LLMs)驱动

Index 是一个开源浏览器代理,用于自主执行网络复杂任务,由具备视觉能力的推理型语言模型(LLMs)驱动。
github.com/lmnr-ai/index

项目支持多种模型,如 Gemini 2.5 Pro(快速且准确)、Claude 3.7 Sonnet(可靠且准确)、OpenAI o4-mini(速度、成本和准确性平衡良好)以及 Gemini 2.5 Flash(快速、廉价,适合较不复杂任务)。

其实2.5-flash也足够强了

一套完整的可实时交互的数字人系统

LAM - 单图秒级3D数字人生成模型

Audio2Expression - 一个音频驱动的表情动画模型

OpenAvatarChat - 数字人实时对话系统

太酷了,阿里通义实验室给出了一套完整的可实时交互的数字人系统!

先是一款单图秒级3D数字人生成模型:LAM,支持实时动画和交互功能
支持跨平台、低延迟、实时渲染

另外还开源了两个配套工具,形成了一个完整的可实时交互的数字人系统

1、Audio2Expression,一个音频驱动的表情动画模型,用于驱动LAM生成的数字人头像,根据音频做出相应的嘴型和表情

2、OpenAvatarChat,数字人实时对话系统,核心是多模态低延迟,平均回答延迟在2.2秒左右

LAM : 网页链接

OpenAvatarChat : 网页链接

LAM_Audio2Expression: 网页链接

快速检索zip包里的日志文件

https://weibo.com/1809500942/PoXMc67NI?pagetype=groupfeed

趁着半夜睡不着,爬起来开源一个前几年写的小工具,能够在某些场景代替zgrep,快速检索zip包里的日志文件。对于一个压缩后2G的日志文件,额外会增加一个40MB的索引文件,但是检索时间可以降低到0.4s。地址:github.com/qdaxb/zq

工具本身不复杂,一直没开源的主要原因是懒得做那些文书工作。今天突然意识到,如今随便用个AI辅助工具,几分钟就能把这些杂活干完了……

ElatoAI - 基于 ESP32 微控制器和 OpenAI Realtime API 开发。

https://weibo.com/1088413295/Pp0katPQp?pagetype=groupfeed

OpenAI Realtime 是真快,就是太贵了

想要让玩具、公仔变得会说话、有情感,现有的方案要么太贵太复杂,要么就是需要一直连着手机,用起来特别不方便。

为了解决这些问题,GitHub 上开源项目 ElatoAI 给出了解决方案,基于 ESP32 微控制器和 OpenAI Realtime API 开发。

它能让你的玩具变成真正的 AI 伙伴,支持超过 10 分钟的连续自然对话,语音识别和回应都非常流畅。

GitHub:github.com/akdeb/ElatoAI

主要功能:

- 实时语音转语音:基于 OpenAI 实时 API,对话极其自然流畅
- 自定义 AI 角色:可以设置不同的性格和声音
- 简单硬件设计:只需一块 ESP32-S3 开发板即可实现
- 安全通信:使用加密 WebSocket 传输数据
- 全球低延迟:依靠 Deno Edge Functions 实现全球范围内低于 1 秒的延迟

该项目的前端、服务器和固件代码已开源,对 AI 玩具或 AI 伴侣等产品感兴趣的开发者可以看下。

DeepWiki

https://weibo.com/1088413295/Pp5ofb84s?pagetype=homefeed

https://deepwiki.com/

其实用Cursor就能做得很好了。这个是我用它生成的 silly-tavern 提示词逻辑的文档,比官方写得好 网页链接

@drdrxp:🤔我感觉我文档都白写了

@zx-dennis:回复 @TaoTeChingWu:自己找下 网页链接 //

@TaoTeChingWu:这个能用来解读一些前端的 ui 库或者开源框架不

@zx-dennis 太强了,写的比我们的开发者指南还好。 网页链接

UniBus - 打通了 Flutter 与 Android 的双端壁垒,实现了真正的混合 EventBus 机制

https://weibo.com/1240212845/Pp2fI48em?pagetype=profilefeed

由我负责的滴滴开源项目 Unify 推出全新功能库 UniBus!它彻底打通了 Flutter 与 Android 的双端壁垒,实现了真正的混合 EventBus 机制 - 在任意一端注册监听,都能接收来自两端的事件,一套代码打通全平台通信。让混合开发告别繁琐的平台通道代码 🚀

期待各位开发者体验并 star 支持:github.com/didi/Unify

今天在家好一顿开发(感谢 GitHub Copilot
[#Flutter#](https://s.weibo.com/weibo?q=%23Flutter%23)

AI 任务管理系统

相见恨晚……AI 任务管理系统

可以通过MCP 在 Cursor、Lovable、Windsurf、Roo 等里面使用

访问:github.com/eyaltoledano/claude-task-master

开源的员工薪酬、股权管理系统

https://weibo.com/6083767801/PphNxb7zn?pagetype=groupfeed

开源的员工薪酬、股权管理系统,感觉还能管理远程工作
网站 网页链接 (图一)
仓库🔗github.com/antiwork/flexile🔗

图二是Deep Wiki回答“这个项目有什么用” 网页链接

Gemini Coder - 让你的 VSCode 直接变成 Cursor/Windsurf

卧槽 Gemini Coder 开源了!而且是MIT协议的!

这个插件能让你的 VSCode 直接变成 Cursor/Windsurf, 众所周不知,Google AI Studio 可以免费薅羊毛用 Gemini-2.5-Pro 和 Gemini-2.5-Flash. 所以搭配这个插件四舍五入等于不要钱就能用 Gemini 写代码哈哈哈哈

地址:github.com/robertpiosik/gemini-coder

Cline 是 Apache 2.0 的,这个是 MIT 的。以及,有很多网友还是不知道 AI Studio 是可以免费用的,所以分享给大家。尽管调用次数有限,但也足够出活了,我安利给一个朋友,他已经用这个撸出来一个APP准备上架 AppStore了

@Easy:呃,为啥这么激动,Cline 不是早就能用 Gemini 接口了吗 ?另外 Google AI Studio 的免费模型都是有频次限制的…

@pinxue:老实说,这两年各种AI服务都可以白嫖,都有点不好意思了

GitHub to DeepWiki - 油猴脚本

GitHub to DeepWiki,这个油猴脚本会自动在 GitHub 仓库页面添加一个 “DeepWiki” 链接,让用户只需点击一下就能快速跳转到对应的 DeepWiki 页面。链接会出现在仓库的简介部分,使得在浏览 GitHub 时能够轻松访问。

greasyfork.org/zh-CN/scripts/534213-github-to-deepwiki

MCP-SuperAssistant - MCP 超级助手浏览器插件

在 GitHub 上发现一款 MCP 超级助手浏览器插件:MCP-SuperAssistant。

在 ChatGPT、Gemini、Grok 网页上直接解锁 MCP 工具调用,可在对话界面中自动检测和连接各种外部数据和工具,并将结果无缝插回对话中。

GitHub:github.com/srbhptl39/MCP-SuperAssistant

提供自动执行模式,无需手动点击,一键执行 MCP 工具,同时插件还内置了许多实用的工具。

目前可通过 Chrome 应用商店安装使用,允许连接到本地代理服务器。

Awesome GPT-4o Images - 收集了GPT‑4o 生成图片的精彩案例和提示词

https://weibo.com/2287161787/PqrmLe29j?pagetype=profilefeed

@黄建同学:收藏!Awesome GPT-4o Images 项目 收集了GPT‑4o 生成图片的精彩案例和提示词。 @宝玉xp Awesome GPT-4o Images 项目

收集了 OpenAI 最新多模态模型 GPT‑4o 生成图片的精彩案例和提示词。

github.com/jamez-bondos/awesome-gpt4o-images

GSAP - 构建适用于所有主流浏览器的高性能动画

https://weibo.com/5648162302/Pq0e9bh5F?pagetype=profilefeed

GSAP 宣布 100% 免费 - 包括之前所有收费插件,如 SplitText、MorphSVG 以及所有其他专供 Club GSAP 会员使用的插件。… tree.js里面也大量用了GSAP动画库

GSAP(GreenSock 动画平台),是一个与框架无关的JavaScript 动画库,能够将开发者打造成动画超级英雄。

它可以构建适用于所有主流浏览器的高性能动画。它可以为 CSS、SVG、Canvas、React、Vue、WebGL、颜色、字符串、运动路径、通用对象等 JavaScript 所能触及的任何对象添加动画效果!

GSAP 的ScrollTrigger插件能够以极少的代码提供令人惊叹的滚动动画。gsap.matchMedia ()使构建响应式、易于访问的动画变得轻而易举。

访问:github.com/greensock/GSAP

flowgram.ai - 基于节点的流程构建引擎

酷啊,字节把他的基于节点的流程构建引擎开源了:flowgram.ai !

支持固定布局和自由布局模式,提供了一套交互最佳实践,特别适合需要明确输入和输出的可视化工作流

flowgram会用AI技术来增强你的工作流程,比如,它可以帮你自动完成一些重复的任务,或者根据你的需求自动调整流程

支持扩展,你可以根据需求添加新的节点功能,也就是说可以把它应用到比如自动化办公、数据分析等各种不同的场景中

github: 网页链接

Stirling-PDF - PDF转图片,压缩,分割,合并

PDFMathTranslate - PDF翻译

https://weibo.com/5648162302/Pr4uH26yl?pagetype=groupfeed

今天在新机上装了两个pdf工具,感觉pdf自由了

1. Stirling-PDF,各种pdf小工具,像转图片,压缩,分割,合并等。一年前安装还需要搞docker,现在都有安装包了,非常方便。

2. PDFMathTranslate,pdf翻译。支持Google/DeepL/Ollama/OpenAI 等服务。

访问:
github.com/Stirling-Tools/Stirling-PDF
github.com/Byaidu/PDFMathTranslate

Deer - 字节开源的Deep Research 项目

https://weibo.com/5648162302/PraAigEbQ?pagetype=groupfeed

字节跳动开源 Deep Research 类项目——DeerFlow。

Deer 是 Deep Exploration and Efficient Research 的缩写。Flow 则体现了基于 LangGraph 的流程设计。

视频演示了包括深度研究、MCP 集成、报告 AI 增强编辑以及播客生成等功能。

项目介绍: 字节跳动开源了一款 Deep Research 项目
Github : 网页链接
官网: 网页链接

i陆三金的微博视频

https://weibo.com/2194035935/Pr9g4dCu4?pagetype=groupfeed

字跳开源了一个深度研究框架🦌 DeerFlow

github.com/bytedance/deer-flow

deep research的开源版,目标是将语言模型与专业工具(如网络搜索、爬虫和Python代码执行)相结合。DeerFlow实现了一个模块化的多智能体系统架构,专为自动化研究和代码分析而设计。该系统基于LangGraph构建,实现了灵活的基于状态的工作流,其中组件通过定义良好的消息传递系统进行通信。

contextgem - 一款从文档中提取结构化数据的AI工具

https://weibo.com/3894431038/PrmTKwfxf?pagetype=groupfeed

一款从文档中提取结构化数据的AI工具:contextgem,核心能力是告诉它提取的信息,它能自动理解意图,并找到对应的内容,擅长深度分析

适合需要大量阅读文档的场景,比如说让它找合同里的关键条款、报告里的重要数据、论文里的核心观点等等,帮你精读

它能定位信息,告诉你信息具体在哪段哪句话,并且能解释为什么提取这些信息,推理过程是什么

几行代码就能完成复杂提取,自动化程度比较高,很多复杂操作都被封装了,自动生成提示词,自动数据验证,自动分段

github: 网页链接

一个安卓的界面操作 Agent

清华和面壁智能一起开源了一个安卓的界面操作 Agent

首个针对中文APP精细优化的开源GUI Agent

覆盖高德地图、大众点评、哔哩哔哩、小红书等30余个主流中文APP;

平均动作长度压缩至9.7个token,提升端侧推理的效率。

项目地址:

https://github.com/OpenBMB/AgentCPM-GUI/tree/main

歸藏的AI工具箱的微博视频

FastAPI-MCP - 用于自动将 FastAPI 公开为模型上下文协议 (MCP) 的工具

https://weibo.com/5648162302/PrZ0NnDXt?pagetype=groupfeed

@york:…周一还想了这个idea,周四有人已经做出来了

@黄建同学

FastAPI-MCP

一种零配置工具,用于自动将 FastAPI 公开为模型上下文协议 (MCP) 的工具。
最近⭐涨得很猛↓

访问:

https://github.com/tadata-org/fastapi_mcp

Langflow - 通过拖拉的方式构建AI Agent

通过拖拉的方式构建AI Agent?试试Langflow

Langflow是一款强大的工具,用于构建和部署 AI 驱动的代理和工作流。

它为开发者提供可视化的创作体验和内置的 API 服务器,可将每个代理转换为 API 端点,并可集成到基于任何框架或堆栈构建的应用程序中。

Langflow 内置了丰富的功能,支持所有主流的 LLM、向量数据库以及不断增长的 AI 工具库。

访问: github.com/langflow-ai/langflow

News Agents - 进行自动抓取来自多个来源的最新新闻,并总结生成摘要

https://weibo.com/5722964389/PsqIzg5kB?pagetype=homefeed

经常在终端上工作中的开发者,想快速了解技术、商业等最新信息时,可以安装 News Agents 这款开源工具。

它使用了 Amazon Q、MCP 和 tmux 实现了在终端上运行多个智能体,进行自动抓取来自 Hacker News 等多个来源的最新新闻,并总结生成摘要,高效又直观。

GitHub:

github.com/eugeneyan/news-agents

主要功能:

- 自动从 Hacker News、TechCrunch、WSJ 等多个源获取新闻;
- 自动拆分任务给多个子代理并行处理,大幅提高效率;
- 全程在终端中完成,无需打开浏览器或切换窗口;
- 自动生成每个来源的单独摘要和一份完整总结;
- 通过 tmux 分屏实时展示多代理处理进度。

此外,还可以进行扩展,轻松添加新的 RSS 源。部署需先安装 Amazon Q CLI,只需几个简单命令即可运行使用。

GitHub Copilot

https://code.visualstudio.com/blogs/2025/05/19/openSourceAIEditor

https://weibo.com/2169039837/PsFm1yOmq?pagetype=homefeed

微软把 GitHub Copilot 也开源了,而且是 MIT协议。

最主要原因感觉大家理解都是一样的,大模型正在变得更强,对各种Agent内置的黑魔法 prompt 依赖越来越少了,像 claude-3.5-sonnet 时代那种即使是相同 prompt,每个 AI IDE生成的效果不一样的情况会越来越少。这样维护的价值也就很低了,不如扔给社区维护。

那么现在 AI IDE 的头部竞争格局变成了,闭源:Windsurf vs Cursor, 开源: GitHub Copilot vs Roo Code. 然而除了 Roo Code,其它家微软均有相关持股。目前来看 IDE 领域还是微软通吃了。

Google I/O Big Map - 一个介绍参考

https://weibo.com/2169039837/PsTUX7vvq?pagetype=homefeed

5 个小时干进去 150G 流量了, 我要不要把卡片的背景视频压一下 查看图片 @karminski-牙医 终于弄完了!耗时5个小时。这次 Google I/O 内容太多了,于是我整理了一个类似苹果发布会的 Big Map 给大家。总计35个发布内容。每一个点开都有详细信息和官方链接~ 方便大家看自己喜欢的内容~ ♥

直接访问:google-io-2025.kcores.com
项目代码也是开源的:github.com/karminski/google-io-2025-big-map

ii-agent - 长构建跨多个领域工作流的agent

Manus类agent卷疯了,又出来一款ii-agent开源框架,擅长构建跨多个领域工作流的agent,能独立执行复杂任务已成为Agent标配

其技能覆盖研究与核查、内容生成、数据分析可视化、软件开发、工作流自动化、问题解决6个方面

可以用它来做笔记、写文章、做研究、分析数据、写代码、建网站、自动化工作流、故障排除等等,基本上日常工作覆盖的差不多了

ii-agent集成了搜索引擎、代码编辑器、命令行终端等工具,使得它可以处理更复杂的任务,具备持续学习和适应能力

给了命令行界面和网页界面两种交互方式。目前正在开发针对PDF、音频、图像、视频、幻灯片等不同模态的处理能力

github: https://github.com/Intelligent-Internet/ii-agent

circuit-tracer - Anthropic开源了一套追踪大模型思路的工具

https://github.com/safety-research/circuit-tracer

https://weibo.com/3894431038/PubgVAVCs?pagetype=homefeed

https://github.com/safety-research

牛,Anthropic开源了一套追踪大模型思路的工具:电路追踪,把AI的“大脑”打开

通过生成归因图来展示模型内部的决策过程,揭示模型内部是怎样一步步决定最终输出的

可以通过修改特征值,观察模型输出的变化来测试假设

用Neuronpedia给的交互式前端,还可以直观的探索分析归因图

github: https://github.com/safety-research/circuit-tracer

next



Next Post
开源项目1