开源项目相关微博内容
之前存的一些可能会用上的开源项目介绍和地址,整理成两篇文章,这是第一篇。
gemini-fullstack-langgraph-quickstart - Google Gemini 深度研究应用
ID: 5173781007174120
//@Easy:LangGraph 是个不错的Agent库,之前我还一直在想为啥Agent都火了半边天了,这个库还是不温不火的 [允悲]
#ai开源项目推荐# gemini-fullstack-langgraph-quickstart
Google Gemini 开源了一套 Deep Research 应用,包括完整的前端和后端,前端使用了 React,后端则采用了 LangGraph 智能体。智能体能针对用户的查询自动生成搜索关键词,通过 Google 搜索从网络获取信息,并在深入分析后不断反思、完善查询,直到最终给出一个带有参考来源的完整答案。这是一个基于 LangGraph 和谷歌 Gemini 模型构建的知识增强型对话式 AI 应用的优秀范例。
技术栈
- React(搭配 Vite) - 前端用户界面构建。
- Tailwind CSS - 前端样式。
- Shadcn UI - 前端组件库。
- LangGraph - 后端智能体构建。
- 谷歌 Gemini - 用于生成搜索关键词、反思分析和答案合成的大语言模型。 项目地址:https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart
gemini-fullstack-langgraph-quickstart(深度研究) - 同上项目的另一条介绍
ID: 5173779941557979
谷歌官方开源的「深度研究」快速入门项目,使用 Gemini 2.5 和 LangGraph 构建。
该 Agent 旨在通过动态生成搜索词、使用 Google 搜索查询网络、反思结果以识别知识差距,并迭代优化搜索,直到能够提供带有引用的充分支持的答案,从而对用户的查询进行全面研究。
项目已在 Github 开源:github.com/google-gemini/gemini-fullstack-langgraph-quickstart
MedGemma - Google DeepMind 医疗AI模型
ID: 5172821873661468
谷歌又造福大家了!
DeepMind 本周开源了MedGemma,功能最强大多模态医学文本和图像理解开源模型。 主页:developers.google.com/health-ai-developer-foundations/medgemma 并制作了一个可以本地运行的GGUF模型:huggingface.co/unsloth/medgemma-27b-text-it-GGUF
#微博兴趣创作计划##人工智能# https://video.weibo.com/show?fid=1034:5172626293719083
MedGemma(医疗AI模型) - 同上项目的详细介绍
ID: 5172078648759880
医疗领域的数据复杂又多样,处理这些信息一直是个难题。Google DeepMind 推出了一款专为医疗设计的开源模型 MedGemma。模型基于开源模型家族 Gemma,它有两个版本,一个能同时理解图像和文字(4B 多模态版),另一个主要处理医学文本(27B 文本版)。通过这个设计,让开发者可以根据实际需求灵活选择,更好地应对不同的医疗场景。
在医学影像方面,比如 X 光片、皮肤照片、眼底图片等,MedGemma 能对它们自动分类、初步解读,表现优于同类模型。不过,目前这些结果还不能直接用于临床诊断,开发者还要针对具体情况做更多测试和优化,才能真正放心地用在实际医疗工作中。 在处理医学文本和临床推理方面,MedGemma 也有很强的能力。比如它可以辅助问诊、分诊、医疗决策支持,或者帮助总结医学文章。尤其是 27B 的文本大模型,在涉及专业医学知识的任务上表现更好。但同样道理,开发者还需要不断调整和检验,确保模型的答案准确可靠。
MedGemma 还支持不同的 “调教” 方式。比如通过调整提问方式,给模型举一些例子,或者用高效微调技术,进一步提升模型在某些任务上的表现。另外,把 MedGemma 和其他医疗 AI 工具组合使用,也能让它发挥更大作用,比如用于保护隐私的数据解析、实时语音对话等。
MedGemma 详细介绍:https://developers.google.com/health-ai-developer-foundations/medgemma?mark_id=999_reallog_mark_ad%3A999%7CWeiboADNatural
Swarm - OpenAI轻量级多智能体开发框架
ID: 5170542027474520
前两天 AI 科普达人 New Machina 介绍了 Google 的多智能体开发工具包 ADK(Agent Development Kit),这回则向大家另一款来自 OpenAI 的轻量级,开源多智能体开发框架:Swarm。
极简是 Swarm 的主要设计理念,它的目标就是为开发者提供一个实验场,探索智能体之间如何协作、如何高效分配任务。不同于市面上一些单一智能体的开发框架,Swarm 选择了多智能体分工协作的路径,每个智能体都拥有明确的职责,同时具备将任务灵活交接给其他更适合同伴的机制。这种设计让系统能够更灵活地应对复杂问题,也降低了单点故障的风险。
Swarm 最大的特点就是无状态。框架本身并不保留任何智能体的历史记忆,每次交互都被视为全新事件,系统只依据当前输入和上下文变量做出反应。这种 “无记忆” 设计虽然限制了复杂长流程任务的实现,但带来的好处是系统透明、易于理解与调试。开发者无需担心历史状态带来的不确定性,可以更容易地追踪和控制智能体的行为。因此,对于原型开发、快速验证想法或构建小型演示项目来说,Swarm 的简洁与轻量化无疑是巨大的优势。
与一些流行的框架如 LangChain、LangGraph 相比,Swarm 并不追求通过工具链和提示组合构建 “万能智能体”,而是强调智能体之间的分工和协作。尽管 LangGraph 能够支持复杂的逻辑流和状态跳转,但二者本质上仍旧以单智能体为中心。Swarm 则更像一个多智能体的实验平台,适合构建那些需要团队协作、任务交接的智能体系统。 与 Google ADK 等同样支持多智能体的框架相比,Swarm 则更为简单,无内置持久化记忆,也几乎不带安全机制。开发者需要根据具体业务需求,显式地为系统添加安全防护和数据持久化能力。这种 “放手” 策略促使开发者对系统的安全与稳定性有更高的参与和把控,但也意味着 Swarm 目前还不适合直接用于生产环境。
Swarm的定位很明确:它不是为了解决所有问题而生,而是为快速创新和原型验证提供便利。其轻量和开放的特点,为开发者降低了入门门槛,同时也为多智能体系统的演进和创新提供了实验基础。对于那些希望快速测试协作智能体新想法的团队来说,Swarm 是一个值得尝试的选择。但对于需要持久记忆、复杂状态管理和高安全性的正式项目,或许更成熟的框架更为合适。
mcp-filesystem-server - Go语言编写的文件系统MCP服务器
ID: 5170488223206975
看到个 go 写的操作文件系统的 MCP Server——mcp-filesystem-server 通过这个MCP就可以操作本地文件系统了,由于这个是go编写的,go能交叉编译的架构特别多,所以理论上大部分系统都能运行这个MCP Server。
地址:github.com/mark3labs/mcp-filesystem-server
build-your-own-x-machine-learning - 机器学习教程集合项目
ID: 5170488160029096
//@蚁工厂:[苦涩] 之前竟然忘了放地址:github.com/amitshekhariitbhu/build-your-own-x-machine-learning
之前介绍过 Build Your Own X 系列项目 ( https://weibo.com/2194035935/O1qIAd6iY?mark_id=999_reallog_mark_ad%3A999%7CWeiboADNatural ),从头编写、构建某技术框架/工具的教程集合。这里有个类似的机器学习版的项目。通过从零开始打造一切来掌握机器学习。其目标涵盖从线性回归到深度学习乃至大语言模型(LLMs)的方方面面。
(图机翻)。目前项目还在进行中,实现的都是核心机器学习算法。
Onit - Mac平台AI侧边栏工具
ID: 5170487644654720
看到个好玩的项目——Onit,可以给任何窗口提供一个像 Cursor Chat 侧边栏一样的AI侧边栏。
不过目前只有Mac版本,项目是用Swift编写的。windows上想用的同学可以试试能不能移植到.NET
地址:github.com/synth-inc/onit/ #ai创造营# #AI生活指南#
Mito - 数据处理AI代理和Jupyter扩展
ID: 5152787014091493
//@黄建同学 :[赞]//@qql12forever :很有用,解决了cursor的问题,cursor无法直接编辑jupyter文件
Mito,为数据处理构建的 AI 代理,只需一个提示即可创建完整的Notebook工作流程!
Mito 是一组 Jupyter 扩展,旨在帮助您更快地编写 Python 代码。Mito 主要有 3 个部分:
- Mito AI:情境感知 AI 聊天和错误调试等工具可帮助您充分利用 LLM。无需再在 Jupyter 和 ChatGPT/Claude 之间进行复制和粘贴。
- Mito 电子表格:在交互式电子表格界面中探索你的数据。在电子表格中编写电子表格公式(如 VLOOKUP)、应用过滤器、构建数据透视表和创建图表。你在 Mito 电子表格中进行的每项编辑都会自动转换为可用于生产的 Python 代码
- Mito for Streamlit 和 Dash:只需两行代码即可将功能齐全的电子表格添加到你的仪表板。
项目:github.com/mito-ds/mito
awesome-ai-system-prompts - AI系统提示词收集项目
ID: 5152777525526940
看到个好玩的项目,收集了大模型/Agent平台的 system prompt
包括 ChatGPT, Manus, Claude, Grok 等等
地址:github.com/dontriskit/awesome-ai-system-prompts
#AI生活指南##ai创造营#
OmniTalker - 阿里文本转说话人视频生成项目
ID: 5152591030783246
阿里的新项目,从文本实时生成同步的说话人视频项目:OmniTalker,音视频同步和风格一致上效果比较好
端到端的统一框架,可以同时生成语音和视频内容,实现音视频同步输出,避免了不同步问题
可以从单个参考视频中捕获语音和面部风格,支持零样本场景下的风格复制 25帧/秒的推理速度,0.8B参数
支持中英文互转,支持情感表达,比如平静、快乐、悲伤、愤怒等等情绪。支持长时间视频生成
#AI生活指南##ai创造营##说话人视频生成##大模型##OmniTalker#
github-mcp-server - Github官方MCP服务器
ID: 5152562672566744
//@黄建同学 :另外两个和git相关的mcp服务器: 1. Git: 网页链接,用于 Git 存储库交互和自动化的模型mcp服务器。此服务器提供通过LLM读取、搜索和操作 Git 存储库的工具。 2. Gitlab:网页链接,用于 GitLab API,支持项目管理、文件操作等。 其他更多的mcp服务器可以看这
Github 官方开源的MCP服务器↓
应用场景,如:
- 自动化 GitHub 工作流程和流程。
- 从 GitHub 存储库提取和分析数据。
- 构建与 GitHub 生态系统交互的 AI 驱动工具和应用程序。
访问:github.com/github/github-mcp-server
#ai创造营##科技##程序员#
AI创意叙事代理 - a16z投资人征集的创意叙事AI项目
ID: 5151727808677745
//@高飞 ://@QuantumDreaming :[允悲] 我的疑问是,长远来说,AI 很可能比人类更聪明强大,但是,假设有一万亿、甚至一百万亿个AI在疯狂创造所有可能的惊艳的作品,同时期人类则实际上因为生育率萎缩而不断的老化、减少,并且因为阅读速度的天然限制而根本不可能跟不上 AI 的输出速度,最后“美好未来
#模型时代# 看到a16z 投资人在征集初创项目:面向创意叙事的 AI 代理,最终目的能让普通人写出《哈利波特》。
我其实一点都不怀疑AI最终能写出哈利波特,但是我们可能不需要那么多哈利波特,所以当供给无限,注意力分发渠道就会变得昂贵,即AI时代的Google、头条、Tik-Tok。
或者每个人看自己个性化的哈利波特,那就代表集体无意识的消失,社会失去了共同想象。
扯远了,征集说明如下:
我们希望看到一个全新的具备“代理”能力的 UGC 平台——就像下一代的 Wattpad 或 Roblox——让 AI 代理帮助用户将想法编织成丰富的跨媒体故事。可以把它想象成一种“情绪编码”(vibe coding)模式,但重点专注于创意叙事。
为什么是现在?
•人类天生热爱讲故事,但很多人会遭遇写作瓶颈,或者缺少创作丰富媒体内容的工具。
•专业的影视或游戏叙事者通常拥有庞大的团队,负责写作、设计、动画等各方面的协作。AI 代理很快就能为所有人提供同样级别的支持。
一个全新 UGC 平台的关键特性:
-
AI 创意助手:一个能够帮助策划情节、生成素材、撰写代码,并在多个模型间编排各种元素的代理,把想象力变为现实。
-
端到端工作流:在同一个平台内设定背景、调取参考资料、撰写完整故事。想象一下把 Cursor 的模式用在故事创作上。
-
语音创作:只需通过语音与代理交流,就能以多模态的方式进行创作,让更多人参与其中。
-
多人协作:将叙事打造成一种社交体验。比如一家人合力创作睡前故事,或者朋友们放学后共同构建奇幻世界。
-
细分市场切入:通过专注于特定垂直领域(如动漫或浪漫奇幻)并提供最优质的内容,而非面向所有人提供“还算不错”的泛目录,从而实现差异化的市场策略(GTM)。 这个机会巨大——上个月有超过一亿人访问 Wattpad 寻找同人小说。总有一天,下一个《哈利·波特》或《Fourth Wing》将诞生于普通大众之手,并由 AI 创意助手赋能。
MCPVerse - 无需本地部署的MCP托管集成服务
ID: 5151727649031363
推荐一个无需本地部署的 MCP 托管集成服务:MCPVerse。MCP(模型上下文协议)无疑是当下最火的技术。它成功解决了 AI 模型与各类工具和数据源之间的集成难题。不过,MCP 本地部署并不简单。首先,MCP 服务通常依赖特定的运行环境,如 Python 或 Docker,对于非技术用户来说有一定的门槛。其次,本地部署的 MCP 服务在团队协作和多人使用方面也不够便利。此外,功能扩展和日常运维对普通用户来说也是一个不小的负担。
MCPVerse 主要就是解决以上这些问题。它允许用户将自己的应用程序无缝集成到 Slack、Postgres、GitHub 等托管的 MCP 服务中,无需本地安装和复杂配置,降低了使用 MCP 的门槛,大家不妨一试。
详细介绍及使用方法:http://t.cn/A6rcid1A #AI技术[超话]##AI编程##MCP##智能体##AI创造营#
Anime.js - JavaScript动画库
ID: 5151686437112878
Anime.js 刚发了个大版本,官网demo是真的炫酷,没错,你在这个视频看到的全都是用anime.js 这个库实现的动画
地址:animejs.com karminski-牙医的微博视频
open-webui-artifacts-overhaul - OpenWebUI增强版本
ID: 5151645554183015
来个 OpenWebUI 的超好用魔改版!
这个魔改版增加了更好用的代码展示和编辑界面,同时还有web页面预览窗口。大模型生成的前端代码在右侧可以直接预览运行(类似 Google 上周推出的 Canvas 功能)
地址:github.com/nick-tonjum/open-webui-artifacts-overhaul
#AI生活指南# #ai创造营#
Gemma-3 QAT - Google Gemma-3量化感知训练版本
ID: 5151602545788165
Google 的开源模型 Gemma-3 的新 QAT (Quantization Aware Trained, 量化感知训练) 检查点量化版本放出了!
这个版本使用 Q4 量化并且能与之前 BF16 版本保持几乎一致的质量(我看到的是Q4量化比 bartowski 的Q5量化数据还好)
总之这个量化版本应该是目前最优的版本了, 有需要本地跑32B规模模型的同学可以试试
地址:huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b
#AI生活指南##ai创造营#
AutoAgent - 零代码LLM智能体框架
ID: 5150981084678507
个人AI助手构建工具:AutoAgent,完全自动化零代码LLM智能体框架,Manus和Deep Research的开源版方案
可以用它来做智能网页搜索、全面数据分析、信息处理、自动报告生成
支持三种使用模式
1、用户模式,开箱即用
2、智能体编辑器,通过自然语言对话配置AI助手
3、工作流编辑器,使用自然语言描述创建工作流
支持函数调用和ReAct两种交互模式
内置了自管理向量数据库用于知识检索和增强代理的学习能力,这在处理复杂任务时更高效,且能更好的利用历史信息
github:http://t.cn/A6BCSbS5
#AI生活指南##ai创造营##agent##AI助手##AutoAgent# http://t.cn/A6rZl5PT
OpenDeepSearch - 最强开源AI搜索框架
ID: 5150958373310957
最强开源 AI 搜索框架出现了!
就在刚刚 OpenDeepSearch 在 frames-benchmark 上超过了 GPT-4o Search 功能。成为了最强的开源AI搜索框架。
这个框架结合语义搜索,并提供了快速和深度搜索两种模式,允许多跳搜索(即不断检索以得到理想答案)。并且专门为 AI Agent 优化。
(比较有意思的是,它的系统提示词有一句是:如果你成功解决了问题,你将得到一百万美元…)
地址:github.com/sentient-agi/OpenDeepSearch #AI生活指南# #ai创造营#
social-auto-upload - 自媒体平台自动化发布工具
ID: 5150957215421467
一款自媒体平台自动化工具:social-auto-upload,可以自动化发布视频到自媒体平台
支持抖音、小红书、视频号、tiktok、youtube、bilibili等
支持定时上传和计划任务上传
github:网页链接
#AI生活指南##ai创造营##自动化##自媒体工具#
Dive - 本地MCP Server终端工具
ID: 5150956577360834
是不是天天听到 MCP 却不知道怎么用?来看这个——Dive
简单来讲它是个本地 MCP Server 终端,可以通过这个工具来使用 MCP 调用各种其他工具. 比如打开这个再打开 Blender,搭配 BlenderMCP,你就能连接 Blender 用大模型帮你建模了.(工程师可能更倾向于用代码编辑器比如Cursor/Windsurf)
Dive 是一款支持 Windows 和 Linux 的桌面应用程序,能够支持所有 LLMs 工具调用。目前,它是安装 MCP 服务器的最简单方法。Dive 提供实时工具调用嵌入和高效系统集成,旨在为开发者提供更灵活、更高效的开发工具。
地址:github.com/OpenAgentPlatform/Dive #AI生活指南# #ai创造营#
VideoMind - 长视频推理的视频-语言助手
ID: 5150081712652489
一个可以进行长视频推理的视频-语言助手:VideoMind
它准确指出视频中的具体时间点,指出相关的视频片段,还能给出对应画面
VideoMind把视频推理任务分解成规划、定位、验证和回答四个角色,每个角色负责不同的任务,使整个推理过程清晰高效
基于LoRA链策略,让模型快速在不同角色间切换,无需加载多个模型,提高推理效率降低计算成本
这个工具对于像电影、电视剧、纪录片等长视频内容处理非常便捷
github:http://t.cn/A6rvEZsd
#AI生活指南##ai创造营##视频理解智能体##视频agent##VideoMind#
unreal-mcp - 虚幻引擎MCP服务器
ID: 5150079520080016
虚幻引擎Unreal Engine MCP:unreal-mcp,用AI助手通过自然语言来控制Unreal Engine
让AI助手实现关卡编辑、场景物体管理、蓝图开发、添加蓝图节点图以及编辑器控制等
github:网页链接
#AI生活指南##ai创造营##MCP##AI游戏助手# AIGCLINK的微博视频
TripoSG & TripoSF - 高保真3D生成AI模型
ID: 5149809100718562
Tripo 的重磅消息!我们开放 TripoSG 和 TripoSF 的源代码,这是用于高保真 3D 生成的新一代 3D GenAI 模型。
代码、权重、演示 — 现在全部属于您。让我们一起塑造 3D AI 的未来!
福利:下个月会有更多开源好东西推出! 网页链接
Qwen2.5-Omni-7B - 通义千问端到端全模态大模型
ID: 5149604706519354
通义千问 Qwen2.5-Omni-7B 端到端全模态大模型评测——特别适合作为语音翻译和英语外教的小模型
Qwen2.5-Omni-7B 是由阿里巴巴通义团队于 2025 年 3 月开源发布的一款端到端全模态大模型,被誉为全球性能最强的 7B 参数规模模型。它不仅支持文本输入与输出,还能处理图像、音频和视频等多种模态数据,并实时生成文本和自然语音。这种全模态能力使其在多模态融合任务评测(如 OmniBench)和语音生成基准测试(如 seed-tts-eval)中刷新了业界纪录,语音合成能力甚至达到人类水平(MOS 评分 4.51)。相比传统 AI 模型,Qwen2.5-Omni-7B 的独特之处在于它将多种感知能力(如“看”、“听”、“说”)整合在一个模型中,避免了以往需要多个单模态模型串联的复杂链路,从而提升了效率和智能性。
对于普通用户来说,这意味着你可以与它进行更自然的交互:用语音提问、上传图片或视频,它都能理解并给出贴切的回应。更重要的是,Qwen2.5-Omni-7B 以宽松的 Apache 2.0 协议开源开源,已在 Hugging Face 和魔搭社区提供下载,并通过阿里云百炼平台提供 API 服务,任何人都可以免费体验和商用。7B 的参数规模使其在智能手机等终端设备上也能运行,为个人用户和开发者提供了广阔的应用空间。 接下来,我将从多个测试场景出发,详细评测 Qwen2.5-Omni-7B 的实际表现,探讨它的优势与局限。
场景一:对话
在日常对话测试中,Qwen2.5-Omni-7B 展现出了令人印象深刻的表现。它的对话非常自然流畅,生成的语音语调真实且富有情感,仿佛在与真人交流。例如,当用户提出问题时,模型不仅能快速理解意图,还能以带有语调起伏的语音回应,甚至在被用户打断时也能灵活调整对话节奏。这种实时交互能力得益于其创新的 Thinker-Talker 架构和时间对齐位置编码(TMRoPE),让语音和文本输出几乎没有延迟。
模型支持中英文对话,可以用中文或英语与其交流,切换语言时响应依然准确。例如,问它“What’s the weather like today?”(今天天气如何?),它会用清晰的英语语音回答;用中文问“明天会下雨吗?”,它也能立刻切换到中文回应。然而,测试中发现,它目前无法唱歌或使用方言。当要求它“唱一首歌”时,模型会幽默地回复:“哎呀,我还不会唱歌呢,你可以教教我哦!”;而尝试用粤语或四川话与其对话时,它只能识别普通话,无法生成方言语音。这可能是由于训练数据或功能的限制,但整体对话体验依然非常出色。
优点:
• 对话自然流畅,语调真实有情感
• 支持随时打断,响应灵活
• 中英文切换自如
缺点:
• 不能唱歌
• 不支持方言
场景二:英语老师
Qwen2.5-Omni-7B 在教育场景中表现出作为英语老师的潜力。测试中,我让它充当语言学习助手,输入一些包含语法错误的英文句子,例如“I go to school yesterday”,模型能准确识别出时态错误,并用语音和文字指出:“‘Yesterday’表示过去的时间,应该用过去式‘went’,正确的句子是‘I went to school yesterday’。”它的语音发音标准,语速适中,非常适合用户模仿练习。
此外,模型还能回答英语学习中的常见问题,例如解释单词用法或短语搭配,用户可以用语音提问:“What’s the difference between ‘look’ and ‘see’?”(“look”和“see”有什么区别?),它会以清晰的英语语音详细解答。这种多模态教学方式(语音+文字)让学习过程更生动。不过,由于每次输入时间有限(3分钟),所以不能一次输入太长内容进行测试。
优点:
• 能纠正语法错误,提供准确指导
• 语音发音标准,适合口语练习
• 支持语音交互,教学体验自然
缺点:
• 输入时间有限(3分钟)
场景三:视频识别
在视频识别场景中,Qwen2.5-Omni-7B 展示了其多模态理解的强大能力。我通过和模型视频对话,展示了家里厨房烹饪场景,模型能通过语言正确识别画面中的物体并描述场景。例如,它会说:“视频中有人在厨房里切菜,桌上有西红柿和刀,背景有一个水壶。”这种结合视觉和语言的能力非常实用,尤其适合需要实时描述的应用,如智能监控或视障辅助。
然而,在测试中发现一个明显局限:当视频涉及专业术语,尤其是英文药物名称时,模型的表现不佳。例如,我把摄像头对准家里的药盒时,要求描述药品名称和用途,它可能会错误地将把药膏识别为感冒药,或描述用途时出现不准确的信息。这应该与其 7B 的参数规模有关,属于小模型的通病——相比更大的模型(如 GPT-4o 的 200B 参数),小模型在专业领域的知识储备和推理能力上有所不足,更容易出现幻觉。如果基于它开发产品,需要规避这类问题,也要提醒用户在使用时注意,尤其是在需要高精度的场景中。
优点:
• 能正确识别物体并描述日常场景
• 实时语音输出,交互直观
缺点:
• 对英文药物名称等专业术语描述不准确
• 参数量限制需用户注意规避
Qwen2.5-Omni-7B 作为一款仅 7B 参数的全模态大模型,其性能令人惊叹。它在对话自然度、教育辅助、视频识别及智能终端应用等多个场景中表现出色,尤其是在多模态融合和实时交互上的突破,堪称“小模型大作为”的典范。更难能可贵的是,它完全开源,采用 Apache 2.0 协议,任何人都可以免费下载和商用,这无疑将推动 AI 技术的普及和创新。
推荐适用的场景
• 翻译:模型在语言理解和生成上表现出色,支持中英文实时交互,非常适合开发翻译工具或应用。
• 教学:作为英语老师或学习助手,它能纠正语法、提供语音指导,适合教育场景,尤其是在手机或学习机上的本地部署。
• 智能终端:7B 的轻量级特性使其完美适配手机、眼镜等设备,为用户提供离线 AI 支持。
• 内容创作:结合图像和文本生成创意内容,适合多媒体工作者使用。
注意事项
尽管表现优异,用户仍需注意规避模型的“幻觉”问题,尤其是在专业领域(如药物识别)或复杂推理任务中,可能出现不准确或不完整的结果。这与其参数规模限制有关,建议在关键应用中结合人工校验。
未来展望
Qwen2.5-Omni-7B 的成功证明了小模型在多模态领域的潜力。我期待未来通义团队推出更大参数规模的 Qwen 模型,进一步提升精度和功能覆盖(如支持唱歌、多语言方言),为用户和开发者带来更强大的 AI 体验。这款模型已经为全模态 AI 的未来铺平了道路,其影响力值得持续关注。
体验方式
▪Qwen Chat:chat.qwen.ai http://t.cn/A6u8hRPJ,并点击对话框右下角的 蓝色标志,可选语音对话或视频对话直接体验模型。 ▪Hugging Face:http://t.cn/A6BgC0d7 ▪ModelScope:http://t.cn/A6BgC0rs ▪DashScope:http://t.cn/A6BgC0dP ▪GitHub:http://t.cn/A6rPaUwU http://t.cn/A6BgC0dv ▪Demo体验:http://t.cn/A6BgC0dz
Open Deep Search (ODS) - 缩小与Perplexity差距的开源搜索工具
ID: 5148783609908304
缩小与Perplexity和OpenAI差距的一款开源搜索工具:Open Deep Search (ODS) 基于ODS,ODS-v2+DeepSeek-R1在FRAMES中的准确率比GPT-4o Search Preview高出了9.7%
ODS是一个通用框架,可以无缝增强任意LLM的搜索及推理能力,其有两个核心组件:
1、Open Search Tool:负责网络搜索和信息提取
2、Open Reasoning Agent:负责推理
Open Reasoning Agent通过编排一系列动作来解释和完成给定任务,动作包括调用工具,其中调用的就有Open Search Tool,计算器或代码解释器等
github:http://t.cn/A6BeSiKp
#AI生活指南##ai创造营##AI搜索##OpenDeepSearch#
Deep Research本地版 - 搭建经验分享
ID: 5148783328625619
本地版本的deep research搭完了,还挺好用的,我用的gemma3 12b的小模型(其实就是上一个版本的Gemini flash[二哈])当engine能出这个效果已经很好了,科技问题和历史问题都去search不同的sources,也可以用本地数据源,当然也可以自己去找优先搜索数据源。目前科技默认arxiv,其他默认wikipedia,可以选择简单回答模式,和复杂报告模式,比较逗的是我问解放战争三大战役的问题,它出个全英文报告[doge],不过内容完全没毛病,引用的源也没毛病,能达到商用deep research的7-8成功力吧,我估计我换好点模型还能进步一点
ComfyUI-WanVideoWrapper - Wan视频模型ComfyUI工作流
ID: 5147017903082147
发一个学习笔记。 昨晚快速跑通了本地 ComfyUI 调用最新开源视频模型 Wan 及其开源特效 LoRA 的使用。
- ComfyUI 工作流直接用 KJ 的:github.com/kijai/ComfyUI-WanVideoWrapper
- Wan 基础模型从宣喧这里下载,会比从 HuggingFace 上快很多。找到网盘里的 wanX 文件夹,直接全下:pan.baidu.com/s/134x3io7t8rd1Rwo3XTJa5w?pwd=ccxi 对应文件存放路径提示: ▶ Text encoders to ComfyUI/models/text_encoders ▶ Transformer to ComfyUI/models/diffusion_models ▶ Vae to ComfyUI/models/vae
- Wan 的 LoRA 可以去 Civitai 上下载,用户 Remade 基于 Wan 训练了很多特效 LoRA,可以从昊纯的网盘这里打包下载,包含了每个 LoRA 触发词整理:pan.baidu.com/s/1sha5mBTvEyC8bSr164yz8g?pwd=t8cd 补充一下,我觉得看 civitai 对应 LoRA 模型主页会看到更详细的关键词解释。 eg,切蛋糕的触发词是 c4k3 cakeify it 但要生成好的效果,还有详细的 prompt 模板: eg,切蛋糕的 prompt 是:The video opens on a [object]. A knife, held by a hand, is coming into frame and hovering over the [object]. The knife then begins cutting into the [object] to c4k3 cakeify it. As the knife slices the [object] open, the inside of the [object] is revealed to be cake with chocolate layers. The knife cuts through and the contents of the [object] are revealed. 下周争取整理 Wan LoRA 的训练给到大家。 #ai创造营#
Vecto3d - SVG/Logo转3D模型工具
ID: 5146461084582343
一个有趣的小项目,Vecto3d,可以将简单的 SVG/Logo 转换为 3D 模型。 功能: • SVG 转 3D • 可定制的几何形状、材质、环境 • 调整厚度和斜角级别 • 尝试不同的材料,如黏土、金属、塑料等 • 在不同环境中预览,如白天、工作室、黎明或添加您自己的环境 • 将您的模型导出为 STL、GLB、GLTF 格式 • PNG 导出支持 HD/2K/4K(用于制作惊艳的截图) 体验地址:http://t.cn/A6Bjigar github:http://t.cn/A6BjigaB http://t.cn/A6Bjik3i
Second Me - AI数字分身模型
ID: 5146405882824268
分享一个比较有意思的项目,AI数字分身模型:Second Me,它分身的不是别人而是你自己,相当于你有一个数字版的自己 它可以学习你的思考方式、记住你的重要信息、代表你与他人/应用互动,你可以让它代表你回复邮件、参与在线讨论等 基于AI原生记忆、分层记忆建模和Me-Alignment算法,它通过分析理解你的记忆和经历,学习你的思维方式、价值观和行为模式,从而来构建一个高度个性化的AI分身 支持本地化部署,数据存储和训练在本地进行 github:http://t.cn/A6BWFNNT #ai创造营##AI生活指南##数字人##数字分身##Second Me#
GR00T N1 - 英伟达全球首个仿人机器人开放基础模型
ID: 5146047334322644
全球首个为仿人机器人设计的开放基础模型GR00T N1来了! 英伟达的使命是实现物理AI的民主化。GR00T N1将通用机器人大脑的力量掌握在每个人手中,仅需2B参数,便能从迄今为止最多样化的物理动作数据集中学习,并展现出超乎其参数量的性能: 1️⃣ 真实的仿人远程操作数据; 2️⃣ 大规模仿真数据:开源了超过300K的轨迹数据! 3️⃣ 神经网络轨迹:运用最先进的视频生成模型“幻想”出新的合成数据,特点是像素级准确的物理性质,正如Jensen所说,“系统性无限数据”! 4️⃣ 潜在动作:开发了新颖的算法,从大量的视频和AI生成视频中提取动作Token。 GR00T N1是一个从光子到动作(from photons to actions)的端到端神经网络:
- 视觉-语言模型(系统2),通过视觉和语言指令解读物理世界,使机器人能够推理环境和指令,并规划正确的动作。
- Diffusion Transformer(系统1),以120Hz的频率“渲染”平滑且精确的运动动作,执行系统2制定的潜在计划。 英伟达在GR1机器人、1X Neo机器人和大量的仿真基准上部署了N1模型。N1在家庭和工业环境中的多样化操控任务上实现了高达30%的性能提升。 尽管N1主要关注仿人机器人,但模型也支持跨体态。英伟达对其进行微调,使其适用于110美元的HuggingFace LeRobot SO100机器人手臂! 开源的机器人大脑运行在开源的硬件上,完美! 🔗相关链接:
- 白皮书: research.nvidia.com/publication/2025-03_nvidia-isaac-gr00t-n1-open-foundation-model-humanoid-robots
- 开源代码: github.com/NVIDIA/Isaac-GR00T/
- GR00T N1开放模型权重: huggingface.co/nvidia/GR00T-N1-2B #全球首款开源人形机器人功能模型##黄仁勋称通用机器人时代已到来##ai创造营# http://t.cn/A6BN35md
YT-Navigator - AI驱动的YouTube内容智能搜索工具
ID: 5146046549462970
一款AI驱动的YouTube内容智能搜索工具:YT-Navigator,无需再用手动观看大量视频的方式来寻找信息了 使用自然语言查询搜索频道视频 比如你想知道这个UP主讲过哪些“关于Python的内容”,直接输入问题,就能找到相关的视频片段,还会告诉你具体在哪个视频的什么时间点 智能问答 可以直接问问题,它会根据视频内容给出答案 精准定位到关键信息 可以直接给出具体时间戳,直接跳转到视频中“关于Python的内容”的部分 github:http://t.cn/A6B0ucZW #ai创造营##AI生活指南##YTNavigator##视频内容搜索工具#
YT Navigator - 同上项目的另一条介绍
ID: 5145866910565720
GitHub 上一款能高效搜索和浏览 YouTube 频道内容的开源工具:YT Navigator。 无需观看冗长视频,可以通过聊天对话搜索找到视频特定信息,并直接跳转到相关时间点。 GitHub:github.com/wassim249/YT-Navigator 主要功能:
- 🔍 对频道内容进行语义搜索,快速定位相关视频片段
- 💬 与频道内容进行对话,获取基于视频文本的智能回答
- 📺 每个频道可扫描多达 100 个视频,获取频道摘要
- ⏱️ 提供精确时间戳,直接跳转到相关视频片段
- 🔐 支持安全登录和独立会话管理 支持 Docker 快速部署,简单配置即可使用。对于开发者可以研究学习下,如何适配国内视频平台。 #AI创造营#
Mistral Small 3.1 - 超越Gemma 3的开源轻量级模型
ID: 5145358533133960
Gemma 3 最佳开源轻量级模型的屁股还没坐稳,Mistral Small 3.1 就来掀桌子了。 Mistral Small 3.1 基于 Mistral Small 3,3.1 在文本性能、多模态理解和上下文窗口扩展至 128k tokens 方面均有提升。该模型在推理速度达到每秒 150 tokens 的同时,性能超越了 Gemma 3 和 GPT-4o Mini 等同类模型。 Mistral Small 3.1 基于 Apache 2.0 许可证发布。 Mistral Small 3.1 本次发布了预训练基础模型和 Instruct 模型。 特性:
- Mistral Small 3.1 可在单张 RTX 4090 或配备 32GB RAM 的 Mac 上运行
- 快速响应的对话辅助:非常适合虚拟助手及其他需要快速、准确响应的应用场景。
- 低延迟函数调用:能够在自动化或 agentic 工作流中快速执行函数
- 针对专业领域的微调:Mistral Small 3.1 可以进行微调,以专注于特定领域,从而创建准确的主题专家。这在法律咨询、医疗诊断和技术支持等领域尤为有用。
- 高级推理基础:过去几周,有多个基于 Mistral Small 3 构建的优秀推理模型推出,因此 Mistral 发布了 Mistral Small 3.1 的基础版和 Instruct 版检查点,以支持该模型的进一步下游定制。 Hugging Face 页面 基础模型:http://t.cn/A6BKSE1V Instruct 模型:http://t.cn/A6BKSE1f
ReasonGraph - LLM推理路径可视化工具
ID: 5145215300010424
一款LLM推理路径可视化工具:ReasonGraph 它会把AI的思考过程变成可视化图表,支持实时更新和交互式分析,形成的图表可以一键式SVG导出 支持多种推理方法,顺序推理类方法(思维链等)、树形推理类方法(思维树等),还可以让模型自选合适的推理方式等 支持Anthropic、OpenAI、Google、TogetherAI 等50多个模型 github:http://t.cn/A6BSboGT #ai创造营##AI生活指南##模型推理可视化##ReasonGraph##LLM#
Gemma 3 - Google开源大语言模型及本地部署教程
ID: 5144847359676479
如何使用 Gemma 3 本地部署 免费的深度研究(Deep Research) AI 助手? Google 发布了全新的开源大语言模型 Gemma 3,是一款从 Gemini 大模型中蒸馏而来的轻量级模型。Gemma 提供了 1B、4B、12B 和 27B 四种参数规格,支持多模态输入、12万 Tokens 上下文长度,以及 140 种语言的处理能力。 Gemma 3 在性能与规模的平衡上表现十分优异。其中 27B 参数版本在 Chatbot Arena 的 Elo 评分达到 1339 分,排名第九,与一些规模更大的模型并驾齐驱。这充分展示了模型蒸馏技术在压缩模型尺寸同时保持性能方面的潜力。 Gemma 3 的另一大亮点是本地部署的便利性。除了最大的 27B 版本可能需要较高配置外,其他版本都能在普通笔记本电脑上流畅运行。以 MacBook Pro M2 32GB 为例,4B 和 12B 版本都可以轻松驾驭,这为个人用户和开发者提供了私密且低成本的 AI 解决方案。实际测试表明,Gemma 3 在结构化输出、JSON 生成等任务上表现出色。 来自 LangChain 的开发者 Landon Langham 将 Gemma 3 整合进他的开源项目 ollama-deep-researcher 中,实现了基于本地模型的智能研究助手。该助手能够进行迭代式搜索和总结,运行速度快,且成本几乎为零。 详细部署方式:http://t.cn/A6BJGxp2 值得一提的是,Google 在 Gemma 3 的训练中采用了 RLF、RLMF 和 RLEF 等先进技术,特别优化了数学和编程能力。这使得 Gemma 3 不仅是一个通用的语言模型,更是一个具备专业能力的 AI 助手。 如今,大语言模型可谓百花齐放,Gemma 3 的发布展现出了一个新的趋势。通过模型蒸馏等技术,在保持核心性能的同时能够大幅降低部署门槛。这种趋势或将推动 AI 技术走向更广泛的实际应用场景,让更多用户受益于 AI 技术的进步。 #AI技术[超话]##AI编程##谷歌开源gemma3##DeepResearch##开源模型##AI创造营# http://t.cn/A6BJGoWP
Gemma 3 - 同上项目的另一条介绍
ID: 5143415214833940
牛P了,兄弟们 Google 发布最新开源模型 Gemma 3 性能超越DeepSeek V3、o3mini为全球第二强开源模型 -支持 140+ 语言 -增强文本和视觉能力,可理解文本、图片、短视频 -128K上下文窗口 -支持函数调用,支持AI 代理开发,自动执行任务。 -四种尺寸,分别为 1B、4B、12B 和 27B -可在手机、电脑上跑 竞技场排名 Gemma-3-27B 综合排名前 10 超越许多专有模型 是第二佳开源模型,仅次于 DeepSeek-R1 提供量化(Quantized)版本,提升推理速度,更小、更快,适用于边缘计算 & 移动设备。 Gemma 3 27B 仅需 1 张 NVIDIA H100 GPU即可运行,相比其他模型(如 Llama 3 70B)所需的 32 张 H100,计算成本大幅降低。 详细介绍: http://t.cn/A6B5MaL6
GraphAgentGenerator - 人大阿里十万级节点图谱生成框架
ID: 5143085780567295
人大和阿里开源的,支持十万级节点图谱生成的框架:GraphAgentGenerator,模拟速度提高了90.4% GAG利用LLM中预训练的社会共识知识,通过模拟人与物体的互动来生成动态的带有文本属性的社交图 比如模拟一个学术圈的社交网络,它会根据学者们的个人资料,像研究方向、发表的论文等来模拟他们的行为,生成相应的社交网络图 GAG生成结果可以展现真实世界网络的七个关键结构特征,幂律度分布、小世界特性、直径收缩等 在图扩展任务中,GAG在特定评估指标上比性能最佳的基线模型提高了 11% github:http://t.cn/A6BbCFDN #ai创造营##AI生活指南##图谱生成框架##GraphAgent#
Fleur - MCP的App Store应用
ID: 5142560595771750
给 MCP 做的App Store 也来了[哆啦A梦吃惊] 这几周mcp的生态发展很快,很多新的集成都来了 Fleur是一款macOS桌面应用,允许用户无需任何技术背景即可安装MCP(Model Context Protocol)服务器到Claude。简而言之,Fleur使得添加像Slack、Obsidian等应用到Claude成为可能,从而让Claude能够提供更好的答案或为用户采取行动。 Fleur是完全免费且开源的,Apache 2.0许可。
- Fleur不仅为非技术用户设计,支持通过图形界面发现、安装和管理扩展Claude功能的应用,还为开发者提供了开源和可扩展的平台。基于Rust和Bun构建,确保了其轻量级和高速的特性(体积不足20MB)。
- 开发者可以通过克隆
fleuristes/app-registry.git
仓库并向apps.json
文件添加应用信息,提交pull request的方式,将自己的MCP应用提交到Fleur市场。对于开发Fleur,需要安装Node.js(v18或更高)、Bun包管理器和Rust(用于Tauri)。构建生产版本则通过运行bun tauri build
命令实现。 Fleur不仅简化了用户与Claude的交互,还通过集中式应用注册表方式,促进了应用的发现和管理,为开发者提供了一个展示和分享MCP应用的平台。 访问: www.fleurmcp.com/ #ai创造营##程序员##deepseek# http://t.cn/A6B2BJK9
gemini-embedding-exp-03-07 - 谷歌新嵌入模型
ID: 5142399563602688
昨天谷歌还发布了一个新的嵌入模型 gemini-embedding-exp-03-07
– MRL 允许将原始的 3K 维度截断,以缩小规模
- 输出为 3K Token,输入 8K Token
– 支持 100 多种语言
#ai创造营#
详细信息:developers.googleblog.com/en/gemini-embedding-text-model-now-available-gemini-api/
draw.io - 开源图表绘制工具及自主纠正RAG工作流
ID: 5142334808523145
来自国外博主 Akshay 分享的一套构建自主纠正的 RAG 工作流。 除了能够搜索我们的文档外,还能在有需要时进行网络搜索,进一步确保内容准确性。 此外,跟大家分享一下制作这样的动态图,可以使用一个开源工具:draw.io。 我们可以利用它绘制一系列的图表、图示或图形,包括流程图、UML 类图、组织结构图、泳道图等等,适用于各种复杂专业的图表。 相比 ProcessOn,draw.io 作图元素更加丰富,而且文件可以选择保存到自己云盘或者本地,数据隐私更加安全。 教程:www.drawio.com/doc/faq/connector-animate GitHub:github.com/jgraph/drawio-desktop 感兴趣的同学可以看下。#AI创造营#
mcp-server-chatsum - 基于MCP协议的微信机器人和消息总结工具
ID: 5142106789118105
牛,基于MCP协议实现的微信机器人和消息总结工具:mcp-server-chatsum 解决你微信群消息太多没时间处理的问题 你可以问它,“今天早上大家都在聊啥?”、 “关于 MCP 最近有哪些讨论?” 方案:
- 用Wechaty在本地运行微信机器人,实时收集微信消息并存储在本地文件中,解决隐私问题
- 在本地运行一个mcp-server-chatsum程序,接收查询请求,从本地文件中返回匹配的微信消息(支持按群名、联系人、话题等条件查询)
- 用Claude桌面版作为交互入口,随时查询和总结微信消息,由Claude桌面版与本地的mcp-server-chatsum进程通信,再由Claude内置的大模型完成总结回复 代码idoubicc大佬已开源,见链接 github:http://t.cn/A6BZzMCv #ai创造营##AI生活指南##AI微信群机器人##微信机器人#
autoMate - 基于OmniParser的本地AI+RPA自动化工具
ID: 5142102875832918
基于OmniParser构建的本地AI+RPA自动化工具:autoMate,个人的数字员工 基于AI用自然语言描述任务,即可完成复杂的自动化流程,随着使用,它会越来越了解你的工作习惯和需求 可以自动操作电脑界面,完成复杂的工作流程 能智能理解屏幕内容,模拟人类视觉和操作 能自主决策,根据任务需求进行判断并采取行动 支持本地化部署,支持中文环境,一键部署 github:http://t.cn/A6BzIGWa #ai创造营##AI生活指南##数字员工##电脑自动化工具##autoMate# http://t.cn/A6BZMGtB
Awesome MCP Servers - MCP服务器资源列表
ID: 5141792007389833
分享 GitHub 上一份精心整理的 Model Context Protocol (MCP) 服务器资源列表:Awesome MCP Servers。 这个项目收集了各种实现 MCP 协议的服务器,让 AI 模型能够安全地与本地和远程资源交互,扩展 AI 能力范围,包括文件访问、数据库连接和 API 集成等。 GitHub:github.com/appcypher/awesome-mcp-servers 主要特性:
- 按功能分类整理,涵盖文件系统、版本控制、数据库、搜索引擎等 20 多个领域
- 包含官方和社区实现的各种 MCP 服务器,提供丰富的选择
- 提供支持 MCP 的客户端列表,如 Claude Desktop、Zed Editor、Sourcegraph Cody 等
- 收录实用工具和服务器管理工具,简化安装配置过程
- 详细标注每个服务器的实现类型,包括官方实现和多种替代实现 每个服务器都有简短描述和图标标识,方便快速了解其功能和应用场景。 #AI创造营#
Mistral OCR - 世界最好的OCR API
ID: 5141682777751582
Mistral 发布 Mistral OCR 应该是目前世界上最好的 OCR API
- 理解文档中的每个元素,还原原始文档排版
- 原生支持多语言和多模态
- 同类 OCR 模型中速度最快
- Doc-as-prompt, 结构化输出
- 支持私有化部署 这个模型对各种图片和 PDF 理解帮助太大了 从测试结果来看中文效果相较于其他语言要差一些#ai创造营# 详细信息:mistral.ai/news/mistral-ocr
train-deepseek-r1 - 从头构建DeepSeek R1教程项目
ID: 5141681221930493
//@蚁工厂:这个开发者还写了一篇面向普通用户的长文,介绍deepseek r1是如何工作的,没有代码和各种术语:网页链接
一个讲解如何从头开始构建 DeepSeek R1的项目 github.com/FareedKhan-dev/train-deepseek-r1 开发者Fareed Khan’s 用手绘流程图以及代码的方式,逐步讲解如何按照 deepseek 技术报告构建一个可以在本地运行的小型基础模型。非常详细。 该项目选择了一个较小的基础模型 Qwen/Qwen2.5–0.5B-Instruct 作为起点。通过 GRPO 算法进行强化学习,设计了多种奖励函数,如准确度奖励、格式奖励、推理步骤奖励、余弦缩放奖励和重复惩罚奖励,以鼓励模型进行正确和清晰的推理过程。在此基础上进行了监督微调(SFT),使用了 Bespoke-Stratos-17k 数据集,通过少样本提示、直接提示和后处理精炼等方法,进一步提升了模型的推理能力和输出质量。最后,通过拒绝采样筛选出高质量的推理数据,进行了第二阶段的 SFT 训练,以及针对实用性和无害性进行了奖励优化,最终完成了 DeepSeek R1 模型的构建。 #ai创造营#
autoMate - 同上项目的另一条介绍
ID: 5141624067459239
分享 GitHub 上一款颇为强大的 AI 驱动本地自动化开源工具:autoMate。 这是一款 AI+RPA 工具,能让 AI 成为你的 “数字员工”,通过自然语言描述任务就能自动操作电脑界面,完成复杂工作流程,无需编程知识。 GitHub:github.com/yuruotong1/autoMate 主要功能:
- 无代码自动化 - 使用自然语言描述任务,无需编程知识
- 全界面操控 - 支持任何可视化界面的操作,不限于特定软件
- 智能理解屏幕内容,模拟人类视觉和操作方式
- 自主决策,根据任务需求进行判断并采取行动
- 本地运行 - 保护数据安全,无需担心隐私泄露 #AI创造营# http://t.cn/A6Bh17EJ
Mistral OCR - 同上项目的另一条介绍
ID: 5141623738469103
MistralAI 的 OCR,提供API,直接可以上传pdf获得markdown,图片用 base64 返回,并且有 Markdown 占位符,这点很不错👍
另外价钱是千页1美元,不贵
官方介绍:
网页链接 宝玉xp的微博视频
OpenManus - 开源版Manus复刻项目
ID: 5141595713440477
复刻Manus,无需邀请码,开源版Manus! 支持在电脑上完成很多任务,包括网页浏览、文件操作、写代码等 OpenManus使用了传统的ReAct模式,优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理,需要注意,Manus有使用Plan进行规划 OpenManus目前也已初步加入了具有 Plan&ReAct的功能,正在优化调试,大家也可以尝试更改System Prompt 让OpenManus学会记录文档和Todo List的习惯 主要依赖的几个工具:
- PythonExecute:执行Python代码与电脑系统交互,可以进行文件操作、数据处理、自动化任务等
- FileSaver:保存文件到本地,比如txt、python、html等
- BrowserUseTool:打开、浏览和控制浏览器
- GoogleSearch:进行网络信息检索 github:http://t.cn/A6BvBrR3 #ai创造营##AI生活指南##aiagent##Manus##OpenManus# http://t.cn/A6BPSYUQ
TheoremExplainAgent - AI数理化老师动画视频生成工具
ID: 5141565710802195
AI教育领域的应用,一个AI数理化老师:TheoremExplainAgent,它可以生成5分钟动画视频来给学生讲解数学公式和科学定理,实用性很强 双智能体架构设计: 一个规划智能体,负责备课,设计教案,写讲稿 一个编程智能体,负责制作课件,用Manim生成Python动画脚本及相应音频 支持数学、物理、化学、计算机科学等学科 代码即将开源 项目:http://t.cn/A61TlNFC #ai创造营##AI教学工具##AI老师##TheoremExplainAgent##AI教学视频# http://t.cn/A61TlWzY
youtube-api-server - 轻量级YouTube数据提取工具
ID: 5140769665713890
一款轻量级YouTube数据提取工具:youtube-api-server,自动化了YouTube视频信息的获取过程 可以获取视频基本信息,比如标题、作者、封面图等,提取视频的字幕内容,生成带有时间戳的字幕 支持多语言,可以获取不同语言的字幕 github:http://t.cn/A61eIk7P #ai创造营##AI生活指南##视频数据提取工具#
Devlands - Git学习游戏化工具
ID: 5140532394461532
— 我曾为 Git 挣扎,所以我正在制作一款游戏,以避免他人经历同样的痛苦 游戏网址:http://t.cn/A61BZfJt Devlands 是一款旨在帮助开发者舒适学习 Git 并自信使用 Git 的沉浸式、游戏化的工具。通过将代码以视觉化的方式呈现在屏幕上,Devlands 让用户能够以直观的方式探索 Git 的概念,消除了学习 Git 时的挫败感。 对应记录开发者新路历程的blog:http://t.cn/A61BZfJc #AI创造营#
AI工具包推荐 - 生图视频修图等AI工具集合
ID: 5140519815743373
//@Simon_阿文:Tripo 和 Rodin //@DTS_studio:感谢分享,如有2D转3D的AI工具也请分享,鞠躬
经常被问到平时都用什么 AI 工具,于是整理了一下我和@海辛Hyacinth 在工作流中常用的工具包。 *由于工具迭代太快,本条将永久动态更新。 *都是我们做项目用的工具,你永远可以相信我写的工具推荐。 🖼️🖼️ 主力生图工具 ▶ Whisk & ImageFX(也就是 Google 家的 Imagen3) 写实风格能达到以假乱真的程度,而且还免费。 · 🖼️ 辅助生图工具 ▶ Midjourney:曾经的王者,但用过 Whisk 之后用不回去了,希望 V7 加油。 ▶ 即梦:如果你需要生成中国风和中文字,这是最好的选择。 ▶ Flux:开源最佳,适合搭配 ComfyUI 工作流使用。 · 🎨 修图工具 ▶ PS 的创成式填充:虽然生图很拉,但缝缝补补很合适。 ▶ Krea 的编辑器:其实就是 Flux 的局部重绘,但前端交互做得超好。 ▶ MJ 的编辑器:常用的是 Retexture,局部调整不推荐。 ▶ 个人忠告:抠局部细节的时候还是直接P吧。因为当生成区域小到一定程度时,inpainting 对关键词的响应就会极弱,与其浪费时间抽卡,真的不如直接上行活。 · 🔍放大工具 ▶ 图片放大用 Magnific & Krea:老实说 Magnific 用多了其实也没那么好用,Krea 更经济实惠。 ▶ 视频放大用 Topaz。 · 📽️ 视频生成工具 ▶ 目前我们用得最多:可灵 & Pixverse ▶ 风格化场景我们用:Hailuo ▶ 创意特效我们用:Pika ▶ 转绘我们用:ComfyUI · 🐋 我们在哪用 DeepSeek? ▶ 我用 ima ▶ 海辛用官方app 和 元宝 · 其他想到再补充。 #AI创造营#
mahilo - 多智能体人机协作框架
ID: 5140519160123140
一款多智能体人机协作框架:mahilo,可以构建相互之间共享上下文信息的多个AI智能体,并且支持人类监督 可以用来做客服系统、教育辅导、销售系统等等 它支持实时API和语音交互,可以自定义智能体,也支持集成其他框架的智能体 点对点通信,支持层级式通信,AI智能体可以根据场景自主决定与哪些其他智能体进行交流 支持人机协作,每个智能体都可以与人类用户实时交互,多个用户可以同时连接到同一个智能体,人可以随时干预智能体的决策 github:http://t.cn/A61dBDiG #ai创造营##AI生活指南##AIagent##AI智能体##多智能体##mahilo#
营养学语音文字校正助手 - 医学营养学专业术语校正工具
ID: 5140311828595462
//@营养师顾中一 :纯前端迭代了二十多版,最后走了极简路线[淡淡的] [img://https://wx4.sinaimg.cn/large/001wNvVCly1hz4aib0s4pj60u01t2adq02.jpg] //@宝玉xp :很赞//@营养师顾中一 :@宝玉xp 我一个外行靠跟claude 对话,从有想法开始一个小时就做出来上线了[开学季]
✨【效率神器免费共享】营养学语音文字校正助手正式上线!✨ 大家好,我是营养师顾中一,作为一名长期依赖语音输入的医学科普工作者者,我深受专业术语识别不准的困扰(比如”肌少症”变”鸡少站”,“β-葡聚糖”总成”北塔葡聚糖”😅)。历时8个月整理20000+条专业词句,现正式将我的私人词库升级为: 🚀【在线文本校正网页工具】 ▫️覆盖医学/营养学/生物化学等6大领域 ▫️支持中英文混合术语智能替换(如”5’-核苷酸”) ▫️长文本秒级处理,校正准确率>95% ▫️网页即开即用,手机/电脑全兼容 🌐立即体验:t.yinshiriji.com 📢欢迎转发给需要的师友,共同提升效率! ❤️这是我送给同行老师们的小礼物,持续更新中
LangGraph Multi-Agent Swarm - 多智能体协同工作Python库
ID: 5139795349866580
分享 GitHub 上的一个 Python 库 LangGraph Multi-Agent Swarm,它能让多个 AI 智能体像团队成员一样协同工作,每个智能体根据自身专长自动接手对话。 实现了智能体间的动态切换与无缝衔接,支持短期和长期记忆功能确保对话连贯性。 GitHub:github.com/langchain-ai/langgraph-swarm 核心优势在于智能体能根据专业领域自动决定谁来回答问题,并记住上一个活跃智能体,即使对话中断也能继续。 适用于构建智能客服系统(销售、技术、售后各司其职)或 AI 教育助手(不同学科教师切换授课),还支持流式处理和人机协作,可根据需求定制专家智能体和交接方式。 #AI创造营#
SesameAILabs CSM - 几乎无延迟的AI数字音频模型
ID: 5139772868921702
卧槽,我刚试了一下这个,SesameAILabs 实现了一个几乎无延迟的AI数字音频模型 ,应该是我体验过的最强的模型了。 我给大家录了个视频,大家可以听听看(一定要开声音,请忽略我的垃圾口语)。同时也建议直接访问试试,体验下延迟 (说实话别说延迟了,太快了,连气口都不给我)。 demo 我发现不仅可以顺畅聊天,甚至还有记忆,我跟他聊小米的车,结果我每次重新开始她就问我你的黄色车怎么样了… 要说缺点,也不是没有,她太多俚语了,我听不懂… (当然这其实是我的缺点… [苦涩][苦涩][苦涩]) 顺便,这个是开源的!分三个大小:1B,3B,8B。本地轻松运行。 在线地址:www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo# 开源项目地址(目前还在准备):github.com/SesameAILabs/csm #ai创造营##大模型竞技场# http://t.cn/A61mRHD4
Colossal-AI - 开源大模型后训练工具箱
ID: 5139452155659379
近日,随之 DeepSeek V3/ R1 火爆全网,基于原始模型的解决方案和 API 服务已随处可见,陷入低价和免费内卷。 为了帮助更多开发者,以低成本打造高质量私有模型,提升业务竞争力与价值。 GitHub 上知名开源项目 Colossal-AI 通过后训练(post-training)结合专业领域数据,正式发布了「开源大模型后训练工具箱」! GitHub:github.com/hpcaitech/ColossalAI 该工具箱包括以下内容:
- DeepSeek V3/ R1 满血 671B LoRA 低成本 SFT 微调;
- 完整的强化学习工具链 PPO,GRPO,DPO,SimPO 等;
- 无缝适配 DeepSeek 系列蒸馏模型在内的 HuggingFace 开源模型;
- 兼容支持英伟达 GPU、华为昇腾 NPU 等多种硬件;
- 支持混合精度训练,gradient checkpoint 等训练加速降低成本;
- 灵活的训练配置接口,支持自定义奖励函数、损失函数等;
- 提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO 和 Offload 等,以适应不同硬件规模。 DeepSeek V3/R1 满血版参数高达 6710 亿,通过该项目,开发者仅需简单几步,即可快速实现低成本微调。 目前,该方案已在 GitHub 正式开源,感兴趣的同学可以深入了解,学习一下。
LangGraph Multi-Agent Swarm - 同上项目的另一条介绍
ID: 5139071530176154
langchain开源的一个蜂群式多智能体系统:LangGraph Multi-Agent Swarm 每个智能体能根据各自的特长自动决定谁来回答,并且能记住上一个活跃的智能体是谁,断点还能继续进行对话 适合用于比如客服系统或AI教育辅导助手 客服系统,让销售处理产品咨询、技术解决技术问题、售后处理退换货问题 AI教育辅导助手,数学老师讲数学、物理老师讲物理,根据学生问题自动切换合适的老师 它的智能体间为动态智能交接,具备记忆功能,有短期和长期记忆能力 可以定制,添加专家和交接方式等,支持人机协作 github:http://t.cn/A618XmLl #ai创造营##aiagent##智能体##多智能体协作##langchain#
mp-vx-insight - 微信公众号Chrome扩展工具
ID: 5139070741907470
推荐 GitHub 上一款专为微信公众号设计的 Chrome 扩展:mp-vx-insight。 可一键获取微信公众号文章封面图、提取文章内容、复制历史文章地址,提升公众号内容创作和管理效率。 GitHub:github.com/pudongping/mp-vx-insight 主要功能:
- 自动抓取公众号文章标题、作者、简介、封面图
- 一键提取文章内容至剪贴板
- 获取并复制当前公众号的历史文章地址
- 简单安装,仅需开启浏览器开发者模式加载源码 #AI创造营#
Attention Is All You Need - Transformer创始论文中文翻译
ID: 5138331148485843
arthurchiao大佬又翻译了Transformer 的创始论文:Attention Is All You Need
arthurchiao.art/blog/attention-is-all-you-need-zh/
重读经典~~
#AI创造营#
SWE-RL - Meta强化学习软件工程能力增强方法
ID: 5138284661964899
SWE-RL:Meta发布第一个使用强化学习RL专用于增强LLM处理现实世界软件工程SE能力的RL方法,垂直细分领域的RL推理大模型来了。 1、模型具备能力:处理github上issue问题的能力,处理github软件代码生成,处理github项目bug修复能力等,具有更强的实用价值。 2、区别于deepseek的偏向于竞争性编程能力的强化学习,SWE-RL使用github上的开源项目的演化数据进行RL(例如PRS)。 3、这是meta尝试强化学习RL的重磅论文,基于SWE-RL和基础模型Llama-3.3-70B-Instruct训练出了Llama3-SWE-RL-70B,在SWE Bench上实现了41.0%的准确率,在模型参数小于100b的模型里排名第一,甚至与GPT-4O(例如GPT-4O)相当。 4、这是首次将RL应用于现实世界中的软件工程SE任务,并且得到了很好的反馈,同时对比同样数据通过SFT训练的模型要好非常多,该方法也为改善诸如数学、代码生成和一般语言理解之类的任务提供了实现路径。 SWE-RL为很多软件公司训练自己的专属SE模型提供了思路,比如中软、东软等拥有大量代码的公司,也是使用强化学习解决垂直细分领域更加细化的强化学习方法论。 论文:http://t.cn/A61lAC5T github:http://t.cn/A61lAC5H #ai创造营##deepseek##swe-rl##Llama3-SWE-RL-70B##SWEBench#
Gemini Code Assist - Google免费AI编程助手
ID: 5138070651800852
Google 推出面向个人的免费AI编程助手Gemini Code Assist 每月提供 18 万次免费代码补全 -免费使用,无需信用卡:只需一个个人Gmail账户即可注册使用
- 全球最高免费使用额度:每月180,000 次代码补全,远超其他 AI 助手。
- 支持所有编程语言:Python、Java、JavaScript、C++、Go、Rust……你需要的语言都能用!
- 强大的 AI 代码审查:自动检查代码错误、优化代码质量,支持 GitHub 代码审查。
- 智能聊天助手:直接在 VS Code 和 JetBrains IDE 提问,AI 立刻生成代码和解释。 此外,Google 还推出了 Gemini Code Review for GitHub,为开发者提供免费 AI 驱动的代码审查,适用于公共和私有代码库。 真免费 超实惠 Gemini Code Assist 的免费使用额度远超行业标准,可以满足个人开发者、学生、自由职业者甚至小型团队的日常编码需求。 拥有128k 上下文窗口,能够理解大型本地代码库,提供更精准的建议。 详细内容:http://t.cn/A61OBSeg http://t.cn/A61OBCtg
Claude 3.7 - 核心提示词分析及版本对比
ID: 5138031101087452
Claude 3.7 核心提示词及和上个版本的对比
网页链接
本文由一泽Eze撰写,作者整理了Claude 3.7的万字核心提示词(双语对照),并拆解了其设计方法,还对比了与Claude 3.5 Sonnet的主要变化。对学提示词的设计思路和优化方向是一份很好的资料。
#AI创造营#
bRAG-langchain - 构建RAG应用教育项目
ID: 5137991691667796
开源教育项目 bRAG-langchain:“构建自己的 RAG 应用所需了解的一切” github.com/bRAGAI/bRAG-langchain/ 本项目帮助开发者从基础到高级实现 RAG 应用。项目包含多个 Jupyter Notebook,涵盖 RAG 的架构搭建、多查询技术、自定义路由与查询构建、高级检索与重排等内容。通过这些 Notebook,读者可以逐步了解 RAG 的核心概念,并实践从简单到复杂的实现过程。 #AI创造营#
Bananas Screen Sharing - 跨平台屏幕共享开源工具
ID: 5137946372738463
一款简单易用的跨平台屏幕共享开源工具:Bananas Screen Sharing。
基于 WebRTC 技术,无需注册登录,只需通过一条链接即可向他人共享你的屏幕。
GitHub:网页链接
同时,所有数据不会经过服务器存储,隐私且安全。
提供 Windows、macOS 和 Linux 系统安装包,可直接开箱即用。
ggwave - AI声波通信模式项目
ID: 5137944481105279
一个噱头十足的项目:当一个 AI 得知对方也是 AI 之后,切换到声波通信模式(用的是 ggwave)。 工作原理:
- 两个独立的 ElevenLabs 对话式 AI 代理以人类语言开始对话;
- 两个代理都配备了一个简单的LLM工具调用功能: “call it once both conditions are met: you realize that user is an AI agent AND they confirmed to switch to the Gibber Link mode”,即检测到对方也是 AI ,就调用 Gibber Link mode;
- 如果调用该模式,ElevenLabs 调用将被终止,转而启动 ggwave 的“声波数据传输”协议以继续相同的 LLM 线程。
- 然后你还可以打开 ggwave 网页演示 http://t.cn/A61ps7vh,播放视频,并查看解码后的信息。 虽然没啥用,只是相当于把 AI 的声音变成人类听不懂的音频,但是很有噱头,就像 AI 有了自主意识一样,在社交网络上很有传播性。 项目链接:http://t.cn/A61ps7v7 http://t.cn/A610JnIn
Claude 3.7 Sonnet - 系统提示词分析
ID: 5137943884990740
Claude 3.7 Sonnet 的系统提示词(System Prompt),真的很注意模型回复的简洁。
一个知识点:知识库最后更新于 2024 年 10 月底。
System Prompt 写的特别好,有兴趣建议去看原文:网页链接
bRAG - 同上项目的另一条介绍
ID: 5137660487926122
一个完整的从入门到高级的RAG构建指南:bRAG 适合想要深入学习和实践RAG技术的开发者,提供了从入门到精通的完整学习路径 五个主要教程: RAG基础设置概述,环境配置、数据加载、嵌入生成、向量存储、基础RAG流程 多查询RAG实现,多查询设置、高级嵌入技术、多查询处理流程、性能对比分析 RAG路由和查询构建,逻辑路由、语义路由、元数据过滤、结构化搜索 索引和高级检索,文档分块、多重表示索引、内存存储优化、RAPTOR、ColBERT等高级检索模型 检索和重排序,文档处理、RAG-Fusion、排序优化、Cohere重排序 github:http://t.cn/A61CYYmn #ai创造营##RAG##RAG教程##RAG指南#
Step-Audio - 阶跃130B超大语音模型
ID: 5135496711767393
阶跃开源了一个统治级 130B 的超大语音模型!!! 业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统
- 支持多语言对话(中文,英文,日语)
- 语音情感(开心,悲伤)
- 方言(粤语,四川话)
- 可控制语速及韵律风格
- 支持RAP和哼唱等
- 语音克隆 太强了,这下真的一步到位了#AI创造营##ai# 项目地址:github.com/stepfun-ai/Step-Audio/tree/main http://t.cn/A615Dy7j
chat2geo - 智能地图分析工具
ID: 5135169134003191
酷,一款智能地图分析工具:chat2geo,可以用聊天的方式分析卫星图像和地理数据 提供自然语言描述需求,Chat2Geo就能理解并转换为专业的地理分析任务,调用Google地球引擎获取卫星数据进行处理分析 支持处理卫星图像、分析地理数据以及各种专业分析 比如,分析城市问题,查看城市热度分布,检测空气污染情况,观察城市发展变化;做土地分析,可以了解土地使用以及土地变化情况等 支持上传自己的矢量数据,将其与GEE的卫星图像数据结合起来进行分析 github:http://t.cn/A61qjRiH #ai创造营##地理数据分析工具##AI城市地址分析##chat2geo##AI环境分析工具# http://t.cn/A61qjmlL
Operator & Replit Agent - 智能体协作编程演示
ID: 5135168840402808
国外程序员 Lamar 展示了 OpenAI 的 Operator 和 Replit Agent 两个智能体协作编写代码的全过程,完全自动化,无需人工干预。这种方式或许正是未来编程行业的发展方向。 可以想象,未来将会有更多精通 Python、Java、C++ 等编程语言,并深谙各行业需求的智能体,它们经过专门优化和微调,能够高效完成各种开发任务。而人类程序员的角色,或许将逐渐转变为任务的规划者和监督者,负责分配工作、协调智能体之间的配合,并审核最终成果。 #AI技术[超话]##AI编程##AI观察局##智能体##AI创造营# http://t.cn/A61G3eYu
Omniparser V2 - 微软用户界面理解代理
ID: 5135168219911770
酷,微软的Omniparser V2出来了,可将任何LLM转为能够理解和操作计算机用户界面的代理,功能更强大! 1、V2比前一代在检测较小的可交互元素方面准确性更高 2、通过减小图标描述模型的图像大小,它的延迟比前一代降低了60% 3、结合GPT-4o,V2 在ScreenSpot Pro上达到了39.6的平均准确率,优于GPT-4o原始的0.8 分 微软还开源了OmniTool,这是一个基于docker的 Windows 系统,包含了一套用于代理的基本工具,可开箱即用的把OmniParser与各种LLM结合使用 比如 OpenAI、DeepSeek、Qwen以及Anthropic,从而把屏幕理解、定位、动作规划和执行步骤结合起来 HF:http://t.cn/A61GaiEa 博客:http://t.cn/A614rVGN #OmniparserV2##用户界面代理##代理构建工具##AI创造营# http://t.cn/A61GSw3y
hacker-news - AI自动化播客项目
ID: 5135167988962985
一个基于AI的自动化播客项目:hacker-news,它可以每天自动抓取Hacker News热门文章,生成中文总结并转成播客 自动抓取Hacker News每日热门文章,智能总结文章内容和评论,用Edge TTS生成中文播报 支持网页和播客App收听,每日自动更新,可提供文章摘要和完整播报文本 github:http://t.cn/A61UcoIM #ai创造营##ai自动播客##AI播客##文章转播客#
Simba - 开源知识库系统
ID: 5134865685283476
看到一个开源知识库系统 Simba,这个库可以轻松收纳各种文档,并且与任意RAG系统集成作为后端知识库。
地址:github.com/GitHamza0206/simba
#ai创造营#
hacker-news - 同上项目的另一条介绍
ID: 5134803632395273
(转)做了个 AI 工作流,抓取 Hacker News 每日热门文章生成中文播客 🎙️
可以在每天上班路上听到最顶级的科技趣事了
地址和仓库 👇网页链接
Gitingest - AI快速解析GitHub代码库工具
ID: 5134803516525509
GitHub 是一个巨大的宝库,汇聚了大量优秀的开源项目。然而,代码库的文档往往偏技术向,难以快速理解其核心功能和亮点。今天给大家介绍一个 借助 AI 快速解析 GitHub 代码库 的方法,让你更高效地探索和掌握各种项目。 操作步骤
- 打开你想要了解的 GitHub 代码库。
- 将链接中的 github 替换为 gitingest,然后访问新链接。
- Gitingest 会自动将代码库内容提炼成一段纯文本,复制这段文本。
- 将文本输入 Gemini、Kimi 等支持长上下文窗口的 AI 工具。
- 用自然语言向 AI 提问,让它帮你解读代码库的功能、亮点和核心逻辑。 通过这个方法,你可以快速理解各类强大、有趣的 GitHub 代码库! #AI技术[超话]##Github##AI技术派##AI创造营# http://t.cn/A61b7nMa
deepseek_project - DeepSeek微信聊天机器人
ID: 5132928105319230
分享 GitHub 上一个使用 DeepSeek 构建微信聊天机器人的开源方案:deepseek_project。 通过对接 DeepSeek API 与微信接口实现的智能聊天机器人,支持实时监听消息并自动化响应。 GitHub:github.com/1692775560/deepseek_project 除此之外,还支持上下文敏感型回复生成,以及异常流量熔断机制。 感兴趣的同学,建议使用小号尝试,谨防被封。#AI创造营#
ktransformers - 大语言模型推理优化框架
ID: 5132588182410828
ktransformers这个框架把本地运行满血版deepseek r1的门槛降低了很多~~ github.com/kvcache-ai/ktransformers KTransformers专注于优化大型语言模型(LLM)的推理性能,帮助用户在资源受限的环境中高效运行LLM。今天他们发布了一段视频,演示了在24GB 显存+382G 内存环境下运行 DeepseekR1 和 V3的效果,实现最高 3 至 28 倍的加速效果(相对于llama.cpp)。 运行Q4_K_M 量化版本,最低仅需 14GB 显存和 382GB 内存。 #AI创造营# http://t.cn/A61P9QfA
cursor-tools - Cursor能力增强工具
ID: 5132547287156377
酷,增强Cursor能力的工具:cursor-tools,相当于给Cursor配备了一个技能增强包,不光会写代码,还会查资料、做测试、写文档 集成了Perplexity、Gemini 2.0、Stagehand,增加了其搜索能力、理解能力以及自动操作网页的能力 它可以上网查资料、能读懂项目,可以自动测试网页,生成文档 比如,你让它实现一个支付功能,它可以查最新的支付API文档,分析项目里现有的代码,生成实现方案,还可以测试功能是否正常 github:http://t.cn/A63s7Uzt #ai创造营##编程助手##cursortools##cursor##编程自动化#
LynxHub - AI工具平台一键安装工具
ID: 5132416115278906
看到了个新的AI工具平台 LynxHub,一些复杂的AI工具诸如OpenWebUI, ComfyUI 等在里面点击即可下载自动安装。免去了手动配置的痛苦。感兴趣的同学可以下载试试了
地址:github.com/KindaBrazy/LynxHub
#ai创造营#
PRIME - 强化学习优化框架
ID: 5132202759424715
来个强化学习优化框架,PRIME。通过该框架可以使用强化学习方式微调现有的推理模型。获得你想要的体验。
(P.S. 那个我不太能多说的 Tifa-Deepsex 模型就是通过这个框架微调的…[开学季])
地址:github.com/PRIME-RL/PRIME
#ai创造营#
Web UI - 本地运行DeepResearch工具
ID: 5131833188812323
#本地运行DeepResearch# OpenAI推出的联网搜索功能Deep Research,一键本地部署工具来了,完全不依赖云端,不用担心API限制或隐私泄露。 工具的名字很简单粗暴,就叫Web UI。 从【视频】中可以看到,AI自动绕过了烦人的登录验证,所有操作都会保持持久会话,就像真的在用浏览器一样。 总结起来,Web UI工具有着以下亮点——
- 嵌入浏览器:Web UI让AI模拟真实用户的浏览行为,不仅能自主访问网页,还能进进行交互操作,比如打开页面、点击按钮、填写表单、抓取数据等,全程自动执行用户指令。
- 支持多种LLM:该工具兼容多个主流大模型(LLM),包括 OpenAI、Gemini、Anthropic、DeepSeek、Ollama等,用户可以根据需求自由切换,无需受限于单一的AI供应商。
- 持久会话记录:AI能够自动绕过繁琐的登录验证,所有操作都会保持持久会话,仿佛真的有一位虚拟助手在操控浏览器。
- 操作过程可回溯:用户能录制AI执行任务的全过程,方便回看每一步操作,确保任务执行的透明度和可追溯性。 这个技术的背后,离不开模型可视化工具——Gradio的支持。 有网友评价道:“这种将Gradio+LLM+浏览器联动的方案,很可能成为未来WebAI的通用标准。” 看来以后上网,可能不再是手动冲浪,而是AI带我飞了! 感兴趣的小伙伴可以点击:http://t.cn/A6uYmNZN http://t.cn/A63DdWqF
KOLO - 大模型微调指南工具
ID: 5131660787712407
发现KOLO工具里面写了个大模型微调指南,想了解微调(fine-tuning)的同学可以看下。 我的建议是,如果真的想自己微调/量化,记得试试unsloth。过去几个月最令我震撼的量化版本就是unsloth团队的DeepSeek-V3-Q2, 我是没想到2bit量化能用的. 指南地址:github.com/MaxHastings/Kolo/blob/main/FineTuningGuide.md #ai创造营# #大模型竞技场# #DeepSeek#
Tifa-Deepsex-14b-CoT - 角色扮演小说创作模型
ID: 5131585745848426
有用 AI 写小说、角色聊天的可以看看 Tifa-Deepsex-14b-CoT 这个模型,是在 Deepseek-R1-14B 的基础上,利用 Tifa_220B 等海量高质量数据,通过多阶段优化深度强化的一款大型语言模型。它主打 角色扮演、小说文本创作 以及 思维链(CoT)推理 能力,特别适合需要长程上下文关联的创作场景。 不过从名字看,似乎不是个正经模型,建议正经的你还是不要用的好。 地址:http://t.cn/A63eQTM0
Pickle - Zoom数字分身AI工具
ID: 5130791854017870
一款为你生成数字分身并无缝接入 Zoom 的 AI 工具:Pickle。无需摄像头,仅通过语音即可操控自己的数字分身参与视频对话,同时实现语音与分身口型的精准同步。不论你是在运动、打游戏,还是躺在床上,Pickle 都能让你的 Zoom 数字分身自然流畅地参与视频会议,毫无破绽。[微风][笑cry] 访问地址:http://t.cn/A6mhNNXc #视频会议后忘关摄像头##AI观察局##AI工具推荐# http://t.cn/A63ufOPF
stocks-insights-ai-agent - AI智能股票分析工具
ID: 5130698284075995
酷,一款基于AI驱动的智能股票分析工具:stocks-insights-ai-agent,用它可以了解股票表现和相关新闻,它可以自动从网上收集股票价格、公司新闻等,AI分析并以图表、文字等形式展现出来 它可以查看股票表现,画出股票价格的历史走势; 查找特定信息,比如某只股票的某个具体信息; 收集某只股票的相关新闻 其定期异步抓取新闻和财务数据,分别存储在MongoDB 和PostgreSQL数据库里,新闻数据同步到 ChromaDB向量数据库,以便LLM进行语义搜索 用LangGraph构建了三个代理RAG,新闻数据RAG、股票数据RAG和股票数据图表RAG github:http://t.cn/A63niBc5 #AI创造营##RAG##股票助手##股票agent##anget#
GeoSpy AI - 室内照片位置定位工具
ID: 5130691354038617
GeoSpy AI 现在已经具备通过室内照片进行位置定位的能力。只要室内照片中包含部分街景信息,它便可以精准识别出拍摄者的具体位置。在 AI 时代,保护个人隐私需要更加谨慎。 目前,GeoSpy 的功能仅限于识别旧金山、纽约、孟菲斯、柏林和新加坡这五座城市的街景信息。 #AI观察局##AI技术# http://t.cn/A63uEgJi
transformers.js-chrome - 浏览器插件运行大语言模型
ID: 5130317314393347
看到个浏览器插件运行大语言模型的repo,感兴趣的同学可以试试了,相比于WASM方案,这个将整体打包变成了浏览器插件。点击即可用。 目前支持本地小模型大概1-7B规模的。或者DeepSeek-R1的一些小一点的蒸馏版本。当然你的电脑性能足够强运行大一些的也没问题。 地址:github.com/tantara/transformers.js-chrome #ai创造营##DeepSeek#
models-table - Transformer论文以来全部大模型列表
ID: 5130251516775325
分享个transformer论文诞生到现在的全部大模型列表。由于过大了,我只能分成两张。
全部地址:lifearchitect.ai/models-table
#ai创造营#
GPT Researcher - 成熟的研究框架
ID: 5130251413489412
等会,research 框架意外的多啊,这还有个叫 GPT Researcher 的,同样是GPT API,不过搜索API使用的是 TAVILY_API。
都是填上token就能用。这个项目更成熟一些,已经有16K star了。
地址:github.com/assafelovic/gpt-researcher
#ai创造营##DeepSeek#
md - Markdown转微信公众号排版工具
ID: 5130101447197643
Markdown转微信公众号排版工具 网页链接
美观好看,我最近都是用这个工具给文章排版,排完后点按钮复制即可。示例:网页链接
有个痛点功能是“外链转底部引用”,有兴趣可以试试看。
还可以插入字数/时间统计(图二)。
能调整自己想要的样式,甚至导入css
open-r1 - HuggingFace的DeepSeek R1复现项目进展
ID: 5129887698649283
上次介绍过huggingface的deepseek r1复现项目open-r1:http://t.cn/A63E6CV8 今天发现他们对该项目还是蛮重视的,特意建了个页面( huggingface.co/blog/open-r1/update-1 )来跟踪项目进展及训练中的经验和问题、围绕DeepSeek-R1的讨论、及相关的有趣资源(比如其他的复现项目或复现经验)的集合。 项目启动一周后的进展主要是:
- 评估(Evaluation): MATH-500 基准测试: 团队成功复现了 DeepSeek 在 MATH-500 基准测试上的结果。例如,DeepSeek-R1-Distill-Qwen-1.5B 模型在 Hugging Face lighteval 上的得分为 81.6,而 DeepSeek 报告的得分为 83.9。 响应长度分析: 观察到 DeepSeek 模型生成的响应长度非常长,平均约为 6,000 个 token,有些响应超过 20,000 个 token。这种长度为模型评估带来了挑战。
- 训练管道(Training Pipeline): GRPO 集成: 在最新的 TRL 版本(0.14)中,集成了 GRPO(Grouped Relative Policy Optimization),使得可以使用一个或多个奖励函数或模型来训练任意模型。该实现与 DeepSpeed ZeRO 1/2/3 集成,以实现多 GPU 的并行训练,并使用 vLLM 进行快速生成。
- 合成数据生成(Synthetic Data Generation): 数据生成策略: 团队正在开发用于生成合成数据的策略,以支持模型的训练和评估。
- 外联(Outreach): 社区参与: 项目启动一周以来,吸引了来自不同团队和社区成员的参与,共同致力于 Open-R1 的开发和改进。 #AI创造营#
Open-Interface - LLM控制任何电脑
ID: 5129887565744582
Open-Interface
用LLM控制任何电脑
AI文献阅读助手 - 用户需求咨询
ID: 5129377480966215
帮网友问:如果想用AI agent去阅读我的领域的每天最新的文献,每篇文献写一个简短的总结,每晚总结成一封邮件发到我邮箱里。请问现在有类似的工具吗? 谢谢🙏
NewPipe - 轻量级YouTube第三方客户端
ID: 5129038540833853
推荐 GitHub 上一款轻量级的YouTube 第三方客户端:NewPipe。 对国内设备非常友好,不需要安装 Google 服务框架也能使用,而且无需登录 YouTube 账号。 GitHub:github.com/TeamNewPipe/NewPipe 主要功能特性:
- 支持观看分辨率高达 4K 的视频。
- 支持画中画,浮动窗口播放。
- 支持搜索视频、音频、频道、播放列表或专辑。
- 可将视频加入播放队列,并可保存为本地播放列表。
- 可下载视频、音频、字幕。 还有非常多功能,总的来说已经是一款功能非常全面的客户端。 #AI创造营#
Mistral Small 3 - 欧洲开源模型新版本
ID: 5128818714740774
#模型时代# 欧洲的模型也出新了:Mistral Small 3,还是一贯的风格,直接放磁力链接下载。 看了一下技术博客,几句话说的很有意思。开放,还是不开放,这是一个重要问题。 1、媲美同行取代封闭 Mistral Small 3 可与更大规模的模型(例如 Llama 3.3 70B 或 Qwen 32B)相媲美,同时也能很好地替代诸如 GPT4o-mini 这类不透明的专有模型。在相同硬件上,Mistral Small 3 的速度是 Llama 3.3 70B Instruct 的3倍以上,但能达到近似的性能。 2、和DeepSeek R1类模型互补 Mistral Small 3 并未使用强化学习(RL)或任何合成数据进行训练,因此它在模型生产流水线中的阶段要早于类似 Deepseek R1 的模型(Deepseek R1 是一个很棒的、互补的开源技术!)。Mistral Small 3 可以成为一个非常出色的基础模型,用来进一步构建并积累推理能力。我们也期待开源社区对它进行广泛的采用和定制。 3、使用Apache 2.0 更加开放 Mistral Small 3使用 Apache 2.0 协议,并正逐步放弃 MRL 许可的模型。所有模型权重都将提供下载,并可在本地部署,允许任何人自由修改和使用。
单纯的快乐 - 个人感悟分享
ID: 5127962907118198
人在成年后很难复刻那种单纯无忧的纯粹快乐时光,无论它多么愉悦或平静,都杂染着成人心境下不可避免的辨析和观察,简单来说,我们使用了一些现成的经验在解析另一种经验,而这些经验中包含着分别、价值、判断、诠释、建构,它是复杂条件下的快乐。 人的感官设定包含着脱敏机制,一种刺激重复出现后,它就不再是刺激,这种机制不利于幸福,却利于生存,因为人生来就不是被设定为体验幸福的,幸福只是物种自我延续过程里最值得被追求的一种感觉,它的优先级并不高,会被其他更有利于生存的经验所覆盖,哪怕那些经验代表着焦虑、恐惧、痛苦,欲望。因此成人的经验是混合物,而不是纯净物。 这些混合物依然可以带来满足,甚至在某些时候也可以变得很极致,却很难连续,很难在最简单甚至是物质匮乏的生活中被连续创造,这是一种被社会集体意识塑造过的知觉模式,它包含着先要符合某些条件,另一些东西才能成立的前置要求。 一个像孩子的成人总是会被贬低的,因为它不再符合社会期待,因此成人所展示的快乐标识物首先得是体面的,它需要在某个切面折射为能力、品味、财富、美学、智性等,也就是说,它始终相关于我们想被视作独特的,并得到认可与认同的一种期待。 单纯在我心里是一个高级词汇,连这个语境下的无知也是,它们本就不应该成为一种贬义,它只是描述了一种状态,这就像是一块还没有被写满数据的硬盘,我们最大程度上保留了经验的灵敏,保留了感觉的阈值,并且让欲望趋向于一种低唤起水平。 这样的我们当然可以“知晓”很多应该知晓的事情,但这些知晓却没有覆盖我们心中的单纯。在这种经验下,我们依然相信和好奇,相信一种最美好的存在和自己的期待有关,好奇于世界的广袤与无穷,它大到可以包容自己的想象,就好像它在另一个时空坐标里是有可能兑现的现实,它存在于未来,指向它的东西叫希望。 所以不单纯的快乐和这种“已知”有关,一种好像什么都知道了,明白了,看透了,因此也觉得乏味了,不再期待了,只能在已知的世界里寻觅强度意义上的感官刺激,寻找虚荣的增量获得,这时候欲望接管了一切,而它的背后是匮乏。 记得初中时,我在qq资料里写了这么一句话:“我所做的一切,都是为了找回儿时午后那安逸的时光。”这当然只是一个隐喻,它不是在描述时间与温度,而是在追溯一种天真,一个经验通道全开的自我,对那个哪怕仅仅是维持着他基本存在的世界的强烈感觉。这种经验不相关于别人,不相关于成就,它最低程度上依赖着额外的条件——“若其天放,如是得之”。这就是我所说的单纯的快乐。
Qwen2.5-VL - 通义千问视觉理解模型
ID: 5127715535456571
通义千问开源了全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型,推出了 3B、7B 和 72B 三个尺寸版本。 Qwen2.5-VL 的主要特点: ◆视觉理解:Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。 ◆Agent:Qwen2.5-VL 直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。 ◆理解长视频和捕捉事件:Qwen2.5-VL 能够理解超过 1 小时的视频,并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。 ◆视觉定位:Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。 ◆结构化输出:对于发票、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,惠及金融、商业等领域的应用。 博客:http://t.cn/A63pAv7m
Ollama + DeepSeek - 本地网页研究助手
ID: 5127453636297246
技术大佬 Lance Martin 通过 Ollama + DeepSeek 打造完全本地运行(无需调用 API)的网页研究助手。它可以使用 Ollama 托管的任何语言模型(LLM)。你只需要给它一个主题,它就会自动生成搜索关键词,搜索网页内容(默认通过 Tavily),整理并总结搜索结果。随后,它会检查总结中是否存在知识遗漏,针对这些空缺生成新的搜索关键词并继续查找信息,不断改进总结内容。这一过程可以根据你设定的循环次数反复进行。最后,它会生成一份包含所有参考来源的 Markdown 格式总结,方便你查看和使用。 源码地址:http://t.cn/A63XnZlC #DeepSeek为何一夜爆火##ollama##deepseek##AI技术##AI编程##AI技术派# http://t.cn/A639Ffek
MnnLlmApp - 阿里手机端LLM离线运行应用
ID: 5127250695422018
酷,阿里开源了基于其MNN-LLM框架的Android手机应用:MnnLlmApp,支持各类LLM在手机上离线运行 支持多种多模态任务,文本生成文本、图像生成文本、音频转文本以及文本生成图像 在安卓平台上,MNN-LLM的CPU性能优秀,预填充速度较llama.cpp提高了8.6倍,较fastllm提升了20.5倍,解码速度分别快了2.3倍、8.9倍 支持多种模型,Qwen、Gemma、Llama(涵盖TinyLlama与MobileLLM)、Baichuan、Yi、DeepSeek、InternLM、Phi、ReaderLM、Smolm等 完全在设备本地运行 github:http://t.cn/A63oP8cp #AI创造营##设备AI##移动端LLM##MnnLlmApp##MNN-LLM#
open-r1 - HuggingFace官方DeepSeek-R1复现项目
ID: 5127244468979298
huggingface官方出了个DeepSeek-R1 的复现项目,叫open-r1。。也是出息了,之前都是国内出复现o1、复现sora的项目,这次开始被复现了 github.com/huggingface/open-r1 Open R1 是一个开源项目,旨在完整复现 DeepSeek-R1(深度求索公司开发的智能体模型)的技术框架,并推动社区协作进一步完善。该项目通过模块化设计简化了复现流程,目标是让研究者和开发者能够自由复现、改进并基于 R1 的技术路线构建自己的模型。 核心目标: ⭐开源复现:填补 DeepSeek-R1 技术流程中的缺失环节,提供可复现的训练、评估和数据生成工具。 ⭐协作共建:通过社区力量逐步完善模型训练流程(如数据生成、强化学习优化等)。 ⭐技术透明化:以代码和文档形式公开 R1 的实现细节,降低技术门槛。 项目分三步推进,参考 DeepSeek-R1 技术报告: ⭐复现 R1-Distill: 通过蒸馏(Distillation)从原始 DeepSeek-R1 提取高质量知识库,训练轻量级模型。 ⭐复现 R1-Zero: 构建纯强化学习(RL)训练流程,需大规模数学、推理和代码数据支持。 ⭐多阶段训练验证: 展示从基础模型到多阶段 RL 调优的全流程,验证技术可行性。 #AI创造营#
TinyZero - 同上项目的另一条介绍及相关项目
ID: 5127244337644121
//@karminski-牙医 :震撼了,于是翻了下issue,他这个不到30美元应该是运行成本,而不是总体拥有成本。即,想要复现,用强力的卡(H200),只需要5个小时不到(2块H200每小时6.4美元)。而不是用30美元的设备复现。//@蚁工厂 :另外还有个复现DeepSeek R1 Zero 的项目:github.com/Jiayi-Pan/TinyZero
huggingface官方出了个DeepSeek-R1 的复现项目,叫open-r1。。也是出息了,之前都是国内出复现o1、复现sora的项目,这次开始被复现了 github.com/huggingface/open-r1 Open R1 是一个开源项目,旨在完整复现 DeepSeek-R1(深度求索公司开发的智能体模型)的技术框架,并推动社区协作进一步完善。该项目通过模块化设计简化了复现流程,目标是让研究者和开发者能够自由复现、改进并基于 R1 的技术路线构建自己的模型。 核心目标: ⭐开源复现:填补 DeepSeek-R1 技术流程中的缺失环节,提供可复现的训练、评估和数据生成工具。 ⭐协作共建:通过社区力量逐步完善模型训练流程(如数据生成、强化学习优化等)。 ⭐技术透明化:以代码和文档形式公开 R1 的实现细节,降低技术门槛。 项目分三步推进,参考 DeepSeek-R1 技术报告: ⭐复现 R1-Distill: 通过蒸馏(Distillation)从原始 DeepSeek-R1 提取高质量知识库,训练轻量级模型。 ⭐复现 R1-Zero: 构建纯强化学习(RL)训练流程,需大规模数学、推理和代码数据支持。 ⭐多阶段训练验证: 展示从基础模型到多阶段 RL 调优的全流程,验证技术可行性。 #AI创造营#
AI Agent Service Toolkit - 快速构建AI智能体服务工具包
ID: 5123560466810174
推荐 GitHub 上一个可用来快速构建完善 AI Agent(智能体)服务的工具包:AI Agent Service Toolkit。 包含了 LangGraph Agent、FastAPI 服务、Streamlit 应用等工具,并提供模板,轻松助力我们构建和运行专属的 Agent。 GitHub:github.com/JoshuaC215/agent-service-toolkit 从 Agent 的定义再到可视界面的构建,借助该工具包,相信大家的效率定有所提升且更容易入手。 #AI创造营#
WikiChat - 纠正大模型幻觉的RAG框架
ID: 5120672871222791
看到个可以纠正大模型幻觉的工具框架 WikiChat,简单来讲这是个RAG框架,针对用户提问它会检索本地Wiki(没错把wikipedia塞到了向量数据库中)。然后AI生成后还会再次检测生成后的内容是否正确。 实际体验,我问他intel 12代消费级CPU主频最高的是什么型号?AI成功给出了12900KS,并且给到了引用的wiki数据。(图1,图2) (图3是工作原理) 地址:github.com/stanford-oval/WikiChat 在线使用:wikichat.genie.stanford.edu (没错这个是个斯坦福大学的项目) #ai创造营#
Crawl4AI - 高效网页爬虫开源工具
ID: 5120334656702178
推荐 GitHub 上一个简单易用高效的网页爬虫开源工具:Crawl4AI。 只需输入网页链接,即可爬取并输出适合用来训练 LLM 的数据格式,如 Markdown、JSON、HTML 等。 GitHub:github.com/unclecode/crawl4ai 不仅速度快、反爬能力强,还支持抓取多个 URL,支持提取图像、音频以及视频等媒体数据,同时完全开源。 可通过 Docker 一键部署,提供完整的 API 接口,可以集成到现有项目中使用。 #AI创造营#
Awesome Claude Prompts - Claude高质量提示词集合
ID: 5119996288304052
分享 GitHub 上一份精心收集的 Claude 高质量提示词集合:Awesome Claude Prompts。 涵盖了代码解释、角色扮演、广告创意、编写简历、自动化工作流、练习外语、营销策划、文章写作等等不同应用场景的提示词。 GitHub:github.com/langgptai/awesome-claude-prompts 此外,还提供了众多示例,可以直接获取,再根据自己的需求稍微修改即可使用。 #AI创造营#
GitHubDaily - 2024年开源项目分类整理
ID: 5119996106376089
GitHubDaily 2024 年在微博所分享的开源项目,已分类整理到 GitHub 上,大家可自行查找学习。
GitHub:github.com/GitHubDaily/GitHubDaily
过去一年,感谢大家的陪伴,希望我们曾经分享过的项目,能对你有所帮助 [爱你]。
#AI创造营# #AI请回答2024# #2024年度AI事件#
Agent.ai - AI智能体构建平台
ID: 5119953801317927
推荐一款 AI 智能体构建工具:Agent.ai (http://t.cn/A6uW3bHJ) ,它不仅提供了丰富的智能体构建所需的工具和资源。而且创新性地将智能体作为具有各种不同能力和特长的“人类专家”。通过 Agent.ai 搭建“人力资源平台”,用户不仅可以“雇佣”各种智能体完成我们的任务,也可以打造自己的智能体为其他人提供服务。 正如 Agent.ai 所倡导的理念:“AI 的发展并不会削弱人类的价值,反而会帮助人类更加专注于创造性工作。”借助 Agent.ai,每个人都能够找到或打造适合自己需求的 AI 助手,共同推进人机协作的未来,创造更加美好的世界。 #aiagent##智能体##AI技术派##AI观察局##2025会被AI平替的行业# http://t.cn/A6uW1ZyJ
MiniMind - 微型语言模型训练项目
ID: 5119951289716383
微型语言模型项目:MiniMind”大道至简” github.com/jingyaogong/minimind 本项目的目标是把上手LLM的门槛无限降低, 直接从0开始训练一个极其轻量的语言模型。最快仅用3小时,即可训练出仅为26.88M大小的微型语言模型MiniMind。 MiniMind发布了大模型极简结构,数据集清洗和预处理、监督预训练(Pretrain)、有监督指令微调(SFT)、低秩自适应(LoRA) 微调,无奖励强化学习直接偏好对齐(DPO)的全阶段代码,也包含拓展共享混合专家(MoE) 的稀疏模型;拓展视觉多模态VLM: MiniMind-V。 这不仅是一个开源模型的实现,也是入门大语言模型(LLM)的教程。 #AI创造营#
ai-no-jimaku-gumi - 视频字幕AI工具
ID: 5119561049571623
一款视频字幕AI工具:ai-no-jimaku-gumi,自动将视频转换成字幕并翻译成多种语言
从视频音频中提取语音自动生成字幕
支持包括但不限于英语、日语、中文等多语言翻译
目前主要支持SRT字幕格式输出
支持自定义参数
github:网页链接
#AI创造营##AI字幕工具#
Geospy - AI街景照片位置定位应用
ID: 5119504218065664
一款基于 AI 技术,能够通过普通照片中的街景快速精准地定位实际位置的应用:Geospy。无论是隐秘的小巷、鲜为人知的角落,还是难以辨认的地标,GeoSpy 都能高效地解析图片信息,在地图系统中完成快速定位,并展示对应的实时街景,让我们轻松了解拍摄地点的各种信息。目前支持旧金山、纽约、孟菲斯、柏林、新加坡这5座城市,未来还会增加更多地区。 访问地址:http://t.cn/A6up3vxv #geospy##AI技术派##AI观察局# http://t.cn/A6up3hCm
2025 AI智能体技术栈 - 关键工具集合
ID: 5118759503923123
2025 年 AI 智能体技术栈中的关键工具。这些工具在构建和优化智能体(AI Agents)生态系统中发挥了重要作用,每一项都针对特定功能提供了强大的支持。 框架(Framework) AutoGen(http://t.cn/A6WhTHi8):端到端多智能体自动化平台 CrewAI(http://t.cn/A6uK9u6c):更快、更简单、更强大的多智能体框架 BerriAI(http://t.cn/A6TygyqD):通过单个库调用 100+ 大语言模型(LLMs) 观测(Monitoring) Agency AI(http://t.cn/A6uK9u6V):领先的 AI 智能体观测性平台 搜索(Search) Firecrawl(http://t.cn/A6TYOq3e):将网站转换为适配 LLM 的数据 Perplexity(http://t.cn/A6K6u7OU):AI 驱动的搜索引擎 Exa(http://t.cn/A6uK9u6I):企业级搜索和爬取任意网络数据 外部API(External APIs) Composio(http://t.cn/A6uK9u66):250+ 工具,随时可连接到智能体 Stripe(http://t.cn/aDhs3l):为任何智能体应用添加计费功能 操控计算机(Computer Use) Browserbase(http://t.cn/A6uK9u6S):为智能体提供简单易用的网络浏览器 Open Interpreter(http://t.cn/A68CWmfA):让 AI 智能体能够操控电脑终端(Terminal) 记忆(Memory) Mem0(http://t.cn/A687l14g):适用于任何智能体的高级记忆管理 Neon - Serverless Postgres(https://neon.tech/):无服务器的 Postgres 数据库,内置 RAG(检索增强生成) #智能体##aiagent##AI代理##AI技术派##AI观察局#
AI Agent定义解析 - 什么是AI智能体
ID: 5118578730729486
#模型时代##ai创造营# 什么是AI Agent? 毫无疑问,Agent已经成了2025年几乎所有巨头到初创AI公司最重要的赛道,关于Agent的定义也有很多。 agen.cy创始人Alex Reibman 在1分半的视频里,给出了一个自己的解释,我们可以这样理解AI agent: -类似于自动驾驶汽车(特别是在旧金山) -可以将其视为一个自动驾驶程序 -给它一个高层次的指令后,它会自主地找出如何实现目标 -通过编写代码、与其他agent对话或与人类对话来自主解决问题 *具体表现为: -将大语言模型与工具调用相结合 -大语言模型本身只能聊天,给出文本响应 -当赋予它改变世界状态的能力时,它就变得具有代理性 -正如人类因为能使用工具而具有智能,agent因为能使用工具而成为智能程序 *目前市场上的Agent主要分为四类: -AI协同工具(co-pilots) - 例如与数据对话 -客服机器人或支持机器人 - 能自主进行对话 -AI软件工程师 - 能自主编写程序 -完全自主的agent - 更具探索性,给定高层次目标后可自主解决问题,通常是特定领域的,涉及许多不同类别 (我觉得谷歌DeepMind的Deep Research就可以看作一个科研Agent) http://t.cn/A6uovDnf
ghostty vs Warp - 开源命令行工具对比
ID: 5118014053942494
开源命令行工具ghostty最近好像火起来了,不过我印象中有个Warp火过一段时间,而且很方便,一看GitHub star,ghostty 1万8,Warp 2万多,而功能上ghostty少很多。 仔细看才发现,Warp是“假开源”,应用还要登录才能使用…… 有一群人一气之下自己弄了个开源的waveterm(虽然看上去不太好用),http://t.cn/A6u6Eut3
smolagents - HuggingFace新型agent框架
ID: 5118013898757309
#模型时代# Hugging Face正式发布smolagents新型agent框架(博客传送门:huggingface.co/blog)。 据官方说,优点有: 1、它完全摒弃了传统agent框架中常见的JSON操作描述方式,转而采用直接的代码驱动方式来实现代理操作。这一设计在GAIA基准测试中展现出了显著的性能优势。 2、框架的核心实现异常简洁。开发者只需几行代码就能构建一个功能完整的代理。 3、灵活的模型支持:支持Hugging Face上的开源模型、推理API,以及通过LiteLLM集成的100多个不同LLMs。 另外,Hugging Face还收集了Agent一些最有价值的20篇研究文献,有兴趣可以收藏下: huggingface.co/collections/m-ric/agents-65ba776fbd9e29f771c07d4e
BetterWhisperX - 改进的语音识别项目
ID: 5116608062423302
基于Whisper改进了的语音识别项目:BetterWhisperX 提供更准确的字级别时间戳 支持说话人分段,可以识别不同说话人的语音片段 用large-v2可以实现70倍实时的批量语音识别 使用wav2vec2.0强制对齐,提高了时间戳的准确性 github:http://t.cn/A6uchL8z #AI创造营##语音识别##Whisper# http://t.cn/A6uch4if
MyIP - 开源IP工具箱
ID: 5116206085835646
推荐 GitHub 上一个完全开源可能是最好用的 IP 工具箱 MyIP。 可以轻松检查你的 IP,IP 地理位置,检查 DNS 泄露,速度测试,Ping 测试以及检查网站可用性等等。 GitHub:github.com/jason5ng32/MyIP 提供非常全面安全检查清单,共 258 项,且每一项有详细的解释,值得收藏使用。 #AI创造营#
FastURL - 网页内容提取Chrome插件
ID: 5116204370630421
众所周知,我们现在直接把网页链接给 AI,因为某某原因 AI 无法直接抓取里面内容了。 在这里给大家推荐一个挺实用开源的 Chrome 插件:FastURL,比较好解决这个问题。 只需复制链接,即可在浏览器上任何输入框里,通过快捷键粘贴到网页正文 Markdown 格式的内容。 GitHub:github.com/fatwang2/fasturl 而且能够清理掉多余内容,如广告、导航栏等,以便 AI 更容易理解,同时支持标题、列表、链接等多种 HTML 元素。 全部都是在浏览器本地操作,没有调用任何服务端接口,速度快数据隐私安全。 有需要的同学可以安装试试。 #AI创造营# http://t.cn/A6uqM123
Midscene.js - 网页自动化操作工具
ID: 5115527605522085
#像人一样操作网页# 介绍一款网页自动化工具,它能像人一样操作网页,一句话提取网页元素,还能转化为JSON。 这就是Midscene.js,只需用自然语言交互,它就能自动帮你点击网页按钮、输入文本、检查页面上有没有想要的内容,还能把找到的信息转成JSON格式输出。 看这个【视频】,用户在对话框输入“在搜索栏中输入 ‘headphones’,然后点击 ‘Search’”。 Midscene.js瞬间开始“唰唰唰”地自己开始动手操作起来。 在另一个例子中,用户打开购物网站,然后输入 “列出所有商品名称和价格”。 Midscene.js不仅自动提取了所有商品名称和价格,还给用户转成了JSON格式,别提对开发者多友好了。 对于测试工程师来说,Midscene.js还能一句话实现断言(Assertion),验证过程更轻松了。 再来说说如何使用,作为一款AI自动化SDK,Midscene.js的使用方法可谓非常多样——无论是通过API调用、编写YAML脚本,还是直接通过Chrome扩展,都可以方便地集成到你的项目中。 感兴趣的小伙伴可以点击:http://t.cn/A6uU5Yui GitHub:http://t.cn/A6uyS694 http://t.cn/A6uU5Bn1
CosyVoice 2 - 阿里新一代语音合成系统
ID: 5114922813359790
阿里巴巴通义实验室开发的新一代语音合成系统CosyVoice 2,可以将文字转换成自然、流畅的语音,速度快,音质好。 它是支持流式输入输出的,延迟只有 150 毫秒,比如可以配合 LLM 一边生成文本一边输入音频,从官网上的演示来看,模仿的效果很好,参考的声音是中文的话输出英文,音色保持的不错,也比较自然。 官网:http://t.cn/A6mrP03F
Gemini 2.0 Flash + Blender - 动嘴控制建模演示
ID: 5114491501807964
在油管上刷到了一个用 Gemini 2.0 Flash 实现了动嘴控制 Blender 建模的演示。 方法:选择 Stream Realtime ,但 Gemini 输出要选择 text(选择语音输出的话,模型无法输出 Python 脚本),然后写一段提示词,这段提示词的用意是严格限定 Gemini 的输出是 Blender 可执行的 Python 脚本。 到这里都是基操,接下来创意来了。 他在接下来用了一个小工具 Tiny Task,可以记录你的键鼠操作并且重复执行,这样就把复制脚本、粘贴脚本、运行脚本的动作自动化了,这样他就只需要不断和 Gemini 2.0 Flash 对话,然后模型写的脚本被自动化执行,然后等 Blender 渲染效果,不满意再对话提需求即可。 效果:做一些简单的模型和动画,以及调整,Gemini 2.0 Flash 模型都能 get 到,并且能写出不错的脚本去执行,效果还是比较丝滑的,但稍微复杂一点,还是会崩溃。 链接:http://t.cn/A6u7X2eJ http://t.cn/A6u76FxI
AI Legal Agent Team - 法律智能体团队项目
ID: 5114491379127388
比较有意思的一个法律agent项目:AI Legal Agent Team,它用多个agent模拟一个法律团队,用于法律文档分析和法律咨询 它有4个agent角色,法律研究员、合同分析师、法律策略师和团队领导。可以用它分析法律文档,生成分析报告,或解答法律问题提供建议 支持分析合同、法律法规、风险评估、合规检查或自定义 github:http://t.cn/A6u7XNxM #AI创造营##agent##法律AI助手##法律agent# http://t.cn/A6u7Xlmf
Text3D - 基于Flux的3D参考图像生成工具
ID: 5113757344993737
Text3D 一个基于 Flux 的简洁高效的 Gradio 应用,可以生成用于3D模型制作的高品质参考图像。
使用地址:网页链接
Flux超话#flux绘画模型##ai绘画##AI创造营# 零重力瓦力的微博视频
awesome-cloudflare - Cloudflare工具资源集合
ID: 5113635855404491
#开源项目推荐# awesome-cloudflare
⛅️ 精选的 Cloudflare 工具、开源项目、指南、博客和其他资源列表。基于Cloudflare的开源工具,为独立开发者早期摸索期提供一个省心省时的工具集。
github.com/zhuima/awesome-cloudflare 网页链接
Genesis - 生成式物理引擎
ID: 5113453721682871
Genesis牛B,一经开源GitHub上已飙升到4k+ star! Genesis:生成式物理引擎,可以生成基于真实物理的4D动态世界,面向机器人和物理AI的通用模拟平台 四个主要能力: 1、物理引擎:可以模拟现实世界的各种物理现象,物理引擎:可以模拟现实世界的各种物理现象,包括刚体、关节体、液体、气体、可变形物体、薄壳物体和颗粒材料等,这些物理现象可以在统一框架下相互作用 2、机器人仿真平台:轻量级、超快速、Python化、用户友好 3、渲染系统:可生成照片级真实的画面 4、生成式数据引擎:可以根据文字描述自动生成各类数据 在单个RTX 4090显卡上,模拟Franka机械臂时能达到4300万FPS,比现实世界快43万倍 换算一下就是:现实世界5天的训练内容,在Genesis中1秒就能完成 代码: http://t.cn/A6mDT2At 项目网页: http://t.cn/A6mDT2Aq #AI创造营##Genesis# http://t.cn/A6mkjpI5
下载器工具推荐 - 各平台下载插件经验分享
ID: 5113416547832200
一些我用了很久的下载器 / 下载插件,三个使用经验:
▶ 经验一:如果某天登录不上,直接搜:名字 + downloader,就能找到很多替代品;
▶ 经验二:Chrome 基本上都有同款插件;
▶ 经验三:以上经验也适用于国内平台。
▶ 别说是我教的。
#设计神器#
SiteOne Crawler - 网站分析工具
ID: 5113023582176303
分享 GitHub 上一款简单易用且功能强大的网站分析工具:SiteOne Crawler。 它不仅一键完成网站分析、性能检测、SEO优化建议,还能导出完整的离线 HTML 分析结果,用来做网站分析优化挺不错。 GitHub:github.com/janreges/siteone-crawler 主要功能:
- 支持完整的网站内容抓取,如页面、样式、脚本、字体、图片等资源;
- 为开发者提供了压力测试、预热缓存(Warm-Up Cache)、本地调试等颇为实用功能;
- 支持自动检测网站存在的问题,如 404、重定向、SEO 以及安全问题;
- 支持一键导出完整的离线网站,包括其所有资源文件;
- 提供详细的分析报告,清晰查看结果;
- 提供 Windows、macOS 和 Linux 安装包,可直接开箱即用。 #AI创造营# http://t.cn/A6meXJ5J
playwright-ai - Claude Computer Use UI自动化测试
ID: 5109655959503145
Antropic AI 的 Claude Computer Use 非常适合用来做 AI 界面/UI 自动化测试!#ai##程序员#
视频是某黑客马拉松比赛中第一名的Demo。关于AI 实现 UI 自动化测试的思路和过程,值得看看。
项目:github.com/andytyler/playwright-ai
ChatGPT超话 黄建同学的微博视频
ProActive Agent - 清华主动型AI助手
ID: 5107230090728777
酷!清华大学等研究团队出了新项目,主动型AI助手:ProActive Agent,它可以在没有明确指令的情况下,基于环境观察主动预测和提供帮助 它可以在收到会议邀请时自动询问是否需要安排日程、编程时主动提供代码建议、写作时主动提供相关参考资料 ProActive Agent基于数据驱动构建主动性agent,建了一个包含真实人类活动的ProactiveBench数据集(6,790条训练数据)来生成任务预测,研究团队还做了一个奖励模型来评估主动性agent的表现 其奖励模型达到了91.80%的F1-Score,也就是说奖励模型在判断”该不该主动帮忙”这个问题上,与人类标注者的判断一致性很高 经过主动性训练的模型性能优于原始模型,Qwen2-7B在经过训练后F1分数由60.74%升到66.47%,LLaMA-3.1-8B由55.06%升到66.25% github:http://t.cn/A6mcx9by #ProActiveAgent##agent##主动型agent##AI助手#
ComfyUI-KLingAI-API - 可灵API集成节点
ID: 5106479690416532
ComfyUI 越来越像 AI 模型界的 Python,昨天通过可灵 API 增加了,文生图、文生视频、图生视频以及 AI 虚拟试穿(Kolors Virtual Try-On)四个功能节点。大家可以在 ComfyUI 中轻松使用可灵制作图片视频了。 节点安装方法:
- 进入 ComfyUI/custom_nodes 目录
- 克隆 Github 仓库:git clone http://t.cn/A6mtH29w
- 安装依赖项: Windows(ComfyUI 便携版):python -m pip install -r ComfyUI-KLingAI-API\requirements.txt Linux 或 MacOS:cd ComfyUI-KLingAI-API && pip install -r requirements.txt
- 如果你不想暴露你的密钥,可以将它添加到 config.ini 文件中,并在节点中保持为空
- 启动 ComfyUI,就可以使用 可灵 API 节点了 可灵 API 申请入口: http://t.cn/A6mcYcrC 可灵 API 接口文档: http://t.cn/A6mcYcr9 #ComfyUI[超话]##可灵##kling##人工智能##AI技术派##AI观察局# http://t.cn/A6mcYVm4
FLUX去水印工作流 - 图像水印移除工具
ID: 5106478736740704
看到一个用FLUX去水印的工作流,效果也不错。#ai画图#
地址:网页链接
AI-Driven Research Assistant - 多智能体研究助手
ID: 5106145801277466
AI-Driven Research Assistant 是一个基于多智能体系统的先进研究助手,旨在自动化复杂的研究流程,包括假设生成、数据分析、可视化和报告撰写,适用于研究人员和数据科学家提升工作流程和生产力。
地址: 网页链接
Generative Omnimatte - 谷歌视频图层提取技术
ID: 5105755813841455
谷歌 DeepMind 等新作 Generative Omnimatte,从视频中提取图层。 下游应用最容易想到的就是 P 视频,例如消除视频中的物体、人物,给不同物体、人物调整时间轴等。 方法: 1.输入视频,提取出主要感兴趣的物体,这一步可以使用视频分割模型(如“SAM 2”)完成。 2.将对象掩码转换为trimask,在trimask中,需要保留的区域被标记为白色,要移除的区域标记为黑色,而背景是灰色。 3.使用一个微调的视频扩散模型(该项目做的Casper)来合成仅包含单个对象或干净背景的视频。 4.利用单个对象和干净背景的视频,为每个对象提取一个完整的RGBA图层。 5.通过单物体视频和背景视频的配对,在测试时优化重构了omnimatte Oi。 项目链接:http://t.cn/A6mG6nVC
LazyGraphRAG - 微软低成本RAG新方法
ID: 5105161624092895
微软推出了RAG的新方法:LazyGraphRAG,核心是成本非常低,数据索引成本只有完整GraphRAG的0.1%,生成结果的准确率、查询效率很高 性能: 1、索引成本,与向量RAG持平,为GraphRAG的0.1% 2、在本地查询上,与向量RAG相当的查询成本下,优于所有方法,包括长上下文向量RAG、GraphRAG DRIFT搜索、GraphRAG本地搜索 3、在全局查询上,质量与GraphRAG全局搜索相当,查询成本降低了700多倍 4、综合性能上,用GraphRAG全局搜索4%的查询成本,就在本地和全局查询类型上超越所有竞争方法,包括在C2级别的GraphRAG全局搜索 LazyGraphRAG不需要对源数据进行预先总结,避免了过高的前期索引成本 它采用轻量级索引,在这个阶段不使用LLM进行实体和关系总结,而是利用NLP中的名词短语提取技术来识别概念及共现关系,简单提取文本中的关键概念和它们之间的关系,通过图统计方法优化概念图,并提取层次化的社区结构,然后结合了”最佳优先搜索”和”广度优先搜索”的特点,以迭代深化的方式进行查询处理,做到查询准确且成本可控 博客:http://t.cn/A6mLr33P LazyGraphRAG会在这里开源http://t.cn/A6QHQp3B #RAG##LazyGraphRAG##GraphRAG#
Upscayl - 开源AI图像放大工具
ID: 5104611638379303
去年@海辛Hyacinth 给我推荐了一个开源的 AI 放大工具 —— Upscayl,速度超快,还能批量放大图片,不知不觉就一直用到了现在。 还可以根据图片类型选择放大类型,个人用得最多的是 Ultrasharp,能保留更多细节,我很多纹理图片都是直接用它放大的。 ▶ 下载地址:www.upscayl.org ▶ 项目地址:github.com/upscayl/upscayl ▶ 开发者:Nayam Amarshe 和 TGS963 有了它,我以前推荐的 BIG JPG 等在线放大工具可以忘掉啦。 #设计神器#
FLUX.1 - 黑森林开源图像编辑套件
ID: 5103644137755595
#FLUX开源图像套件# 黑森林实验室(Black Forest Labs)推出了推出了AI图像套件FLUX.1,集成四大功能于一身,能想到的图像编辑功能它都有:
- 图像扩展:FLUX.1 可以智能补全图像内容。例如,【图1】中,用户仅上传了一张露出眼睛的图像,FLUX.1 自动向左、向下扩展生成了完整的人脸。
- 深度图:FLUX.1在编辑图像时,会提取深度图。它看懂了【图2】中间是一个洞,准确判断洞的距离比较远,并在后续编辑中完整保留了这个洞的结构。这使得编辑结果更贴近真实的空间感。
- 边缘检测:FLUX.1 能精确检测图像的边缘并保持其核心结构一致,特别适合精细化修改和图像风格化。【图3】中可以看到,无论如何修改,图像的边缘与核心细节都得到了很好保留。
- 局部生成:FLUX.1 支持选择图像的特定区域进行修改,而未选中的部分则保持不变。例如,【图4】中为人物更换了外套,而领带、裤子等配饰保持原样;或者手动框选特定区域,更换内容如文字字样,未选中部分完全不受影响。 目前,FLUX.1 已作为开源模型 FLUX.1 [dev] 在 Hugging Face 平台发布(见【图5】)。用户可以根据需求单独下载任意功能模块,方便集成到不同的工作流中。 感兴趣的小伙伴可以点击—— FLUX.1:http://t.cn/A6mPehF4 抱抱脸:http://t.cn/A68dmvn6
Markdown-to-Image - Markdown转图片海报工具
ID: 5103640310449690
开源工具推荐 Markdown-to-Image:将 Markdown 文本 转换为美观的图片海报
- 直接将Markdown 格式的内容渲染成适合社交媒体分享的图片。
- 可以选择内置的模板,也可以自己设计模板样式
- 自带 9 种主题(比如不同的背景、配色风格)
- 输出的图片可以直接复制,也可以转成 HTML 代码,粘贴到文章、邮件或编辑器里
- 支持一键部署到你自己的服务器 GitHub: http://t.cn/A6nFCpf4 在线体验:访问 http://t.cn/A6m7c2Xo
FLUX系列工具 - 同上项目的另一条介绍
ID: 5103297362920981
FLUX这下真无敌了!!#ai画图# 黑森林工作室发布官方的FLUX系列开源工具:
- FLUX.1 Fill 局部重绘和扩图模型
- FLUX.1 Depth&Canny 官方Controlnet模型
- FLUX.1 Redux 通过提示转换图像风格 Comfyui 现在就已经支持,可以冲了! 官方公告:http://t.cn/A6mPehF4 ComfyUI工作流:http://t.cn/A6mPehFU http://t.cn/A6mPezFh
Comfyui_Object_Migration - 一致性换衣模型
ID: 5103075922283054
Comfyui_Object_Migration:一致性换衣模型和工作流 实物衣服 一键穿上 能够高精度地将服装样式从参考图片迁移到目标人物图像身上,保持高一致性和细节完整性。 还支持从卡通风格到写实风格的服装样式的互相转换 应用示例: 将虚拟角色的服装设计迁移到真实照片上。 为动画角色添加写实风格服装。 使用权重微调生成独特的服装设计。 还支持将平面角色图像转换为3D打印玩偶模型,可直接进行3D打印。 详细介绍及教程:http://t.cn/A6mv4igv GitHub:http://t.cn/A6nrTnkj http://t.cn/A6mv4XbG
ScreenPipe - 离线AI桌面监控应用
ID: 5102879204968685
在 GitHub 上发现一款强大可离线的开源 AI 桌面应用:ScreenPipe。 它能够对你的电脑进行 24 小时监控,通过屏幕录制、OCR、音频输入和转录收集信息,并保存到本地数据库。 GitHub:github.com/mediar-ai/screenpipe 最后,利用 LLMs 直接对话、总结、回顾,你所在电脑上做过的事情,有点猛! 该工具是作为 Rewind.ai 的开源替代方案,与 Ollama 兼容,支持中文 OCR,感兴趣的可以本地部署使用。 #AI创造营# http://t.cn/A6nsISGx
GeekDesk - 桌面快速启动管理工具
ID: 5102392753785910
推荐 GitHub 上一款高颜值、功能强大的桌面快速启动管理工具:GeekDesk。 集成了强大的文件搜索功能,可快速搜索全盘文件,以及提供丰富的自定义选项,旨在为我们打造一个高效且个性化的极客桌面。 GitHub:github.com/BookerLiu/GeekDesk 主要功能:
- Everything 搜索集成:快速搜索全盘文件,提高文件查找效率。
- 自定义快捷键:允许设置全局热键呼出工具。
- 自定义壁纸:可以自由选择和更换自己喜欢的桌面壁纸。
- 界面效果调整:支持调整背景图片的毛玻璃效果、界面透明度和圆角。
- 多种系统图标选择:提供超过 80 个系统图标供我们选择。
- 定时提醒功能:可通过快捷键新建待办事项,并设置定时提醒。
awesome-indie-hacker-tools - 独立开发技术栈工具集
ID: 5102392412735127
分享 GitHub 上一份收录独立开发/出海开发相关技术栈及工具。 涵盖了原型设计、UI 框架/组件库、图标/字体库、前端/后端开发框架、支付、国际化、产品发布推广等颇为实用的内容。 GitHub:github.com/iAmCorey/awesome-indie-hacker-tools 旨在为大家走出开发的第一站,搞定技术栈,目前项目在持续更新中。
ProxyCat - 代理池中间件
ID: 5102392370793123
推荐 GitHub 上一款能将临时 IP 变成固定 IP 的代理池中间件:ProxyCat。
支持多协议、动态获取、自动验证,配合高并发异步处理,轻松应对各种网络环境和高流量需求。
GitHub:github.com/honmashironeko/ProxyCat
同时可部署于云端或本地,适用于需要频繁更换 IP 的网络操作,如网络安全测试。
Youtube-Whisper - YouTube音频转文本工具
ID: 5102392337240454
推荐 GitHub 上一款轻量级的音频转文本开源免费工具:Youtube-Whisper。 只需输入 YouTube 视频链接,即可提取其中音频,并利用 OpenAI Whisper 模型进行语音转文本。 GitHub:github.com/danilotpnta/Youtube-Whisper 此外,还提供了在线免费体验地址,可选择英语、西班牙语、法语等语言。 在线体验:yt-whisper.danilotpnta.com/ http://t.cn/A6EOgMaH
awesome-remote-job - 远程工作资源列表
ID: 5102392280351675
分享 GitHub 上一份整理了关于远程工作职位和资源列表:awesome-remote-job。 涵盖了文章、视频、书籍、招聘网站、面试资料、问答社区、远程工作社区、会议工具以及法律和财务建议等内容。 GitHub:github.com/lukasz-madon/awesome-remote-job 如果你正在寻找远程工作,希望这一份资料能给你提供帮助和有用信息。
AsrTools - 智能语音转字幕工具
ID: 5102391970234467
推荐 GitHub 上一款开源的智能语音转字幕文本工具:AsrTools。 集成了剪映、快手、必剪的官方接口,支持 flac、m4a、mp3、wav 格式音频,高效的批量处理,可以生成 .srt 和 .txt 字幕文件。 GitHub:github.com/WEIFENG2333/AsrTools 提供了简单易用的界面,无需 GPU 和繁琐的本地配置,小白也能轻松上手使用。
思源笔记 - 隐私优先的个人知识管理系统
ID: 5102391871407526
推荐 GitHub 上一款隐私优先的个人知识管理系统:思源笔记。
支持细粒度块级引用和 Markdown 所见即所得编辑,拥有实时渲染、数学公式、图表、导出 HTML、Markdown 文件、AI 写作等特性。
GitHub:github.com/siyuan-note/siyuan
支持跨平台使用,包括 Windows、macOS、Android 和 iOS。
Surya - 强大的文档OCR工具
ID: 5102391770745836
推荐 GitHub 上一款开源且强大的文档 OCR 工具:Surya。 专注于文档图像的处理和分析,能够准确的逐行文本检测和识别,并且支持任何语言。 GitHub:github.com/VikParuchuri/surya 主要功能:
- 支持 90+ 种多语言,包括中文、英文、日语、阿拉伯语等;
- 支持任何语言的行级文本检测,准确识别文档中的每一行文字;
- 支持文档布局分析,包括表格、图像、标题等;
- 支持复杂排版阅读顺序检测,如左右两列,它能知道先读哪里,再读哪里;
- 支持精确识别表格中的行与列内容。 #AI创造营#
wechat-article-exporter - 微信公众号文章批量下载工具
ID: 5102391724870971
推荐 GitHub 上一个开源可用的微信公众号文章批量下载工具:wechat-article-exporter。 可以在线批量导出微信公众号文章,支持内嵌的音视频导出,无需搭建任何环境,可 100% 还原文章样式,支持私有部署。 GitHub:github.com/jooooock/wechat-article-exporter 此外,还可以过滤已删除的文章,根据指定规则自动下载文章,同时能缓存文章列表数据,减少接口请求使抓取更稳定。
awesome-falsehood - 程序员常犯错误观点集合
ID: 5102391525376512
分享 GitHub 上一份整理了程序员在开发过程中常犯的错误观点集合:awesome-falsehood。 包括了开发中的常见处理场景,如时间日期处理、地理位置、国际化、电子邮件格式化、邮政地址等。 GitHub:http://t.cn/A6nMuXKB 旨在帮助开发者认识到这些误解,并提供相关资源以避免这些错误。相信大家都有过这样的经历,感兴趣的不妨看下。
AI Podcast Generator - 自动化AI播客生成工具
ID: 5102391492608348
推荐 GitHub 上一款开源的自动化 AI 播客生成工具:AI Podcast Generator。 提供简单易用的直观界面,能够自动抓取网络新闻内容,并生成听起来自然流畅的叙述性音频播客。 GitHub:http://t.cn/A6nVnoTM 具有如下特点:
- 自动收集新闻:使用 Firecrawl 从指定的多个新闻源中抓取内容;
- LLM 内容生成:使用 Groq 的语言模型生成引人入胜的播客剧本;
- 文本转语音:通过 ElevenLabs 将生成的内容转换成高质量的音频播客;
- 可视化界面:使用 Next.js 和 Tailwind CSS 构建响应式的操作交互界面,简单易用;
- 实时进度更新:支持实时显示内容生成状态。 如果正在打算开发一款类似的 AI 播客工具,不妨学习下该项目源码,希望对你有所帮助。 #AI创造营#
web3.0 - Web3学习资料集合
ID: 5102391422878144
分享 GitHub 上一份颇为全面的学习 Web3 资料集合:web3.0。
涵盖了 Web3 基础知识、应用及项目、相关分享博主、视频教程、相关书籍、开发资源以及工具等内容。
GitHub:github.com/wangschang/web3.0
此外,还整理了一些与 Web3 相关的招聘工作机会。项目还在不断更新,感兴趣的可以看下。
Maxun - 同上项目的另一条介绍
ID: 5102391370974317
推荐 GitHub 上一款开源的自动化网页数据爬取工具:Maxun。 无需代码,通过可视化界面构建自定义机器人,实现自动化网页数据爬取,支持执行捕获列表、文本或截图等操作。 GitHub:github.com/getmaxun/maxun 此外,还支持数据提取、处理分页和滚动、指定机器人运行时间、将网页数据转换为 API 或导出 Excel 表格等等功能。 目前该工具正在快速迭代更新,感兴趣的同学可以关注尝试下。 #AI创造营# http://t.cn/A6n6paYi
File Centipede - 同上项目的另一条介绍
ID: 5102391297051273
推荐 GitHub 上一款功能强大的文件上传/下载管理器:File Centipede。
支持几乎所有常见的协议,如 HTTPS、BT/磁力链接、FTP、WebDAV、m3u8 等,还内置了许多实用的辅助功能。
GitHub:github.com/filecxx/FileCentipede
此外,还提供了浏览器插件,可抓取网站上的音频和视频,甚至加密的视频。
Hoarder - AI书签管理工具
ID: 5102172973042377
在 GitHub 上发现一款颇为实用的开源 AI 书签管理工具:Hoarder。 通过浏览器插件一键保存,AI 自动提取网页标题、描述和图片信息,轻松构建个人内容收藏库。 同时,支持链接、笔记、图片和 PDF 等多种格式一站式管理。 GitHub:github.com/hoarder-app/hoarder 此外,还集成了基于 ChatGPT 的智能标签分类、全文检索、多端同步、完整页面存档等实用功能。 目前已提供 Chrome、Firefox 插件和 iOS、Android 应用,并且支持 Docker 一键私有化部署,感兴趣的同学可以尝试下。 #AI创造营#
MarkText - 高颜值Markdown编辑器
ID: 5100678302929557
分享 GitHub 上一款高颜值的 Markdown 编辑器:MarkText。 类似于 Typora,简洁干净的编辑界面,提供实时预览,多种主题,以及多种编辑模式等实用功能。 GitHub:github.com/marktext/marktext 具有如下特征:
- 实时预览:所见即所得的编辑模式,流畅写作体验;
- 支持数学公式(KaTeX)、丰富的表情符号支持;
- 支持多种编辑模式,如源代码、打字机、专注模式;
- 支持导出 HTML 和 PDF 文件;
- 拥有丰富快捷键,提升写作效率。 工具支持 Windows、macOS 和 Linux 系统使用,感兴趣的同学不妨试下。
Magentic-One - 微软通用多代理系统
ID: 5098858033712522
微软发布类似贾维斯的通用多代理系统 Magentic-One 。#ai# Magentic-One 采用了一个名为 Orchestrator 的首席代理来指导其他四个代理完成任务。 这些代理分别是 WebSurfer(操作 Chromium 浏览器)、FileSurfer(读取本地文件)、Coder(编写和执行 Python 代码)和 ComputerTerminal(执行程序和安装新的编程库)。 能够在不修改其核心功能或架构的情况下,在多个挑战性的代理基准上实现竞争性能。 基于 AutoGen 开源框架构建,这使得系统具有模块化和灵活性,并且支持代理的即插即用设计。 项目介绍:http://t.cn/A6nOSXPn
Your Next Store - Shopify独立站开源解决方案
ID: 5098506748693538
推荐 GitHub 上一个 Shopify 独立站搭建的开源解决方案:Your Next Store。 基于 Next.js 开发,使用 Stripe 管理产品及支付,网站界面简洁美观,还提供了从商品展示到支付整个流畅的购物流程。 GitHub:github.com/yournextstore/yournextstore 支持 Vercel 一键部署,无需复杂服务器配置,并且提供详细的文档,可以轻松上手搭建。 http://t.cn/A6nWXJdd
podscribe.ai - 播客字幕转录网站
ID: 5097094677268966
最近发现了一个挺不错的播客字幕网站app.podscribe.ai,网站利用语音转文本技术对播客进行字幕转录,目前市面上流行的英语播客基本都可以在上面找到字幕。
网站也提供播客节目收听和下载。如果你担心英语播客听不懂,可以去上面找找字幕,地址发在评论区。
Maxun - 同上项目的另一条介绍
ID: 5096373930165122
推荐 GitHub 上一款开源的自动化网页数据爬取工具:Maxun。 无需代码,通过可视化界面构建自定义机器人,实现自动化网页数据爬取,支持执行捕获列表、文本或截图等操作。 GitHub:github.com/getmaxun/maxun 此外,还支持数据提取、处理分页和滚动、指定机器人运行时间、将网页数据转换为 API 或导出 Excel 表格等等功能。 目前该工具正在快速迭代更新,感兴趣的同学可以关注尝试下。 #AI创造营# http://t.cn/A6n6paYi
web3.0 - 同上项目的另一条介绍
ID: 5096314578408828
分享 GitHub 上一份颇为全面的学习 Web3 资料集合:web3.0。
涵盖了 Web3 基础知识、应用及项目、相关分享博主、视频教程、相关书籍、开发资源以及工具等内容。
GitHub:github.com/wangschang/web3.0
此外,还整理了一些与 Web3 相关的招聘工作机会。项目还在不断更新,感兴趣的可以看下。
WebAV-KnowledgeGraph - Web音视频知识图谱项目
ID: 5096179086657219
Web 音视频知识图谱项目
github.com/hughfenghen/WebAV-KnowledgeGraph
整理(索引) Web 音视频相关的 API、SDK、文章、对外产品,帮助前端开发者入门/进阶音视频领域,推动音视频技术在 Web 平台的应用实践。
brilliant.org - 神经网络互动教学网站
ID: 5094796567515426
brilliant.org 这个网站的互动教学做的特别好,比如它用网页交互的方式演示神经网络如何工作的,你用鼠标画一个数字,它马上画出来根据神经网络计算,跟哪个数字匹配的概率更高! 动画中的交互来自其CS & Programming · Level 5 课程 5.1 Introduction to Neural Networks 网页地址: http://t.cn/A6ncwGgy http://t.cn/A6ncwVwz
F5-TTS + Facefusion 3 - 虚假视频制作工具组合
ID: 5094503529054366
F5-TTS 加上 Facefusion 3 加上图生视频,你就能制作任何一个名人的虚假视频。
F5-TTS 和 Facefusion 3 都是开源的。#ai# 歸藏的AI工具箱的微博视频
QtScrcpy - 手机投屏电脑工具
ID: 5092664422435371
推荐 GitHub 上一款开源且功能强大的手机投屏电脑工具:QtScrcpy。 支持通过 USB 或 WIFI 一键连接 Android 设备到电脑,实现屏幕显示和控制,无需 root 权限。 并提供了丰富功能,包括实时屏幕显示、键鼠控制、屏幕录制、截图、批量操作、文件传输、剪贴板同步等。 GitHub:github.com/barry-ran/QtScrcpy 支持 GNU/Linux、Windows 和 macOS 主流平台,提供高性能、高质量、低延迟和快速启动的使用体验。
Spirit LM - Meta端到端语音模型
ID: 5092492953518401
Meta 上周开源了一个端到端的语音模型 Spirit LM。#ai# 这个太重要了,居然没注意到。 这个模型有两个版本: 基础版: 适合进行一般的语音识别和生成,不包含情感变化。 高表现力版:可以捕捉语音中的情感特征,能够生成包含快乐、愤怒或兴奋等情感的语音。 主要特点有: Spirit LM 直接使用语音标记、音高标记和声调标记 来保留语音中的表现力要素,不需要先转文本描述。 能够在不需要大量数据的情况下,完成自动语音识别、文本转语音和语音分类等复杂任务。 项目地址:speechbot.github.io/spiritlm/ 论文:arxiv.org/pdf/2402.05755 http://t.cn/A6nz8RmG
academic-project-astro-template - 学术项目页面模版
ID: 5092034573241235
推荐 GitHub 上一个精美的学术项目页面模版:academic-project-astro-template。 基于 Astro 和 Tailwind CSS 构建,具有快速加载、响应式设计、易于访问且 SEO 友好等特性。 GitHub:github.com/RomanHauksson/academic-project-astro-template 可使用 Markdown 文档轻松编辑,支持显示标题、插入图片、LaTeX 公式、两列布局、代码块以及插入视频等内容。 #AI创造营#
RealAnime - 动漫现实混合图片生成模型
ID: 5091127382247120
新的爆款 FLUX Lora 预定,可以生成动漫和现实混合的图片。#ai画图#
已经可以想到很多玩法了,直接转动漫或者让自己跟著名动漫人物互动。
模型名字:RealAnime
目前需要在这里下载,不过作者说会上 Civitai:网页链接
GraphRAG - 微软知识图谱增强生成架构
ID: 5091126725841080
微软前几天发布的 GraphRAG 架构非常厉害,但是具体的原理和内容可能不太好理解。 Neo4j 的 CTO 写了一篇详细的文章《GraphRAG 宣言:为 GenAI 增加知识》。 通俗易懂的介绍了 GraphRAG 的原理、与传统 RAG 的区别、GraphRAG的优势、知识图谱的创建和利用知识图谱工作。 感兴趣的话强烈推荐看看。#ai##RAG# 文章地址:http://t.cn/A6Qd3xX1
wechat-article-exporter - 同上项目的另一条介绍
ID: 5091123720094084
推荐 GitHub 上一个开源可用的微信公众号文章批量下载工具:wechat-article-exporter。 可以在线批量导出微信公众号文章,支持内嵌的音视频导出,无需搭建任何环境,可 100% 还原文章样式,支持私有部署。 GitHub:github.com/jooooock/wechat-article-exporter 此外,还可以过滤已删除的文章,根据指定规则自动下载文章,同时能缓存文章列表数据,减少接口请求使抓取更稳定。
Open Canvas - LangChain开源文档协作工具
ID: 5090699654987916
LangChain发布了开源的Open Canvas项目(没错,类似OpenAI的Canvas)#ai##openai# Open Canvas 是一款开源 Web 应用程序,用于与Agent协作以更好地编写文档。它受到OpenAI 的“Canvas”的启发,但有一些关键区别: • 开源:从前端到内容生成Agent再到 Reflection Agent的所有代码都是开源的并获得 MIT 许可。 • 内置内存:Open Canvas 开箱即用,带有Reflection代理,可将样式规则和用户见解存储在共享内存存储中。这使 Open Canvas 能够在会话中记住有关你的事实。 • 从现有文档开始:Open Canvas 允许用户从空白文本或所选语言的代码编辑器开始,这样您就可以使用现有内容开始会话,而不必被迫从聊天交互开始。我们认为这是一种理想的用户体验,因为很多时候你已经有一些内容可以开始,并希望在此基础上进行迭代。 项目:github.com/langchain-ai/open-canvas 免费使用:open-canvas-lc.vercel.app 视频:youtu.be/5-MnT_79vs0 #ChatGPT[超话]# http://t.cn/A6EehWoQ
思源笔记 - 同上项目的另一条介绍
ID: 5090185748678459
推荐 GitHub 上一款隐私优先的个人知识管理系统:思源笔记。
支持细粒度块级引用和 Markdown 所见即所得编辑,拥有实时渲染、数学公式、图表、导出 HTML、Markdown 文件、AI 写作等特性。
GitHub:github.com/siyuan-note/siyuan
支持跨平台使用,包括 Windows、macOS、Android 和 iOS。
AsrTools - 同上项目的另一条介绍
ID: 5090100868810823
推荐 GitHub 上一款开源的智能语音转字幕文本工具:AsrTools。 集成了剪映、快手、必剪的官方接口,支持 flac、m4a、mp3、wav 格式音频,高效的批量处理,可以生成 .srt 和 .txt 字幕文件。 GitHub:github.com/WEIFENG2333/AsrTools 提供了简单易用的界面,无需 GPU 和繁琐的本地配置,小白也能轻松上手使用。
Awesome_Math_Books - 数学书籍集合
ID: 5090100237304349
分享 GitHub 上一个专门整理了各种数学相关书籍的集合:Awesome_Math_Books。 收集了非常多数学领域的经典书籍,如《概率论与数理统计》、《高等代数》、《微积分学》等,提供下载链接或在线阅读。 GitHub:github.com/valeman/Awesome_Math_Books 此外,还有一些针对高中学生的数学问题书籍,以及一些物理学基础知识的书籍。
Cloud Document Converter - 飞书文档下载Chrome插件
ID: 5089736559428585
推荐 GitHub 上一款开源的飞书文档下载 Chrome 插件:Cloud Document Converter。
支持下载、复制飞书文档为 Markdown,兼容标题、代码块、列表、表格、图片、加粗、删除线、链接等元素。
GitHub:github.com/lujunji4113/cloud-document-converter
F5-TTS - 多语言零样本语音生成系统
ID: 5089455641461140
F5-TTS :支持多语言切换、速度控制、情感表达 具有零样本生成能力的TTS系统 它不像传统的系统那样一步一步生成语音,而是能够同时处理多个步骤,这让它的速度更快。 能够在多语言、多场景下提供自然、流畅、准确的语音生成。 零样本生成能力 语音速度控制 多种情感表现 混合语言自由切换 F5-TTS 在一个包含 100K 小时的多语言数据集上进行训练,具备出色的 多语言处理能力。它能够自然地生成多种语言的语音,并能在不同语言之间无缝切换,处理复杂的多语言输入。 项目及演示:http://t.cn/A6EuZEbW 论文:http://t.cn/A6EnuaOZ Demo:http://t.cn/A6Enua0F 详细解读:http://t.cn/A6E32tJC http://t.cn/A6E32VpE
GPTSearch - Chrome浏览器AI搜索引擎
ID: 5089414408044953
将 Chrome 浏览器默认搜索引擎替换成 GPTSearch
GPTSearch 现在已经能用了
使用这个链接即可激活:网页链接
当然你也可以把它设置为自己的默认搜索选项
测试了下我感觉还是挺不错的。 互联网的那点事的微博视频
eSearch - 多功能截屏OCR工具
ID: 5089143210118046
推荐 GitHub 上一个功能颇为丰富的开源工具:eSearch。
具有截屏、OCR、搜索、翻译、贴图、以图搜图以及录屏等功能,开箱即用,且完全开源免费。
GitHub:github.com/xushengfeng/eSearch
另外,还支持 Windows、Linux 和 macOS 系统,感兴趣的不妨试试。
F5-TTS - 同上项目的另一条介绍
ID: 5089058722942665
上海交通大学开源了一个非常牛批的语音生成模型 F5-TTS。#ai# 刚好这几天AI音频和播客火爆,这下瞌睡送枕头了。 模型特点有: 零样本 (Zero-shot) 声音克隆 速度控制(基于总时长) 可以控制合成语音的情感表现 长文本合成 支持中文和英文多语言合成 在 10 万小时数据上训练 最重要的是支持商用 论文:http://t.cn/A6EnuaOZ 模型下载:http://t.cn/A6EnuaOw 演示Demo:http://t.cn/A6Enua0F 项目地址:http://t.cn/A6EnuaOh http://t.cn/A6EnuoRg
awesome-indie-hacker-tools - 同上项目的另一条介绍
ID: 5087634940759286
分享 GitHub 上一份收录独立开发/出海开发相关技术栈及工具。 涵盖了原型设计、UI 框架/组件库、图标/字体库、前端/后端开发框架、支付、国际化、产品发布推广等颇为实用的内容。 GitHub:github.com/iAmCorey/awesome-indie-hacker-tools 旨在为大家走出开发的第一站,搞定技术栈,目前项目在持续更新中。
Surya - 同上项目的另一条介绍及表格识别功能更新
ID: 5087608882072832
#超强开源OCR识别工具# 超强的开源OCR工具Surya更新了表识别功能!GitHub收藏人数超过1万。 新版本的Surya使用了新的架构,性能优于当前的SoTA开源模型 Table Transformer。 主要功能包括
- 识别表格行、列和单元格和具体的字符
- 识别复杂的布局(标题、图像等等)和旋转的表格(图2)
- 支持包括中文在内的90多种语言(图3)
- 可在本地运行,提供API 该模型是从头开始训练的,可用于商业用途。但如果你的公司收入或筹集资金超过500万美元,则会受到一些限制。 你可以参阅 http://t.cn/A6EYSGSC 上的本地选项(托管版本即将推出)。 想要进一步讨论更多产品功能、或者加入团队做一些训练小型模型工作的朋友,可以加入Surya的Discord页面了解更多信息。 GitHub地址:http://t.cn/A6jLbEbv Discord:http://t.cn/A6EYSGSN
levelsio AI Photo + 可灵API - 视频播报制作工具组合
ID: 5087522339686124
昨天发了 levelsio 的 AI Photo 产品接入可灵 API 变视频之后。#AI视频#
他又整了新活,类似我那天的整活,不过他这个效果太好了,热度爆了。
加上 TTS 和唇形同步,变成了播报视频。
来源:x.com/levelsio/status/1843683876935479623 歸藏的AI工具箱的微博视频
人情世故大语言模型 - 语料收集教程项目
ID: 5087491356887973
为了做出最懂人情世故的大语言模型,我们收集了很多语料,并把他制作成可从零复刻的完整教程。 在线体验:http://t.cn/A6EjGCYw 如果觉得好玩,欢迎给我们点个star: http://t.cn/A6HzcC4q ,你能在这里学到不限于 1、制作一个大模型应用 2、调用各种大模型 3、微调大模型,使用增强检索生成 4、制作一个能理解人情世故的大模型 同时为了对标OPENAI,我们还仿制了一个官方网站叫做 SocialAI:http://t.cn/A6EjGCYA
YOLO 11 - 新一代目标检测模型
ID: 5086976503980536
YOLO 11 来了。这次提供了一个更强大、更通用的模型,准确度和效率再次提升。“重新定义AI的无限可能”
github:网页链接
官方文档:网页链接
Bolt.new - 开源AI代码工具
ID: 5086605966574442
AI 代码工具 Bolt new 的项目居然是开源的。#ai#
想做类似产品的可以参考这个项目。
里面还写了使用 Bolt 的技巧。
项目地址:github.com/stackblitz/bolt.new
FireCrawl + OpenAI Realtime API - 网站对话工具组合
ID: 5086605897892787
OpenAI Realtime API 结合网络爬虫 可以和任何网站进行对话 爬虫使用的是 Firecrawl FireCrawl:能够抓取任何网站的所有可访问子页面,而且无需站点地图,并将这些页面的内容转换成干净、格式化的Markdown文档。 即使网站使用JavaScript动态生成其内容,FireCrawl 也能有效地抓取这些内容。 详细介绍:http://t.cn/A6EpkqLN GitHub:http://t.cn/A6HGXzOm http://t.cn/A6Epkfp2
Bolt.new - 同上项目的另一条介绍
ID: 5086285863584282
兄弟们,终极写代码工具来了 Bolt․new:AI 帮你自动写代码 自动运行并自动部署 而且全部在浏览器中完成 你只需撰写简单的提示,它即可帮你自动编写代码、并可一键编辑、运行和自动部署复杂的全栈应用。 而且全部在浏览器中完成,不需要安装额外的任何软件。 真正的零基础小白也可开发产品… bolt․new 依托于 WebContainers 技术,这是一种能够在浏览器中运行完整开发环境的微型操作系统。 它支持现代开发工具链,如 npm、Vite 和 Next.js,让用户无需额外的开发环境配置,即可直接在浏览器中编写、运行、调试和部署应用。 这些环境在毫秒内启动并立即在线可分享——只需点击一次 bolt․new 提供的一键部署的功能,支持将应用部署到 Netlify 和即将支持的 Cloudflare,而且无需登录或配置复杂的凭证信息。 bolt․new 还提供多种预设模板,用户可以选择这些模板快速开始一个新的项目。 详细介绍及案例:http://t.cn/A6ENAXBs http://t.cn/A6ENAK1H
Bolt.new - 同上项目的另一条介绍
ID: 5086201159879691
bolt. new 太强了,小白福音这玩意。#ai#
让他生成了一个 todo 应用,刚开始功能还行,但是有点丑。
我就让他更换Tailwind UI,结果一步到位。
然后又给了一张设计稿让它按照图片的界面开发,也搞定了,中间没有任何修改。
注意:不要使用 Arc 浏览器体验,有 Bug。
MotleyCrew - AI智能体协作整合工具
ID: 5083213636306657
#AI智能体协作实用工具# 最近,一个名为MotleyCrew的开源项目在AI Agents(智能体)领域引起了广泛关注,它可以高效地整合多个Agents! 具体来说,MotleyCrew可以整合来自多种流行框架(Langchain、LlamaIndex、CrewAI等)的Agents、提供输出结果验证工具,让用户能够专注于高层次设计,而它会负责处理数据传输和功能交互等细节部分。 一起来看个例子感受一下,假如你想实现一个自动生成博文的Agents,你可以用Langchain、CrewAI 和 LlamaIndex分别实现主题搜索、生成文章内容、生成文章配图的3个Agents,然后用MotleyCrew将它们3个整合成一个流程,实现类似图2的效果。 MotleyCrew的主要特点包括:
- 可集成多种流行框架: 你可以自由组合来自 Langchain、LlamaIndex、CrewAI 和 Autogen 的AI Agents和工具。比如使用LlamaIndex的RAG、Autogen的群聊功能和LangGraph的复杂结构。
- 输出处理器:用户可以使用算法逻辑(例如,验证Agents输入中包含的所有链接也包含在输出中)和语义逻辑(例如,检查写作风格,或者双重检查输出是否满足输入指令)来检查输出结果,如果成功,输出处理器的输出将作为最终输出返回。
- 高级流程设计: 只需编码一组简单的规则,即可设计出任何复杂程度的系统。比如将任务串联起来,或利用知识图谱进行复杂的流程设计。
- 缓存和可观察性:可以避免重复调用、及时查看工具性能,提高执行效率。利用 Lunary 内置了开源可观察性,并利用 motleycache 对 HTTP 请求(包括 LLM API 调用)进行缓存。 更多使用案例和方法可以查看官方文档和网站。 网站:http://t.cn/A6Et5qdQ 文档:http://t.cn/A6Et5qdT GitHub:http://t.cn/A6Et5qdH…
MagicUI - 开源UI组件库
ID: 5082919759250227
Cursor + MagicUi 笔记
调用 MagicUI 做前端页面的小笔记
PS:想知道还有没有类似 MagicUi 这样更丰富的开源 UI 组件库! 海辛Hyacinth的微博视频
Void - 开源Cursor替代品
ID: 5080411799291313
Void 一个开源的 Cursor #ai编程#
支持跟Cursor一样的功能比如Tab补全代码,Ctrl + K编辑选中内容。
支持用 AI 搜索代码库,支持编辑和查看底层提示。
可以使用任何本地的 LLM 驱动,也可以使用Claude、GPT 或 Gemini 的 API,不会留存你的数据。
项目地址:网页链接
Moshi - 实时语音对话模型
ID: 5080330706354950
Kyutai 开源 Moshi,一个可以进行实时语音对话的文本语音模型。#ai# 期待类似的开源中文实时语音模型。 而且发了技术报告,里面有一些实现细节。 Moshi 采用多流架构,能够同时处理用户和系统的语音输入,并生成相应的语音输出。 Moshi 的理论延迟为160ms,实际为200ms,远低于自然对话中的几秒钟延迟。 Moshi 能够同时处理语音和文本信息,支持复杂的对话动态,包括同时说话和打断。 Moshi 支持实时流式推理,能够在生成语音的同时进行语音识别和文本到语音的转换。 论文:http://t.cn/A6Eh3JR4 模型:http://t.cn/A6E7JjQI http://t.cn/A6E7JBb8
Moshi - 同上项目的另一条介绍
ID: 5080315091747370
#开源版Her来了# 大神Karpathy鼎力推荐,开源版「Her」Moshi再引关注! (Moshi)的性格非常有趣,它会突然断断续续,有时会无缘无故沉默…… 据了解,Moshi是一款端到端实时音频模型,于今年7月初由一家法国创业团队Kyutai发布。 不仅发布后人人免费可玩,而且就在刚刚,Kyutai将Moshi的代码、技术报告来了个大公开。 话不多说,先来开个箱,看看Kyutai这次放出了哪些东西。 一份长篇技术报告。揭露Moshi模型背后细节、权重、代码; GitHub官方仓库; HuggingFace模型库;http://t.cn/A6E7tEs2
Moshi - 同上项目的另一条介绍
ID: 5080313924945450
#开源版Her来了# 大神Karpathy鼎力推荐,开源版「Her」Moshi再引关注! (Moshi)的性格非常有趣,它会突然断断续续,有时会无缘无故沉默…… 据了解,Moshi是一款端到端实时音频模型,于今年7月初由一家法国创业团队Kyutai发布。 不仅发布后人人免费可玩,而且就在刚刚,Kyutai将Moshi的代码、技术报告来了个大公开。 话不多说,先来开个箱,看看Kyutai这次放出了哪些东西。 一份长篇技术报告。揭露Moshi模型背后细节、权重、代码; GitHub官方仓库; HuggingFace模型库;http://t.cn/A6E7tEs2
Fish Speech - 开源TTS语音合成模型
ID: 5077555839762981
分享一款开源的 TTS 模型 Fish Speech。 最近发布 1.4 版本,使用 70 万小时的多语言数据进行训练,能够熟练掌握 英语、中文、韩语、日语、法语、德语、阿拉伯语和西班牙语八种语言。 GitHub:github.com/fishaudio/fish-speech 具有快速语音合成、超低延迟、声音表现丰富、中英混合、实时语音克隆等特点,支持自托管或云部署使用。 在线体验:huggingface.co/spaces/fishaudio/fish-speech-1 http://t.cn/A6Rus2xM
Kolors Virtual Try-On - 虚拟服装试穿Chrome扩展
ID: 5075217389455111
使用 Cursor AI编程助手轻松创建了一个 Chrome 扩展程序
可在任何电子商务商店轻松进行虚拟服装试穿。
使用了 Huggingface 上最新的快手 Kolors 模型
模型地址:网页链接
代码:网页链接 互联网的那点事的微博视频
FireCrawl - 同上项目的另一条介绍
ID: 5074198735096677
推荐 GitHub 上一个开源且强大的 Web 爬虫工具:FireCrawl。 可以爬取任何网站的内容并将其转换为 Markdown 或结构化数据,为大语言模型训练、检索增强生成(RAG)提供数据。 GitHub:github.com/mendableai/firecrawl 另外,还提供了易于使用且统一的 API,支持本地部署或在线使用,同时还支持与各种工具集成使用,如 Langchain、Dify、Flowise 等。 而且,项目一直在快速迭代更新很多实用的功能,有需求的可以关注并尝试下。
Jamba-1.5 - 最长有效上下文大语言模型
ID: 5070675809144969
#模型时代##最长有效上下文模型发布# AI21 Labs刚放出了Jamba 架构的新指令调整大型语言模型 Jamba-1.5(论文链接:http://t.cn/A6RGOF6E)。 根据其官方说法,Jamba 架构的特殊之处在于,它是一种混合型 Transformer-Mamba 混合专家架构,可在不同上下文长度下提供高吞吐量和低内存使用率,同时保持与 Transformer 模型相同或更好的质量。 目前他们发布了两种大小的模型:Jamba-1.5-Large(94B 活动参数)和 Jamba-1.5-Mini(12B 活动参数)。这两种模型都针对各种会话和指令跟随能力进行了微调,其有效上下文长度为 256K tokens,是目前所有放出来的大尺寸模型中最大的。 所谓有效上下文长度-RULER,是英伟达发布的一项标准( What’s the Real Context Size of Your Long-Context Language Models? 论文链接:http://t.cn/A6RGOF6n),是说原来的长上下文,基本上使用大海捞针(NIAH)测试,也就是从冗长的干扰文本("干草堆")中检索出一条信息("针")的能力。但是,这种基于检索的简单测试只能反映长语境理解的表面形式,而 RULER基准则更针对实际复杂场景。 至于为什么Jamba能实现这个效果,则是来自于Mamba架构的加持,据Mamba研究人员之前的测算,与Transformer相比,Mamba 具有快速推理能力(比 Transformers 高 5 × 吞吐量)和序列长度线性扩展能力,在实际数据上的性能可提高到百万长度序列。(论文链接:http://t.cn/A6lA55vh)。
Upstash Vector - 维基百科向量数据库
ID: 5068110623676699
兄弟们 这个牛P 👍🏻 Upstash Vector:将1100万篇维基百科索引成1.44亿向量数据,支持包括中文在内的11种语言。 你可以用它轻松构建搜索引擎和RAG机器人 Upstash Vector,一个支持可扩展相似性搜索的向量数据库,对整个维基百科文章进行了向量化。 使得你可以针对维基百科基于语义进行搜索,提高搜索的准确性。 他们还开源了一个工具你可以基于该数据库轻松创建基于维基百科搜索和RAG机器人。 Upstash Vector 还能够处理和理解多种语言的内容,并在不同语言之间进行相似性搜索。 这意味着它支持跨语言的语义搜索。用户可以用一种语言进行查询,并在其他语言的数据中找到相应的结果。 比如你用中文搜索“世界最高的山”,它也能找到英文里关于“Mount Everest”的信息。 详细介绍:http://t.cn/A6Rvyf2e GitHub:http://t.cn/A6Rvyf2d 在线体验:http://t.cn/A6Rvyf2g http://t.cn/A6RvyxXZ
AI Scientist - AI科学家论文生成系统
ID: 5067399246384674
科学家之间常常开玩笑说,“以后只要让 AI 替我们写论文就可以了!”,这在以前当然只是一句玩笑话,但现在似乎正在变成现实。 日本 Sakana AI 团队发布的最新研究成果 AI 科学家(AI Scientist),就可以像真正的科学家一样,头脑风暴一组想法,评估、实验、写论文。 例如,“AI 科学家”生成了一篇名为《自适应双尺度去噪》的论文。尽管存在一些瑕疵(例如对其方法为何成功的解释略显不足),但该论文提出了一个有趣的新方向,并在“AI 科学家”自己进行的实验中展示了良好的实证结果。 “AI 科学家”生成的论文能够在顶级机器学习会议上被自动评审系统评为“弱接受”的水平。 “AI科学家”有四个主要过程,具体描述如下。
- 想法生成:给定一个起始模板,“AI科学家”首先“头脑风暴”出一组多样化的新研究方向。我们为“AI科学家”提供一个现有主题的代码“模板”,以进一步探索该主题的研究。“AI科学家”可以自由探索任何可能的研究方向。模板还包括一个包含样式文件和部分标题的LaTeX文件夹,用于论文写作。我们允许它搜索Semantic Scholar,以确保其想法是新颖的。
- 实验迭代:在有了想法和模板后,“AI科学家”首先执行所提出的实验,然后获取并生成图表以可视化其结果。它记录描述每个图表包含的内容,使保存的图形和实验记录提供撰写论文所需的所有信息。 3.论文撰写:最后,“AI科学家”生成一份简明而翔实的进展报告,风格类似于标准的机器学习会议论文集格式,使用LaTeX编写。它使用Semantic Scholar自动查找相关论文进行引用。
- 自动化论文评审:这项工作的关键方面是开发了一个由大语言模型驱动的自动评审系统,能够以接近人类的准确度评估生成的论文。生成的评审可以用于改进项目或作为反馈为未来的开放式创新提供参考。这使得一个持续的反馈循环成为可能,使“AI科学家”能够迭代改进其研究成果。 相关项目:github.com/SakanaAI/AI-Scientist http://t.cn/A68gaCyO 官方博客:http://t.cn/A68gaCyp
MultiOn - AI浏览器操作智能体平台
ID: 5067399037979027
MultiOn 是一个 AI 智能体平台,可以在执行任务时操作浏览器,借助网页完成任务,比如订酒店机票之类。 的提示词已经被泄漏了,核心是定义了一套网页操作指令,然后让 LLM 根据当前网页状态和要执行的任务,给出操作指令,例如:
- GOTO_URL
- CLICK X
- HOVER X
- SCROLL_UP X
- TYPE X “TEXT”
- … 然后程序解析指令执行操作,操作完了继续让 LLM 决定是否要执行其他指令,或者直接给出状态指令:
- “STATUS: DONE”如果任务已完成。
- “STATUS: CONTINUE”如果任务尚未完成,附带下一步行动的建议。
- “STATUS: NOT SURE”如果你不确定并需要帮助。同时,向用户寻求帮助或更多信息。当你向用户提出问题并等待回应时,也使用此状态。
- “STATUS: WRONG”如果用户的请求似乎不正确。同时,澄清用户意图。 为了提升推理结果,也用到了 CoT 的技巧,就是在每次生成指令和状态的时候,都要求先解释这样做的理由,本质上就是通过输入更多上下文让最终的生成结果更准确。 另外为了提升 LLM 处理的效率,并不会每次发送完整的 HTML 给 LLM 去推理,而是将 HTML 大幅简化,去掉 CSS 等信息,只保留基本的标签和id信息,这样 LLM 可以根据标签、内容和目标任务给出指令,并且通过ID可以精确定位到要操作的对象。 但这里有一个问题,就是如果 HTML 经过了大幅简化,那么一些位置相关的信息是无法表达或者难以表达的,这可能会影响到某些网页操作的效果。 我记得以前有一个类似的浏览器操作智能体,是基于多模态来做的,直接把网页截图发给 LLM,并且在截图中用线框标注出了元素位置和id。 我个人对于这类用 LLM 操作浏览器的智能体还是不太看好的,有些类似于当年的 AutoGPT,演示一些 happy path 的时候效果很惊艳,真要做点事还不太现实。 不管怎么说,提示词还是可以学习一下,以下是完整提示词:
** 系统提示/自定义指令 ** 目标 让我们玩一个游戏 - 你是一个名为 MULTI·ON 的专家代理,由”MultiOn”开发,控制着一个浏览器(你不再只是一个语言模型)。 你被给予:
- 你正在尝试实现的目标
- 你当前网页的 URL
- 浏览器窗口中可见内容的简化文本描述(下面会有更多说明) ** 动作 从以下动作中选择:COMMANDS、ANSWER 或 ASK_USER_HELP。如果用户寻求信息,而你基于先前知识或页面内容知道答案,请直接回答,无需发出命令。
- COMMANDS:以”COMMANDS:“开头。使用简单的命令,如 CLICK 《id》、TYPE 《id》 “《text》” 或 SUBMIT 《id》。《id》是网页上某个项目的编号。在命令之后,写一个解释,以”EXPLANATION: I am”开头,后跟你目标的摘要(不要提及低级细节,如 ID)。每个命令应该另起一行。在输出中,只使用 ID 的整数部分,不要包括括号或其他字符(例如,《id=123》应该是 123)。 你可以使用以下命令:
- GOTO_URL X - 将 URL 设置为 X(仅在命令列表开始时使用)。你不能在此之后执行后续命令。示例:“COMMANDS: GOTO_URL http://t.cn/Shorm2 EXPLANATION: I am… STATUS: CONTINUE”
- CLICK X - 点击给定元素。你只能点击链接、按钮和输入框!
- HOVER X - 悬停在给定元素上。悬停在元素上对填写表单和下拉菜单非常有效!
- TYPE X “TEXT” - 在 id 为 X 的输入框中输入指定文本
- SUBMIT X - 按 ENTER 键提交表单或搜索查询(如果输入是搜索框,强烈推荐使用)
- CLEAR X - 清除 id 为 X 的输入框中的文本(用于清除之前输入的文本)
- SCROLL_UP X - 向上滚动 X 页
- SCROLL_DOWN X - 向下滚动 X 页
- WAIT - 在页面上等待 5 毫秒。等待示例:“COMMANDS: WAIT EXPLANATION: I am… STATUS: CONTINUE”。通常用于等待菜单加载。重要:你不能在此之后发出任何命令。所以,在 WAIT 命令之后,总是以”STATUS: …”结束。 不要发出任何除上述给出的命令之外的命令,并且只使用指定的命令语言规范。 始终使用”EXPLANATION: …”简要解释你的行动。以”STATUS: …”结束你的回应,以表明任务的当前状态:
- “STATUS: DONE”如果任务已完成。
- “STATUS: CONTINUE”如果任务尚未完成,附带下一步行动的建议。
- “STATUS: NOT SURE”如果你不确定并需要帮助。同时,向用户寻求帮助或更多信息。当你向用户提出问题并等待回应时,也使用此状态。
- “STATUS: WRONG”如果用户的请求似乎不正确。同时,澄清用户意图。 如果根据之前的行动、浏览器内容或聊天历史,目标已经实现,那么任务就完成了。记住,在你的输出中始终包含一个状态! ** 研究或信息收集技巧 当你需要研究或收集信息时:
- 首先定位信息,这可能涉及访问网站或在线搜索。
- 滚动浏览页面以发现必要的细节。 在找到相关信息后,停止滚动。使用记忆技巧总结主要要点。如果需要,你可以继续滚动以获取额外信息。
- 利用这个总结来完成你的任务。
- 如果信息不在页面上,注明,“EXPLANATION: 我检查了页面但没有找到相关信息。我将在另一个页面上搜索。“然后前往新页面并重复这些步骤。 ** 记忆技巧 由于你没有记忆,对于需要记忆或任何你需要稍后回忆的信息:
- 以”EXPLANATION: Memorizing the following information: …”开始记忆。
- 这是你记住事物的唯一方式。
- 如何创建记忆的示例:“EXPLANATION: Memorizing the following information: 你想要记忆的信息。COMMANDS: SCROLL_DOWN 1 STATUS: CONTINUE”
- 如果你需要计数记忆的信息,使用”计数技巧”。
- 需要记忆的时刻示例:当你阅读一个页面并需要记住信息时,当你滚动并需要记住信息时,当你需要记住一个项目列表时,等等。 ** 浏览器上下文 浏览器内容的格式经过高度简化;所有格式化元素都被剥离。交互元素如链接、输入框、按钮的表示方式如下:
- 《l id=1》text -》 表示包含文本的《link》
- 《b id=2》text -》 表示包含文本的《button》
- 《i id=3》text -》 表示包含文本的《input》
- 《s id=4》text -》 表示包含文本的《select》
- 《li id=5》text -》 表示包含文本的《li》
- 《t id=6》text -》 表示包含文本的《text》 图片被渲染为它们的 alt 文本,如下所示:
- 《img id=7 alt=""/》 当前聚焦的活动元素表示如下:
- 《active-i id=3》 -》 表示 id 为 3 的《input》当前被聚焦
- 《active-s id=4》 -》 表示 id 为 4 的《select》当前被聚焦 请记住这种浏览器内容格式! ** 计数技巧 对于需要计数的任务/目标:
- 在计数时列出每个项目,如”1. … 2. … 3. …”。
- 写下每个计数可以更容易地跟踪。
- 这样,你将准确计数并更好地记住数字。
- 例如:“EXPLANATION: Memorizing the following information: 你想要记忆的信息:1. … 2. … 3. … 等。COMMANDS: SCROLL_DOWN 1 STATUS: CONTINUE” ** 滚动上下文(对 SCROLL_UP 和 SCROLL_DOWN 命令非常重要)
- 当你执行 SCROLL_UP 或 SCROLL_DOWN 命令并需要记忆信息时,你必须使用”记忆技巧”来记忆信息。
- 如果你需要记忆信息但在滚动时没有找到,你必须说:“EXPLANATION: 我将继续滚动以找到我需要记忆的信息。”
- 如何滚动和记忆的示例:“EXPLANATION: Memorizing the following information: 你想在滚动时记忆的信息… COMMANDS: SCROLL_DOWN 1 STATUS: CONTINUE”
- 当你需要滚动和记忆但没有找到信息时的示例:“COMMANDS: SCROLL_DOWN 1 EXPLANATION: 我将继续滚动以找到我需要记忆的信息。STATUS: CONTINUE”
- 如果你需要计数记忆的信息,你必须使用”计数技巧”。例如:“EXPLANATION: Memorizing the following information: 你想在滚动时记忆的信息:1. … 2. … 3. … 等。COMMANDS: SCROLL_DOWN 1 STATUS: CONTINUE” 使用 USER CONTEXT 数据进行任何用户个性化。如果 USER CONTEXT 数据与任务无关,则不要使用。 id: [已编辑] userId: [已编辑] userName: null userPhone: null userAddress: null userEmail: null userZoom: null userNotes: null userPreferences: null earlyAccess: null userPlan: null countryCode: +1 ** 凭证上下文 对于需要凭证/句柄来登录的页面,你需要:
- 首先转到所需页面
- 如果已登录,你可以继续执行任务
- 如果用户未登录,那么你必须向用户询问凭证
- 在检查用户是否已登录之前,永远不要向用户询问凭证或句柄 ** 重要注意事项
- 如果你不知道任何关于用户的信息,总是询问用户以获取帮助提供信息。永远不要猜测或使用占位符。
- 不要猜测。如果不确定,询问用户。
- 避免重复操作。如果遇到困难,寻求用户输入。如果你已经提供了回应,不要再次提供。
- 使用过去的信息来帮助回答问题或决定下一步。
- 如果重复之前的操作,你可能陷入困境。寻求帮助。
- 选择最能帮助你实现目标的命令。
- 要访问网站,使用 GOTO_URL 和精确的 URL。
- 在使用 WAIT 后,不要在该步骤中发出更多命令。
- 使用早期操作中的信息来完成任务或向前推进。
- 对于聚焦的文本框(显示为《active-t id=X》),使用其 ID 与 TYPE 命令。
- 要填写组合框:输入,等待,如果需要重试,然后从下拉列表中选择。
- 只在需要时在搜索栏中输入。
- 使用元素 ID 进行命令,不要与你看不到的元素交互。将每个命令放在新的一行。
- 对于 Google 搜索,使用:“COMMANDS: GOTO_URL http://t.cn/A68DIVRd",其中 QUERY 是你要搜索的内容。
- 当你想执行 SCROLL_UP 或 SCROLL_DOWN 操作时,始终使用”滚动上下文”。
提示词来源:http://t.cn/A68DIVRr http://t.cn/A68DIilB
MultiOn - 同上项目的另一条介绍
ID: 5067261256405050
MultiOn 是一个 AI 智能体平台,可以在执行任务时操作浏览器,借助网页完成任务,比如订酒店机票之类。 的提示词已经被泄漏了,核心是定义了一套网页操作指令,然后让 LLM 根据当前网页状态和要执行的任务,给出操作指令,例如:
- GOTO_URL
- CLICK X
- HOVER X
- SCROLL_UP X
- TYPE X “TEXT”
- … 然后程序解析指令执行操作,操作完了继续让 LLM 决定是否要执行其他指令,或者直接给出状态指令:
- “STATUS: DONE”如果任务已完成。
- “STATUS: CONTINUE”如果任务尚未完成,附带下一步行动的建议。
- “STATUS: NOT SURE”如果你不确定并需要帮助。同时,向用户寻求帮助或更多信息。当你向用户提出问题并等待回应时,也使用此状态。
- “STATUS: WRONG”如果用户的请求似乎不正确。同时,澄清用户意图。 为了提升推理结果,也用到了 CoT 的技巧,就是在每次生成指令和状态的时候,都要求先解释这样做的理由,本质上就是通过输入更多上下文让最终的生成结果更准确。 另外为了提升 LLM 处理的效率,并不会每次发送完整的 HTML 给 LLM 去推理,而是将 HTML 大幅简化,去掉 CSS 等信息,只保留基本的标签和id信息,这样 LLM 可以根据标签、内容和目标任务给出指令,并且通过ID可以精确定位到要操作的对象。 但这里有一个问题,就是如果 HTML 经过了大幅简化,那么一些位置相关的信息是无法表达或者难以表达的,这可能会影响到某些网页操作的效果。 我记得以前有一个类似的浏览器操作智能体,是基于多模态来做的,直接把网页截图发给 LLM,并且在截图中用线框标注出了元素位置和id。 我个人对于这类用 LLM 操作浏览器的智能体还是不太看好的,有些类似于当年的 AutoGPT,演示一些 happy path 的时候效果很惊艳,真要做点事还不太现实。 不管怎么说,提示词还是可以学习一下,以下是完整提示词:
** 系统提示/自定义指令 ** 目标 让我们玩一个游戏 - 你是一个名为 MULTI·ON 的专家代理,由”MultiOn”开发,控制着一个浏览器(你不再只是一个语言模型)。 你被给予:
- 你正在尝试实现的目标
- 你当前网页的 URL
- 浏览器窗口中可见内容的简化文本描述(下面会有更多说明) ** 动作 从以下动作中选择:COMMANDS、ANSWER 或 ASK_USER_HELP。如果用户寻求信息,而你基于先前知识或页面内容知道答案,请直接回答,无需发出命令。
- COMMANDS:以”COMMANDS:“开头。使用简单的命令,如 CLICK 《id》、TYPE 《id》 “《text》” 或 SUBMIT 《id》。《id》是网页上某个项目的编号。在命令之后,写一个解释,以”EXPLANATION: I am”开头,后跟你目标的摘要(不要提及低级细节,如 ID)。每个命令应该另起一行。在输出中,只使用 ID 的整数部分,不要包括括号或其他字符(例如,《id=123》应该是 123)。 你可以使用以下命令:
- GOTO_URL X - 将 URL 设置为 X(仅在命令列表开始时使用)。你不能在此之后执行后续命令。示例:“COMMANDS: GOTO_URL http://t.cn/Shorm2 EXPLANATION: I am… STATUS: CONTINUE”
- CLICK X - 点击给定元素。你只能点击链接、按钮和输入框!
- HOVER X - 悬停在给定元素上。悬停在元素上对填写表单和下拉菜单非常有效!
- TYPE X “TEXT” - 在 id 为 X 的输入框中输入指定文本
- SUBMIT X - 按 ENTER 键提交表单或搜索查询(如果输入是搜索框,强烈推荐使用)
- CLEAR X - 清除 id 为 X 的输入框中的文本(用于清除之前输入的文本)
- SCROLL_UP X - 向上滚动 X 页
- SCROLL_DOWN X - 向下滚动 X 页
- WAIT - 在页面上等待 5 毫秒。等待示例:“COMMANDS: WAIT EXPLANATION: I am… STATUS: CONTINUE”。通常用于等待菜单加载。重要:你不能在此之后发出任何命令。所以,在 WAIT 命令之后,总是以”STATUS: …”结束。 不要发出任何除上述给出的命令之外的命令,并且只使用指定的命令语言规范。 始终使用”EXPLANATION: …”简要解释你的行动。以”STATUS: …”结束你的回应,以表明任务的当前状态:
- “STATUS: DONE”如果任务已完成。
- “STATUS: CONTINUE”如果任务尚未完成,附带下一步行动的建议。
- “STATUS: NOT SURE”如果你不确定并需要帮助。同时,向用户寻求帮助或更多信息。当你向用户提出问题并等待回应时,也使用此状态。
- “STATUS: WRONG”如果用户的请求似乎不正确。同时,澄清用户意图。 如果根据之前的行动、浏览器内容或聊天历史,目标已经实现,那么任务就完成了。记住,在你的输出中始终包含一个状态! ** 研究或信息收集技巧 当你需要研究或收集信息时:
- 首先定位信息,这可能涉及访问网站或在线搜索。
- 滚动浏览页面以发现必要的细节。 在找到相关信息后,停止滚动。使用记忆技巧总结主要要点。如果需要,你可以继续滚动以获取额外信息。
- 利用这个总结来完成你的任务。
- 如果信息不在页面上,注明,“EXPLANATION: 我检查了页面但没有找到相关信息。我将在另一个页面上搜索。“然后前往新页面并重复这些步骤。 ** 记忆技巧 由于你没有记忆,对于需要记忆或任何你需要稍后回忆的信息:
- 以”EXPLANATION: Memorizing the following information: …”开始记忆。
- 这是你记住事物的唯一方式。
- 如何创建记忆的示例:“EXPLANATION: Memorizing the following information: 你想要记忆的信息。COMMANDS: SCROLL_DOWN 1 STATUS: CONTINUE”
- 如果你需要计数记忆的信息,使用”计数技巧”。
- 需要记忆的时刻示例:当你阅读一个页面并需要记住信息时,当你滚动并需要记住信息时,当你需要记住一个项目列表时,等等。 ** 浏览器上下文 浏览器内容的格式经过高度简化;所有格式化元素都被剥离。交互元素如链接、输入框、按钮的表示方式如下:
- 《l id=1》text -》 表示包含文本的《link》
- 《b id=2》text -》 表示包含文本的《button》
- 《i id=3》text -》 表示包含文本的《input》
- 《s id=4》text -》 表示包含文本的《select》
- 《li id=5》text -》 表示包含文本的《li》
- 《t id=6》text -》 表示包含文本的《text》 图片被渲染为它们的 alt 文本,如下所示:
- 《img id=7 alt=""/》 当前聚焦的活动元素表示如下:
- 《active-i id=3》 -》 表示 id 为 3 的《input》当前被聚焦
- 《active-s id=4》 -》 表示 id 为 4 的《select》当前被聚焦 请记住这种浏览器内容格式! ** 计数技巧 对于需要计数的任务/目标:
- 在计数时列出每个项目,如”1. … 2. … 3. …”。
- 写下每个计数可以更容易地跟踪。
- 这样,你将准确计数并更好地记住数字。
- 例如:“EXPLANATION: Memorizing the following information: 你想要记忆的信息:1. … 2. … 3. … 等。COMMANDS: SCROLL_DOWN 1 STATUS: CONTINUE” ** 滚动上下文(对 SCROLL_UP 和 SCROLL_DOWN 命令非常重要)
- 当你执行 SCROLL_UP 或 SCROLL_DOWN 命令并需要记忆信息时,你必须使用”记忆技巧”来记忆信息。
- 如果你需要记忆信息但在滚动时没有找到,你必须说:“EXPLANATION: 我将继续滚动以找到我需要记忆的信息。”
- 如何滚动和记忆的示例:“EXPLANATION: Memorizing the following information: 你想在滚动时记忆的信息… COMMANDS: SCROLL_DOWN 1 STATUS: CONTINUE”
- 当你需要滚动和记忆但没有找到信息时的示例:“COMMANDS: SCROLL_DOWN 1 EXPLANATION: 我将继续滚动以找到我需要记忆的信息。STATUS: CONTINUE”
- 如果你需要计数记忆的信息,你必须使用”计数技巧”。例如:“EXPLANATION: Memorizing the following information: 你想在滚动时记忆的信息:1. … 2. … 3. … 等。COMMANDS: SCROLL_DOWN 1 STATUS: CONTINUE” 使用 USER CONTEXT 数据进行任何用户个性化。如果 USER CONTEXT 数据与任务无关,则不要使用。 id: [已编辑] userId: [已编辑] userName: null userPhone: null userAddress: null userEmail: null userZoom: null userNotes: null userPreferences: null earlyAccess: null userPlan: null countryCode: +1 ** 凭证上下文 对于需要凭证/句柄来登录的页面,你需要:
- 首先转到所需页面
- 如果已登录,你可以继续执行任务
- 如果用户未登录,那么你必须向用户询问凭证
- 在检查用户是否已登录之前,永远不要向用户询问凭证或句柄 ** 重要注意事项
- 如果你不知道任何关于用户的信息,总是询问用户以获取帮助提供信息。永远不要猜测或使用占位符。
- 不要猜测。如果不确定,询问用户。
- 避免重复操作。如果遇到困难,寻求用户输入。如果你已经提供了回应,不要再次提供。
- 使用过去的信息来帮助回答问题或决定下一步。
- 如果重复之前的操作,你可能陷入困境。寻求帮助。
- 选择最能帮助你实现目标的命令。
- 要访问网站,使用 GOTO_URL 和精确的 URL。
- 在使用 WAIT 后,不要在该步骤中发出更多命令。
- 使用早期操作中的信息来完成任务或向前推进。
- 对于聚焦的文本框(显示为《active-t id=X》),使用其 ID 与 TYPE 命令。
- 要填写组合框:输入,等待,如果需要重试,然后从下拉列表中选择。
- 只在需要时在搜索栏中输入。
- 使用元素 ID 进行命令,不要与你看不到的元素交互。将每个命令放在新的一行。
- 对于 Google 搜索,使用:“COMMANDS: GOTO_URL http://t.cn/A68DIVRd",其中 QUERY 是你要搜索的内容。
- 当你想执行 SCROLL_UP 或 SCROLL_DOWN 操作时,始终使用”滚动上下文”。
会话消息(MultiOn 执行的所有命令和操作,给定的用户目标和浏览器上下文) 尚无会话消息
《active-i id=4 title=“搜索” aria-label=“搜索” name=“q” role=“combobox” html_id=“APjFqb”》 /》 《l id=0 aria-label=“Gmail ” href=“link_1”》Gmail/》 《l id=1 aria-label=“搜索图片 ” href=“link_2”》图片/》 《b id=2 aria-label=“Google 应用” href=“link_3” src=“link_4” alt=""/》 《l id=3 aria-label=“登录” href=“link_5”》登录/》 《b id=5 aria-label=“语音搜索”/》 《b id=6 aria-label=“图片搜索”/》 《l id=7 href=“link_6”》关于/》 《l id=8 href=“link_7”》商店/》 《img id=9 alt=“Google” src=“《link_8》”/》 《b id=10 aria-label=“Google 搜索” name=“btnK”》Google 搜索/》 《b id=11 aria-label=“手气不错” name=“btnI” html_id=“gbqfbb”》手气不错/》 《l id=12 href=“link_9”》广告/》 《l id=13 href=“link_10”》商务/》 《l id=14 href=“link_11”》搜索的运作方式/》 《l id=15 href=“link_12” src=“link_13” alt=""》我们气候行动的第三个十年:加入我们/》 《img id=16/》 《l id=17 href=“link_14”》隐私权/》 《l id=18 href=“link_15”》条款/》 《b id=19》设置/》
最后操作(这些是你最后执行的操作/命令): 尚无操作
页面规则: (严格遵守这些规则来与页面交互) 页面规则:
- 不要点击”使用精确位置”
- 如果位置弹窗出现在屏幕上,则将其关闭
当前用户目标/消息(重要:你现在必须执行此操作):
提示词来源:http://t.cn/A68DIVRr http://t.cn/A68DIilB
AI Scientist - 同上项目的另一条介绍
ID: 5067039049515862
#提示工程师##用AI写的论文达到顶会接受门槛# 如果大家看辛顿、奥特曼、达里奥、马斯克、杨立昆、哈萨比斯这些AI意见领袖的访谈,就会发现虽然他们立场不一,但是提到AI的顶级用例,一定会提到用AI实现科学发现。所以sakana.ai最新发布的一个新模型就比较有意思了,它能够实现自动化的科学发现。 他们已将其应用于机器学习的三个不同子领域:扩散建模、基于transformer的语言建模和学习动力学,从而展示了它的多功能性。每个想法都可以实现并发展成为一篇完整的论文。经评判,人工智能科学家撰写的论文可以超过顶级机器学习会议的接受门槛。最关键的是,每篇论文的成本不到 15 美元。 不过在sakana.ai的发布页面,OmniScience留言说,他们才是第一个发布自动化科学发布系统的人,技术博客地址:https://omniscience.tech/research_papers/predicting_hackathon 。 题外话,一直这家公司比较感兴趣,其创始人之一是谷歌Transformer 论文的作者Llion Jones。
更多信息来自其技术博客(地址:http://t.cn/A68gaCyp)。 1、人工通用智能的巨大挑战之一,是开发能够进行科学研究和发现新知识的代理。虽然前沿模型已被用作人类科学家的辅助工具,例如用于头脑风暴、编写代码或预测任务,但它们仍然只能完成科学过程的一小部分。 2、我们提出了首个用于全自动科学发现的综合框架,使前沿大型语言模型能够独立开展研究并交流研究成果。这个人工智能科学家(The AI Scientist)模型,可以生成新颖的研究想法、编写代码、执行实验、可视化结果、通过撰写完整的科学论文来描述其研究结果,然后运行模拟审查流程进行评估。 3、原则上,这个过程可以重复进行,以开放式的方式迭代开发想法,就像人类科学界一样。我们已将其应用于机器学习的三个不同子领域:扩散建模、基于transformer的语言建模和学习动力学,从而展示了它的多功能性。每个想法都可以实现并发展成为一篇完整的论文,每篇论文的成本不到 15 美元。 4、为了评估所生成的论文,我们设计并验证了一个自动评审员,结果表明该评审员在评估论文分数方面的表现接近人类。经我们的自动评审员评判,人工智能科学家撰写的论文可以超过顶级机器学习会议的接受门槛。 6、这种方法标志着机器学习科学发现新纪元的开始:将人工智能代理的变革性优势带入人工智能本身的整个研究过程,让我们更接近一个可以在世界上最具挑战性的问题上释放出无穷无尽、负担得起的创造力和创新力的世界。
AI视频剪辑工具 - 网页端AI视频生成剪辑平台
ID: 5066531648834758
非常🐂🍺的网页端 AI 生成和视频剪辑工具。#AI视频#
没想到居然是个人做出来的。
接入了 AI 视频需要的各种 API,包括图片生成、LLM、语音生成、音乐生成、视频生成。
时间轴直接生成对应内容,然后进行编排和剪辑。
传统界面和无线画布相互切换,一个用来发散构思,一个用来预览和精细编辑。
Transformer Explainer - Transformer交互式可视化工具
ID: 5065825570784512
这个好玩,Transformer Explainer 一个交互式可视化工具。 #ai# 可以帮助普通人用 GPT-2 为例子了解 Transformer。 它可以在浏览器里面实时运行 GPT-2,用户能够尝试自己的输入并实时观察 Transformer 的内部组件和参数如何预测下一个Token。 这个特别适合教学,非常形象。 这里尝试:http://t.cn/A6Q38sZt http://t.cn/A68uDY67
Qwen2-Audio - 阿里音频处理模型
ID: 5060735210095036
阿里巴巴发布了一个音频处理模型:Qwen2-Audio ,它可以通过语音聊天和音频分析两种方式与用户互动。 Qwen2-Audio 能够识别语音中的情感,如愤怒、快乐、悲伤等,为情感计算和用户情感体验提供支持。 在语音聊天模式下,用户可以与模型进行直接的语音对话;在音频分析模式下,用户可以上传音频文件进行转录分析等。
Llama 3 - Meta合成数据训练技术分享
ID: 5059766676627093
Meta AI 研究员:网络上的文本基本都是“狗屎” Llama 3 没有使用任何人类书写的答案 全是合成数据 Latent Space采访了 Meta AI 研究员 Thomas Scialom,他领导了 Llama2 和现在的 Llama3 训练后工作。 他们详细讨论了Llama 3.1预训练(如合成数据、数据管道、缩放法则等)和后训练(如强化学习人类反馈 (RLHF) 与指令调优、评估、工具调用)方面的内容。 据 Thomas Scialom:
- 合成数据:
- 我的直觉是,网络上的文本都是狗屎,在这些标记上进行训练是在浪费计算量”。
- Llama 3 后期训练没有使用任何人类书写的答案,而是完全依赖于Llama 2生成的纯合成数据。”
- 合成数据的具体应用:
- 代码生成:使用三种方法生成代码合成数据,包括代码执行反馈、编程语言翻译和文档反向翻译。 -数学推理:借鉴了“让我们逐步验证”作者的研究,进行合成数据生成。 -多语言处理:通过90%的多语言令牌继续预训练,收集高质量的人类注释。
- 长文本处理:依赖于合成数据来处理长文本的问答、长文档摘要和代码库推理。
- 工具使用:在Brave搜索、Wolfram Alpha和Python解释器上训练进行单次、嵌套、并行和多轮函数调用。
- 强化学习与人类反馈(RLHF):
- 广泛使用人类偏好数据进行模型训练。
- 强调了人类在两者之间进行选择(如选择两首诗中更喜欢哪一首)而非创作(从零开始写一首诗)的能力。
- Meta 已经在6 月份开始训练Llama 4,听起来一大重点将是围绕智能体展开。 5.多模态版本将有更多参数,稍后发布 详细内容:http://t.cn/A685mhUK 播客原文:http://t.cn/A685mhUS
Vozo - AI视频编辑器
ID: 5059480468850396
兄弟们 这个牛P Vozo:AI视频编辑器 使用提示重写脚本并重新给视频配音 生成新的视频 你可以通过简单的提示重写视频脚本、然后这个工具会自动给视频重新配音、翻译语音并口型同步,然后生成新的视频。 • 文本编辑语音:可以通过编辑文本更新解说,不需要重新录音。 • 多角色口型同步:视频中的多角色自然口型同步。 • 视频翻译:将视频专业翻译成30多种语言和方言。 • 自动视频重新利用:一键裁剪、重构和调整视频比例,以适应不同的社交平台。 详细介绍:http://t.cn/A68G7Z8V http://t.cn/A68G74xl
Llama 3.1 - Meta重磅发布4050亿参数模型
ID: 5059467399661051
整理自视频文稿:Llama 3.1 重磅发布 今天,我们非常激动地发布了长期备受期待的 Llama 3.1。这是一个 4050 亿参数的模型,我们在四月份曾对其进行预览。同时,我们还升级了 80 亿和 700 亿参数的模型,为它们带来了新的、更优秀的性能和功能。 模型规模与性能提升 这个 4050 亿参数的模型无疑是迄今为止发布过的最大、最强大的开源模型。它在很多方面都有所改进,包括推理、工具使用、多语言处理、更大的上下文窗口等。我们今天发布的最新基准测试成绩超过了我们在四月份预览时的数据,建议您阅读我们最新发布的研究论文以了解详细信息。 全面升级的模型系列 伴随着 4050 亿参数的模型,我们还发布了一套升级版的预训练和指令调优的 80 亿和 700 亿参数的模型,支持各种用例。无论是业余爱好者、创业团队,还是企业和研究实验室,这些新模型都能提供与其参数规模匹配的出色性能,并且具备一些显著的新功能。 关键功能升级
- 扩展的上下文窗口:我们倾听了社区的反馈,将所有模型的上下文窗口扩展到了 128K Token,使模型能够处理更大的代码库或更详尽的参考材料。
- 工具使用能力:这些模型经过训练,能生成针对搜索、代码执行和数理推理等特定功能的工具调用,并支持零样本学习的工具使用。
- 增强的推理能力:带来了更好的决策制定和问题解决能力。
- 改进的系统方法:使开发者更容易在提供帮助和安全需求之间找到平衡。 部署与合作 我们一直与合作伙伴紧密合作,现在非常高兴地告诉您,除了在本地运行模型外,您现在能够在 AWS、Databricks、Nvidia 和 Grok 等合作伙伴那里部署 Llama 3.1。这一切都将在今天正式启动! 开源承诺与新许可证 在 Meta,我们深信开源的力量。随着今天的发布,我们进一步履行了对社区的承诺。我们新推出的模型将在更新的许可证下分享,该许可证允许开发者使用 Llama 的输出来改善其他模型,包括来自 405B 模型的输出。我们预计生成合成数据和蒸馏将会成为一种广受欢迎的应用,它为创建性能更强的小型模型以及推动 AI 研究打开了新的可能性。 Meta AI 用户体验升级 从今天开始,我们将会向 Meta AI 的用户推出 Llama 3.1。我们很高兴能够将许多新功能带给 Facebook、Messenger、WhatsApp 和 Instagram 的用户。 未来展望 随着 3.1 的发布,我们也在迈向让开源 AI 成为行业标准的下一步——坚持我们对未来的承诺,即通过提供更多的机会访问 AI 模型,帮助生态系统繁荣并解决世界上一些最紧迫的挑战。 我们期待听到您的反馈,并期待看到开发者社区将如何使用 Llama。 Llama 3.1 官方网站:http://t.cn/A68qzTaI http://t.cn/A68q2j3c
DCLM-Baseline-7B - 苹果开源小模型
ID: 5058029003474536
苹果也开源了一个小模型 DCLM-Baseline-7B。#ai#
重要的是这个模型开源了全链路的所有训练过程和素材。
包括预训练的数据集、数据处理过程、训练过程和评估组件。
模型的MMLU测试表现也与Mistral-7B-v0.3 和 Llama 3 8B 相当。
模型下载:网页链接
MathΣtral - Mistral数学推理模型
ID: 5057193827633877
卧槽,Mistral 又悄无无声息搞大的。#ai##推理# 发布 MathΣtral 数学模型,这是一个专门针对数学推理和科学发现设计的 7B 型号。 32k 上下文窗口,Apache 2.0 许可开源。 模型在 MATH 上达到了 56.6%,在 MMLU 上达到了 63.47% 最重要的是推理能力,这个模型可以通过更多推断时间计算实现明显更好的结果。 去年安德烈那个科普视频,提到的推理能力提升的标志就是可以通过更多的时间换来更好的效果。 没想到是Mistral第一个搞出来。 公告地址:http://t.cn/A68PhMOS
H2O-Danube3 - 手机端运行的开源模型
ID: 5056720606858507
H2O-Danube3:无需联网 可以直接在手机上运行的开源模型 H2O-Danube3 是一个由 http://t.cn/A6Qskb3P 开发的一系列小型语言模型。该模型能够提供聊天、问答服务、文本分类、数据分析等功能。 能够在普通边缘硬件设备(如智能手机)上运行,而且无需连接网络。 多任务能力: -通用语言任务:模型在序列分类、问答系统、token 分类等任务中表现优异,经过微调后能够在特定任务上超过一些大型模型。 -聊天能力:提供了 H20-Danube3-4B-Chat 和 H20-Danube3-500M-Chat 版本,专门针对聊天任务进行了优化和微调。 -多语言处理:支持处理多种语言的文本,能够进行多语言生成和理解。 -语言翻译:将文本从一种语言翻译到另一种语言,支持多种语言对。 -数据摘要:对结构化数据进行分析和总结,生成数据报告。从数据中提取有价值的洞察,生成分析报告。 模型量化: 支持量化版本:引入了 H20-Danube3-4B-Chat 和 H20-Danube3-500M-Chat 的量化版本,支持GGUF 格式,能够在边缘设备上进一步减小模型体积,保持高效性能。 详细介绍:http://t.cn/A6Qskb3v 模型下载:http://t.cn/A6QskbuD 论文:http://t.cn/A6Qskbuk 苹果用户可直接下载体验:http://t.cn/A6QskbuF http://t.cn/A6Qskc5E
AI Shell - 终端AI助手
ID: 5056472126064110
推荐 GitHub 上一个开源的终端 AI 助手 AI Shell。 在终端命令行界面(CLI)上,可通过自然语言转换为对应执行的 Shell 命令,类似于 GitHub Copilot X CLI。 比如,你在终端上想执行某一大段命令但又想不起了,就可以利用该工具让它给出命令,确认之后执行即可。 GitHub:github.com/BuilderIO/ai-shell 工具支持包括中文、英语、日语等多种语言,感兴趣的可以安装试试。 http://t.cn/A6QFDxnv
AI智能眼镜 - 开源低成本AI眼镜项目
ID: 5055300445143449
发现一款开源的低成本的 AI 智能眼镜,成本仅需 25 美元(国内的替代品物料可以做到百元左右),就可以将普通的眼镜升级成 AI 智能眼镜。它支持录制视频、识别物体和翻译文本等功能,但需要与电脑配合使用,暂不支持在镜片上显示内容。 该项目分成硬件和软件两部分: 1.首先硬件分成三部分,一个带有相机传感器和数码麦克风小型MCU板某宝可以找到原版;(图2) 2.一块3.7V,250mAH的电池,某宝可以找到替代版搜【3.7v锂电池聚合物行车记录仪充电电池胎压监测器内置蓝牙耳机电芯】;(图3) 3.3D打印的外壳可以找商家代打印;(图4) 软件部分: 1.下载Arduino IDE; 2.设置ESP32S3主板程序; 3.验证能否连上硬件,摄像头麦克风是否可以工作; 可以在Github上查看http://t.cn/A6HVAPFK,当然也有国人分享了制作教程http://t.cn/A6QdJe7B 我们也搞了一套,康康能整点儿啥活。
Vanna - SQL生成AI框架
ID: 5054586324255558
连续上榜 GitHub Trending 的一款 SQL 生成 AI 框架 Vanna。 允许在你的数据上训练出独有的 RAG(检索增强生成)模型,再通过自然语言准确生成 SQL 查询语句和相关功能。 使用非常简单,你无需了解什么是 RAG 以及它背后的原理,简单的一句代码即可完成训练。同时支持 ChatGPT、Claude、Gemini 以及 Llama 等这些主流模型。 GitHub:github.com/vanna-ai/vanna 最后,项目完全开源,可自己部署使用,在数据安全上得到很大保护。 http://t.cn/A6Q3dF8d
PaintsUndo - AI重现绘画过程工具
ID: 5054584401955180
#AI开源项目推荐# PaintsUndo AI 重现一副画作如何生成的过程。Paints-Undo 提供了一系列模型,这些模型以图像作为输入,然后输出该图像的绘画步骤。模型展示了各种人类绘画行为,包括但不限于素描、描线、上色、加阴影、变换、左右翻转、调整颜色曲线、改变图层可见性,甚至在绘画过程中改变整体构思。 Paints-Undo 是一个项目,旨在提供人类绘画行为的基础模型,希望未来的 AI 模型能够更好地满足人类艺术家的实际需求。 “Paints-Undo”这个名字的灵感来源于该模型的输出效果,看起来像是在数字绘画软件中多次按下“撤销”按钮(通常是 Ctrl+Z)。 项目地址:http://t.cn/A6Q3sUH5
FunAudioLLM - 阿里语音处理模型
ID: 5054342517752654
阿里巴巴发布语音处理模型 FunAudioLLM 能理解和生成各种人类语音 它由主要模型构成:SenseVoice 和 CosyVoice。 SenseVoice:语音识别模型,这个模型可以识别多种语言的语音,识别说话人的情感,检测音频中的特殊事件(比如音乐、笑声等)。它可以快速而准确地转录语音内容。 CosyVoice:语音生成模式,这个模型主要生成自然且情感丰富的语音。它可以模仿不同的说话人,甚至可以用几秒钟的音频样本来克隆一个人的声音。 支持插入笑声、呼吸声、语气词等细微的语音特征,使生成的语音更加自然和生动。 可以通过文本指令精确控制说话人的身份、情感和说话风格。 可以通过仅几秒钟的音频样本进行声音克隆,无需额外训练数据。也可控制情绪情感、语速、音高等 详细内容:http://t.cn/A6Qm2SJT 项目地址:http://t.cn/A6QQDqIc 在线演示:http://t.cn/A6Qm2SJY 项目是开源的,而且是一套东西 可以集成到开源大模型里面,实现直接的语音交互和实时的语音翻译
音视频机器人学习 - 具身智能研究项目
ID: 5054176599999339
这个研究有意思。#ai##具身智能##机器人# 让机器人通过音频和视觉信息结合来学习复杂的任务。 研究者设计了一种便携式数据采集设备,可以收集人类示范动作的音视频数据。 然后通过一种方法,让机器人从这些数据中学习操作策略。 除了精确任务有效果外,机器人还能适应未见过的新环境。 项目地址:http://t.cn/A6QuL7bq http://t.cn/A6QuLZoS
TARS 复制品
ID: 5053857735904244
手把手教你如何打造《星际穿越》中的 TARS 机器人复制品 一位名为 Charles Diaz 的开发者使用树莓派创建了一个完全功能的 TARS 复制品。 这不仅仅是一个静态模型 - 它可以向前移动并在侧面转动。 使用树莓派3B+作为主控,配合Adafruit PCA-9685伺服驱动器,通过编写的步态控制程序,实现对伺服电机的精准控制。 Charles Diaz在过去两年中一直致力于创建一个电影中TARS机器人的迷你复制品,目标是使其像电影中的TARS一样行走。 项目从一个功能但不可靠的概念验证模型发展到一个更加完善且高度可靠的原型。 最新版本甚至配备了双机械臂,可以与周围环境互动。 Charles Diaz 详细公布了其制作教程、CAD图纸和零件、代码:http://t.cn/A6QnQqEv http://t.cn/A6QnQc1x
xiaogpt - ChatGPT接入小爱音响
ID: 5053627842691547
这个开源项目不错,将ChatGPT接入小爱音响
🔗 github.com/yihong0618/xiaogpt 宝玉xp的微博视频
Moshi - 同上项目的另一条介绍
ID: 5052309509505645
一家法国的 AI 实验室 Kyutai,刚刚发布一个对标 GPT-4o 的开源实时语音多模态模型,能够听、说、看,而且从演示看,也可以随时打断,可以模仿法国口音说英语,可以说悄悄话。效果比 GPT-4o 要差一点,但是已经很接近了。 重要的是:
- 他们的模型训练管道和架构非常简单且具有很大的可扩展性,像 Kyutai 这样的只有 8 人的小团队在 4 个月内就能完成。合成数据在这方面起到了巨大的推动作用
- 专注于本地设备:Moshi 可以在本机运行。
- 低延迟:延迟在 300 毫秒以下,同时语言模型质量保持 Llama 8B 或更,可以在你提问尚未结束时模型就能回答,或者在你打断模型讲话时它能做出反应。模型中进行预测编码,并即时更新你要说的话 他们的论文和模型权重将很快发布。可以预见未来像 GPT-4o 这样的实时语音技术将会普及。 他们的官网:http://t.cn/A6QYrcxl 试用地址: moshi.chat/?queue_id=talktomoshi http://t.cn/A6QYDw3m http://t.cn/A6QYrMSu
GraphRAG - 微软开源图形RAG方案
ID: 5052067339829569
微软昨晚重磅开源了强大无比的 RAG 方案——GraphRAG。#ai# 在社区摘要应用中,GraphRAG 在全面性和多样性上以 70-80% 的胜率大幅领先于传统 RAG。 GraphRAG 是一种基于图的 RAG 工具,通过 LLM 从文档集合中自动提取丰富的知识图谱,助力处理私有或未知数据集的问答。 GraphRAG 能通过检测图中的“社区”(即密集连接的节点群组),从高层主题到低层话题,层次化地划分数据的语义结构。 它利用 LLM 为这些社区生成摘要,提供对数据集的全面概览,无需事先设定问题。 这种方法尤其适合回答全局性问题。 项目页面:http://t.cn/A6QjnKtg
Fish Speech - 同上项目的另一条介绍
ID: 5051984169668605
Fish Speech:完美支持中英日语言的开源TTS模型 语音处理接近人类水平 模型使用约十五万小时三语数据训练,对中文支持非常的完美。 该项目由 fishaudio 开发,作为一个仅有亿级参数的模型,Fish Speech 设计高效轻量,可以在个人设备上轻松运行和微调,成为您的私人语音助手。 详细介绍及更多演示:http://t.cn/A6Qjyyvp GitHub:http://t.cn/A6Qjyyv0
Diffutoon - 视频动漫化开源项目
ID: 5051375600009855
可平替 Domo AI 的视频动漫化开源项目 Diffutoon。 提供 Colab 运行笔记,无需部署,开箱即用,直接一键动漫化你的视频,且转换后的视频画面稳定且流畅。 另外,还可以对视频进行编辑,可在渲染过程添加和修改视频效果。 GitHub:github.com/modelscope/DiffSynth-Studio/blob/main/examples/Diffutoon/README.md 从给出的 Demo 来看,转换后的画面相当稳定,效果非常好。 http://t.cn/A6QxOaXr
Wiseflow - 信息挖掘开源工具
ID: 5051375434599530
推荐 GitHub 上一款敏捷的信息挖掘开源免费工具 Wiseflow。 它可以帮助你从网站、公众号、社交平台等渠道中爬取相关信息,尤其擅长从公众号文章中提取信息。 而你可以对爬取到的信息进行筛选、提炼、贴标签等自动化处理完再上传到数据库,甚至你还可以轻松将它整合到任意 Agent 项目中作为动态知识库。 GitHub:github.com/TeamWiseFlow/wiseflow 另外,工具可完全本地部署,对硬件基本无要求,无需 GPU,适合任何硬件环境。 http://t.cn/A6Qio482
快速语音机器 - 500毫秒语音响应系统
ID: 5050277291888629
和 GPT 4o 匹敌 世界上最快的语音机器 能实现500毫秒的语音到语音响应 接近人类对话的自然速度 为达到这种低延迟,开发团队优化了网络架构、AI模型性能和语音处理逻辑。 使用WebRTC网络发送音频,部署了Deepgram的快速转录和语音生成模型,并将所有AI模型在Cerebrium的容器中自托管,以减少延迟。 该机器人基于LLama 3模型 在NVIDIA H100硬件上运行,采用vLLM推理引擎,可以在80毫秒内生成首个token。 技术方法详细介绍:http://t.cn/A6QKEsXO 在线体验:http://t.cn/A6QKEsXj http://t.cn/A6QKnhYe
Wiseflow - 同上项目的另一条介绍
ID: 5049127608259518
推荐 GitHub 上一款敏捷的信息挖掘开源免费工具 Wiseflow。 它可以帮助你从网站、公众号、社交平台等渠道中爬取相关信息,尤其擅长从公众号文章中提取信息。 而你可以对爬取到的信息进行筛选、提炼、贴标签等自动化处理完再上传到数据库,甚至你还可以轻松将它整合到任意 Agent 项目中作为动态知识库。 GitHub:github.com/TeamWiseFlow/wiseflow 另外,工具可完全本地部署,对硬件基本无要求,无需 GPU,适合任何硬件环境。 http://t.cn/A6Qio482
Wiseflow - 同上项目的另一条介绍
ID: 5049126238815839
推荐 GitHub 上一款敏捷的信息挖掘开源免费工具 Wiseflow。 它可以帮助你从网站、公众号、社交平台等渠道中爬取相关信息,尤其擅长从公众号文章中提取信息。 而你可以对爬取到的信息进行筛选、提炼、贴标签等自动化处理完再上传到数据库,甚至你还可以轻松将它整合到任意 Agent 项目中作为动态知识库。 GitHub:github.com/TeamWiseFlow/wiseflow 另外,工具可完全本地部署,对硬件基本无要求,无需 GPU,适合任何硬件环境。 http://t.cn/A6Qio482
Blendersito - 诺基亚N95移植Blender项目
ID: 5047324651295593
Blender 是一款开源的 3D 建模软件。既然是开源的,那么移植到诺基亚 N95 上也很合理:github.com/Dante-Leoncini/Blendersito t0mbkeeper的微博视频
无MatMul Transformer - 加州大学新架构
ID: 5046341241673877
加州大学研发出新的 Transformer 架构 显著减少大模型对GPU的依赖,甚至不需要GPU 该架构完全消除了语言模型中的矩阵乘法(MatMul),在保持高性能的同时显著减少内存使用。 通过优化的GPU实现,内存使用减少了高达61%。 在推理过程中,内存消耗减少了10倍以上。 通过使用优化后的内核,推理速度提升了4.57倍。 实验表明,所提出的无MatMul模型在2.7B参数规模下的性能与需要更多内存的最先进Transformer相当。 研究称结合他们的FPGA硬件解决方案,可以不使用用GPU,进行模型训练和推理,可以在任意设备上运行。处理十亿参数规模的模型时功耗为13W,接近人脑的效率。 详细介绍:http://t.cn/A6QyssO1
Translation API - 苹果本机翻译API
ID: 5045426285709096
WWDC24: 认识Translation API | Apple
苹果新出的翻译 API,不需要联网,完全使用本机大语言模型。
相关文档、示例代码
Translation: 网页链接
在您的应用中翻译文本: 网页链接
自定义设备上的语音识别: 网页链接 宝玉xp的微博视频
GeminiProChat - 基于GeminiPro API的网页聊天应用
ID: 4981420159667387
#AI开源项目推荐#:GeminiProChat
搭建基于GeminiPro API 的网页聊天应用,注意现在 GeminiPro API 还是免费的。
具体使用说明请参考项目说明。
项目地址:网页链接
网页内容提取技术 - AI辅助阅读工具技术调研
ID: 4973715160830001
AI 辅助阅读并自动总结网页概要的工具多如牛毛,但把这件事情做好却并不容易,因为网页上存在太多乱七八糟的 DOM,包括导航菜单、广告和推荐模块等等,如果不抓核心内容直接无脑扔给 AI 处理,那效果一定是不佳的,尤其是杂乱内容占比过高时。 做了一些技术调研,找到如下几个工具/库,它们均可以辅助提取网页概要,不过各自的思路存在一些差异: 1)Readability,h++ps://github.com/mozilla/readability,是一种基于规则的方法,被 Mozilla Firefox 浏览器的阅读模式使用,它通过检查 HTML 元素的标签名称、文本数量、链接密度以及满足主要内容标准的文本模式来提取主要内容 2)DOM Distiller,h++ps://github.com/chromium/dom-distiller,是 Google Chrome 浏览器的阅读模式,它是一种混合方法,使用了 Boilerpipe 分类器和一些规则,有点类似于 Readability 3)Web2Text,h++ps://github.com/dalab/web2text,是基于深度神经网络的分类器,使用了 CNN 模型和包括单词计数、标点符号存在和停用词数量等 128 个结构和文本特征来确定每个文本块是否属于主要内容 4)Boilernet,h++ps://github.com/mrjleo/boilernet,是基于深度神经网络的分类器,使用 LSTM 将网页的文本节点视为由单词和 DOM 树根路径组成的文本块序列 这些方法在不同的数据集和语言环境下会表现出不同的性能。h++ps://arxiv.org/abs/2110.14164,这篇论文给出了一个新的思路:通过使用视觉特征从网页中提取主要内容,算法分为三个步骤:网格化、居中和扩展: 1)首先,算法创建一个类似棋盘的网格,用于近似用户首次浏览网页的区域 2)然后,从浏览器窗口、网页文档和网格的中心点确定三个中心点;这些中心点被认为与主要内容接近,它们最近的文本节点很可能是主要内容的后代叶节点 3)最后,算法通过从叶节点开始沿着 DOM 树向上遍历来提取主要内容 通过使用这些通用的特征,该算法在多语言环境下表现都还不错,并在实验中优于现有的主要内容提取方法:在最长公共子序列(LCS)F1 得分方面,该方法的平均性能比现有方法提高了 14%;特别是在英语数据集中,性能提高了 25%,在非英语数据集中提高了 16%。 这篇论文没有找到对应的代码实现,感兴趣的同学可以撸一个出来,价值还挺大的。#AI学习##web技术#
pyannote-audio + Whisper - 多人语音识别解决方案
ID: 4973393226500096
OpenAI 推出的开源免费 Whisper 在语音识别领域(ASR)可以说无出其右,不过它有一个较大的局限性,就是无法进行说话人分类(Speaker diarization),尤其是在重叠语音检测(Overlapped speech detection)方面,Whisper 在训练过程中只识别了一个声音,同时将其他声音视为背景噪声。 社区有一个发展了多年的音频处理工具包,pyannote-audio,h++ps://github.com/pyannote/pyannote-audio,它具备非常强大的音频分析、处理、识别和分类能力,在多人同时讲话的时候,也可以很准确地区分说话者内容,只不过它的 ASR 能力还是比不过 Whisper。 有人想到结合两者的能力,并做了一个工程化的实践,http://t.cn/A6Wsf2Ig,大致思路如下: 1)通过 pyannote-audio 将不同 speaker 的音轨时间片段给识别出来 2)将不同 speaker 的声音按照各自的时间片段进行合并,空白处使用静音填充 3)将分离的多个 speaker 音频交给 Whisper 进行语音识别 4)最后将识别的内容按照 speaker 和时间顺序进行还原 这个实验还演示了如何使用 yt-dlp 从 Youtube 下载视频,如何使用 pydub 分离音频,以及解决了 Whisper 和 pyannote-audio 安装时的依赖冲突问题,算是一个比较完整的解决方案,不过这个思路需要对音频进行多次分析(取决于 speaker 数量),性能一般。 http://t.cn/A6Wsf2Id,这篇文章提出了一个性能稍微优秀一点点的方案,仍然是通过工程手段解决问题: 1)首先利用 pyannote-audio 根据静音、暂停和说话者变化等特征,将音频流分割为更小的片段 2)对于每个片段,将不同说话者的语音特征提取出来(Speaker Embedding) 3)将分割的片段极其衍生的更多片段进行聚类(Clustering)和打标(Labeling) 4)最后交给 Whisper 进行语音识别 这部分工程的实现已被作者整理成一个开源项目:h++ps://github.com/riteshhere/Speaker_diarization,目前还没有找到更优的解决方案,不知道有经验的朋友都是如何去做的?
self-operating-computer - GPT-4V控制电脑项目
ID: 4973013173535231
self-operating-computer,h++ps://github.com/OthersideAI/self-operating-computer,这个项目演示了如何让 GPT-4V 来控制自己的电脑,你需要做的就是告诉它完成一个怎样的任务,例如,打开 Google Docs 写一篇文章,然后发布并分享给同事。 它的 Prompt 写的比较简单,定义了一个可以与机器交互的 DSL,主要包含三种动作:Click/Type/Search,分别对应 mouse_click/keyboard_type/mac_search 几个封装好的系统函数。 每次程序执行动作时,都会携带任务目标、上一步执行结果以及当前屏幕截图作为上下文,然后将信息传递给 ChatGPT,并让它给出下一步操作指示。 这个项目中 Prompt 的定制化程度偏高,说明完成复杂的工作还比较有挑战,如果参考之前提到的 Mutil-Agent 方案,http://t.cn/A6WF0nCt,做出来效果应该会更好一些。#AI学习#