Skip to main content

· 3 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🔍Stability AI 发布 Stable Diffusion 3: 采用新型扩散变换架构,提高性能。 引入新型扩散变换技术,增强图像生成能力。 集成流匹配技术,提升图像质量和多样性。

🔗 https://bit.ly/3OR2qQF

🔗 https://x.com/xiaohuggg/status/1760673218665537846...

2⃣️ 👓AEA 数据集发布: 基于 Project Aria AR眼镜,记录日常活动。 包含多模态传感器数据,支持AI和AR研究。 提供3D轨迹、场景点云等机器感知数据。

🔗 http://projectaria.com/datasets/aea/

🔗 2402.13349.pdf

🔗 https://x.com/xiaohuggg/status/1760668941377265889...

3⃣️ 🎬剪影海外版 CapCut 新功能: 文本生成视频,支持多种比例。 体验尚可,清晰度有待提高。

🔗 https://x.com/xiaohuggg/status/1760630118656205305...

4⃣️ 📹Stable Video 官网上线: 图片和文字提示生成高质量视频。 日赠150积分,支持多种充值选项。

🔗 Stable Video | Generate Videos with AI

🔗 https://x.com/xiaohuggg/status/1760608404236881934...

5⃣️ 🤖UMI 数据收集与学习框架: 斯坦福开发,支持跨平台部署。 直接转移人类操作技能至机器人。

🔗 https://umi-gripper.github.io

🔗 https://x.com/xiaohuggg/status/1760583349150822804...

6⃣️ 🌪️SDXL-Lightning 项目: 一步生成高分辨率图像。 由字节跳动开发,提高生成速度。

🔗 https://x.com/xiaohuggg/status/1760191358298710370...

7⃣️ 🚫李一舟 AI 课程下架: 小程序被封。

🔗 https://x.com/xiaohuggg/status/1760556527537307721...

8⃣️ 💥微软 LongRoPE 挑战 Gemini 1.5: 扩展 LLM 上下文窗口至200万令牌。 仅需最多1000步微调。

🔗 https://x.com/xiaohuggg/status/1760547784879722538...

9⃣️ 🌐动漫化 Chrome 插件测试: 网页图片一键「动漫化」。 即将发布。

🔗 https://x.com/xiaohuggg/status/1760543789272494269...

🔟 🤝Reddit 与谷歌达成协议: 授权内容用于训练 AI 模型。 交易金额约每年6000万美元。

🔗 https://x.com/xiaohuggg/status/1760536254247313458...

1⃣1⃣️ 📊HeyGen 商业化案例: WiseTech Global 使用制作多语言视频。 AI 生成,口型匹配准确。

🔗 https://x.com/xiaohuggg/status/1760531538188665320...

1⃣2⃣️ 🔍Gemini 1.5 Pro 分析示例: 精确回答视频中的复杂问题。 展现高度理解和分析能力。

🔗 https://x.com/xiaohuggg/status/1760518860967657567...

1⃣3⃣️ 🔐iMessage 后量子加密协议 PQ3: 苹果宣布增加最强安全性。 防御量子攻击,实现3级安全标准。

🔗 https://x.com/xiaohuggg/status/1760501771108245820...

1⃣4⃣️ 🖥️Ollama 支持 Gemma 模型: 可下载安装运行。 文件大小1.4G。

🔗 gemma

🔗 https://x.com/xiaohuggg/status/1760499217100136924...

1⃣5⃣️ 💹英伟达财报公布: 第四季度营收和利润创纪录。 强调加速计算和AI的引爆点。

🔗 https://x.com/xiaohuggg/status/1760495335972163865...

· 2 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🔍 Google 推出Gemma模型: 轻量级、开源,适用于多种设备。 Gemma家族包括2B和7B两种尺寸,性能卓越。 技术上与Gemini共享,安全且负责任。

🔗 详细:https://dpmd.ai/3UJu1Y1

🔗 访问:http://ai.google.dev/gemma

🔗 https://x.com/xiaohuggg/status/1760312395078205746...

2⃣️ 👨🏫 蒋路加入字节TikTok: Google VideoPoet项目Research Lead,CMU兼职教授。 VideoPoet是Google的竞争项目。

🔗 https://scholar.google.com/citations?user=jIKjjSYA...

🔗 https://x.com/xiaohuggg/status/1760204483785814355...

3⃣️ 🧠 Neuralink人体试验更新: 首位脑机接口人体试验患者进展良好。 无神经不良影响,能通过思考控制鼠标。

🔗 https://x.com/xiaohuggg/status/1760198564658180525...

4⃣️ 🖼️ SDXL-Lightning项目: 字节跳动开发,优化扩散模型。 一步/少步生成1024px分辨率图像。 结合渐进式蒸馏和对抗式蒸馏。

🔗 模型:https://huggingface.co/ByteDance/SDXL-Lightning

🔗 https://x.com/xiaohuggg/status/1760191358298710370...

5⃣️ 🎯 YOLOv8目标检测跟踪模型: 快速准确的多对象识别和定位。 支持实例分割、人体姿态估计等。 多平台兼容,一站式视觉识别解决方案。

🔗 详细介绍:https://docs.ultralytics.com/models/

🔗 GitHub:GitHub - ultralytics/ultralytics: NEW - YOLOv8 🚀 i...

🔗 https://x.com/xiaohuggg/status/1760149057249636570...

6⃣️ 🎥 Sora工作原理解析: 结合扩散模型和Transformer架构。 采用空间时间补丁和时空立方体。 利用知识图谱组合视频,显示巨大潜力。

🔗 https://x.com/xiaohuggg/status/1760139842783248609...

7⃣️ 🚀 OpenAI技术人员的一天...

🔗 https://x.com/xiaohuggg/status/1760130189932265553...

· 2 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🔊 PixelPlayer:MIT研究团队的创新 自动识别并分离视频中的声音源,匹配画面位置。 为音视频编辑提供强大工具:独立调整音量、去除或增强特定声音源。 核心功能:声音源分离、声音定位、多声音源处理。

🔗 The Sound of Pixels

🔗 [1804.03160] The Sound of Pixels

🔗 https://x.com/xiaohuggg/status/1759916778229268874...

2⃣️ 👗 OOTDiffusion:高度可控的虚拟服装试穿工具 高质量服装图像生成与融合,支持半身和全身模型。 可控试穿参数,自然融合与逼真效果。 开源项目,支持在线测试。

🔗 GitHub - levihsu/OOTDiffusion: Official implementa...

🔗 https://ootd.ibot.cn

🔗 https://x.com/xiaohuggg/status/1759876272505942462...

3⃣️ 🔄 AnyGPT:跨模态大语言模型 从任意模态到任意多模态的理解与生成。 支持文本、图像、视频、音频等模态输入和输出。 采用离散表示法处理不同模态数据。

🔗 AnyGPT

🔗 https://arxiv.org/pdf/2309.05519.pdf

🔗 https://x.com/xiaohuggg/status/1759823372891090990...

4⃣️ 💬 利用Groq实现实时AI对话 结合Llama-70B模型与Whisper模型,实现几乎零延迟性能。 展望:GPT 4或GPT 5可能实现的秒级写作和AI实时通话。

🔗 Groq

🔗 https://x.com/xiaohuggg/status/1759780187074646164...

· 3 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🌍Large World Model (LWM) 探索: 介绍了百万Token的通用世界大模型,旨在理解长视频和超长文本。 LWM在100万个令牌的上下文中超越GPT-4V和Gemini Pro的检索精度。 特色能力包括长视频理解、高精度事实检索和多格式内容生成。

🔗 Large World Models

🔗 GitHub - LargeWorldModel/LWM

🔗 https://x.com/xiaohuggg/status/1759566391693504940...

2⃣️ ⚡世界上最快的大型语言模型(LLM) Mixtral 8X7B 500 token/s的输出速度 Llama 2 7B的速度是750 tokens/s 速度快但准确性有待提高。

🔗 Groq

🔗 Accelerating Systems with Real-time AI Solutions -...

🔗 https://x.com/xiaohuggg/status/1759457147962941852...

3⃣️ 🎨Reddit用户自制GLIGEN GUI: 由于缺少直观的GUI,一个Reddit大佬自己动手制作了一个。 用户可以自定义图像中对象的大小、位置和空间关系。 强调了用户对生成图像细节的控制能力。

🔗 GitHub - mut-ex/gligen-gui: An intuitive GUI for G...

🔗 https://gligen.github.io

🔗 https://x.com/xiaohuggg/status/1759431911951450437...

4⃣️ 🎥马斯克揭示特斯拉视频生成技术: 马斯克展示了特斯拉一年前掌握的生成真实世界视频技术。 讨论了特斯拉和OpenAI在视频生成领域的努力及成果。 特斯拉生成视频的独特之处在于其“动态生成世界”的能力。

🔗 https://x.com/xiaohuggg/status/1759420372355805430...

5⃣️ 🔬ChatCell:单细胞分析的自然语言界面: ChatCell通过自然语言简化单细胞分析过程,无需编程或专业知识。 支持细胞类型注释、药物敏感性预测等多种分析任务。 强调了单细胞生物学的研究重要性和挑战。

🔗 https://zjukg.org/project/ChatCell/

🔗 [2402.08303] ChatCell: Facilitating Single-Cell An...

🔗 https://x.com/xiaohuggg/status/1759413341909598348...

· 2 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🔍MetaSo体验: 针对中国用户的AI 搜索产品。 提供问题答案、大纲、思维导图、时间线和信息来源。 目前仅支持中文,准确性良好。

🔗 秘塔AI搜索

🔗 https://x.com/xiaohuggg/status/1759223733871640753...

2⃣️ 🎮Sora制作的超高分辨率的Minecraft视频 创造8K分辨率的Minecraft视频,细腻逼真。 实现视频融合技术,如Minecraft与摩托车视频合成。

🔗 https://x.com/xiaohuggg/status/1759171722862002209...

3⃣️ 💾Google开源Magika: AI驱动的文件类型识别系统,识别100+文件类型。 用于增强Gmail、Drive等的安全性。

🔗 magika - npm

🔗 https://x.com/xiaohuggg/status/1759165024642474133...

4⃣️ 🖥️UFO:微软的Windows UI代理: 通过自然语言和视觉内容执行复杂任务。 结合GPT 4-V,理解和操作Windows GUI。

🔗 GitHub - microsoft/UFO: A UI-Focused Agent for Win...

🔗 [2402.07939] UFO: A UI-Focused Agent for Windows O...

🔗 https://x.com/xiaohuggg/status/1759088453135061072...

5⃣️ 🧬DoRA—模型微调创新: 在LoRA基础上发展,通过权重的“幅度”和“方向”分解微调。 提供精细控制学习过程,优化微调策略。

🔗 [2402.09353] DoRA: Weight-Decomposed Low-Rank Adap...

🔗 GitHub - catid/dora: Implementation of DoRA

🔗 https://x.com/xiaohuggg/status/1759063587363115083...

6⃣️ 📹Sora技术展示—多视角视频生成: 一个单独的视频里就包含了五个不同的视角 不需要人工编辑的情况下,自主决定展示多个视角

🔗 https://x.com/xiaohuggg/status/1759025340738159019...

· 2 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🔬Sora的核心技术和发展:

  • 2022年12月提出
  • 作者一个在Meta AI,一个在OpenAI
  • 核心技术源自Diffusion Transformers(DiT)。
  • 结合了VAE、ViT、DDPM技术,优化视频生成。
  • 强调了模型的简单性、可扩展性和视频压缩能力。

🔗 https://wpeebles.com/DiT

🔗 https://arxiv.org/abs/2212.09748

🔗 https://github.com/facebookresearch/DiT

🔗 https://x.com/xiaohuggg/status/1758849579855040920?s=20

2⃣️ ✍️GhostWriter:个性化的AI写作工具:

  • 由哈佛大学和微软研究院共同开发,基于ChatGPT。
  • 学习和应用用户的写作风格,提供个性化文本生成。
  • 经研究证实,提升了用户的满意度和参与度。

🔗 https://arxiv.org/abs/2402.08855

🔗 https://x.com/xiaohuggg/status/1758704157014569178?s=20

3⃣️ 📖ReadAgent:Google开发的阅读代理:

  • 模仿人类阅读方式,处理长文本。
  • 采用忘记具体信息但保留要点的策略,提高理解效率。

🔗 https://read-agent.github.io

🔗 https://x.com/xiaohuggg/status/1758700080394285453?s=20

· 3 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🖼️ Sora图像生成能力: Sora能生成图像,虽不及Midjourney,但优于Dalle 3。

🔗 https://x.com/xiaohuggg/status/1758491331272622202...

2⃣️ 💻 Reor:AI开源桌面笔记应用: 作为个人知识管理工具,构建“第二大脑”。 自动组织连接想法,支持检索式问答。 链接笔记与思想,提高问答和编辑效率。

下载地址:Reor

GitHub链接:GitHub - reorproject/reor: AI note-taking app that...

🔗 https://x.com/xiaohuggg/status/1758468281319792659...

3⃣️ 🚀 Google Gemini Pro 1.5 更新: 高度复杂的跨模态理解与推理。 分析无声电影,识别特定场景。 超越GPT 4的能力。

🔗 https://x.com/xiaohuggg/status/1758394427238912138...

Sherlock Jr. (1924) 视频:https://youtube.com/watch?v=rOVtjJkqtiA

4⃣️ 🎥 OpenAI发布文本转视频模型Sora: 生成长达60秒的高清视频。 视频展示详细场景、复杂动作和丰富情感。 旨在理解模拟动态物理世界。

🔗 https://x.com/xiaohuggg/status/1758286500964577514...

5⃣️ 🎮 Sora在视频游戏模拟中的能力: 零次学习控制“Minecraft”中的角色。 展示高级视频内容理解与生成。 模拟复杂交互和动态环境的潜力。

🔗 https://x.com/xiaohuggg/status/1758332220706828544...

6⃣️ 📺 OpenAI视频模型Sora技术报告: 视频生成模型作为世界模拟器。 支持不同宽高比的视频生成。 展示3D一致性、长期一致性等能力。

完整报告:Video generation models as world simulators

🔗 https://x.com/xiaohuggg/status/1758316094828511718...

7⃣️ 🔍 Meta推出V-JEPA: 自学习模拟物理世界。 不需人类监督或视频数据集标记。 预测视频内容,提高训练效率。

详细信息:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-mode...

GitHub链接:GitHub - facebookresearch/jepa: PyTorch code and m...

🔗 https://x.com/xiaohuggg/status/1758310386728927724...

· 3 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🎨 ConsiStory:无需额外训练的连续一致图像生成工具。 根据多个文本提示生成一致主题与布局多样的图像系列。 类似于一键生成一组风格一致的漫画不同场景。

项目及演示:ConsiStory

论文:[2402.03286] Training-Free Consistent Text-to-Imag...

🔗 https://x.com/xiaohuggg/status/1758131675094274089...

2⃣️ 🤖 Vicarious:创新的腹部手术机器人。 通过1.5厘米小切口完成手术,减少伤害和恢复时间。 28个传感器装备的机器人手臂模仿医生上半身动作,提供360度3D视野。

官网:http://vicarioussurgical.com

🔗 https://x.com/xiaohuggg/status/1758062271409053935...

3⃣️ 📜 美国专利商标局(USPTO):AI不能作为专利发明者。 明确只有真人可申请专利,强调人类创造性和智慧的重要性。 提供AI在发明过程中的角色示例,明确什么情况下的发明可获专利资格。

🔗 Only real people, not AI, can patent inventions, U...

🔗 https://x.com/xiaohuggg/status/1758056275219567020...

4⃣️ 🔍 Lumos:端到端多模态问答系统。 利用STR技术从复杂场景图像中准确提取文本。 整合图像理解与语言处理,准确回答基于图像的查询。

论文:[2402.08017] Lumos : Empowering Multimodal LLMs wi...

🔗 https://x.com/xiaohuggg/status/1758028721486021055...

5⃣️ 🧬 GeneGPT:NCBI开发的生物医学专业知识处理工具。 改进大语言模型对生物医学知识的处理能力。 支持基因组DNA比对、蛋白编码基因识别等任务。

论文:[2304.09667] GeneGPT: Augmenting Large Language Mo...

GitHub:GitHub - ncbi/GeneGPT: Code and data for GeneGPT.

🔗 https://x.com/xiaohuggg/status/1758012243529330923...

6⃣️ 👩🔬 FaceFusion 2.3.0:高精度面部识别技术更新。 68点面部标记模型提升口型同步效果。 优化算法处理面部边缘,增强稳定性和准确性。 68点转5点简化模型,提高面部识别效率。

GitHub:GitHub - facefusion/facefusion: Next generation fa...

🔗 https://x.com/xiaohuggg/status/1757998515308106186...

7⃣️ 🗣️ WhisperKit v0.2:让Whisper运行在Apple Watch。 更高效,资源占用更少,优化语音识别处理。

GitHub:GitHub - argmaxinc/WhisperKit: Swift native on-dev...

模型:https://huggingface.co/argmaxinc/whisperkit-coreml

🔗 https://x.com/xiaohuggg/status/1757955251293082061...

· 3 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🤖OS-Copilot:智能代理框架 与操作系统交互完成广泛复杂任务。 自我学习和改进,处理文件管理、数据处理等。 FRIDAY代理:从图片、视频或文本中学习执行计算机任务。

🔗 SOCIAL MEDIA TITLE TAG

🔗 [2402.07456] OS-Copilot: Towards Generalist Comput...

🔗 https://x.com/xiaohuggg/status/1757769869637132381...

2⃣️ 🎬Boximator:视频控制技术 通过双重盒子约束控制视频中对象位置、形状或运动路径。 硬盒子用于精确定位,软盒子控制自由移动。

🔗 Boximator: Generating Rich and Controllable Motion...

🔗 [2402.01566] Boximator: Generating Rich and Contro...

🔗 https://x.com/xiaohuggg/status/1757620469069656265...

3⃣️ 📉奥特曼CEO的态度转变 自从上次CEO风波后,开始故意降低对公司未来的预期。 不再过度夸大。

🔗 https://x.com/xiaohuggg/status/1757596275451781452...

4⃣️ 🗣️Elevenlabs Speech to Speech 提供29种语言版本的语音到语音变换。 高保真重现每一个声音细节,创建自定义AI声音。

🔗 Voice Changer: Use AI To Change Your Voice For Fre...

🔗 https://x.com/xiaohuggg/status/1757593879468294424...

5⃣️ 💬ChatGPT永久记忆功能上线 跨聊天记忆用户信息,提供更相关个性化回答。 用户控制记忆内容,隐私和安全考虑。 GPTs也将拥有记忆功能。

🔗 Memory and new controls for ChatGPT

🔗 https://x.com/xiaohuggg/status/1757582626372935696...

6⃣️ 💻NVIDIA Chat With RTX:本地模型 连接个人内容,获得上下文相关答案。 利用RAG、TensorRT-LLM和RTX加速技术。 专为搭载NVIDIA RTX显卡的Windows系统设计。

🔗 NVIDIA Chat With RTX

🔗 https://x.com/xiaohuggg/status/1757574748324979146...

· 3 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🎨 Stable Cascade 图像生成模型: 引入“三阶段方法”提升图片生成质量与灵活性。 训练成本比SD模型低16倍,减少对高端硬件需求。 支持根据需求选择不同大小的模型,提升用户体验。

🔗 https://x.com/xiaohuggg/status/1757431125579047408...

2⃣️ 📈 NVIDIA 成为全球市值第四大公司: 市值超过亚马逊和谷歌,达到1.831万亿美元。 2024年初6周内市值增加6500亿美元,超特斯拉公司市值。 全球市值排名更新,微软、苹果、沙特阿美领先。

🔗 https://x.com/xiaohuggg/status/1757388396996280482...

3⃣️ 📝 notesGPT 语音笔记工具: 自动转录语音为文本,生成内容总结和行动项。 100%免费开源,支持广泛技术栈如Convex、Next.js等。 提高笔记效率和任务规划。

在线体验:notesGPT - Take notes with your voice

🔗 https://x.com/xiaohuggg/status/1757355823460991485...

4⃣️ 🎙️ ElevenLabs 声音分享平台: 允许用户创建、分享AI声音并赚取收入。 提供高级选项,包括合作创建高质量默认声音。 加强个人品牌影响力,设置价格和使用参数。 详细:Voice Actor Payouts | ElevenLabs

🔗 https://x.com/xiaohuggg/status/1757240458944844074...

5⃣️ 💡 Azure OpenAI Service 新功能: Assistants API 公开预览,支持持久化和无限长的对话线程。 新的文本到语音功能,即将推出GPT-4 Turbo和GPT-3.5 Turbo模型。 简化对话状态管理,提升AI助手体验。

详细:https://msft.it/6019ihVTb

🔗 https://x.com/xiaohuggg/status/1757231958088949810...

6⃣️ 🖼️ Keyframer 动画工具: 苹果开发,利用LLMs将静态SVG图像转换成动画。 支持通过文字描述来生成CSS动画代码。 为设计师提供更灵活的动画创作工具。

论文:[2402.06071] Keyframer: Empowering Animation Desig...

🔗 https://x.com/xiaohuggg/status/1757225933138952546...