Blog | AIBrain

AIBrain日报-2024.02.22

February 22, 2024 · 3 min read

AIBrain

aibrain.wiki日报

🤯神秘人工智能链接🤯

（神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……）

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🔍Stability AI 发布 Stable Diffusion 3：采用新型扩散变换架构，提高性能。引入新型扩散变换技术，增强图像生成能力。集成流匹配技术，提升图像质量和多样性。

🔗 https://bit.ly/3OR2qQF

🔗 https://x.com/xiaohuggg/status/1760673218665537846...

2⃣️ 👓AEA 数据集发布：基于 Project Aria AR眼镜，记录日常活动。包含多模态传感器数据，支持AI和AR研究。提供3D轨迹、场景点云等机器感知数据。

🔗 http://projectaria.com/datasets/aea/

🔗 2402.13349.pdf

🔗 https://x.com/xiaohuggg/status/1760668941377265889...

3⃣️ 🎬剪影海外版 CapCut 新功能：文本生成视频，支持多种比例。体验尚可，清晰度有待提高。

🔗 https://x.com/xiaohuggg/status/1760630118656205305...

4⃣️ 📹Stable Video 官网上线：图片和文字提示生成高质量视频。日赠150积分，支持多种充值选项。

🔗 Stable Video | Generate Videos with AI

🔗 https://x.com/xiaohuggg/status/1760608404236881934...

5⃣️ 🤖UMI 数据收集与学习框架：斯坦福开发，支持跨平台部署。直接转移人类操作技能至机器人。

🔗 https://umi-gripper.github.io

🔗 https://x.com/xiaohuggg/status/1760583349150822804...

6⃣️ 🌪️SDXL-Lightning 项目：一步生成高分辨率图像。由字节跳动开发，提高生成速度。

🔗 https://x.com/xiaohuggg/status/1760191358298710370...

7⃣️ 🚫李一舟 AI 课程下架：小程序被封。

🔗 https://x.com/xiaohuggg/status/1760556527537307721...

8⃣️ 💥微软 LongRoPE 挑战 Gemini 1.5：扩展 LLM 上下文窗口至200万令牌。仅需最多1000步微调。

🔗 https://x.com/xiaohuggg/status/1760547784879722538...

9⃣️ 🌐动漫化 Chrome 插件测试：网页图片一键「动漫化」。即将发布。

🔗 https://x.com/xiaohuggg/status/1760543789272494269...

🔟 🤝Reddit 与谷歌达成协议：授权内容用于训练 AI 模型。交易金额约每年6000万美元。

🔗 https://x.com/xiaohuggg/status/1760536254247313458...

1⃣1⃣️ 📊HeyGen 商业化案例： WiseTech Global 使用制作多语言视频。 AI 生成，口型匹配准确。

🔗 https://x.com/xiaohuggg/status/1760531538188665320...

1⃣2⃣️ 🔍Gemini 1.5 Pro 分析示例：精确回答视频中的复杂问题。展现高度理解和分析能力。

🔗 https://x.com/xiaohuggg/status/1760518860967657567...

1⃣3⃣️ 🔐iMessage 后量子加密协议 PQ3：苹果宣布增加最强安全性。防御量子攻击，实现3级安全标准。

🔗 https://x.com/xiaohuggg/status/1760501771108245820...

1⃣4⃣️ 🖥️Ollama 支持 Gemma 模型：可下载安装运行。文件大小1.4G。

🔗 gemma

🔗 https://x.com/xiaohuggg/status/1760499217100136924...

1⃣5⃣️ 💹英伟达财报公布：第四季度营收和利润创纪录。强调加速计算和AI的引爆点。

🔗 https://x.com/xiaohuggg/status/1760495335972163865...

AIBrain日报-2024.02.21

February 21, 2024 · 2 min read

AIBrain

aibrain.wiki日报

🤯神秘人工智能链接🤯

（神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……）

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🔍 Google 推出Gemma模型：轻量级、开源，适用于多种设备。 Gemma家族包括2B和7B两种尺寸，性能卓越。技术上与Gemini共享，安全且负责任。

🔗 详细：https://dpmd.ai/3UJu1Y1

🔗 访问：http://ai.google.dev/gemma

🔗 https://x.com/xiaohuggg/status/1760312395078205746...

2⃣️ 👨🏫 蒋路加入字节TikTok： Google VideoPoet项目Research Lead，CMU兼职教授。 VideoPoet是Google的竞争项目。

🔗 https://scholar.google.com/citations?user=jIKjjSYA...

🔗 https://x.com/xiaohuggg/status/1760204483785814355...

3⃣️ 🧠 Neuralink人体试验更新：首位脑机接口人体试验患者进展良好。无神经不良影响，能通过思考控制鼠标。

🔗 https://x.com/xiaohuggg/status/1760198564658180525...

4⃣️ 🖼️ SDXL-Lightning项目：字节跳动开发，优化扩散模型。一步/少步生成1024px分辨率图像。结合渐进式蒸馏和对抗式蒸馏。

🔗 模型：https://huggingface.co/ByteDance/SDXL-Lightning

🔗 https://x.com/xiaohuggg/status/1760191358298710370...

5⃣️ 🎯 YOLOv8目标检测跟踪模型：快速准确的多对象识别和定位。支持实例分割、人体姿态估计等。多平台兼容，一站式视觉识别解决方案。

🔗 详细介绍：https://docs.ultralytics.com/models/

🔗 GitHub：GitHub - ultralytics/ultralytics: NEW - YOLOv8 🚀 i...

🔗 https://x.com/xiaohuggg/status/1760149057249636570...

6⃣️ 🎥 Sora工作原理解析：结合扩散模型和Transformer架构。采用空间时间补丁和时空立方体。利用知识图谱组合视频，显示巨大潜力。

🔗 https://x.com/xiaohuggg/status/1760139842783248609...

7⃣️ 🚀 OpenAI技术人员的一天...

🔗 https://x.com/xiaohuggg/status/1760130189932265553...

AIBrain日报-2024.02.20

February 20, 2024 · 2 min read

AIBrain

aibrain.wiki日报

🤯神秘人工智能链接🤯

（神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……）

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🔊 PixelPlayer：MIT研究团队的创新自动识别并分离视频中的声音源，匹配画面位置。为音视频编辑提供强大工具：独立调整音量、去除或增强特定声音源。核心功能：声音源分离、声音定位、多声音源处理。

🔗 The Sound of Pixels

🔗 [1804.03160] The Sound of Pixels

🔗 https://x.com/xiaohuggg/status/1759916778229268874...

2⃣️ 👗 OOTDiffusion：高度可控的虚拟服装试穿工具高质量服装图像生成与融合，支持半身和全身模型。可控试穿参数，自然融合与逼真效果。开源项目，支持在线测试。

🔗 GitHub - levihsu/OOTDiffusion: Official implementa...

🔗 https://ootd.ibot.cn

🔗 https://x.com/xiaohuggg/status/1759876272505942462...

3⃣️ 🔄 AnyGPT：跨模态大语言模型从任意模态到任意多模态的理解与生成。支持文本、图像、视频、音频等模态输入和输出。采用离散表示法处理不同模态数据。

🔗 AnyGPT

🔗 https://arxiv.org/pdf/2309.05519.pdf

🔗 https://x.com/xiaohuggg/status/1759823372891090990...

4⃣️ 💬 利用Groq实现实时AI对话结合Llama-70B模型与Whisper模型，实现几乎零延迟性能。展望：GPT 4或GPT 5可能实现的秒级写作和AI实时通话。

🔗 Groq

🔗 https://x.com/xiaohuggg/status/1759780187074646164...

AIBrain日报-2024.02.19

February 19, 2024 · 3 min read

AIBrain

aibrain.wiki日报

🤯神秘人工智能链接🤯

（神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……）

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🌍Large World Model (LWM) 探索：介绍了百万Token的通用世界大模型，旨在理解长视频和超长文本。 LWM在100万个令牌的上下文中超越GPT-4V和Gemini Pro的检索精度。特色能力包括长视频理解、高精度事实检索和多格式内容生成。

🔗 Large World Models

🔗 GitHub - LargeWorldModel/LWM

🔗 https://x.com/xiaohuggg/status/1759566391693504940...

2⃣️ ⚡世界上最快的大型语言模型(LLM) Mixtral 8X7B 500 token/s的输出速度 Llama 2 7B的速度是750 tokens/s 速度快但准确性有待提高。

🔗 Groq

🔗 Accelerating Systems with Real-time AI Solutions -...

🔗 https://x.com/xiaohuggg/status/1759457147962941852...

3⃣️ 🎨Reddit用户自制GLIGEN GUI：由于缺少直观的GUI，一个Reddit大佬自己动手制作了一个。用户可以自定义图像中对象的大小、位置和空间关系。强调了用户对生成图像细节的控制能力。

🔗 GitHub - mut-ex/gligen-gui: An intuitive GUI for G...

🔗 https://gligen.github.io

🔗 https://x.com/xiaohuggg/status/1759431911951450437...

4⃣️ 🎥马斯克揭示特斯拉视频生成技术：马斯克展示了特斯拉一年前掌握的生成真实世界视频技术。讨论了特斯拉和OpenAI在视频生成领域的努力及成果。特斯拉生成视频的独特之处在于其“动态生成世界”的能力。

🔗 https://x.com/xiaohuggg/status/1759420372355805430...

5⃣️ 🔬ChatCell：单细胞分析的自然语言界面： ChatCell通过自然语言简化单细胞分析过程，无需编程或专业知识。支持细胞类型注释、药物敏感性预测等多种分析任务。强调了单细胞生物学的研究重要性和挑战。

🔗 https://zjukg.org/project/ChatCell/

🔗 [2402.08303] ChatCell: Facilitating Single-Cell An...

🔗 https://x.com/xiaohuggg/status/1759413341909598348...

AIBrain日报-2024.02.18

February 18, 2024 · 2 min read

AIBrain

aibrain.wiki日报

🤯神秘人工智能链接🤯

（神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……）

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🔍MetaSo体验：针对中国用户的AI 搜索产品。提供问题答案、大纲、思维导图、时间线和信息来源。目前仅支持中文，准确性良好。

🔗 秘塔AI搜索

🔗 https://x.com/xiaohuggg/status/1759223733871640753...

2⃣️ 🎮Sora制作的超高分辨率的Minecraft视频创造8K分辨率的Minecraft视频，细腻逼真。实现视频融合技术，如Minecraft与摩托车视频合成。

🔗 https://x.com/xiaohuggg/status/1759171722862002209...

3⃣️ 💾Google开源Magika： AI驱动的文件类型识别系统，识别100+文件类型。用于增强Gmail、Drive等的安全性。

🔗 magika - npm

🔗 https://x.com/xiaohuggg/status/1759165024642474133...

4⃣️ 🖥️UFO：微软的Windows UI代理：通过自然语言和视觉内容执行复杂任务。结合GPT 4-V，理解和操作Windows GUI。

🔗 GitHub - microsoft/UFO: A UI-Focused Agent for Win...

🔗 [2402.07939] UFO: A UI-Focused Agent for Windows O...

🔗 https://x.com/xiaohuggg/status/1759088453135061072...

5⃣️ 🧬DoRA—模型微调创新：在LoRA基础上发展，通过权重的“幅度”和“方向”分解微调。提供精细控制学习过程，优化微调策略。

🔗 [2402.09353] DoRA: Weight-Decomposed Low-Rank Adap...

🔗 GitHub - catid/dora: Implementation of DoRA

🔗 https://x.com/xiaohuggg/status/1759063587363115083...

6⃣️ 📹Sora技术展示—多视角视频生成：一个单独的视频里就包含了五个不同的视角不需要人工编辑的情况下，自主决定展示多个视角

🔗 https://x.com/xiaohuggg/status/1759025340738159019...

AIBrain日报-2024.02.17

February 17, 2024 · 2 min read

AIBrain

aibrain.wiki日报

🤯神秘人工智能链接🤯

（神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……）

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🔬Sora的核心技术和发展：

2022年12月提出
作者一个在Meta AI，一个在OpenAI
核心技术源自Diffusion Transformers（DiT）。
结合了VAE、ViT、DDPM技术，优化视频生成。
强调了模型的简单性、可扩展性和视频压缩能力。

🔗 https://wpeebles.com/DiT

🔗 https://arxiv.org/abs/2212.09748

🔗 https://github.com/facebookresearch/DiT

🔗 https://x.com/xiaohuggg/status/1758849579855040920?s=20

2⃣️ ✍️GhostWriter：个性化的AI写作工具：

由哈佛大学和微软研究院共同开发，基于ChatGPT。
学习和应用用户的写作风格，提供个性化文本生成。
经研究证实，提升了用户的满意度和参与度。

🔗 https://arxiv.org/abs/2402.08855

🔗 https://x.com/xiaohuggg/status/1758704157014569178?s=20

3⃣️ 📖ReadAgent：Google开发的阅读代理：

模仿人类阅读方式，处理长文本。
采用忘记具体信息但保留要点的策略，提高理解效率。

🔗 https://read-agent.github.io

🔗 https://x.com/xiaohuggg/status/1758700080394285453?s=20

AIBrain日报-2024.02.16

February 16, 2024 · 3 min read

AIBrain

aibrain.wiki日报

🤯神秘人工智能链接🤯

（神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……）

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🖼️ Sora图像生成能力： Sora能生成图像，虽不及Midjourney，但优于Dalle 3。

🔗 https://x.com/xiaohuggg/status/1758491331272622202...

2⃣️ 💻 Reor：AI开源桌面笔记应用：作为个人知识管理工具，构建“第二大脑”。自动组织连接想法，支持检索式问答。链接笔记与思想，提高问答和编辑效率。

下载地址：Reor

GitHub链接：GitHub - reorproject/reor: AI note-taking app that...

🔗 https://x.com/xiaohuggg/status/1758468281319792659...

3⃣️ 🚀 Google Gemini Pro 1.5 更新：高度复杂的跨模态理解与推理。分析无声电影，识别特定场景。超越GPT 4的能力。

🔗 https://x.com/xiaohuggg/status/1758394427238912138...

Sherlock Jr. (1924) 视频：https://youtube.com/watch?v=rOVtjJkqtiA

4⃣️ 🎥 OpenAI发布文本转视频模型Sora：生成长达60秒的高清视频。视频展示详细场景、复杂动作和丰富情感。旨在理解模拟动态物理世界。

🔗 https://x.com/xiaohuggg/status/1758286500964577514...

5⃣️ 🎮 Sora在视频游戏模拟中的能力：零次学习控制“Minecraft”中的角色。展示高级视频内容理解与生成。模拟复杂交互和动态环境的潜力。

🔗 https://x.com/xiaohuggg/status/1758332220706828544...

6⃣️ 📺 OpenAI视频模型Sora技术报告：视频生成模型作为世界模拟器。支持不同宽高比的视频生成。展示3D一致性、长期一致性等能力。

完整报告：Video generation models as world simulators

🔗 https://x.com/xiaohuggg/status/1758316094828511718...

7⃣️ 🔍 Meta推出V-JEPA：自学习模拟物理世界。不需人类监督或视频数据集标记。预测视频内容，提高训练效率。

详细信息：https://ai.meta.com/blog/v-jepa-yann-lecun-ai-mode...

GitHub链接：GitHub - facebookresearch/jepa: PyTorch code and m...

🔗 https://x.com/xiaohuggg/status/1758310386728927724...

AIBrain日报-2024.02.15

February 15, 2024 · 3 min read

AIBrain

aibrain.wiki日报

🤯神秘人工智能链接🤯

（神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……）

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🎨 ConsiStory：无需额外训练的连续一致图像生成工具。根据多个文本提示生成一致主题与布局多样的图像系列。类似于一键生成一组风格一致的漫画不同场景。

项目及演示：ConsiStory

论文：[2402.03286] Training-Free Consistent Text-to-Imag...

🔗 https://x.com/xiaohuggg/status/1758131675094274089...

2⃣️ 🤖 Vicarious：创新的腹部手术机器人。通过1.5厘米小切口完成手术，减少伤害和恢复时间。 28个传感器装备的机器人手臂模仿医生上半身动作，提供360度3D视野。

官网：http://vicarioussurgical.com

🔗 https://x.com/xiaohuggg/status/1758062271409053935...

3⃣️ 📜 美国专利商标局（USPTO）：AI不能作为专利发明者。明确只有真人可申请专利，强调人类创造性和智慧的重要性。提供AI在发明过程中的角色示例，明确什么情况下的发明可获专利资格。

🔗 Only real people, not AI, can patent inventions, U...

🔗 https://x.com/xiaohuggg/status/1758056275219567020...

4⃣️ 🔍 Lumos：端到端多模态问答系统。利用STR技术从复杂场景图像中准确提取文本。整合图像理解与语言处理，准确回答基于图像的查询。

论文：[2402.08017] Lumos : Empowering Multimodal LLMs wi...

🔗 https://x.com/xiaohuggg/status/1758028721486021055...

5⃣️ 🧬 GeneGPT：NCBI开发的生物医学专业知识处理工具。改进大语言模型对生物医学知识的处理能力。支持基因组DNA比对、蛋白编码基因识别等任务。

论文：[2304.09667] GeneGPT: Augmenting Large Language Mo...

GitHub：GitHub - ncbi/GeneGPT: Code and data for GeneGPT.

🔗 https://x.com/xiaohuggg/status/1758012243529330923...

6⃣️ 👩🔬 FaceFusion 2.3.0：高精度面部识别技术更新。 68点面部标记模型提升口型同步效果。优化算法处理面部边缘，增强稳定性和准确性。 68点转5点简化模型，提高面部识别效率。

GitHub：GitHub - facefusion/facefusion: Next generation fa...

🔗 https://x.com/xiaohuggg/status/1757998515308106186...

7⃣️ 🗣️ WhisperKit v0.2：让Whisper运行在Apple Watch。更高效，资源占用更少，优化语音识别处理。

GitHub：GitHub - argmaxinc/WhisperKit: Swift native on-dev...

模型：https://huggingface.co/argmaxinc/whisperkit-coreml

🔗 https://x.com/xiaohuggg/status/1757955251293082061...

AIBrain日报-2024.02.14

February 14, 2024 · 3 min read

AIBrain

aibrain.wiki日报

🤯神秘人工智能链接🤯

（神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……）

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🤖OS-Copilot：智能代理框架与操作系统交互完成广泛复杂任务。自我学习和改进，处理文件管理、数据处理等。 FRIDAY代理：从图片、视频或文本中学习执行计算机任务。

🔗 SOCIAL MEDIA TITLE TAG

🔗 [2402.07456] OS-Copilot: Towards Generalist Comput...

🔗 https://x.com/xiaohuggg/status/1757769869637132381...

2⃣️ 🎬Boximator：视频控制技术通过双重盒子约束控制视频中对象位置、形状或运动路径。硬盒子用于精确定位，软盒子控制自由移动。

🔗 Boximator: Generating Rich and Controllable Motion...

🔗 [2402.01566] Boximator: Generating Rich and Contro...

🔗 https://x.com/xiaohuggg/status/1757620469069656265...

3⃣️ 📉奥特曼CEO的态度转变自从上次CEO风波后，开始故意降低对公司未来的预期。不再过度夸大。

🔗 https://x.com/xiaohuggg/status/1757596275451781452...

4⃣️ 🗣️Elevenlabs Speech to Speech 提供29种语言版本的语音到语音变换。高保真重现每一个声音细节，创建自定义AI声音。

🔗 Voice Changer: Use AI To Change Your Voice For Fre...

🔗 https://x.com/xiaohuggg/status/1757593879468294424...

5⃣️ 💬ChatGPT永久记忆功能上线跨聊天记忆用户信息，提供更相关个性化回答。用户控制记忆内容，隐私和安全考虑。 GPTs也将拥有记忆功能。

🔗 Memory and new controls for ChatGPT

🔗 https://x.com/xiaohuggg/status/1757582626372935696...

6⃣️ 💻NVIDIA Chat With RTX：本地模型连接个人内容，获得上下文相关答案。利用RAG、TensorRT-LLM和RTX加速技术。专为搭载NVIDIA RTX显卡的Windows系统设计。

🔗 NVIDIA Chat With RTX

🔗 https://x.com/xiaohuggg/status/1757574748324979146...

AIBrain日报-2024.02.13

February 13, 2024 · 3 min read

AIBrain

aibrain.wiki日报

🤯神秘人工智能链接🤯

（神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……）

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🎨 Stable Cascade 图像生成模型：引入“三阶段方法”提升图片生成质量与灵活性。训练成本比SD模型低16倍，减少对高端硬件需求。支持根据需求选择不同大小的模型，提升用户体验。

🔗 https://x.com/xiaohuggg/status/1757431125579047408...

2⃣️ 📈 NVIDIA 成为全球市值第四大公司：市值超过亚马逊和谷歌，达到1.831万亿美元。 2024年初6周内市值增加6500亿美元，超特斯拉公司市值。全球市值排名更新，微软、苹果、沙特阿美领先。

🔗 https://x.com/xiaohuggg/status/1757388396996280482...

3⃣️ 📝 notesGPT 语音笔记工具：自动转录语音为文本，生成内容总结和行动项。 100%免费开源，支持广泛技术栈如Convex、Next.js等。提高笔记效率和任务规划。

在线体验：notesGPT - Take notes with your voice

🔗 https://x.com/xiaohuggg/status/1757355823460991485...

4⃣️ 🎙️ ElevenLabs 声音分享平台：允许用户创建、分享AI声音并赚取收入。提供高级选项，包括合作创建高质量默认声音。加强个人品牌影响力，设置价格和使用参数。详细：Voice Actor Payouts | ElevenLabs

🔗 https://x.com/xiaohuggg/status/1757240458944844074...

5⃣️ 💡 Azure OpenAI Service 新功能： Assistants API 公开预览，支持持久化和无限长的对话线程。新的文本到语音功能，即将推出GPT-4 Turbo和GPT-3.5 Turbo模型。简化对话状态管理，提升AI助手体验。

详细：https://msft.it/6019ihVTb

🔗 https://x.com/xiaohuggg/status/1757231958088949810...

6⃣️ 🖼️ Keyframer 动画工具：苹果开发，利用LLMs将静态SVG图像转换成动画。支持通过文字描述来生成CSS动画代码。为设计师提供更灵活的动画创作工具。

论文：[2402.06071] Keyframer: Empowering Animation Desig...

🔗 https://x.com/xiaohuggg/status/1757225933138952546...