Skip to main content

2 posts tagged with "WhisperKit"

View All Tags

· 3 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🎨 ConsiStory:无需额外训练的连续一致图像生成工具。 根据多个文本提示生成一致主题与布局多样的图像系列。 类似于一键生成一组风格一致的漫画不同场景。

项目及演示:ConsiStory

论文:[2402.03286] Training-Free Consistent Text-to-Imag...

🔗 https://x.com/xiaohuggg/status/1758131675094274089...

2⃣️ 🤖 Vicarious:创新的腹部手术机器人。 通过1.5厘米小切口完成手术,减少伤害和恢复时间。 28个传感器装备的机器人手臂模仿医生上半身动作,提供360度3D视野。

官网:http://vicarioussurgical.com

🔗 https://x.com/xiaohuggg/status/1758062271409053935...

3⃣️ 📜 美国专利商标局(USPTO):AI不能作为专利发明者。 明确只有真人可申请专利,强调人类创造性和智慧的重要性。 提供AI在发明过程中的角色示例,明确什么情况下的发明可获专利资格。

🔗 Only real people, not AI, can patent inventions, U...

🔗 https://x.com/xiaohuggg/status/1758056275219567020...

4⃣️ 🔍 Lumos:端到端多模态问答系统。 利用STR技术从复杂场景图像中准确提取文本。 整合图像理解与语言处理,准确回答基于图像的查询。

论文:[2402.08017] Lumos : Empowering Multimodal LLMs wi...

🔗 https://x.com/xiaohuggg/status/1758028721486021055...

5⃣️ 🧬 GeneGPT:NCBI开发的生物医学专业知识处理工具。 改进大语言模型对生物医学知识的处理能力。 支持基因组DNA比对、蛋白编码基因识别等任务。

论文:[2304.09667] GeneGPT: Augmenting Large Language Mo...

GitHub:GitHub - ncbi/GeneGPT: Code and data for GeneGPT.

🔗 https://x.com/xiaohuggg/status/1758012243529330923...

6⃣️ 👩🔬 FaceFusion 2.3.0:高精度面部识别技术更新。 68点面部标记模型提升口型同步效果。 优化算法处理面部边缘,增强稳定性和准确性。 68点转5点简化模型,提高面部识别效率。

GitHub:GitHub - facefusion/facefusion: Next generation fa...

🔗 https://x.com/xiaohuggg/status/1757998515308106186...

7⃣️ 🗣️ WhisperKit v0.2:让Whisper运行在Apple Watch。 更高效,资源占用更少,优化语音识别处理。

GitHub:GitHub - argmaxinc/WhisperKit: Swift native on-dev...

模型:https://huggingface.co/argmaxinc/whisperkit-coreml

🔗 https://x.com/xiaohuggg/status/1757955251293082061...

· 3 min read
AIBrain

🤯神秘人工智能链接🤯

(神秘链接可以指向任何与人工智能相关的内容。工具、模因、文章、视频等等……)

神秘按钮

✨✨✨✨✨✨✨✨

1⃣️ 🤖 微软和OpenAI对人形机器人的巨额投资:

  • 投资1亿美元于人形机器人公司Figure。
  • Figure 01展示了自主煮咖啡等能力。
  • 公司估值可能达到19亿美元。

🔗 https://x.com/xiaohuggg/status/1752673475058393116?s=20

2⃣️ 🔌 @MultiOn_AI:一个多功能AI代理:

  • 使用GPT进行网络操作,如订票和订餐。
  • 能自动安排Google会议和发推文。

🔗 https://x.com/xiaohuggg/status/1752617872931930435?s=20

3⃣️ 🏝️ 安圭拉岛:AI热潮带来的意外收益:

  • 通过“.ai”域名销售增长四倍。
  • 每月约300万美元收入用于偿还债务和取消税收。

🔗 https://spectrum.ieee.org/ai-domains

🔗 https://x.com/xiaohuggg/status/1752609992228897051?s=20

4⃣️ 🛒 使用Apple Vision Pro购买Cybertruck的新体验:

  • 展示了一种全新的线上购物体验。
  • 使用户足不出户即可感受购物震撼。

🔗 https://x.com/xiaohuggg/status/1752591353807303006?s=20

5⃣️ 🗣️ WhisperKit:实时语音推理转录Swift软件包:

  • 易于部署和实时语音转录。
  • 支持流式转录和性能优化。
  • 开源模型支持,便于更新和部署。

🔗 https://takeargmax.com/blog/whisperkit

🔗 https://x.com/xiaohuggg/status/1752545423074717859?s=20

6⃣️ 📱 MobileAgent:阿里巴巴的多模态AI代理:

  • 通过纯视觉解决方案模拟人类操作手机。
  • 无需系统代码,能完成多种任务。
  • 特点包括无需预训练,即插即用。

🔗 https://github.com/X-PLUG/MobileAgent

🔗 https://arxiv.org/abs/2401.16158

🔗 https://x.com/xiaohuggg/status/1752531832288231548?s=20

7⃣️ 🚶 马斯克展示擎天柱机器人的进步:

  • 步态更趋于人类,速度提升。
  • 展示第三代改进版本的测试。

🔗 https://x.com/xiaohuggg/status/1752523683586101663?s=20

8⃣️ 🧮 AutoMathText:200GB的数学文本数据集:

  • 适用于数学推理和生成模型。
  • 包含一个 200GB 的数学文本数据集
  • 以及一个200万个数学问题和答案的集合数据集

🔗 https://huggingface.co/datasets/math-ai/AutoMathText

🔗 https://x.com/xiaohuggg/status/1752511801391268208?s=20