XiaoHu.AI日报

短链接直达：XiaoHu.AI

🙋

请关注小互的推特 𝕏：https://twitter.com/imxiaohu

每日大概晚上11点后在群里发送（群二维码在首页）

以下内容使用群友Arthur等的prompt最佳实践 # Role: 文字排版大师排版

小互是「互联网的那点事」微博博主，内容经本人授权

如果你想找某个项目可以用Control+F，快速定位

返回知识库首页waytoagi.com

8月21日

🍞

🔔Xiaohu.AI 日报「8 月 20 日」

✨✨✨✨✨✨✨✨

1⃣

🎥 Luma v1.5版本发布

更好的文本/图片到视频生成效果
Enhanced motion 改进或提升了运动效果
更好的文本理解能力
大幅提升图像生成质量

🔗 https://x.com/imxiaohu/status/1825724048808227266

2⃣

💻 Google Gemini API每天免费向开发者提供15亿个Token

Gemini 1.5 Flash免费套餐：每分钟15次请求，每分钟100万个Token，每天1500次请求
免费上下文缓存，每小时最多可存储100万个Token
提供免费微调服务

🔗 详细：https://ai.google.dev/pricing?hl=zh-cn

🔗 https://x.com/imxiaohu/status/1825738010077573460

3⃣

🎨 Procreate CEO：永远不会在其产品中引入任何生成式 AI

认为生成式 AI 削弱了人类创意和艺术家技能的价值
强调创造力应该是“创作出来的，而不是生成的”
生成式 AI 去除了艺术中的人性元素，这是创作过程的核心

🔗 详细：https://procreate.com/ai

🔗 https://x.com/imxiaohu/status/1825764698912075822

4⃣

📐 Qwen2-Math-Demo 放出，可以在线体验

支持通过文本输入数学问题进行询问
如果公式等文本输入困难，可以通过图像或截图输入

🔗 传送门：https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

🔗 https://x.com/imxiaohu/status/1825777037333901691

5⃣

🔬 研究人员使用Meta AI的SAM 2模型进行外科手术视频工具零样本分割

模型在未见过的视频或手术工具上，通过少量提示即可自动识别和分割手术工具
示例：在视频第一帧手动标记工具后，模型可处理后续帧

🔗 详细：https://xiaohu.ai/p/12627

🔗 https://x.com/imxiaohu/status/1825794143781900544

6⃣

🗣 消息：字节跳动豆包模型将展示语音模型和对话式 AI 实时交互能力

活动时间：8月21日14:30
将公布扣子专业版、HiAgent，以及围绕 AI 的云、数据等产品的最新进展

🔗 https://x.com/imxiaohu/status/1825809407680328151

7⃣

🖼 LivePortrait 的 Gradio 新增功能

图像驱动动画
相对运动切换
中性唇部选项
自动调整输出格式

🔗 https://x.com/imxiaohu/status/1825859036883071034

8⃣

🎮 《黑神话：悟空》销量和口碑表现优异

Steam销量已超300万份，总销量超过450万份，总销售额超15亿元
Steam好评率保持在95%以上，中文评论占比约90%
游戏开发成本为4亿元

🔗 https://x.com/imxiaohu/status/1825877360643813725

8月12日

💡

🔔Xiaohu.AI 等日报「8月12日」

✨✨✨✨✨✨✨✨

1️⃣

📊OpenAI 员工使用 ChatGPT 企业版进行数据分析：

支持CSV文件处理和数据可视化。
生成Python代码，执行复杂分析。

🔗 https://openai.com/business/enabling-a-data-driven-workforce-webinar/

🔗 https://x.com/imxiaohu/status/1823001694378336530

2️⃣

🧩Perplexity CEO暗示已获草莓模型测试版：

连续推文暗示新模型发布。

🔗 https://x.com/imxiaohu/status/1822996768789037374

3️⃣

🎥AI生成与视频剪辑工具：

接入API，自动编排视频。
支持时间轴内容生成。

🔗 https://github.com/jbilcke-hf/clapper

🔗 https://x.com/op7418/status/1822839716561211635

4️⃣

🖼️Deep-Live-Cam：实时换脸与视频伪造：

单张图像换脸，实时预览。

🔗 https://xiaohu.ai/p/12316

🔗 https://x.com/imxiaohu/status/1821089732077744275

5️⃣

✏️VideoDoodles：视频手绘动画工具：

动画随视频物体移动，自动调整。

🔗 https://xiaohu.ai/p/12377

🔗 https://em-yu.github.io/research/videodoodles/

🔗 https://x.com/imxiaohu/status/1822641209606836715

6️⃣

🛡️微软与 Palantir 合作为国防提供AI解决方案：

Azure OpenAI服务集成Palantir AI平台。

🔗 https://x.com/imxiaohu/status/1822626833369883086

8月5日

💡

🔔Xiaohu.AI 等日报「8月5日」

✨✨✨✨✨✨✨✨

1⃣️

🤖 Figure公司发布Figure 02机器人：

硬件和软件重新设计，手部灵活自如，对话和视觉能力大幅提升。
在宝马生产线上测试，展示工业环境中的应用潜力。
计算和AI推理能力是上一代的3倍。

🔗 https://x.com/imxiaohu/status/1820813274952454602

2⃣️

🩺 MedSAM-2模型：

处理2D和3D医学图像，包括X光片、CT和MRI。
自动分割医学图像中的病变区域，提高诊断准确性和效率。
只需一次提示即可自动分割所有相似图像。
在多个医学图像分割任务中表现优异，减少用户交互需求，具有广泛临床应用前景。
论文：https://arxiv.org/pdf/2408.00874

🔗 https://x.com/imxiaohu/status/1820807712961425657

3⃣️

📚 PDF Guru Anki工具箱：

多功能办公学习工具箱，包括PDF实用工具、Anki制卡神器、Anki辅助和视频笔记神器。
支持PDF水印去除、批量添加书签、OCR、PDF转换等。
Github: https://github.com/kevin2li/PDF-Guru
下载：https://guru.kevin2li.top

4⃣️

📱 Apple Intelligence智能应用提示词曝光：

Apple Intelligence 里面各种智能应用的提示词已经被曝光了

5⃣️

🧠 DeepMind专家使用AI：

专家写了篇8万字文章，列举了日常使用AI的50个实例。
这些实例仅占他所有AI应用的不到2%。
全文超过20万个Token，总结由Gemini 1.5 pro生成。

🔗 https://nicholas.carlini.com/writing/2024/how-i-use-ai.html

6⃣️

🏖️ Greg Brockman休假通知：

共同创立OpenAI以来首次休假，将休假到年底。
使命远未完成，还需建造安全的AGI。

🔗 https://x.com/gdb/status/1820644694264791459

7⃣️

👨‍💼 John Schulman跳槽：

OpenAI安全员John Schulman跳槽至Anthropic。

🔗 https://x.com/johnschulman2/status/1820610863499509855

8 月 4 日

💡

🔔Xiaohu.AI 日报「8月2日~8月4日」

✨✨✨✨✨✨✨✨

1⃣

🚀Stability AI 推出 Stable Fast 3D 开源模型：

可以在0.5秒内将一张图片变成一个完美的3D模型。
生成质量不错，纹理细致，还能生成额外的材质参数和法线贴图。

🔗 详细：https://xiaohu.ai/p/12203

🔗 在线体验：https://huggingface.co/spaces/stabilityai/stable-fast-3d

🔗 https://x.com/imxiaohu/status/1819211970958315735

2⃣

🌐Google开发“Project Green Light”AI驱动项目：

旨在减少交通停滞，实现“一路绿灯”，降低燃油排放。
城市无需新设备，根据AI建议调整现有交通灯设置。

🔗 详细：https://xiaohu.ai/p/12212

🔗 https://x.com/imxiaohu/status/1819240084782436435

3⃣

💡Google 学 OpenAI 推出实验性Gemini 1.5 Pro（0801）版本：

在@lmsysorg 竞技场中超越GPT-4o/Claude-3.5，排名第一。
DeepMind和Google研究院首席科学家称其Elo分数突破1300+，比早期版本有显著改进。

🔗 传送门：https://aistudio.google.com/app/prompts/new_chat

🔗 https://x.com/imxiaohu/status/1819255937326371256

4⃣

🔧微软宣布Azure AI与GitHub深度整合：

大幅简化AI应用开发流程。

🔗 详细：https://xiaohu.ai/p/12235

🔗 https://x.com/imxiaohu/status/1819280944223998110

5⃣

🌟前Stability AI核心成员成立新公司并获3200万美元融资：

发布Flux.1开源图像生成模型，基于混合架构，结合multimodal和parallel diffusion transformer。

🔗 详细：https://xiaohu.ai/p/12219

🔗 在线体验：https://flux1.ai

🔗 https://x.com/imxiaohu/status/1819282966256013505

6⃣

🧠MindSearch：模仿人类在网络上寻找和整合信息的AI搜索引擎：

能在3分钟内从300+网页中收集和整合信息，相当于人类专家约3小时的工作量。

🔗 详细：https://xiaohu.ai/p/12254

🔗 项目地址：https://mindsearch.netlify.app

🔗 https://x.com/imxiaohu/status/1819370552848761191

7⃣

🔄180度大转弯：Character AI被Google收购：

Character AI首席执行官Noam Shazeer将带领部分员工重返谷歌。
Google以25亿美元的估值收购其投资者股票（每股88美元），但低于去年与早期投资者谈判的50亿美元。

🔗 https://x.com/imxiaohu/status/1819547775178362900

8⃣

🛡OpenAI的下一代AI模型已提交给美国AI安全研究所进行安全评估：

OpenAI在此时与安全研究所合作，并支持增加其权力的法案，似乎试图通过影响安全研究所来控制或影响AI相关的法律和标准制定。

🔗 https://x.com/imxiaohu/status/1819609512837619733

9⃣

🦙LlamaCoder：开源的平替Claude Artifacts项目：

通过Llama 3.1 405B生成完整的React应用程序和组件。
只需提供简单提示，自动生成完整小程序代码。

🔗 详细：https://xiaohu.ai/p/12268

🔗 在线体验：https://llamacoder.together.ai

🔗 https://x.com/imxiaohu/status/1819625174645559312

8 月 1 日

💡

🔔Xiaohu.AI 日报「8 月 1 日」

✨✨✨✨✨✨✨✨

1⃣

🔍Google DeepMind 发布一套可视化工具：

了解语言模型的内部工作原理。
该工具如“显微镜”，可提取有意义的特征。
揭示语言模型内部的激活状态。

详细原理解释：https://xiaohu.ai/p/12186

🔗 https://x.com/imxiaohu/status/1818825233778061560

2⃣

💥Runway 宣布推出 Gen-3 Alpha Turbo 版本。
新版视频生成速度比原版快7倍，效果相当。
即将推出图像到视频模型，并大幅降价。
向免费用户开放。

🔗 https://x.com/imxiaohu/status/1818839942010913182

3⃣

📱Google 推出 Gemma 2 2B模型：

能在手机、笔记本电脑、台式机等边缘设备上运行。
在LMSYS Chatbot Arena排行榜上超越所有GPT-3.5模型，甚至超越Mixtral-8x7b。
处理多种文本生成任务，如问答、摘要和推理。

详细：https://xiaohu.ai/p/12197

🔗 https://x.com/imxiaohu/status/1818882249263398927

4⃣

🧮 MathGPTPro：数学问题 AI 解决工具

功能：提供实时互动学习体验
优势：测试版模型在高中和初中数学问题上的准确率比GPT-4高20%；数学推理方面比GPT-4o高15%
使用情况：已被全球200多个国家的40万名学生使用
创始人：女学霸，14岁考入大学

🔗 详细介绍：https://xiaohu.ai/p/12176

5⃣

🎙阿里的 CosyVoice 语音合成模型更新：

精细控制：生成符合性别、年龄和个性特征的声音。
自然模拟：模拟笑声、咳嗽和呼吸等人类语音自然特征。
情感和风格：为声音添加情感和风格，更具表现力。

GitHub：https://github.com/FunAudioLLM/CosyVoice

🔗 https://x.com/imxiaohu/status/1818942399705710700

6⃣

💰 主流 AI 视频会员价格对比

可灵：最近开放全球价格体系，中国以外可付美金享受
价格情况：Runway最贵，Haiper其次，Luma中规中矩，可灵最便宜
价格还是有点小贵，一对比吓一跳

🔗 https://x.com/imxiaohu/status/1818650011003240774

⑦

🔬 麻省理工学院开发出能提前5年预测出乳腺癌发病的AI模型：Mirai

功能：预测多个时间点的乳腺癌风险（如1年、2年、3年、4年和5年内的风险）
优势：在多个数据集上表现出色，比现有模型（如Tyrer-Cuzick模型）更为准确

🔗 详细内容：https://xiaohu.ai/p/12141

🔗 https://x.com/imxiaohu/status/1818529197952057383

⑧

🤝360今天发布集合国内16家主流模型的AI助手：

通过其桌面客户端和浏览器等多个入口随时唤起
支持用户在同一问题上同时使用多个模型进行解答
当用户不确定选择哪个模型时，AI助手会通过意图识别自动选择模型

你们可以体验下：https://bot.360.com

🔗 https://x.com/imxiaohu/status/1818915416796021007

7 月 9 日

📌

🔔Xiaohu.AI 日报「7 月 9 日」

✨✨✨✨✨✨✨✨

1⃣

📰微软：不会像 OpenAI 一样阻止中国访问 AI 模型

OpenAI 将于7月9日开始阻止中国用户访问其 API。
微软发言人表示，Azure OpenAI API服务在中国的提供方式没有变化。
作为一家独立公司，OpenAI 自行做出其决策，微软不受影响。

🔗 https://pymnts.com/artificial-intelligence-2/2024/report-microsoft-wont-follow-openai-in-blocking-chinas-access-to-ai-models/

🔗 https://x.com/imxiaohu/status/1810526011173556481

2⃣

🌐微软开源下一代RAG技术：GraphRAG

利用知识图谱大幅增强语言模型能力。
它能够回答跨多个文档的问题，以及主题性问题，例如“数据集中的主要主题是什么？”

🔗详细介绍和教程：https://xiaohu.ai/p/10982

🔗GitHub：https://github.com/microsoft/graphrag

🔗官方文档：https://microsoft.github.io/graphrag/

🔗 https://x.com/imxiaohu/status/1810563086480441361

3⃣

🆕Poe 推出 Previews 的新功能

允许用户在聊天中直接生成Web应用程序并与之实时互动。
类似Claude的Artifacts功能。
Poe平台还推出了其他多种功能，比如多个机器人一起聊天、文件上传和视频输入等。

🔗详细：https://xiaohu.ai/p/10996

🔗 https://x.com/imxiaohu/status/1810574723048489063

4⃣

🎬Odyssey：提供好莱坞级别的 AI 视频生成和编辑工具

一个新的AI视频游戏参与者出现。
OdysseyML 旨在开发能够生成和导演好莱坞级别视觉效果的AI技术。
团队由来自各大知名科技公司的AI研究人员和好莱坞艺术家组成，已筹集900万美元启动资金。

🔗详细介绍：https://xiaohu.ai/p/11005

🔗 https://x.com/imxiaohu/status/1810589354114626008

5⃣

🎨PaintsUndo：输入静态图像自动生成整个绘画的全过程视频

只需提供一张图片，PaintsUndo会根据图像自动生成对应的绘画全过程视频。
该项目主要研究和再现数字绘画中的绘画行为，为数字艺术创作提供新的工具和方法。

🔗详细介绍：https://xiaohu.ai/p/11010

🔗更多演示：https://lllyasviel.github.io/pages/paints_undo/

🔗 https://x.com/imxiaohu/status/1810599384406798387

6⃣

🏥OpenAI 与 Thrive 公司将创建一个AI健康教练

旨在改变人们的健康习惯预防疾病发生。
该项目由前谷歌健康和可穿戴产品负责人DeCarlos Love担任CEO。

🔗详细：https://xiaohu.ai/p/11021

🔗 https://x.com/imxiaohu/status/1810707854451675547

7⃣

🚀通过Claude 的 Artifacts 功能生成的应用程序可以直接分享到任意地方

任何人都可以打开直接玩耍了🤣
OpenAI全面落后！😐

🔗试玩这个小游戏试试：https://claude.site/artifacts/c55cf857-d456-4520-8ee2-206697dfa2a3

🔗 https://x.com/imxiaohu/status/1810710544539934996

7月 8 日

🌍

🔔Xiaohu.AI 日报「7 月 8 日」

✨✨✨✨✨✨✨✨

1⃣

🔬加州大学圣地亚哥分校和麻省理工学院的研究人员开发了一个名为Open-TeleVision的项目

🤖这是一种开源的沉浸式主动视觉反馈的远程操作系统，允许用户可以从3000英里之外控制机器人，并精准操控物体，类似于电影《阿凡达》那样的场景。

📱支持多种设备（如Vision Pro、Quest、mac、iPad、iPhone）轻松访问。

🔗详细介绍：https://xiaohu.ai/p/10905

🔗https://x.com/imxiaohu/status/1810168495902203972

2⃣

👨‍💻手把手教你如何打造《星际穿越》中的 TARS 机器人复制品

🔧一位名为 Charles Diaz 的开发者使用树莓派创建了一个完全功能的 TARS 复制品。

🦾最新版本甚至配备了双机械臂，可以与周围环境互动。

📄Charles Diaz 详细公布了其制作教程、CAD图纸和零件、代码：

🔗https://xiaohu.ai/p/10940

🔗https://x.com/imxiaohu/status/1810179426879221811

3⃣

🤖Mantee 公司展示了其人形机器人 Mentee Bot 的最新视频

🚶‍♂该机器人可以跟随人类在新的环境中自由导航行走，同时避开障碍物。

🕹并且可以根据人类指令进行各种动作和姿态调整。

🔗https://x.com/imxiaohu/status/1810219615592894833

4⃣

🗣阿里巴巴发布语音处理模型 FunAudioLLM

🔊能理解和生成各种人类语音

🎤它由主要模型构成：SenseVoice 和 CosyVoice。

声音克隆仅需几秒音频样本
无需额外训练数据
控制情绪情感、语速、音高

🔗详细内容：https://xiaohu.ai/p/10954

🔗项目地址：https://fun-audio-llm.github.io

🔗在线演示：https://modelscope.cn/studios/iic/CosyVoice-300M

🔗https://x.com/imxiaohu/status/1810239744812679271

5⃣

💲LLM 比价工具

📊可以选择不同种类的模型型号

💵对其订阅价格和API价格进行对比

🔍选择最适合你的模型

🔗传送门：https://huggingface.co/spaces/philschmid/llm-pricing

🔗https://x.com/imxiaohu/status/1810316837546344648

⑥🖋浦语灵笔 IXC-2.5：

能看懂视频，完整书写文章。
自动生成网站的多模态模型。
由上海人工智能实验室开发，使用7B LLM后端。
与GPT-4V相当的能力。
擅长网页制作和高质量文本-图像文章创作。

🔗详细内容：https://xiaohu.ai/p/10891

7月1-3日

🏖

🔔Xiaohu.AI 日报「7月1日~7月3日」

✨✨✨✨✨✨✨✨

1⃣

💬Llama 3-405B 出现在 WhatsApp Android测试版

功能：WhatsApp测试AI对话功能
模型：默认Llama 3-70B，测试版用Llama 3-405B
意义：Llama 3-405B小范围测试，发布在即
背景：Meta预告的GPT-4级别开源模型

🔗 https://wabetainfo.com/whatsapp-beta-for-android-2-24-14-7-whats-new/

🔗 https://x.com/imxiaohu/status/1807589753682035069

2⃣

🎥NVIDIA Broadcast：利用 AI 提升音频和视频质量

音频：AI消除背景噪音和房间回声，确保清晰输出
视频：背景移除、替换和模糊功能，无需绿幕或复杂灯光

🔗 https://x.com/imxiaohu/status/1807631775302332482

3⃣

🖼Magnific Relight 教程：通过提示和参考图像改变图像场景的照明和背景

🔗 详细内容：https://xiaohu.ai/p/10616

🔗 https://x.com/imxiaohu/status/1807764850590048696

4⃣

🧠未来计算机构想：一种端到端的神经网络计算机

概念：Andrej Karpathy 提出，完全由神经网络驱动
特点：简化架构，依赖神经网络处理
运作：类似人脑，从数据中学习和适应
代价：高算力和能源消耗

🔗 https://x.com/imxiaohu/status/1807772757448618285

5⃣

🎥Runway Gen-3 Alpha 文本到视频模型已开放

功能：所有人可使用
传送门：https://runwayml.com/

🔗 详细使用教程：https://xiaohu.ai/p/10762

🔗 https://x.com/imxiaohu/status/1807917146430923116

6⃣

📚腾讯翻译智能体公司上线了

名称：TRANSAGENTS
功能：文学翻译的多智能体虚拟翻译出版公司
体验链接：http://transagents.ai

🔗 https://x.com/imxiaohu/status/1808066927425999354

7⃣

🦊SuperAnimal：自动检测和分析动物运动行为的模型

开发：由洛桑联邦理工学院（EPFL）团队开发
功能：自动识别和跟踪45种以上动物的关键点运动，无需人工注释

🔗 https://x.com/imxiaohu/status/1808131632634945561

8⃣

🎙Fish Speech：完美支持中英日语言的开源TTS模型

语音处理：接近人类水平
训练数据：约十五万小时三语数据，对中文支持完美
开发者：fishaudio
特点：亿级参数，高效轻量，可在个人设备上运行和微调，适合作为私人语音助手

🔗 详细介绍及更多演示：https://xiaohu.ai/p/10779

🔗 GitHub：https://github.com/fishaudio/fish-speech

🔗 https://x.com/imxiaohu/status/1808178006315438467

9⃣

🎵Suno 推出了 iOS 客户端

功能：
- 手机上收听和创建音乐
- 通过文字和语音（如哼唱）创建音乐，整理管理作品
- 分类查找并收听他人创作的音乐

🔗 下载：http://suno.com/ios （目前只支持美区）

🔗 https://x.com/imxiaohu/status/1808309703778394584

🔟

🌀Meta AI发布一款端到端生成高质量3D资产的模型

功能：不到一分钟生成高质量3D模型
优势：生成结果优于现有方案，速度是现有工作的3-10倍
特点：通过文本输入重新上色和纹理生成，提高视觉效果

🔗 详细介绍及技术方法：https://xiaohu.ai/p/10799

🔗 论文：https://ai.meta.com/research/publications/meta-3d-gen/

1⃣1⃣

🤖Figure宣布与BMW制造公司签署商业协议，将通用机器人引入汽车生产

技术：AI驱动的视觉模型和神经网络，确保精准高效的抓取动作
前景：展示未来工厂自动化技术的应用前景

🔗 详细：https://xiaohu.ai/p/10774

🔗 https://x.com/imxiaohu/status/180

6月29-30日

⚽

🔔Xiaohu.AI 日报「6月29日 ~ 6月30日」 ✨✨✨✨✨✨✨✨

1⃣ 💰Hebbia获得近1亿美元B轮融资

功能：利用AI一次处理多达数百万份文档
技术：Hebbia的AI技术能够在短时间内浏览数十亿份文档，包括PDF、PowerPoint、电子表格和转录内容，并返回具体答案
适用领域：主要面向金融服务公司，如对冲基金和投资银行，同时也适用于律师事务所和其他专业领域 🔗 https://x.com/imxiaohu/status/1806878240470081624

2⃣ 📞Character AI推出新功能：与AI角色通电话

支持语言：包括英语、西班牙语、葡萄牙语、俄语、韩语、日语和中文
功能：可在通话和短信之间无缝切换，通过“点击打断”选项随时停止AI讲话 🔗 详细：https://xiaohu.ai/p/10560 🔗 访问尝试：https://character.ai 🔗 https://x.com/imxiaohu/status/1806887999357268155

3⃣ 🗣微软文本转语音虚拟数字人上线，支持GPT-4o的集成

功能：创建实时互动的数字人
应用：可接入大语言模型，直接与自己的服务集成
服务：提供实时互动的数字人服务，如在线客服、导游、讲解员等 🔗 详细内容：https://xiaohu.ai/p/10568 🔗 https://x.com/imxiaohu/status/1806907121268859325

4⃣ 📄GPTPDF：使用GPT-4o将PDF解析为Markdown的工具

功能：几乎完美地解析任何PDF文件，包括排版、数学公式、表格、图片和图表等内容
成本：平均每页成本为 $0.013
工作原理：
1. 使用 PyMuPDF 库解析PDF，标记所有非文本区域
2. 使用 GPT-4o 进行解析，得到Markdown文件 🔗 GitHub：https://github.com/CosmosShadow/gptpdf 🔗 https://x.com/imxiaohu/status/1806984814052147509

5⃣ 🎬Resona V2A：利用AI解读理解视频，自动为视频进行配音配乐

产品：首个商用的视频转音频技术产品
支持：主流的AI视频生成应用（如Runway、Luma、SORA、Veo、可灵等） 🔗 详细介绍和更多案例：https://xiaohu.ai/p/10594 🔗 https://x.com/imxiaohu/status/1807335575474831865

6⃣ 🔧OmniParse：一个开源的数据清理和整理的自动化工具

功能：将各种非结构化数据（如文档、图片、视频等）转换为结构化数据，便于AI应用程序使用
支持：20多种文件类型 🔗 详细介绍：https://xiaohu.ai/p/10611 🔗 https://x.com/imxiaohu/status/1807345314124472788

7⃣ 👓全球首款集成GPT-4o的智能眼镜发布

功能：支持超过10种语言的实时翻译，轻松打破语言障碍
设计：模块化设计，可更换不同样式的传统框架
特点：具备LED通知灯，整合Google Gemini和Anthropic的Claude AI模型
产品：Solos AirGo 3音频眼镜，不含相机，售价为249美元 🔗 详细功能及技术细节介绍：https://xiaohu.ai/p/10683 🔗 https://x.com/imxiaohu/status/1807410895062262129

6月25日

🎉

🔔Xiaohu.AI 日报「6 月 25 日」

✨✨✨✨✨✨✨✨

1⃣

🧠南洋理工大学提出Q*框架

- 目标：大幅提升大语言模型的多步推理能力

- 背景：Q是之前传说的OpenAI的那个Q

- 功能：帮助模型在每一步选择最有可能正确的路径，减少多步推理时的错误

🔗 详细内容：https://xiaohu.ai/p/10182

🔗 https://x.com/imxiaohu/status/1805123584572186640

2⃣

💡根据文本提示生成API

- 项目：两名高中生创建的AI初创公司获得50万美元投资

- 功能：用户输入自然语言提示，APIGen能生成完整的API，包括路由、模式和内部功能

- 优势：能创建带有自定义功能和业务逻辑的复杂API

🔗 详细内容：https://xiaohu.ai/p/10306

🔗 https://x.com/imxiaohu/status/1805164037325640133

3⃣

📹EvTexture：一种提升视频分辨率的新方法

- 功能：解决视频细节模糊和抖动问题

- 技术：利用事件相机捕获的高频动态细节来改善视频的纹理质量

- 优势：让视频变得更加清晰，特别是在处理复杂细节（如树叶、衣服上的条纹等）时效果尤为显著

🔗 详细内容：https://xiaohu.ai/p/10270

🔗 https://x.com/imxiaohu/status/1805185573352784177

4⃣

💬LobeChat：一键免费部署自己的私有聊天机器人

- 特点：你能想到的功能它都有，你没想到的它也有😂

🔗 详细：https://xiaohu.ai/p/10250

🔗 https://x.com/imxiaohu/status/1805196543886348385

5⃣

📚Omnivore：一个开源的“稍后阅读”应用

- 功能：保存、标记和分享文章，支持添加PDF文件和邮件为文章

- 平台：提供跨平台应用和浏览器扩展，方便在不同设备上使用

- 特点：离线访问已保存内容，通过Logseq和Obsidian插件集成到工作流程中

- 开源：用户可以自由扩展和部署

🔗 详细：https://xiaohu.ai/p/10236

🔗 https://x.com/imxiaohu/status/1805234306308337708

6⃣

📊分析了1400万篇论文发现

- 数据：2024年发布的研究论文中至少有10%使用了ChatGPT

- 影响：LLM辅助写作对科学文献的影响超过了COVID-19疫情对学术写作的影响

- 地区差异：英语非母语国家如中国（约20%）、韩国和中国台湾的使用率较高，英语母语国家如英国和新西兰的使用率较低（约3%）

🔗 更新内容：https://xiaohu.ai/p/10338

🔗 https://x.com/imxiaohu/status/1805247452741878010

7⃣

⚠多名开发者收到了OpenAI的警告信

- 行动：7月9号开始封锁不支持的国家API

- 后果：在不允许的国家使用OpenAI API将面临封杀🙃

- 影响：彻底脱钩了…

🔗 https://x.com/imxiaohu/status/1805263016449220823

6月24日

💡

🔔Xiaohu.AI 日报「6 月 24 日」 ✨✨✨✨✨✨✨✨

1⃣️

🎥Diffutoon：将任何真实感视频直接渲染为高清动漫风格

将真实感视频转换成各种动漫风格
保持视频内容的一致性，避免闪烁和失真
即使输入视频的分辨率较低，也能够生成高质量的动漫风格视频

🔗 https://ecnu-cilab.github.io/DiffutoonProjectPage/

🔗 https://x.com/imxiaohu/status/1804872613875048615

2⃣️

🌍RTranslator：一款开源、免费离线的实时翻译应用

可实现多人、多语言的实时对话翻译
对话模式通过对方的手机或蓝牙耳机播放
包括对话模式、对讲机模式和文本翻译三种模式

🔗 https://t.co/Lifo46eihv

🔗 https://x.com/imxiaohu/status/1804775933578256496

3⃣️

💬LibreChat：一个免费的开源 ChatGPT 克隆版

支持与OpenAI、Azure、Anthropic和Google等AI模型服务的集成
可以在对话过程中自由切换AI模型，还可以使用DALL-E或Stable Diffusion等插件进行图像生成
通过OpenAI助理 API 支持高级代理、代码解释器、工具和API操作

🔗 https://x.com/imxiaohu/status/1804770629490815332

4⃣️

🧠Anthropic最新的Claude 3.5 Sonnet模型达到了专业博士水平

Claude 3.5 Sonnet在GPQA测试中的得分为67.2%
第一次有大语言模型在GPQA测试中突破了65%的得分
普通博士在GPQA测试中的平均得分为34%，专门领域博士为65%

🔗 https://x.com/imxiaohu/status/1804484910830494038

5⃣️

👴FutureYou 体验网址已放出

可以让你和60岁的自己进行对话
通过与未来的自己对话来帮助减轻焦虑和负面情绪，同时增强对未来的积极期待
用户可以上传自己的照片，系统会生成他们60岁时的形象

🔗 http://futureyou.life

🔗 https://x.com/imxiaohu/status/1804468614537605272

6⃣️

💻通过 Open Interpreter Local III 为电脑接入视觉能力和推理模型，让电脑自动联网

通过展示一张包含WiFi密码的便利贴，电脑能够自动连网
使用硬件：MacBook M3
使用的工具包括Open Interpreter Local III、Moondream 视觉模型和Codestral 推理模型

🔗 https://changes.openinterpreter.com/log/local-iii

🔗 https://x.com/imxiaohu/status/1804383258693767376

7⃣️

🎓OpenAI CTO Mira Murati 在母校达特茅斯工程学院的访谈

提到到达博士智力水平的模型有可能将在一年半后发布

🔗 https://youtube.com/watch?v=yUoj9B8OpR8

🔗 https://x.com/dotey/status/1804230277830459408

8⃣️

📈重磅消息：OpenAI宣布收购 Rockset

提供世界级的数据索引和查询能力，增强其检索基础设施，使AI能够更好地利用和访问实时数据
通过整合Rockset的技术，OpenAI的产品将具备更强的数据索引和查询能力，支持实时数据分析

🔗 https://x.com/imxiaohu/status/1804174083447493055

6月9日

🎉

🔔Xiaohu.AI 日报「6 月 9 日」 ✨✨✨✨✨✨✨✨

1⃣️

🖥️微软：新电脑上捕捉屏幕截图的Recall AI 功能将默认关闭

功能每5秒截取一次用户屏幕并记录用户屏幕操作，引发网络安全专家担忧。
提供隐私保护，如加密搜索索引数据库、要求Windows Hello注册。
数据本地处理，不使用云端，确保数据安全，不与微软或其他公司共享。

🔗 https://blogs.windows.com/windowsexperience/2024/06/07/update-on-the-recall-preview-feature-for-copilot-pcs/

🔗 https://x.com/imxiaohu/status/1799653097436021141

2⃣️

🎥MotionFollower：将一个视频中的人物动作转移到另一个视频中的人物身上

可复制视频中人物的运动到另一视频中的人物上，不改变背景和外观。
例如，将舞蹈视频中的动作转移到静止视频中的人物身上。

🔗 https://x.com/imxiaohu/status/1799648471735300257

3⃣️

🔊一段新的 GPT-4o Voice演示

在纽约科技周上展示。

🔗 https://x.com/imxiaohu/status/1799639001441407213

4⃣️

📹快手可灵确实很强

自己体验和很多视频展示，目前5秒的效果已经超越了市面上所有的AI视频模型。
大部分情况下能还原真实物理世界，易用性高。
快手在DIT方向布局较早，迅速追赶上了Sora。

🔗 https://x.com/imxiaohu/status/1799451920513532327

5⃣️

🦆DuckDuckGo 推出私密AI 聊天机器人

承诺不使用用户数据训练模型，免费且无需注册。
确保聊天内容无法追溯到个人，不存储用户数据，AI 提供商在30天内删除聊天记录。
支持OpenAI的GPT-3.5 Turbo、Anthropic的Claude 3 Haiku及开源模型。

🔗 http://duckduckgo.com/chat

🔗 https://x.com/imxiaohu/status/1799272764689502495

6月7日

🎉

🔔Xiaohu.AI 日报「6 月 7 日」 ✨✨✨✨✨✨✨✨

1⃣️

🎥快手发布“可灵”视频大模型：

生成超过120秒1080P视频
模拟真实物理特性（重力、光影反射、液体流动等）
准确建模复杂运动场景（高速奔跑的动物、月球行走的宇航员等）
类Sora的DiT结构，用Transformer代替卷积网络
自研3D VAE网络，提升视频重建质量

🔗 https://xiaohu.ai/p/9119

🔗 https://x.com/imxiaohu/status/1798916029063852275

2⃣️

🤖Chatwiz：AI 虚拟女朋友：

高度还原真实对话
包含6个角色，对话非常丝滑
字节旗下产品
在线体验：https://chatwiz.cn/h5/feely/landing

🔗 https://xiaohu.ai/p/9185

🔗 https://x.com/imxiaohu/status/1799072856627966390

3⃣️

🛋️Canvastique3D与Illumetry合作开发3D预览工具：

实时查看物品的全息投影
可切换颜色和面料
减少退货需求

🔗 https://x.com/imxiaohu/status/1799008132422930599

4⃣️

🌐StreamSpeech：实时语言翻译模型：

实现流媒体语音输入的实时翻译
输出目标语音和文本
同步翻译，低延迟
展示实时语音识别结果

🔗 https://x.com/imxiaohu/status/1798999363987124355

5⃣️

📱Nothing CEO @getpeid 发表对AI手机的看法：

未来将进入后应用时代
操作系统将整合服务简化用户需求
探索将AI深度集成到操作系统中
重新构想主屏幕，提供上下文相关信息

🔗 https://x.com/imxiaohu/status/1798973772978167999

6⃣️

💻阿里云发布Qwen 2开源模型：

性能超越所有开源和国内闭源模型
包括多种尺寸版本
覆盖27种语言
72B支持128K上下文
在CompassArena上表现优秀

🔗 https://x.com/imxiaohu/status/1798902243925856593

7⃣️

🖼️Grok 1.5V即将发布：

可能接入Midjourney
直接在Grok里生成图像
直接发布到X

🔗 https://x.com/imxiaohu/status/1798636363606323645

5月30日

🎉

🔔Xiaohu.AI 日报「5 月 30 日」 ✨✨✨✨✨✨✨✨

1⃣️

🖼️山寨版阿里AnimateAnyone开源：

利用图像和视频中的人物姿势来合成动画。
Novita AI开源并提供API支持。
提供照片和视频，即可自动生成动画。

🔗 GitHub：https://github.com/novitalabs/AnimateAnyone

🔗 API：https://novita.ai/playground#animate-anyone

🔗 https://x.com/imxiaohu/status/1796191458052944072

2⃣️

👗ViViD视频虚拟试穿技术：

阿里巴巴开发，可以替换视频中人物的衣服。
生成真实自然的视频，支持多种服装类型。
在视觉质量、时间一致性和细节保留方面表现优异。

🔗 https://x.com/imxiaohu/status/1796019244678906340

3⃣️

🎵udio-130音乐生成模型：

Udio新推出，生成2分钟的音频，提升曲目连贯性和结构。
新增高级控制功能：随机种子、剪辑时间、提示词或歌词强度调节。

🔗 详细：https://xiaohu.ai/p/8738

🔗 https://x.com/imxiaohu/status/1795999902830629249

4⃣️

💻Codestral代码生成模型：

Mistral AI推出，支持80多种编程语言，包括Python、Java、C等。
自动完成代码、编写测试，并能填补未完成的代码部分。
拥有32k上下文窗口，在多项基准测试中表现出色。

🔗 详细：https://mistral.ai/news/codestral/

🔗 https://x.com/imxiaohu/status/1795987350713192937

5⃣️

🎹Suno音乐演示：

新视频展示从任何声音创作歌曲。
VOL-2：古典钢琴加法国手风琴，由钢琴家兼工程师Anessa表演。

🔗 https://x.com/imxiaohu/status/1795976717905043467

5月29日

🎉

🔔Xiaohu.AI 日报「5 月 29 日」 ✨✨✨✨✨✨✨✨

1⃣️

✈️卡塔尔航空与Space X的Starlink合作：

- 提供免费、超高速、低延迟的Wi-Fi服务。

- 首批升级三架波音777-300，未来两年覆盖整个机队。

- 乘客可享受每秒高达500兆比特的Wi-Fi，支持直播、视频和在线游戏。

🔗 https://x.com/imxiaohu/status/1795830980315603204

2⃣️

📱Apten：AI驱动的短信助手：

- 以亲切的方式24/7响应并自动跟进客户。

- 自动分类和标签潜在客户，提升营销和销售效率。

- 自定义知识库，确保提供准确信息。

🔗 https://xiaohu.ai/p/8722

🔗 https://x.com/imxiaohu/status/1795818680150085693

3⃣️

📱在iPhone的灵动岛上弄个个人网站：

- 轻松创建个人网站。

🔗 http://kons.fyi

🔗 https://x.com/imxiaohu/status/1795712880257700343

4⃣️

🚀兄弟们，这个工具牛P了：

- 无需注册，免费上传下载2G文件。

- 15分钟能上传6G内容，不限速。

- 提供公开或私密链接分享。

🔗 http://woc.space

🔗 https://x.com/imxiaohu/status/1795678046797856854

5⃣️

🤖Khoj：开源的个人化AI助手：

- 连接本地和在线文档，充当第二大脑。

- 提供快速准确的语义搜索，集成Obsidian笔记工具。

- 支持多种访问方式，包括语音输入和图像生成。

🔗 https://xiaohu.ai/p/8714

🔗 https://x.com/imxiaohu/status/1795666047569404028

6⃣️

🏆Gemini 1.5 Pro/Advanced在聊天机器人竞技场排名跃升：

- 中文领域成为全球最佳中文模型。

- Flash排名第9，超过Llama-3-70b。

- Pro版本性能显著提升。

🔗 https://x.com/imxiaohu/status/1795652457621794977

7⃣️

🔊ChatTTS：专文本到语音TTS模型：

- 专为对话场景设计，支持中英文混合。

- 经过10万小时训练，公开版本在HuggingFace上提供。

- 支持多种说话人语音及细粒度韵律特征调整。

🔗 https://github.com/2noise/ChatTTS

🔗 https://xiaohu.ai/p/8702

🔗 https://x.com/imxiaohu/status/1795628441167131113

8⃣️

💻Llama3-V：基于Llama3的多模态模型：

- 训练成本不到500美元，性能接近大型闭源模型。

- 在多模态记忆任务上略逊一筹。

🔗 https://xiaohu.ai/p/8706

🔗 https://x.com/imxiaohu/status/1795638604045398481

9⃣️

🎨利用GPT-4o基于PRD生成Figma设计：

🔗 https://x.com/imxiaohu/status/1795464626185896070

🔟

🎥StreamV2V：实时视频转换的开源工具：

- 支持实时视频换脸和风格转换。

- 在RTX 4090 GPU上实现20 FPS处理。

- 提供黏土动画和涂鸦艺术风格转换。

🔗 https://xiaohu.ai/p/8688

🔗 https://x.com/imxiaohu/status/1795369909742129232

5月27日

🎉

🔔Xiaohu.AI 日报「5 月 27 日」 ✨✨✨✨✨✨✨✨

1⃣️

👐 SignLLM：世界上第一个通过文字描述生成手语视频的多语言手语模型

- 该模型将文本或提示转化为手语手势视频。

- 支持包括美国手语（ASL）和德国手语（GSL）在内的八种手语。

- 引入多语言手语数据集 Prompt2Sign，基于此开发生成手语模型。

🔗 https://xiaohu.ai/p/8666

🔗 https://x.com/imxiaohu/status/1795122981787799869

2⃣️

🎧 Look Once to Hear：全新的降噪耳机

- 注视对方即可放大或消除对方声音。

- 移动中仍能听到目标说话者的语音，无背景噪声干扰。

- 适用于嘈杂环境，如街道、咖啡馆或社交聚会。

🔗 https://xiaohu.ai/p/8658

🔗 https://x.com/imxiaohu/status/1795036315538641390

3⃣️

🎥 Open-Sora 1.1发布：视频生成质量和时长提升

- 生成最长约21秒的视频。

- 使用更高质量的视觉数据和字幕训练。

- 优化CausalVideoVAE架构，提高性能和推理效率。

🔗 https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.1.0.md

🔗 https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.1.0

🔗 https://x.com/imxiaohu/status/1795029912224412082

4⃣️

🎬 ReVideo：精确编辑视频特定区域和对象运动轨迹

- 可更改物体颜色、形状或添加元素。

- 编辑第一帧确保修改内容在后续帧中保持一致。

- 支持多区域编辑和同时修改视频内容及运动轨迹。

🔗 https://xiaohu.ai/p/8643

🔗 https://x.com/imxiaohu/status/1795008221301875070

5⃣️

💰 马斯克的xAI公司宣布获得60亿美元B轮融资

- 本轮融资对xAI估值高达240亿美元。

- 主要投资者包括Valor Equity Partners、Vy Capital等。

- 马斯克表示未来几周将有更多消息公布。

🔗 https://x.com/imxiaohu/status/1794971753925816706

6⃣️

📂 LlamaFS：基于Llama 3的自动文件分类整理工具

- 根据文件内容自动命名并分类。

- 持续运行，实时整理新增文件并自动归类。

🔗 https://xiaohu.ai/p/8591

🔗 https://x.com/imxiaohu/status/1794927443196940763

7⃣️

🤖 Stability AI 推出Stable Assistant聊天机器人

- 能聊天、生图、出视频，支持多种功能如搜索和替换、背景移除等。

- 这是倒闭边缘的盈利尝试。

🔗 https://xiaohu.ai/p/8586

🔗 https://x.com/imxiaohu/status/1794920439955021846

5月26日

🤖

🔔Xiaohu.AI日报「5 月 26日」

✨✨✨✨✨✨✨✨

1️⃣

Flawless：利用AI创建与原版电影一样沉浸和真实的唇形同步配音版本，Flawless 是一家生成式人工智能电影制作技术的公司。

- 他们的TrueSync工具能够创建与原版电影一样沉浸和真实的配音版本，确保配音在任何语言中的唇同步都完美无瑕。可以为电影和电视节目创建多语言版本，确保每个版本的对话都与演员的口型完美匹配，就像是在用他们的母语一样。

🔗https://x.com/imxiaohu/status/1794708958747492753

2️⃣

Suno 宣布即将推出一项全新的功能可以从从任何声音创作歌曲。

-这项新功能可以将日常生活中的各种声音转化为音乐，为音乐创作带来了新的可能性。你只需要敲击出节奏，Suno 会自动捕捉然后与你“和弦”，哈哈... 首个示例是：将敲击浇水壶的声音转化为迷幻摇滚音乐。

🔗https://x.com/imxiaohu/status/1794713642061193711

3️⃣

Responder 无人机对接911报警系统可70秒抵达案发现场实时监控

- 具有情境感知系统，可以实时传送案发现场画面并提供实时监控和急救设备运送。

🔗https://x.com/imxiaohu/status/1794728184245821612

4️⃣

马斯克的 xAI 公司计划建造一台巨大的超级计算机，称为“超级计算工厂”。

- 这台超级计算机将使用10万个 H100 GPU来训练和运行其AI模型 Grok的下一个版本。

马斯克计划将这些芯片整合到一个大型计算机系统中，他声称这个系统将至少是目前最大的GPU集群（MetaAI 训练的集群）的四倍大。

马斯克在给投资人的演示中，承诺将在2025年秋季前让这台超级计算机投入使用。

🔗https://x.com/imxiaohu/status/1794730939819630904

全部记录：XiaoHu.AI日报

5月24日

🎉

🔔Xiaohu.AI 日报「5 月 23 日」 ✨✨✨✨✨✨✨✨

1⃣️

👨💼OpenAI 开发人员体验主管演讲：

展示了实时翻译和导航功能。
强调模型在实时处理复杂任务和互动中的能力。

🔗 https://x.com/imxiaohu/status/1793943649312813346

2⃣️

🎤Sora 演示：

使用GPT-4o克隆语音创建脚本和旁白。
展示了1889年巴黎世界博览会视频。

🔗 https://xiaohu.ai/p/8503

🔗 https://x.com/imxiaohu/status/1793943649312813346

3⃣️

🎥Pandora：

根据自然语言指令生成视频并进行实时控制。
支持模拟物理世界和未来动作。

🔗 https://xiaohu.ai/p/8490

🔗 https://world-model.maitrix.org

🔗 https://x.com/imxiaohu/status/1793869174433067343

4⃣️

📊财务报表分析：

GPT-4 能像专业人类分析师一样分析财务报表。
在预测收益变化方面表现优于金融分析师。

🔗 https://xiaohu.ai/p/8453

🔗 https://chatgpt.com/g/g-9P3sIn487-financial-statement-analyzer

🔗 https://x.com/imxiaohu/status/1793850514771436021

5⃣️

🎥未来模型展示：

通过声音+脚本利用 Sora 直接创建视频。
实时生成多语言配音和字幕。

🔗 https://x.com/imxiaohu/status/1793840614024638637

6⃣️

🛠️Google Model Explorer：

理解和调试优化大语言模型的图形可视化工具。
提供分层展示和版本对比。

🔗 https://xiaohu.ai/p/8464

🔗 https://x.com/imxiaohu/status/1793837317469491240

7⃣️

🌉Anthropic 的“金门大桥”特征：

在 http://claude.ai 上与 "金门克劳德 "对话。
调整特征激活强度操控Claude的行为。

🔗 https://x.com/imxiaohu/status/1793823480653439002

8⃣️

💰阿里投资月之暗面：

投资 8 亿美元购得约 36% 股权。
月之暗面致力于将能源转化为智能的最优解。

🔗 https://x.com/imxiaohu/status/1793811539486789647

5月23日

🎉

🔔Xiaohu.AI 日报「5 月 23 日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖AI 机器人遭受打击：

- Bing的API瘫痪，影响微软Copilot、DuckDuckGo和ChatGPT的网络搜索功能。

🔗 https://x.com/imxiaohu/status/1793596730841395229

2⃣️

📚TRANSAGENTS：专用于文学翻译的多智能体框架

- 腾讯AI实验室开发，模拟真实翻译公司的虚拟角色。

- 成本低80倍，翻译结果优于人类翻译。

- 特别擅长领域特定知识的翻译。

🔗 https://xiaohu.ai/p/8406

3⃣️

📞Truecaller与微软合作：

- 用户可克隆自己的声音，让AI代为接听电话。

- 使用Azure AI Speech技术，提供自动接听、筛选来电等功能。

🔗 https://xiaohu.ai/p/8448

4⃣️

🐬Dolphin Mixtral 1x22b：去除对齐和偏见

- 无审查和道德限制，严格执行用户指令。

- 自由生成各种内容，无内容审核。

🔗 https://xiaohu.ai/p/8443

5⃣️

🤖微软推出新版 Power Automate：

- 通过语音命令和演示操作步骤，AI自动学习并生成工作流程。

- 自愈功能：UI元素变化时，AI会自动修复工作流。

🔗 https://xiaohu.ai/p/8429

6⃣️

💰Scale AI获得10亿美元F轮融资：

- 估值接近140亿美元，提供AI训练数据标注服务。

- 融资将加速前沿数据的丰富，助力通往AGI。

🔗 https://scale.com/blog/scale-ai-series-f

7⃣️

📰OpenAI与新闻集团达成内容许可协议：

- 访问News Corp刊物的当前和历史文章用于AI训练。

- 协议金额超过2.5亿美元，包括现金和使用OpenAI技术的信用。

🔗 https://openai.com/index/news-corp-and-openai-sign-landmark-multi-year-global-partnership/

8⃣️

👨🏫LearnLM-Tutor：Google DeepMind开发的AI教学模型

- 提供即时反馈，支持多学科教学，动态调整内容和难度。

- 增强学生的自主学习能力，提供连贯的教学体验。

🔗 https://xiaohu.ai/p/8376

9⃣️

🛡️伯克利实验室研究"宙斯盾"数据集：

- 用YOLOv8模型训练，美军及其盟友驱逐舰关键部件的检测精度达0.926。

🔗 https://arxiv.org/pdf/2405.12167v1

🔟

🧠Anthropic发现AI模型“黑盒子”方法：

- 开发扫描AI模型“大脑”的技术，识别特定概念的神经元集合。

- 可操控特征改变模型行为。

🔗 https://xiaohu.ai/p/8384

1⃣️1⃣️

📡Starlink卫星首次直接连接未改装手机：

- 完成视频通话，技术突破将与T-Mobile合作上线。

🔗 https://x.com/imxiaohu/status/1793160017107116309

1⃣️2⃣️

🔍Perplexity与TakoViz合作：

- 推出高级知识搜索和可视化功能，支持多领域数据，便捷分享知识卡片。

🔗 https://xiaohu.ai/p/8352

5月21日

🎉

🔔Xiaohu.AI 日报「5 月 21 日」 ✨✨✨✨✨✨✨✨

1⃣️

👁️微软发布Phi-3系列：

- Phi-3 Vision、Phi-3 Small 7B、Phi-3 Medium 14B

- Medium版本性能与Mixtral 8x22B和Llama 3 70B相当，超越Command R+ 104B和GPT 3.5

- Small版本性能超过Mistral 7B和Llama 3 8B

- 支持4K和128K上下文长度

- 训练数据：使用4.8T令牌，512个H100 GPU上训练42天，包含10%多语言数据

- 新分词器：10万词汇量

- 权重兼容：AWQ、INT 4、ONNX和transformers

🔗 https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

2⃣️

🎶Suno AI获得1.25亿美元融资：

- 由Lightspeed Venture Partners、Nat Friedman、Daniel Gross等领投

- 融资用于加速产品开发和扩展音乐创作者团队

- Suno已有1000万人使用其平台制作音乐

🔗 https://suno.com/blog/fundraising-announcement-may-2024

3⃣️

📉大模型降价吸引开发者：

- 无开发者应用模型只能做聊天机器人

- 价格战吸引开发者，尤其是国内厂商

- OpenAI的强势地位集中全球开发者，国内人才、企业、资金外流

🔗 https://x.com/imxiaohu/status/1792826390943006808

4⃣️

💻微软发布最强AI电脑：Copilot+ PC：

- 能听、能看、能说，记住你一切

- 拥有每秒40万亿次操作的芯片，全天电池续航

- Recall功能帮助用户记住PC中看到的内容

- Cocreator功能几乎实时生成和优化AI图像

- 实时字幕功能翻译40多种语言的音频

🔗 https://xiaohu.ai/p/8245

5⃣️

📁微软推出Recall功能：

- 记录你在电脑上的所有操作和信息

- 可通过语音或文本查询找到特定文件、电子邮件或网页

- 示例：“找到老板发的那封邮件”或“上周浏览过的那个网站”

🔗 https://xiaohu.ai/p/8234

6⃣️

🤝苹果和OpenAI合作消息将在WWDC上宣布：

- iOS 18整合OpenAI的生成式AI技术

- iOS 18将具备类似ChatGPT的功能，改进Siri和其他AI功能

- 提供云端与本地结合的AI服务，提升用户体验

- 硬件更新，包括新的iPad Pro和更强大的M4芯片

🔗 https://bloomberg.com/news/newsletters/2024-05-19/what-is-apple-doing-in-ai-summaries-cloud-and-on-device-llms-openai-deal-lwdj5pkz

7⃣️

📹AI驱动的面试平台：

- 实时视频面试，检测作弊行为

- 提供全天候24/7面试安排能力

- 系统检测并标记作弊行为，例如候选人使用GPT等工具

🔗 https://xiaohu.ai/p/8189

8⃣️

🖼️PictoGraphic：免费AI生成插图库：

- 提供超过40000张图像和SVG文件

- 支持文本提示创建自定义插图

🔗 https://xiaohu.ai/p/8169

5月19日

👤

1⃣️

🤖装备了AI瞄准步枪的机器狗：

- 美国海军陆战队特种作战司令部（MARSOC）评估Ghost Robotics新一代四足机器人狗。

- 机器人狗配备Onyx Industries的AI启用武器系统，自动检测和跟踪目标。

- 具备盲模式控制核心，可在未知环境中继续运行，视觉传感器降级或失效时依然有效。

🔗 https://xiaohu.ai/p/8177

2⃣️

⚡我的GPTs切换到GPT 4o后的感受：

- 速度极快，但准确度下降，不遵循设定的Prompt。

- 为简洁而简洁，回答内容简化，遗漏信息。

- 需要改进提示规则以适应GPT 4o，详细回答仍会简化。

🔗 https://x.com/imxiaohu/status/1792068772351873074

3⃣️

📖GPT-4o |Cookbook:

🔗 https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o

4️⃣

ZeST：从一个图像中提取物体材料并转移到另一个图像的目标对象上。

🔗 https://xiaohu.ai/p/8092

5月18日

🎉

🔔Xiaohu.AI 日报「5 月 18日」 ✨✨✨✨✨✨✨✨

1⃣️

🔓破解Mac的ChatGPT客户端登录方法：

下载并登录ChatGPT客户端
在未出现“无法使用”的提示之前，快速按下「command + Q」
重新打开客户端即可使用
目前仅测试了Mac，且需要是Apple芯片

🔗 https://x.com/imxiaohu/status/1791831563837358127

2⃣️

📘Google发布Gemini 1.5 Pro 和 Gemini 1.5 Flash技术报告：

介绍了Gemini 1.5 Pro和Gemini 1.5 Flash的性能特点和架构
Gemini 1.5 Pro采用稀疏专家混合（MoE）架构，动态选择和激活特定参数子集
支持处理和理解音频、视频、文本和代码的混合模态输入
https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

🔗 https://xiaohu.ai/p/8136

3⃣️

📜索尼音乐向生成AI公司发出禁止使用SMG内容的信函：

禁止未经许可使用SMG内容进行AI模型训练
包括音频录音、音乐作品、封面艺术和元数据
要求公司确认是否使用了SMG内容，并提供详细说明

🔗 https://x.com/imxiaohu/status/1791755246009819495

4⃣️

🎵OpenAI的音乐生成模型Jukebox：

于2019年8月推出，生成多种流派和艺术家风格的音乐和人声歌曲
可以模拟特定艺术家的风格，生成新音乐作品
即将发布Jukebox 2

🔗 https://xiaohu.ai/p/1332

🔗 https://x.com/imxiaohu/status/1791698051536404530

5⃣️

🎙️ElevenLabs推出Audio Native：

自动将网页内容转换为播客
嵌入式音频播放器，自动生成语音旁白
内置指标功能，跟踪观众参与情况

🔗 https://xiaohu.ai/p/8122

6⃣️

📸CAT3D：1分钟生成高质量3D新视图：

模拟真实世界中移动相机生成场景不同视角
包括环绕物体、前向圆形、不同高度的样条和螺旋路径
支持从任意角度渲染和实时互动

🔗 https://cat3d.github.io/index.html

🔗 https://xiaohu.ai/p/8109

5月17日

🎉

🔔Xiaohu.AI 日报「5 月 17日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖北京星动纪元公司发布了一个机器人手：Xhand

- 拥有12个主动自由度，内置触觉传感器

- 能高度控制精度，温柔抚摸猫咪、精确操作剪刀、拿捏鸡蛋等

- 视频显示其灵活性

🔗 https://x.com/imxiaohu/status/1791370034352435334

2⃣️

🎤李飞飞 TED 演讲

- 介绍空间智能，赋予AI了解真实世界的能力

- 类比生物的视觉能力与寒武纪大爆发

- 数字寒武纪大爆发需通过空间智能实现

🔗 原版视频：https://ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world

🔗 文字版翻译：https://xiaohu.ai/p/8105

3⃣️

📊ChatGPT 改进数据分析功能

- 新增交互式表格和图表功能

- 支持从 Google Drive 和 Microsoft OneDrive 添加文件

- 能定制和交互多种图表类型

🔗 详细：https://xiaohu.ai/p/8028

4⃣️

💸据 The Information 报道

- Stability AI 面临资金紧张，正在寻求出售

- 已与潜在买家进行谈判

🔗 https://x.com/imxiaohu/status/1791139594018402362

5⃣️

🌐Google Project Astra详细介绍

- 全能AI助手，能听、能看并实时回答问题

- 基于Gemini模型，能快速处理视频和语音输入

- 9个功能演示视频

🔗 https://xiaohu.ai/p/8005

6⃣️

🍏苹果宣布一些列新的辅助功能

- 包括眼动追踪、语音快捷方式、音乐触感、减缓晕车等

- 无需额外硬件或配件，通过凝视控制和语音快捷方式操作设备

🔗 更多详细功能介绍：https://xiaohu.ai/p/7936

7⃣️

👁️Google Project Astra的推理能力展示

- 能仅凭简笔画推测出人物和相关内容

- 展示效果不错

🔗 https://x.com/imxiaohu/status/1790920748124819861

8⃣️

🖼️腾讯混元DiT模型

- 支持中英双语生成高分辨率、高质量的图像

- 基于Diffusion Transformer技术，能抓住语言细微差别

- 通过多轮对话细化和调整图像内容，支持不同分辨率生成

🔗 详细介绍：https://xiaohu.ai/p/7918

5月15日

💡

🔔Xiaohu.AI 日报「5 月 15日」

✨✨✨✨✨✨✨✨

1⃣️

🌍 微软中国 AI 团队「打包」赴美

微软中国区 Azure 人工智能团队集体调动至美国和澳大利亚。
需在6月7日前做出是否调动的决定，否则面临裁员。
微软美国提供家属签证支持。

🔗 https://x.com/imxiaohu/status/1790666970075172976

2⃣️

🎨 Deep Paint：Blender的3D绘画插件

允许用户在3D空间中直接绘制和编辑模型。
提供多种特制笔刷和材质，增强艺术效果。

🔗 https://x.com/imxiaohu/status/1790648130943533507

3⃣️

😃 为GPT 4o赋予真人形象

利用Synthesia公司的Expressive-1模型，使GPT 4o展现真人表情。
表情包括皱眉、微笑等，能与语音精准同步。

🔗 https://x.com/imxiaohu/status/1790670780570939693

4⃣️

🌐 Google Project Astra：对标GPT 4o

Astra拥有长期记忆能力，可以随时回忆之前的互动。
尽管存在延迟，响应速度与GPT 4o相近。

🔗 https://x.com/imxiaohu/status/1790588070615716351

5⃣️

🚀 字节跳动发布“豆包大模型”家族

包括通用模型、语音合成和文生图模型等9个大模型。
已在50多个内部业务和场景中应用。

🔗 https://mp.weixin.qq.com/s/uRotMb5uyFdYiKHROYjTWA

🔗 https://x.com/imxiaohu/status/1790570604279820464

6⃣️

🔊 ElevenLabs发布配音API

开发者可利用此API在产品中添加多语种音视频翻译功能。
支持29种语言，保留原发声音的特征。

🔗 https://x.com/imxiaohu/status/1790405953625731244

5月10日

🤖

🔔Xiaohu.AI 日报「5 月 10日」

✨✨✨✨✨✨✨✨

1⃣️

🗣️Pocket Computer：

一款便携式语音助理，目前正在内测阶段。
由 http://retellai.com 的语音agent提供支持。

🔗 https://x.com/imxiaohu/status/1788929574124093593

2⃣️

🎨Stylar：最可控的AI图像与设计工具

功能全面、操作简单，适用于多个场景。
包括背景移除、添加/删除对象、2D到3D、背景修改等功能。
https://www.stylar.ai/
详细教程：https://xiaohu.ai/p/7702

3⃣️

📱Siri Ultra：通过快捷命令在iPhone上实现LLM对话

支持Llama3、GPT等模型的实时语音和联网搜索。
借助Cloudflare Workers无服务器平台，兼容任何LLM模型。
GitHub：https://github.com/fatwang2/Siri-Ultra

4⃣️

🤖ChatGPT的Android客户端新版本

新增代号：gpt-4l、gpt-4l-auto、gpt-4-auto。
奥特曼风格的“套娃”命名。

🔗 https://x.com/imxiaohu/status/1788837013610983653

5⃣️

🧠Gemma 2B扩展至1000万上下文窗口

通过Infini-Attention技术实现1000万长度的序列。
保持低内存和计算成本，O(1)内存和O(n)时间复杂度。
模型下载：https://huggingface.co/mustafaaljadery/gemma-2B-10M
技术细节：https://xiaohu.ai/p/7742

6⃣️

🚗SoundHound AI与Perplexity的合作

将在线智能问答功能引入汽车的语音助手。
可查询油价、电影演员阵容等信息。
详细内容：https://xiaohu.ai/p/7737

7⃣️

🎼ElevenLabs Music：推出音乐生成模型

基于单个文本提示生成完整歌曲。
涵盖流行摇滚、乡村、爵士等多种风格。
详细内容及试听：https://xiaohu.ai/p/7687

8⃣️

👀OpenAI的Assistants API

现在支持视觉功能，涵盖png、jpg、gif和webp格式。
组织限制100GB，用户限制10GB。

🔗 https://x.com/imxiaohu/status/1788745454022525010

5月9日

✅

🔔Xiaohu.AI 日报「5 月 9日」

✨✨✨✨✨✨✨✨

1️⃣

🔬DeepMind发布AlphaFold 3：

该模型可预测所有生命分子结构及其相互作用。

🔗 https://xiaohu.ai/p/7602

2️⃣

🧠Neuralink脑机接口项目进展报告：

首位四肢瘫痪者通过脑机接口重获操作能力，在手术后可控制笔记本电脑进行游戏、浏览互联网和直播。

🔗 https://xiaohu.ai/p/7610

3️⃣

🎥Krea AI推出视频生成工具Krea Video：

结合关键帧和文本提示生成视频，可在时间轴上调整。
关键帧决定视频视觉效果，文本提示定义风格和内容。

🔗 https://xiaohu.ai/p/7621

4️⃣

📈阿里巴巴发布通义千问2.5：

宣称全面超越GPT-4 Turbo，中文能力最强。
该模型在理解、逻辑推理、指令遵循和代码能力上全面提升。
基准测试结果显示得分追平GPT-4 Turbo。
Qwen1.5-110B开源模型超越Meta的Llama-3-70B。

🔗 https://x.com/imxiaohu/status/1788412349030023583

5️⃣

🎬首个国产媲美Sora的视频生成模型Vidu发布报告：

生成最长16秒的高分辨率1080p视频，支持单帧图像生成。
提供技术架构、训练方法及详细功能。

🔗 https://xiaohu.ai/p/7597

6️⃣

📐Autodesk推出3D模型生成工具：

可基于文本、2D图像或体素等输入生成3D模型。
受到用户批评，指责Autodesk窃取数据进行训练。

🔗 https://x.com/imxiaohu/status/1788390850353111149

7️⃣

🎼Udio推出Audio Inpainting功能：

无缝编辑和优化音频轨道，修正错误或平滑过渡。
订阅提供不同层级和功能，标准与高级用户享优先生成队列。

🔗 https://x.com/imxiaohu/status/1788247093137871037

5月8日

🎉

🔔Xiaohu.AI 日报「5 月 8日」 ✨✨✨✨✨✨✨✨

1⃣️

🤝微软与LinkedIn的2024工作趋势报告：

- 分析了生成式AI如何重塑工作和劳动力市场，覆盖31个国家的3.1万名受访者。

- 主要发现：75%的全球知识工作者已使用生成式AI，79%的领导者认为AI是竞争力的关键。

- 重度用户表示AI让工作更高效、更具创造力、更易管理。

🔗 https://microsoft.com/en-us/worklab/work-trend-index/ai-at-work-is-here-now-comes-the-hard-part/#section1

2⃣️

🦾德克萨斯大学的可拉伸电子皮肤：

- 为机器人赋予人类般的触感和灵敏度，解决材料拉伸时感应精度下降的问题。

- 模仿人类皮肤的柔软和灵敏度，适用于需要精确控制的任务。

🔗 https://xiaohu.ai/p/7583

🔗 https://x.com/imxiaohu/status/1788200446877905213

3⃣️

🌅IC-Light：图像重新照明技术：

- 通过文本提示生成特定光照方向的图像，例如模拟“左侧日光”效果。

- 结合背景提示信息实现前景物体的不同风格光照变化。

🔗 https://xiaohu.ai/p/7562

4⃣️

🎨Ilus AI：快速生成插画的AI工具：

- 预制模型能快速生成墨线画、涂鸦等风格插画。

- 上传插画进行个性化训练，导出为SVG或PNG格式。

🔗 https://xiaohu.ai/p/7537

5⃣️

🛡️Palantir混合虚拟现实军事指挥系统：

- 将任何普通掩体或哨所变为指挥中心，实现沉浸式控制。

- 功能：混合现实能力、前线指挥、沉浸式控制。

🔗 https://x.com/imxiaohu/status/1788076636128366934

6⃣️

🏥Agent Hospital：虚拟AI医院：

- 模拟从诊断到治疗和康复的完整流程，医生可数天内治疗1万患者。

- 患者、护士和医生均由LLM驱动的AI代理组成。

🔗 https://xiaohu.ai/p/7524

7⃣️

🔒微软为美国情报机构开发的GPT-4：

- 经过改造的GPT-4模型可在无互联网的环境下处理机密数据。

- 超级计算机经过18个月调整，约1万人使用。

🔗 https://xiaohu.ai/p/7521

8⃣️

📈360 AI搜索增长迅猛：

其增长率达到1300%，跃升至国内第一，预示着潜在的爆发式增长。
用户体验相对良好，产品效果对普通用户很友好。

🔗 https://mp.weixin.qq.com/s/GIM57PLIgiqJfr-790LMKQ

5月7日

🎉

🔔Xiaohu.AI 日报「5 月 7日」 ✨✨✨✨✨✨✨✨

1️⃣

🍎 新款 iPad Pro 配备 M4 芯片：

- 拥有更快的神经处理单元 (NPU) 来增强 AI 能力。

- 支持每秒 38 万亿次运算。

- 宣称其 AI 功能比现今的 AI PC 更加强大。

- 更像电脑的设计风格，重点在于 M4 芯片发布，预示下月 WWDC 发布会对 AI 的全面拥抱。

🔗 https://x.com/imxiaohu/status/1787853964190552373

2️⃣

🧪 STRUCTCHEM：提升大模型解决复杂化学问题能力

- 新的提示策略，分三阶段进行：生成公式、逐步推理、复查与优化。

- 显著提升 GPT-4 在化学推理方面的表现，可达 30 个百分点的提升。

- 数据集覆盖量子化学、物理化学等领域。

🔗 详细：https://xiaohu.ai/p/1595

3️⃣

🤖 GPT-2 聊天机器人重回竞技场：

- 两个 GPT-2 机器人：Im-a-good-gpt2-chatbot 和 Im-also-a-good-gpt2-chatbot。

🔗 https://x.com/imxiaohu/status/1787833248456040657

4️⃣

🎥 4 摄像头视角与 3D 骨骼姿势全息角色传送：

- 实现全息角色传送，实时渲染高精度视频。

- 提供 4K 分辨率的人类自由视角视频。

- 利用该技术将虚拟角色放入场景，实现沉浸式互动。

🔗 项目地址：http://vcai.mpi-inf.mpg.de/projects/holochar/

🔗 详细介绍：https://xiaohu.ai/p/7484

5️⃣

🌌 DeepSeek 发布 2360 亿参数的 DeepSeek-V2：

- 60 位专家混合开源模型，数学、编码和推理表现出色。

- 236B 参数，21B 在生成过程中被激活。

- 在 MT-Bench 上表现优异，中文能力强且性价比高。

🔗 详细介绍：https://xiaohu.ai/p/7468

6️⃣

🔍 Google Gemini 网络安全产品：

- 检测并防御网络钓鱼攻击。

- 结合广泛的用户和网络监控发现威胁。

- 利用 AI 分析功能生成情报报告。

🔗 详细：https://xiaohu.ai/p/7460

7️⃣

🚗 Wayve 获超 10 亿美元 C 轮融资：

- 开发“驾驶 GPT” 基础模型，实现具身体智能自动驾驶。

- 使车辆在各种环境中操作，几乎无需人为干预。

- 使车辆与人类互动、学习并理解人类行为。

🔗 详细内容：https://xiaohu.ai/p/7453

8️⃣

🩺 CURE 模型预测治疗结果：

- 利用 300 万患者数据进行预训练并针对特定健康状况微调。

- 效果堪比随机临床试验，能帮助理解治疗对患者健康的具体影响。

- 学习患者数据的模式，预测不同治疗方式可能的效果。

🔗 详细介绍：https://xiaohu.ai/p/7321

9️⃣

🎨 Logo Diffusion：快速创建 Logo 标志

- 利用 AI 几秒钟内生成 Logo。

🔗 https://xiaohu.ai/p/7393

🔟

🦾 微软推出 MAI-1 大模型：

- 由 Inflection CEO Mustafa Suleyman 负责。

- 模型规模超过 5000 亿参数，远超微软之前的开源模型。

- 使用 Inflection 技术和数据，但独立于原有项目 Pi。

🔗 来源：https://t.co/aba77GFcnD

5月6日

🎉

🔔Xiaohu.AI 日报「5 月 6 日」 ✨✨✨✨✨✨✨✨

1⃣️

🔍 一种基于模型的多智能体短视频推荐系统：

- 特点：使用多智能体关注不同用户偏好

- 功能：通过非印象样本和多智能体协作机制优化

- 结果：提高推荐质量和用户互动

🔗 https://arxiv.org/abs/2405.01847

🔗 https://xiaohu.ai/p/7383

2⃣️

🍏 苹果公司在AI领域的新动向：

- 投资：重大投资于生成式AI

- 技术：开发自研语言模型Ajax，优化Siri

- 能力：探索设备上的离线文本生成

🔗 https://x.com/imxiaohu/status/1787402432265539711

3⃣️

🎙️ Supertone Shift：实时语音变换器：

- 功能：多角色声音变换，音调调整

- 集成：支持Discord、VRChat和Twitch

🔗 https://xiaohu.ai/p/7358

4⃣️

🎥 Adobe：从单一视角生成多视角视频：

- 创新：实时渲染，观看同一场景的不同角度

- 优势：渲染速度快，支持3D立体视频合成

🔗 https://xiaohu.ai/p/7334

5⃣️

👗 Chrome插件：虚拟试衣：

- 使用场景：一键虚拟试衣功能，直接在电商网站使用

🔗 https://replicate.com/cuuupid/idm-vton

🔗 https://x.com/imxiaohu/status/1787308297042940245

6⃣️

🤖 特斯拉擎天柱机器人的进展：

- 功能：增强步行稳定性，精准分拣

- 训练方式：视觉辅助和人类示范

🔗 https://x.com/imxiaohu/status/1787054604162896098

7⃣️

🌐 Adobe Project Neo：

- 功能：为2D图像添加3D效果，提高工作效率

- 集成：与Adobe应用程序无缝集成

🔗 https://xiaohu.ai/p/7312

8⃣️

☁️ 微软的AI天气预测模型：

- 创新：整合多种AI和深度学习架构

- 准确性：预报未来天气情况的准确率超过传统模型

🔗 https://arxiv.org/abs/2403.15598

🔗 https://xiaohu.ai/p/7307

9⃣️

📚 Gradient AI 扩展 Llama-3 的上下文长度：

- 进展：从8K令牌扩展到超过100万令牌

- 用途：处理极长文本，如整本书的内容

🔗 https://xiaohu.ai/p/7291

🔟

👁️ VILA：新的视觉语言模型：

- 能力：在多图像间进行推理，理解视频

- 应用：图像描述、问答等情景理解任务

🔗 https://xiaohu.ai/p/7273

1⃣️1⃣️

🎬 HeyGen的自动剪辑视频工具 Instant Highlights 1.0：

- 功能：自动剪辑视频，支持多种语言配音

- 适用：多平台分发

🔗 https://x.com/imxiaohu/status/1786731497913000146

5月2日

🎉

🔔Xiaohu.AI日报「5月2日」 ✨✨✨✨✨✨✨✨

1️⃣

🌟奥特曼斯坦福对话完整版发布

- 详细探讨了GPT 5、AGI、核聚变发电、人类未来等话题。

- 万字实录，信息量丰富。

- 文章链接：https://mp.weixin.qq.com/s/7xWTf84wMIFK_fwT1l4mtg

2️⃣

🤖英伟达ChatRTX新增多功能

- 增加了语音、图像识别等功能。

- 支持新模型Gemma和中英双语的ChatGLM3。

- RTX Remix允许在NVIDIA Omniverse平台上将PC游戏转化为RTX重制版。

- 详细介绍：https://xiaohu.ai/p/7161

3️⃣

📰乌克兰外交部引入AI新闻发言人Victoria Shi

- AI形象基于乌克兰歌手Rosalie Nombre。

- 提供战争即时信息更新，每个视频底部都有QR码以验证真实性。

- 详细介绍：https://xiaohu.ai/p/7149

4️⃣

👩💻亚马逊推出企业级AI助手Amazon Q

- 功能包括生成高精度代码、测试、调试及多步骤规划。

- 连接企业数据仓库，便于获取公司信息和生成报告。

- 详细介绍：https://xiaohu.ai/p/7143

5️⃣

📱Claude推出iOS客户端和Team Plan

- 允许用户在网页、iPhone和iPad上无缝、连续聊天。

- 支持照片和上传文件，实时分析图像和解读上下文。

- Claude 3的Sonnet免费使用。

- 下载地址：https://apps.apple.com/us/app/claude/id6473753684

5月1日

🎉

🔔Xiaohu.AI日报「5月1日」 ✨✨✨✨✨✨✨✨

1️⃣

🎵AI音乐工具Udio更新

增加上下文窗口，使音乐作品过渡更自然。
音轨最大长度扩展至15分钟，适合长篇混音和复杂音乐制作。
引入基于树的音轨历史查看方式。
详细介绍：https://x.com/imxiaohu/status/1785666886648447251

2️⃣

🗣️Play AI高级对话系统发布

实时模拟人类交流方式，包括语境理解和情感模拟。
处理对话中的轮流对话和突然中断。
在线体验地址：http://play.ai
详细介绍：https://xiaohu.ai/p/7137

3️⃣

🌐Chrome快捷启动Gemini功能

通过地址栏直接启动与Gemini的聊天。
提高用户访问和使用效率。
详细介绍：https://x.com/imxiaohu/status/1785648363154952625

4️⃣

👁️LoG：3D实时视图合成技术

浙江大学3DV小组开发，适用于百万平方米大场景。
动态调整渲染细节，优化渲染速度。
项目地址：https://zju3dv.github.io/LoG_webpage/
详细介绍：https://xiaohu.ai/p/7108

5️⃣

🎬新《地狱男爵》电影AI角色设计

Jonathan Yunger使用AI制作3000个生物设计。
强调AI的辅助角色，而非取代人类。
出处：https://motionpictures.org/2024/03/lights-camera-action-plan-a-focus-on-the-filmmakers-of-tomorrow-at-berlinale/

6️⃣

🎮Meshy AI发布Meshy-3

高多边形雕塑风格和PBR风格，提高3D模型真实感。
支持文本到3D和图像到3D转换。
详细介绍：https://x.com/imxiaohu/status/1785490250426692086

4月30日

🎂

🔔Xiaohu.AI日报「4月30日」 ✨✨✨✨✨✨✨✨

1⃣️

🔬Med-Gemini：基于Google Gemini的多模态医学大模型

- 能理解和分析手术视频及多模态医学数据。

- 达到医学问题解答等多个领域的新SoTA性能，超过GPT-4。

- https://xiaohu.ai/p/7082

2⃣️

🚗杭州主城区实行智能汽车无人驾驶

- 杭州成为全国首个为自动驾驶车辆明确流程的非经济特区城市。

- 已完成超过120万公里的安全测试，事故率为零。

- https://x.com/imxiaohu/status/1785227130324095459

3⃣️

🤖Robosen发布限量版Megatron变形金刚机器人

- https://x.com/imxiaohu/status/1785206316434370946

4⃣️

💾ChatGPT 记忆功能全量上线

- 能记住用户与其互动的内容。

- 用户可控制内存，包括关闭、重置或删除。

- https://xiaohu.ai/p/7060

5⃣️

🏥Meditron：基于Llama的开源医学大语言模型

- 性能优于所有开源医学模型。

- 特别适用于资源有限的医疗环境。

- 完全开源，便于全球研究人员和开发者访问和修改。

- https://xiaohu.ai/p/7039

6⃣️

👨💻GitHub发布Copilot Workspace预览版本

- 通过自然语言编程简化开发流程。

- 支持多平台开发，包括桌面和移动设备。

- https://xiaohu.ai/p/7034

4月29日

🎂

🔔Xiaohu.AI日报「4月29日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖GPT 2 Chatbot神秘机器人：

可能由OpenAI基于GPT-2微调，运行于移动设备。
性能表现出色，可能预示重大发展。

🔗 https://x.com/imxiaohu/status/1784981899137708376

2⃣️

🎎Anime gf：

本地开源的CharacterAI替代工具，支持自定义虚拟角色。
集成多家AI服务，支持角色卡片的导入导出。

🔗 GitHub：https://github.com/cyanff/anime.gf

🔗 详细介绍：https://xiaohu.ai/p/6996

3⃣️

🔍OpenAI的AI问答搜索引擎SearchGPT：

通过聊天形式实现全网搜索，包括图像搜索。
集成多种实用小部件，支持交互式追问。

🔗 https://x.com/imxiaohu/status/1784776773311623618

4⃣️

🏦摩根大通的FlowMind工具：

自动化金融工作流程，特别注重数据安全和隐私。
结合用户反馈优化工作流，提高金融操作效率。

🔗 详细介绍：https://xiaohu.ai/p/6943

5⃣️

📲开源抖音项目：

使用Vue3、Pinia和Vite5开发，提供流畅体验。
可用于学习或开发特色项目。

🔗 GitHub：https://github.com/zyronon/douyin

6⃣️

👁️InternVL开源多模态模型：

优秀的图像和文本处理能力，支持高分辨率输入。
竞争并超越顶尖商业模型在多个基准测试上。

🔗 详细介绍：https://xiaohu.ai/p/6958

🔗 GitHub：https://github.com/OpenGVLab/InternVL

4月27-28日

🎂

🔔Xiaohu.AI日报「4月28日」 ✨✨✨✨✨✨✨✨

1⃣️

🌌 Extropic 发布创新热力学计算机：

利用物质随机波动驱动计算。
比传统计算机快速，节能，适用于强大概率AI算法。

🔗 https://xiaohu.ai/p/6949

2⃣️

🤖 PhysDreamer 开发新功能：

识别和理解3D对象的物理材质属性。
预测和生成真实的物理动态交互。

🔗 https://xiaohu.ai/p/6935

3⃣️

🎥 从2D动漫人物到3D真人视频的转换：

使用SD和Haiper AI技术转换和动画化。

🔗 https://xiaohu.ai/p/3844

4⃣️

🔍 Perplexica - AI驱动的搜索引擎：

提供多种搜索模式，如学术、视频等。
支持本地部署的大型语言模型。

🔗 https://xiaohu.ai/p/6922

5⃣️

📹 Vidu - 生成高清长视频的模型：

生成长达16秒的1080P视频。
结合Diffusion和Transformer技术。

🔗 https://xiaohu.ai/p/6912

6⃣️

🎨 英国作家协会AI调查结果：

大量翻译者和插画师因AI失业。
绝大多数受访者要求政府引入监管措施。

🔗 https://xiaohu.ai/p/6907

7⃣️

🌐 DomoAI新增四种艺术风格：

乐高、美国漫画、彩笔、像素艺术。

🔗 https://x.com/imxiaohu/status/1784219737314197901

8⃣️

🤖 Sanctuary AI发布第七代机器人：

更快学习新任务，更低成本，更灵活精确。

🔗 https://xiaohu.ai/p/6900

9⃣️

🌐 WebLlama：基于Llama-3-8B的网页浏览代理：

执行搜索、导航和信息检索。

🔗 https://xiaohu.ai/p/6884

🔟

👀 LLaVA++赋予Phi-3和Llama-3视觉能力：

改进的模型理解和执行视觉内容相关指令。

🔗 https://xiaohu.ai/p/6873

4月26日

🎂

🔔Xiaohu.AI日报「4月26日」 ✨✨✨✨✨✨✨✨

1⃣️

🔧 使用 PoSE 技术扩展 Llama 8B 模型上下文长度：

PoSE 通过调整位置编码的规模，扩展序列长度至64k。
改善长序列处理能力，提高位置信息的利用效率。

🔗 https://x.com/imxiaohu/status/1783811021922316567

2⃣️

🎮 Interactive3D 项目推出：

允许用户通过交互操作实时修改3D模型。
操作包括添加、移除组件，以及可变形和刚性拖动。
提供即时反馈，可通过文本控制。

🔗 https://interactive-3d.github.io

🔗 https://x.com/imxiaohu/status/1783757124251853287

3⃣️

🤖 星尘智能AI机器人 S1：

灵活模仿人类动作，速度与人类同步。
能执行叠杯、倒酒、削黄瓜等多种复杂任务。
全方位性能超越人类，视频演示为1倍速。

🔗 https://astribot.com

🔗 https://x.com/imxiaohu/status/1783719798859513948

4⃣️

🚀 Sam Altman 在斯坦福的演讲：

强调下一代 AI 模型将比 GPT-4 更强大。
提倡创业者应面对AI技术的未来，而非现有局限。
OpenAI 致力于AGI，推广免费、无广告的 ChatGPT。

🔗 https://x.com/imxiaohu/status/1783674921899684214

5⃣️

🔊 OpenVoice V2版本推出：

支持多语言，包括英语、西班牙语、法语、中文、日语和韩语。
音质提升，可复制任何声音，精细控制情感、口音和语调。

🔗 https://xiaohu.ai/p/6726

🔗 https://x.com/imxiaohu/status/1783312237937005043

4月25日

🎂

🔔Xiaohu.AI日报「4月25日」 ✨✨✨✨✨✨✨✨

1⃣️

🎭 Synthesia 新技术展示：

推出新型虚拟数字人 Expressive-1，能通过脚本预测表情。
数字人可自动解析和理解文本情绪，实现表情和声音同步。

🔗 https://x.com/imxiaohu/status/1783505405488054433

2⃣️

🌐 360 AI 浏览器新功能：

新版AI浏览器增加了视频总结、提问、转录和翻译功能。
支持本地和网络视频的内容分析，但无法提取无对白视频摘要。

🔗 http://browser.360.cn/ai

🔗 https://x.com/imxiaohu/status/1783495437422649719

3⃣️

📚 全球最大AI知识库一周年：

通往AGI之路网站访问量突破1000万。
网站内容丰富，旨在推动AI知识的普及。

🔗 http://WaytoAGI.com

🔗 https://x.com/imxiaohu/status/1783475002815471669

4⃣️

🤖 日本横须賀市AI市长：

使用AI技术克隆市长，用于发布英语信息。
技术应用广泛，包括灾难信息传播和旅游信息发布。

🔗 https://x.com/imxiaohu/status/1783430494954439131

5⃣️

🏭 2024 亚马逊云科技中国峰会：

专注于AI的应用和创新，将在上海举行。

🔗 https://wxaurl.cn/YtKtFTJ3jFa

🔗 https://x.com/imxiaohu/status/1783286143150436359

5⃣️

🎤 阿里巴巴 EMO 项目上线：

在通义千问平台上线，支持基于照片和音频的视频生成。
目前平台用户较多，需要排队等待。

🔗 https://x.com/imxiaohu/status/1783420184780476823

6⃣️

🎭 DeepFaceLive 实时面部更换：

实时更换面部表情和形象，适用于视频通话和直播。
包括面部动画器，可操作静态面部图片。

🔗 https://github.com/iperov/DeepFaceLive

🔗 https://x.com/imxiaohu/status/1783405858627699183

7⃣️

👗 IDM-VTON 虚拟试衣技术：

生成高度真实的试衣图像，精细捕捉服装细节。
技术适用于多样化人物和复杂背景。

🔗 https://idm-vton.github.io

🔗 https://x.com/imxiaohu/status/1783363329781801234

8⃣️

🖥️ 微信小微助手：

功能包括自然语言文件搜索和在线问答。
虽然官网已关闭下载链接，但该工具支持多种应用集成。

🔗 https://x.com/imxiaohu/status/1783100619986964754

9⃣️

📱 MLX Phi-3 在 iPhone 本地运行：

完全离线运行，提供快速响应。

🔗 https://x.com/imxiaohu/status/1783331151354155485

🔟

🖼️ HiDiffusion 图像生成速度提升：

扩散模型集成简单，显著提高图像分辨率和生成速度。
支持多种图像生成任务和模型。

🔗 https://hidiffusion.github.io

🔗 https://x.com/imxiaohu/status/1783328829836345700

1️⃣1️⃣

🔊 OpenVoice V2 版本升级：

支持多语言音频生成，提升音质和声音控制精度。

🔗 https://xiaohu.ai/p/6726

🔗 https://x.com/imxiaohu/status/178331223793700

1️⃣2️⃣

🏭 2024 亚马逊云科技中国峰会：

专注于AI的应用和创新，将在上海举行。

🔗 https://wxaurl.cn/YtKtFTJ3jFa

🔗 https://x.com/imxiaohu/status/1783286143150436359

4月20-22日

💡

🔔Xiaohu.AI日报「4月22日」 ✨✨✨✨✨✨✨✨

1⃣️

🔧 Llama3-8B-Chinese-Chat：

基于Llama3-8B通过ORPO微调的中文聊天模型
显著减少中英混合回答，增强中文逻辑和写作表现
减少表情符号使用，回应更加正式 🔗 https://x.com/imxiaohu/status/1782345090780004604

2⃣️

🛠️ Llama-3 8B 免费微调：

unslothai推出在Colab上免费微调Llama-3 8B的方案
推荐使用Colab Pro，加速微调进程 🔗 Colab 方案：https://colab.research.google.com/drive/135ced7oHytdxu3N2DNe1Z0kqjyYIkDXp?usp=sharing 🔗 项目地址：https://github.com/unslothai/unsloth 🔗 https://x.com/ZHOZHO672070/status/1782361779244601526

3⃣️

🏥 Apple Vision Pro 辅助手术：

巴西医生使用Apple Vision Pro成功进行肩袖撕裂手术
提高手术精度，改善医生操作界面
强调Vision Pro在手术中的高动态范围优势 🔗 https://macmagazine.com.br/post/2024/04/19/apple-vision-pro-e-usado-em-cirurgia-ortopedica-no-brasil/ 🔗 https://x.com/imxiaohu/status/1782075414099411348

4⃣️

🌐 阿里云支持 Llama 3：

全面支持Llama 3训练推理
提供限时免费服务
一键部署方便国内开发者快速体验 🔗 https://x.com/imxiaohu/status/1782257131770835354

5⃣️

🚫 小扎对AGI实现持悲观态度：

认为2025年前AGI不可能实现
提到能源问题和开源模型的未来 🔗 https://x.com/imxiaohu/status/1781886067953778803

6⃣️

💻 Llama 3 8B 在树莓派上运行：

树莓派Raspberry Pi 5上运行速度1.89 token/s
显示Llama 3 8B模型的灵活性和适用性 🔗 https://x.com/imxiaohu/status/1781875106157060333

7⃣️

📹 EndlessDreams 实时视频：

通过语音对话生成实时视频
为交互式内容创建提供新方法 🔗 https://x.com/imxiaohu/status/1781840132867568032

8⃣️

🎬 VSR 字幕去除工具：

利用AI去除视频和图片中的字幕
支持智能填充处理，确保视觉质量 🔗 https://x.com/imxiaohu/status/1781676299796492430

9⃣️

🎧 Nothing公司集成ChatGPT：

在无线耳机中集成ChatGPT
强化音频和智能手机产品的用户体验 🔗 https://x.com/imxiaohu/status/1781674408828145927

4月19日

💡

🔔Xiaohu.AI日报「4月19日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 Twitter-Insight-LLM：

抓取Twitter上点赞的推文，保存为JSON和Excel
支持文字描述搜索未标注图像
自动生成描述性文字
https://github.com/AlexZhangji/Twitter-Insight-LLM

2⃣️

🔧 Imagine Flash技术：

创新的加速扩散模型框架，缩短生成步骤至1至3步
提升图像质量和保真度
已应用于Meta AI聊天机器人 🔗 https://ai.meta.com/research/publications/imagine-flash-accelerating-emu-diffusion-models-with-backward-distillation/

3⃣️

🆕 Llama 3 & Meta AI助手：

发布Llama 3，包括8B和70B模型，最大型号预计为400B+
Meta AI助手集成搜索功能，适用于多个平台 🔗https://www.meta.ai/

4月18日

💡

🔔Xiaohu.AI日报「4月18日」 ✨✨✨✨✨✨✨✨

1⃣️

🌐 Meta发布Llama 3系列大语言模型：

- 两种型号：8B和70B，包括专门优化的聊天版本。

- 首次通过Microsoft Azure和replicate以API形式提供。

🔗 Microsoft Azure链接：https://azuremarketplace.microsoft.com/en-us/marketplace/apps/metagenai.meta-llama-3-8b-chat-offer?tab=overview

🔗 replicate 链接：https://replicate.com/pricing

🔗 https://x.com/imxiaohu/status/1780977143679447519

2⃣️

📱 Hugging Face推出Hugging Chat App iOS客户端：

- 提供6款模型，主要不支持中文。

- 用户反馈：应用速度快。

🔗 下载：https://apps.apple.com/us/app/huggingchat/id6476778843

🔗 https://x.com/imxiaohu/status/1780961832104350128

3⃣️

🎭 基于Unity的Live2D虚拟人聊天系统：

- 结合ChatGPT、Azure、情绪识别和口型同步。

- 创建虚拟对话伙伴。

🔗 GitHub：https://github.com/Navi-Studio/Virtual-Human-for-Chatting

🔗 详细介绍：https://xiaohu.ai/p/6442

🔗 https://x.com/imxiaohu/status/1780945982253044013

4⃣️

🤖 MeMenteeBot：端到端任务完成的机器人：

- 通过视觉模仿自我学习，可以导航、抓取物体等。

- 先进的Sim2Real技术，提高动作灵活性。

🔗 详细：https://xiaohu.ai/p/6429

🔗 https://x.com/imxiaohu/status/1780933079131132384

5⃣️

🏫 School AI在圣地亚哥托勒小学的试点：

- 为每个学生创建个性化聊天机器人。

- 助力个性化学习体验和即时反馈。

🔗 https://x.com/imxiaohu/status/1780920099517694160

6⃣️

🌍 微软与阿联酋G42达成15亿美元投资协议：

- 微软与G42共同推广中东、中亚和非洲的数字基础设施。

- 协议包括Brad Smith加入G42董事会。

🔗 https://finance.yahoo.com/news/microsoft-invests-1-5-billion-153522793.html

🔗 https://x.com/imxiaohu/status/1780894142740242594

7⃣️

🎨 SD 3在线体验：

- 提供直接体验和API申请链接。

- 支持NVIDIA RTX 4090的高速视频生成。

🔗 体验链接：https://sdxlturbo.ai/stable-diffusion3

🔗 API申请：https://platform.stability.ai/account/keys

🔗 开源方案：https://github.com/Doriandarko/sd3-streamlit

🔗 https://x.com/imxiaohu/status/1780777121780310142

8⃣️

🎬 微软VASA-1项目：将单人像照片与语音结合生成人脸视频：

- 实现了与阿里巴巴EMO项目类似的功能，效果更佳。

🔗 https://x.com/imxiaohu/status/1780753933264400767

4月17日

💡

🔔Xiaohu.AI日报「4月17日」 ✨✨✨✨✨✨✨✨

1⃣️

🚀 Stable Diffusion 3 API 发布

Stability AI 宣布支持 Stable Diffusion 3 及其 Turbo 版本。
SD3 在文字到图像生成领域性能优越，特别是在字体和提示遵循方面。
Stability AI 暗示未来可能收费但未定发布日期。

🔗 https://x.com/imxiaohu/status/1780604711743402066

2⃣️

🤖 波士顿动力发布全新电动Atlas机器人

停止开发液压动力版本，转向全电动。
新电动Atlas设计轻巧，动作平滑，适用于复杂狭窄空间。
特点包括180度头部旋转，自我恢复能力，紧凑转弯能力。

🔗 https://x.com/imxiaohu/status/1780599667824513480

3⃣️

🕷️ FireCrawl开源爬虫工具

无需站点地图，可抓取任何网站的所有可访问子页面。
抓取内容可转换为Markdown格式，支持JavaScript动态内容。
提供易用API，简化内容爬取和转换。

🔗 https://x.com/imxiaohu/status/1780592067586269465

4⃣️

🎮 InstantMesh: 10秒快速生成3D模型

腾讯开发，结合多视图扩散模型和LRM。
在10秒内创建高精度3D模型。
可在线体验该技术。

🔗 https://x.com/imxiaohu/status/1780586192385483106

5⃣️

🛠️ Spline推出AI 3D Generation工具

支持文本生成3D模型，一次生成4种变体。
2D图像转3D图像，混合素材生成3D变体。
生成的3D内容可集成到网站和应用中。

🔗 https://x.com/imxiaohu/status/1780496970064552132

6⃣️

🎨 ZeST单一图像材质迁移技术

无需先前训练，可进行单一或多重材质编辑。
快速处理，不依赖云计算或服务器。
牛津大学、Stability AI 和 MIT CSAIL共同研发。

🔗 https://x.com/imxiaohu/status/1780487355696378210

7⃣️

🍏 苹果iOS 18人工智能功能

首批AI功能将完全在设备上运行，保障隐私。
苹果正在开发大语言模型 "Ajax"。
苹果可能会在6月的WWDC大会上公布更多AI计划。

🔗 https://appleinsider.com/articles/24/04/15/apples-ios-18-ai-will-be-on-device-preserving-privacy-and-not-server-side

8⃣️

🧠 Reka Core: 强大的多模态语言模型

处理文本、图像、音频和视频的能力可与GPT-4V相媲美。
提供不同规模模型以满足业务需求。
Reka AI团队成员遍布全球，采用远程优先工作模式。

🔗 https://x.com/imxiaohu/status/1780428801908134319

9⃣️

🔎 CTRL-F-VIDEO: 视频中搜索特定词汇

通过Chrome扩展在YouTube视频中搜索关键词。
使用Whisper模型将音频转换为文本实现搜索。

🔗 https://x.com/imxiaohu/status/1780223867782578306

4月15-16日

💡

🔔Xiaohu.AI日报「4月16日」 ✨✨✨✨✨✨✨✨

1⃣️

🎥 CTRL-F-VIDEO - 搜索视频中的单词或短语：

在YouTube视频中搜索关键词，类似于文档中使用Ctrl-F。
利用Chrome扩展，Whisper模型在本地转换音频至文本进行搜索。

🔗 https://x.com/imxiaohu/status/1780223867782578306

2⃣️

💸 DeepMind CEO关于Google AI投资：

Google的AI投资将超过1000亿美元。
目标是实现通用人工智能（AGI），需要巨额计算资源。

🔗 https://x.com/imxiaohu/status/1780216772559585515

3⃣️

🔊 Optimizer AI文本到声音模型 1.0版本升级：

AI工具为视频自动生成音效，音质大幅提升。
官网体验和在线体验链接提供。

🔗 https://x.com/imxiaohu/status/1780212202173268220

4⃣️

🚀 JetMoE-8B模型 - 低成本高性能：

使用稀疏激活架构和专家系统，成本不到10万美元。
性能超越多个高规格模型，完全开源。

🔗 https://x.com/imxiaohu/status/1780207174708605166

5⃣️

🌐 2023年全球ChatGPT使用频率报告：

每天使用率最高的三个国家是印度、巴基斯坦、肯尼亚。
认知度最高的国家是印度和肯尼亚。

🔗 https://x.com/imxiaohu/status/1780153556563349669

6⃣️

🖼️ 2txt：Image to text转换工具：

利用AI SDK将图片内容转换为文字，不仅限于OCR。
提供体验地址和开源代码链接。

🔗 https://x.com/imxiaohu/status/1780101723719393780

7⃣️

📿 Rewind公司推出Limitless可穿戴AI设备：

可记录全天对话，具有记忆功能并可互动。
分为会议辅助平台和最小的可穿戴AI设备两款。

🔗 https://x.com/imxiaohu/status/1780082354226438620

8⃣️

🌐 Jina-ai/Reader - 网页内容转换工具：

将任何网页URL转换成对大语言模型友好的输入格式。
支持文本流或JSON输出，提高输入质量。

🔗 https://x.com/imxiaohu/status/1779838323512742220

9⃣️

🇯🇵 OpenAI在日本设立办事处，发布日语GPT-4优化模型：

新模型运行速度比GPT-4 Turbo快3倍。

🔗 https://x.com/imxiaohu/status/1779762216264466617

🔟

🔬 清华大学开发Taichi光子芯片：

针对通用人工智能的亿级神经元光计算芯片。
适用于自动驾驶、智能制造等高级任务。

🔗 https://x.com/imxiaohu/status/1779685276748845189

4月14日

💡

🔔Xiaohu.AI日报「4月14日」 ✨✨✨✨✨✨✨✨

1⃣️

🧱 Notion 推出“乐高”式创新，挑战传统办公软件

通过AI驱动的生产力工具，挑战Google Docs和Microsoft Office
在《福布斯》AI 50 强榜单中脱颖而出

🔗 https://x.com/dotey/status/1779280065563381796

2⃣️

🌐 光刻机技术的全球影响和美国的技术挑战

光刻机是全球经济和技术进步的关键设备
美国曾是光刻机核心技术的掌控者，但英特尔错过了这项技术

🔗 https://youtube.com/watch?v=NFLjeyd2M0k

🔗 https://x.com/imxiaohu/status/1779378989083344945

3⃣️

🎵 Udio AI：不仅是音乐生成，更是多功能音频引擎

Udio能生成多种音频内容，包括喜剧、演讲、广告等
功能远超传统音乐生成模型，表现出广泛的应用潜力

🔗 https://udio.com/playlists/deGuVDLYd9MrXtxnxfX7z1

🔗 https://x.com/imxiaohu/status/1779353742858739789

4⃣️

🌍 Archetype AI 发布物理世界理解基础模型 Newton

Newton 结合实时传感器数据与NLP技术，提供物理世界直接解读
可通过自然语言处理用户的问题和命令

🔗 https://xiaohu.ai/p/6091

🔗 https://x.com/imxiaohu/status/1779345304778928177

4月13日

💡

🔔Xiaohu.AI日报「4月13日」 ✨✨✨✨✨✨✨✨

1⃣️

🔍 马里兰大学开发出一种"隐形斗篷"

开发隐形斗篷技术，使物体对监控"隐身"
特殊图案可防止安全监控正确识别物体

🔗 https://xiaohu.ai/p/6063

🔗 https://x.com/imxiaohu/status/1779148764672139723

2⃣️

📱 Google 推出 Android Studio 升级版

提供一站式Android开发解决方案
强化代码自动完成、语法高亮和代码重构功能

🔗 https://xiaohu.ai/p/6051

🔗 https://x.com/imxiaohu/status/1779140081930178855

3⃣️

🤖 马斯克X AI发布Grok-1.5 Vision 多模态模型

新模型Grok-1.5V，能力与GPT 4V相当，部分领域更优
真实世界物理空间的理解超过所有竞争模型

🔗 https://x.ai/blog/grok-1.5v

🔗 https://x.com/imxiaohu/status/1779043744962195662

4⃣️

🌟 Ideogram 推出Describe增强提示功能

自动增强图像的文字描述，提高图像渲染质量
支持从设备上传图片或Ideogram图像转文字描述

🔗 https://xiaohu.ai/p/6029

🔗 https://x.com/imxiaohu/status/1778990921725657098

5⃣️

🏆 lmsys Arena 聊天机器人竞技场更新

中英文排名更新：GPT-4-Turbo 英文版的第一名，而 Claude Opus夺得中文版的第一名
国产模型Qwen 1.5 位列国产模型排名最高

🔗 http://leaderboard.lmsys.org

🔗 http://chat.lmsys.org

🔗 https://x.com/imxiaohu/status/1778978028850454530

4月8日

💡

🔔Xiaohu.AI日报「4月8日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 Digen AI：数字人克隆新选

强大的动态和静态同步能力
支持20种语言，Heygen强有力竞争对手
体验地址：http://digen.ai

🔗 https://x.com/imxiaohu/status/1777344473577701550

2⃣️

🎵 博主体验AI音乐应用，预言将引起巨大震撼

称赞其为划时代产品
音乐质量堪比Spotify
提到的产品可能是xgboost

🔗 https://x.com/imxiaohu/status/1777157320533041592

3⃣️

🎨 Facet AI：图像控制与生成的新工具

适合广告和产品图像
实时修改与直观操作
支持定制模型训练

🔗 https://x.com/imxiaohu/status/1777292021885227341

4⃣️

🦾 AVER LABS 推出轻巧灵活的机器人手臂：AMBIDEX

重量仅2.6千克，7个自由度
安全的人机交互
采用独特的开发方式和触觉设备

🔗 https://naverlabs.com/ambidex

🔗 https://x.com/imxiaohu/status/1777279435986833439

5⃣️

🎮 Sora：视频版GPT-1，展望未来的VR互动

目前局限于复杂物理互动
未来可能实现实时视频编辑

🔗 https://x.com/imxiaohu/status/1777227168793375224

6⃣️

👐 Hand Talk：AI手语翻译应用

将语音和文字翻译成ASL或Libras手语
联合国评为最佳社交应用
也是学习手语的平台

🔗 https://xiaohu.ai/p/5688

🔗 https://x.com/imxiaohu/status/1777201503142601143

4月7日

💡

🔔Xiaohu.AI日报「4月7日」 ✨✨✨✨✨✨✨✨

1⃣️

🤟Hand Talk：AI翻译为手语的应用

自动将文本或语音转换成美国手语(ASL)或巴西手语(Libras)。
联合国评为“世界上最佳的社交应用”，已翻译近20亿个单词。
既是翻译工具，也是学习平台。

🔗 https://xiaohu.ai/p/5688

🔗 https://x.com/imxiaohu/status/1777201503142601143

2⃣️

📱Octopus-V2模型在安卓手机上的运行视频

通过文字指令控制手机进行各种操作，如拍照、发邮件等。
代表AI手机技术今年有望实现重大飞跃。

🔗 https://x.com/imxiaohu/status/1777194451590615448

3⃣️

😊Chinese Tiny LLM：专注于中文的大语言模型

首个针对中文设计的20亿参数大语言模型，基于12000亿中文语料库预训练。
新中文对齐基准测试CHC-Bench，测试模型对中文文化、历史的深入理解。

🔗 https://xiaohu.ai/p/5674

🔗 https://x.com/imxiaohu/status/1777181431799959886

4⃣️

🔧Twitter-web-exporter：一键导出推文等数据的开源工具

无需开发者账号或API密钥，支持导出为JSON、CSV和HTML格式。
批量下载推文中的图片和视频。

🔗 https://xiaohu.ai/p/5633

5⃣️

🌆Lixel CyberColor：复刻真实世界的先进技术

自动生成电影级效果的3D场景，采用Multi-SLAM和高斯溅射技术。
精确捕捉和复现真实世界细节，致力于像素级复制。

🔗 https://x.com/imxiaohu/status/1776831606629752852

6⃣️

🔊OpenAI使用Whisper音频转录模型转录YouTube视频训练GPT-4

转录超过一百万小时的YouTube视频。
为每个模型策划“独特”的数据集，使用公开可用数据和非公开数据的合作伙伴关系。
Google也从YouTube收集了转录内容。

🔗 https://theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

🔗 https://x.com/imxiaohu/status/1776800586706583801

4月4-6日

💡

🔔Xiaohu.AI日报「4月4-7日」 ✨✨✨✨✨✨✨✨

1⃣️

🐙Octopus-v2：可在移动设备上运行的2B LLM

斯坦福大学Nexa AI开发，专为Android API优化。
比Llama7B + RAG方案快36倍，性能胜过GPT-4。
错误率低，响应快，适用于智能家居和移动应用开发。

🔗 https://xiaohu.ai/p/5538

🔗 https://arxiv.org/abs/2404.01744

🔗 https://huggingface.co/NexaAIDev/Octopus-v2

🔗 https://x.com/imxiaohu/status/1776447275864371533

2⃣️

🛠️Claude发布函数调用工具：Tool use

支持与外部系统和数据交互。
强化任务执行能力，提升个性化用户体验。
可以协调不同子模型处理大规模数据和问题。

🔗 https://xiaohu.ai/p/5613

🔗 https://x.com/imxiaohu/status/1776615918627618927

3⃣️

🔬Microsoft和Quantinuum量子计算噪声降低800倍

通过量子位虚拟化和错误纠正技术实现。
无单一错误的14000次实验，关键步骤向混合超级计算系统迈进。

🔗 https://xiaohu.ai/p/5588

🔗 https://x.com/imxiaohu/status/1776537003343204794

4⃣️

📊阿里巴巴推出Qwen1.5-32B模型

平衡性能、效率和内存，适用于多语言。
强化对话能力，优化内存占用和速度。
适应多样化应用场景，特别是快速、高效处理大量信息的场合。

🔗 http://qwenlm.github.io/blog/qwen1.5/

🔗 http://github.com/QwenLM/Qwen1.5

🔗 http://huggingface.co/Qwen

🔗 https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo

🔗 https://x.com/imxiaohu/status/1776264930506981494

5⃣️

🎓斯坦福大学CS25课程向所有人开放

通过Zoom直播，每周邀请Transformer研究前沿专家分享最新成就。
涵盖从大型语言模型到艺术、生物学、神经科学应用和机器人学的创新应用。

🔗 https://web.stanford.edu/class/cs25/

🔗 https://x.com/op7418/status/1775926241272770816

6⃣️

🤖Zapier联合创始人演示AI自动化工作流

新工作流通过聊天界面创建，易于修改和测试。
随着大语言模型能力增强，预见更多软件采用类似交互。

🔗 https://x.com/dotey/status/1776124377601323266

7⃣️

🎥Infinity AI：一键生成电影的AI工具

仅需输入剧本，即可生成视频，技术仍在开发中。
相信在未来10年内，小团队能凭借AI赢得奥斯卡奖。

🔗 https://xiaohu.ai/p/5531

8⃣️

🤖开源低成本机器人手臂

成本$250，设计为5自由度加夹持器，可进行广泛运动。
提供组装视频、3D打印件文件和控制程序，简化组装和控制。

🔗 https://github.com/AlexanderKoch-Koch/low_cost_robot

🔗 https://xiaohu.ai/p/5521

4 月 3 日

🎇

🔔Xiaohu.AI日报「4月3日」 ✨✨✨✨✨✨✨✨

1⃣️

🎶 200多位知名音乐人签署公开信，呼吁抵制AI对人类创造力的侵犯：

强调保护艺术家面貌、声音免受AI滥用。
Billie Eilish、Stevie Wonder等大咖支持。
要求科技公司不开发取代人类创作者的AI工具。

🔗 https://artistrightsnow.medium.com/200-artists-urge-tech-platforms-stop-devaluing-music-559fb109bbac

🔗 https://x.com/imxiaohu/status/1775534474744504364?s=20

2⃣️

🎧 Stability AI推出Stable Audio 2.0，创新音乐生成：

一句提示生成完整音乐体验，包括风格转换。
支持音频到音频转换。

🔗 https://xiaohu.ai/p/5500

🔗 https://x.com/imxiaohu/status/1775522548383690940?s=20

3⃣️

🍏 苹果研发出理解屏幕上下文的人工智能技术：

不依赖截图或图像，实时识别屏幕内容。
特别适用于虚拟助手和辅助技术。

🔗 https://xiaohu.ai/p/5493

4⃣️

🎥 August Kamp利用Sora为《Worldweight》制作MV：

展示创作过程中的心理画面。
通过音乐传递深情和情感。

🔗 https://youtube.com/watch?v=f75eoFyo9ns

5⃣️

🚀 OpenAI前开发者关系负责人加盟Google，专注于AI Studio产品：

Gemini API预示Google在AI领域的进一步动作。

🔗 https://x.com/imxiaohu/status/1775364806482256375?s=20

6⃣️

⚖️ OpenAI与Harvey合作，为法律行业定制案例法模型：

模型在法律文件草拟和复杂诉讼问题回答上表现优异。
减少幻觉，提高信息准确性。
Harvey完成B轮融资，估值达7.5亿美元。

🔗 https://xiaohu.ai/p/5482

4 月 2 日

🎇

🔔Xiaohu.AI日报「4月2日」 ✨✨✨✨✨✨✨✨

1⃣️

🎨动画自动填色技术：可自动为动画中的线条图着色

南洋理工大学S-lab团队开发新型动画填色技术
通过手动彩色化一帧，自动颜色传播至所有帧
解决转身阴影或遮挡部分的彩色化问题

🔗 项目及演示：https://ykdai.github.io/projects/InclusionMatching

🔗 论文：https://arxiv.org/abs/2403.18342

🔗 GitHub：https://github.com/ykdai/BasicPBC

🔗 https://x.com/imxiaohu/status/1775036627397877830?s=20

2⃣️

🎵如何修改Suno生成的音乐？甚至更换Suno生成音乐里面的歌手声音？

视频演示教程ACE Studio：AI人声合成引擎，制作AI歌手

🔗 教程链接：https://xiaohu.ai/p/5458

🔗 https://x.com/imxiaohu/status/1775002379009843344?s=20

3⃣️

💬OpenAI宣布开放GPT3.5功能

免费使用ChatGPT，无需注册
未注册用户无法保存聊天历史、分享聊天或体验高级功能

🔗 详细信息：https://openai.com/blog/start-using-chatgpt-instantly

🔗 https://x.com/imxiaohu/status/1774971694345773121?s=20

4⃣️

🌐GRM：只需少量图片，就能在0.1秒内构建出物体的3D模型或整个场景

GRM大型高斯重建模型，快速精确3D重建
支持文本或图像转换成3D模型

🔗 项目及演示：https://justimyhxu.github.io/projects/grm/

🔗 GitHub：https://github.com/justimyhxu/grm

🔗 在线体验：https://huggingface.co/spaces/GRM-demo/GRM

🔗 https://x.com/imxiaohu/status/1774777805936689245?s=20

4 月 1 日

🎇

🔔Xiaohu.AI日报「4月1日」 ✨✨✨✨✨✨✨✨

1⃣️

🖼️GRM：快速构建3D模型

可以在0.1秒内构建出物体或场景的3D模型。
支持文本或图像直接转换成3D模型。
提供在线体验和项目演示。

🔗 项目及演示：https://justimyhxu.github.io/projects/grm/

🔗 GitHub：https://github.com/justimyhxu/grm

🔗 在线体验：https://huggingface.co/spaces/GRM-demo/GRM

🔗 https://x.com/imxiaohu/status/1774777805936689245?s=20

2⃣️

🎭@DomoAI_：参考动作视频变身

通过一个参考视频和一张照片，直接替换视频中的人物。
同时更改整个视频的风格。

🔗 https://x.com/imxiaohu/status/1774768488604938666?s=20

3⃣️

🗣️微软Azure AI语音服务升级

发布9种更真实的AI语音。
对中文支持近乎完美，难以分辨。

🔗 http://xiaohu.ai/p/5432

https://ai.azure.com/explore/speech

4⃣️

🏥Polaris：医疗护理保健模型

媲美人类护士，能和患者进行多轮语音对话，确保无误。

🔗 详细信息：http://xiaohu.ai/p/5407

🔗https://x.com/imxiaohu/status/1774644903546618298?s=20

5⃣️

👓Meta智能眼镜新AI功能

通过简单命令快速识别物体。
例如，识别包装袋中的糖分含量。

🔗 https://x.com/imxiaohu/status/1774611972497293437?s=20

3 月 31 日

🐵

🔔Xiaohu.AI日报「3月31日」 ✨✨✨✨✨✨✨✨

1⃣️

🎨 DALL·E即将推出编辑功能：

支持对生成图片进行二次编辑，包括替换、删除、添加对象。
帮助文档已提前发布。

🔗 https://help.openai.com/en/articles/9055440-editing-your-images-with-dall-e

🔗 https://x.com/imxiaohu/status/1774096195130175661?s=20

2⃣️

🍏 苹果推出Swift开发教程：

无需编码知识，适合所有人学习iOS应用开发。
从界面设计到复杂的数据建模和空间计算。

🔗 https://developer.apple.com/tutorials/develop-in-swift

🔗 https://x.com/imxiaohu/status/1774392882872586736?s=20

3⃣️

🧬 BioMedLM-斯坦福大学与DataBricks合作开发的生物医学语言模型：

专注生物医学领域，有效回答医学和生物学问题。
在单个A100 GPU上方便微调，笔记本电脑上运行推理。

🔗 https://github.com/stanford-crfm/BioMedLM

🔗 https://x.com/imxiaohu/status/1774385902992982097?s=20

4⃣️

💬 通过聊天定义UI界面-W&B团队开发的OpenUI：

文字描述UI，实时渲染效果，支持转换为多种前端框架。
GPT模型支持，项目在发展中。

🔗 https://github.com/wandb/openui

🔗 https://openui.fly.dev

🔗 https://x.com/imxiaohu/status/1774264556497588410?s=20

5⃣️

🤖 Emo-哥伦比亚大学创意机器实验室开发的人形机器人头：

精准模拟人类面部表情，具有高分辨率眼部跟踪。
使用AI模型预测和回应人类表情，自我监督学习生成表情。

🔗 https://engineering.columbia.edu/news/robot-can-you-say-cheese

🔗 https://x.com/imxiaohu/status/1774062241098465487?s=20

6⃣️

📸 Living Images-自动优化网站图片：

输入网址，自动改进图片吸引力，包括A/B测试。
旨在提升用户行动，如点击、购买或注册。

🔗 http://coframe.ai

🔗 http://img.coframe.ai

🔗 https://x.com/imxiaohu/status/1773914481262997541?s=20

7⃣️

🌌 微软和OpenAI计划建造“星际之门”AI超级计算机：

预计成本1000亿美元，旨在提供强大AI计算能力。
将建造数百万服务器芯片的数据中心。

🔗 https://theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer

🔗 https://x.com/imxiaohu/status/1773909540935029025?s=20

8⃣️

🗣️ OpenAI发布语音生成模型Voice Engine：

根据文本和15秒音频样本生成自然语音。
支持情感丰富的声音生成，多语种和保留口音。

🔗 https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

🔗 https://x.com/imxiaohu/status/1773896583006101720?s=20

9⃣️

🎙️ Hume AI发布情感感知语音AI EVI：

结合语言模型和表情测量技术，实现情绪感知对话。
可感知细微情绪并作出响应，提升对话自然度。

🔗 https://x.com/imxiaohu/status/1773720014715257203?s=20

3 月 29 日

🙂

🔔Xiaohu.AI日报「3月29日」 ✨✨✨✨✨✨✨✨

1⃣️

🎬 VideoSwap：替换视频中的人物、物体

在不改变背景的情况下更换视频主体。
提供交互式操作，实现个性化编辑。
https://videoswap.github.io

🔗 https://x.com/imxiaohu/status/1773701782000308465?s=20

2⃣️

🚀 http://X.AI 发布 Grok-1.5

128k 上下文长度，性能翻倍。
在MATH、HumanEval、GSM8K、MMLU测试中表现出色。
http://x.ai/blog/grok-1.5

🔗 https://x.com/imxiaohu/status/1773645579354296723?s=20

3⃣️

🤖 Looi：让你的手机变成桌面机器人

集成ChatGPT，实现富有表情的对话互动。
支持情感识别、自适应互动等AI功能。
正在众筹，129美金！
http://looirobot.com

🔗 https://x.com/imxiaohu/status/1773611296216481913?s=20

4⃣️

🎥 LTX Studio 发布一键生成电影工具

由阿里-福尔曼使用@LTXStudio 制作宣传片。
展示将梦境变成现实影像的AI技术。

🔗 https://x.com/imxiaohu/status/1773598833076817922?s=20

5⃣️

🌐 AI21发布 Jamba：世界首个Mamba的生产级模型

创新的SSM - Transformer架构，支持 256K 上下文长度。
结合Joint Attention和Mamba技术，提升长上下文吞吐量。
https://ai21.com/jamba

🔗 https://x.com/imxiaohu/status/1773385162795241489?s=20

3 月 28 日

🙂

🔔Xiaohu.AI日报「3月28日」 ✨✨✨✨✨✨✨✨

1⃣️

💼 OpenAI探索基于 GPTs 用量的分成机制：

2024 年第一季度推出 GPTs 创作者收益计划，按使用量向开发者分成。
首先在美国落地，细则后续公布。

🔗 https://x.com/imxiaohu/status/1773282291621429555?s=20

2⃣️

🎨 Al Comic Factory：漫画工厂：

自动生成情感丰富、有故事性的漫画内容。
支持批量生成不同语言的漫画。

🔗 https://x.com/imxiaohu/status/1773255641563533542?s=20

3⃣️

🔄 ChatGPT新功能预览：

允许用户选择用GPT 4或GPT 3.5重新生成结果。
支持自由切换模型。

🔗 https://x.com/imxiaohu/status/1773209150425600052?s=20

4⃣️

🗣️ Hume AI发布具有情感感知能力的对话AI：EVI：

结合了大型语言模型和表情测量技术的情感感知能力。
EVI能像真人一样聊天，感知细微情绪并作出反应。

🔗 https://x.com/imxiaohu/status/1773184663571603931?s=20

5⃣️

🚶 Heygen发布Avatar in Motion 1.0新功能：

精准识别和追踪用户动作，如手部移动和手势。
通过文本输入控制虚拟角色，复制动作、姿态，让其说任何语言。

🔗 https://x.com/imxiaohu/status/1773168104073306210?s=20

3 月 27 日

🙂

🔔Xiaohu.AI日报「3月27日」 ✨✨✨✨✨✨✨✨

1⃣️

🖌️ Creatie AI - AI驱动的设计神器:

几分钟设计网站或程序，融合思维导图、设计、协作、原型制作、代码交接。
自动分析设计文件，创建统一样式库，快速转化为高保真可交互原型并生成代码。

🔗 http://creatie.ai

🔗 https://x.com/imxiaohu/status/1772986701859934253?s=20

2⃣️

🎤 腾讯AniPortrait - 让照片唱歌说话:

根据音频和静态人脸图片生成逼真的动态视频。
支持多种语言、面部重绘、头部姿势控制，比阿里EMO项目先开源。

🔗 https://github.com/Zejun-Yang/AniPortrait

🔗 https://arxiv.org/abs/2403.17694

🔗 https://x.com/imxiaohu/status/1772965256220045659?s=20

3⃣️

📹 NoLang - 直接从文本生成视频:

支持将文字、网页链接、PDF等直接转换为视频。
自动总结PDF内容并生成解答视频，还可追问，但目前服务器承受压力大，支持日语和英语。

🔗 http://no-lang.com

🔗 https://x.com/imxiaohu/status/1772884036522017149?s=20

4⃣️

📘 Awesome-Generative-AI-Guide - 生成式AI一站式资源库:

汇总最新研究、免费课程、面试资源、代码库等。
定期更新，适合研究者、学习者、面试准备者和AI进展关注者。

🔗 https://github.com/aishwaryanr/awesome-generative-ai-guide

5⃣️

🎥 MoneyPrinterTurbo - 一键生成短视频:

输入主题或关键词自动生成1分钟长的短视频，包含文案、视频片段、字幕、背景音乐。
开源项目，简化视频制作过程。

🔗 https://github.com/harry0703/MoneyPrinterTurbo

🔗 https://x.com/imxiaohu/status/1772811303712866713?s=20

6⃣️

🔝 Claude 3 Opus & Starling-LM-7B - AI模型竞技场新星:

Claude 3 Opus在7万人投票中超越GPT-4，Claude-3 Haiku也达到GPT-4水平。
Starling-LM-7B-beta通过PPO处理成为最佳7B开放模型，OpenAI面临挑战。

🔗 http://chat.lmsys.org

🔗 https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

🔗 https://x.com/imxiaohu/status/1772789352311189988?s=20

7⃣️

🍏 #WWDC 24 - 令人难以置信的预告:

预告了将于6月10日至14日举行的WWDC 24，承诺将是一次难以置信的活动。

🔗 https://x.com/imxiaohu/status/1772773295177494984?s=20

8⃣️

💡 Kyle Corbitt与微软工程师的对话 - GPT-6训练集群的挑战:

微软工程师分享了在部署跨区域GPU时的幽默吐槽，超过100,000个H100 GPU可能导致电网崩溃。

🔗 https://x.com/imxiaohu/status/1772559987723653611?s=20

9⃣️

🔍 T-Rex2 - 精准视频对象识别:

无需训练即可结合文本提示和标记识别定位图片或视频中的对象。
准确识别未知对象，提供项目演示和在线体验。

🔗 https://deepdataspace.com/blog/T-Rex

🔗 https://deepdataspace.com/playground/ivp

🔗 https://x.com/imxiaohu/status/1772499948086743174?s=20

3 月 25 日

🙂

🔔Xiaohu.AI日报「3月25日」 ✨✨✨✨✨✨✨✨

1⃣️

🤯 部署H100 GPU的挑战：

一地区部署超过100,000个H100 GPU可能导致电网崩溃。
初始方案遭遇电力负荷问题。

🔗 https://x.com/imxiaohu/status/1772559987723653611?s=20

2⃣️

🔍 T-Rex2目标识别：

精准识别和定位图片或视频中的对象。
结合文本提示和图像标记进行识别。
对未知对象也能准确识别。
项目及演示：https://deepdataspace.com/blog/T-Rex

🔗 https://x.com/imxiaohu/status/1772499948086743174?s=20

3⃣️

🎥 StreamingT2V视频生成：

根据文字提示生成长达2分钟的视频。
自回归方法逐帧生成内容，保持视频连贯性。
可生成1200帧的动态视频。
项目及演示：https://streamingt2v.github.io

🔗 https://x.com/imxiaohu/status/1772473171737714852?s=20

4⃣️

✨ DALL-E 3图像再编辑：

支持对生成图像的选定区域进行修改。
引入编辑器增强图像编辑能力。
处于灰度测试阶段。

🔗 https://x.com/imxiaohu/status/1772470419435536696?s=20

5⃣️

🖥️ Sora模型资源需求：

训练需4211-10528 Nvidia H100 GPUs运行一个月。
推理成本：每小时约生成5分钟视频。
高昂成本限定了其初期使用范围。

🔗 https://x.com/imxiaohu/status/1772459475716469021?s=20

6⃣️

🎬 LTX Studio电影生成：

输入文字提示和创意即可生成电影。
功能包括角色生成、场景指导、换脸等。
预计3月27日发布。

🔗 https://x.com/imxiaohu/status/1772095359613059387?s=20

3 月 24 日

💡

🔔Xiaohu.AI日报「3月24日」 ✨✨✨✨✨✨✨✨

1⃣️

🏃♂️ Cassie双腿机器人成就：

完成400米跑步和1.4米跳远。
无需额外训练，展示出色的物理动作掌握能力。
之前完成了5公里户外长跑，进步显著。

🔗 https://x.com/imxiaohu/status/1771906005565382722?s=20

2⃣️

🕺 Domo AI人物动画创新：

通过静态照片和动态视频生成动画人物。
体验简单，只需Discord中的/move命令。

🔗 https://x.com/imxiaohu/status/1771886390328131820?s=20

3⃣️

🎬 AnyV2V视频编辑框架：

无需训练，与任何模型集成。
支持文本提示的各种视频编辑，包括风格转换和面部替换。

🔗 https://tiger-ai-lab.github.io/AnyV2V/

https://x.com/imxiaohu/status/1771869486590926897?s=20

4⃣️

🤖 迪士尼Jetson机器人：

机器人瓦力灵感来源，Jetson芯片赋予更高智能。

🔗 https://x.com/imxiaohu/status/1771787317134479413?s=20

5⃣️

✍️ StyleSketch风格化素描：

从面部图像提取不同艺术风格的高分辨率素描。
支持草图的语义编辑。

🔗 https://kwanyun.github.io/stylesketch_project/

https://x.com/imxiaohu/status/1771767894013366346?s=20

6⃣️

📚 Google Gemini API Cookbook：

提供入门指南和示例，帮助开发者利用Gemini API。
支持在Google Colab上运行。

🔗 https://github.com/google-gemini/gemini-api-cookbook

🔗https://x.com/imxiaohu/status/1771744935898968401?s=20

7⃣️

❤️ Apple Vision Pro教育应用：

Insight Heart应用程序提供360度心脏学习体验。

🔗 https://x.com/imxiaohu/status/1771723395144585724?s=20

3 月 23 日

💡

🔔Xiaohu.AI日报「3月23日」 ✨✨✨✨✨✨✨✨

1⃣️

💋 Synclabs发布新版唇型同步模型：Sync-1.6.0

进行了唇形同步升级
能够产生平滑、准确的唇形，同时减少视频帧之间的闪烁现象
基于给定音频条件生成视频的音视频模型

🔗 http://synclabs.so

🔗 https://x.com/imxiaohu/status/1771521124326834465?s=20

2⃣️

✈️ 全球首架自主研发的超音速喷气飞机 XB-1成功试飞

由Boom Supersonic设计，验证技术和设计理念
创新点包括碳纤维复合材料、增强现实视觉系统、数字优化空气动力学
XB-1性能亮点：全长62.6英尺，翼展21英尺，最高速度273英里/小时

🔗 https://x.com/imxiaohu/status/1771464576993046564?s=20

3⃣️

🔄 Stability AI CEO Emad Mostaque 突然宣布辞职

辞职追求去中心化人工智能（AI）的发展
Stability AI任命临时联合首席执行官，同时寻找永久CEO
Stable Diffusion核心研究团队集体辞职，公司资金困境

🔗 https://x.com/imxiaohu/status/1771400122473279760?s=20

4⃣️

📚 Gatekeep：一个新型的文本转视频 AI，专注教学应用

将数学、物理问题转换成视频内容
自动生成图表、图示、动画原理和讲解内容的视频
强调数学学习中的应用，直观呈现复杂概念

🔗 https://discord.gg/36PTEgY892

🔗 https://x.com/imxiaohu/status/1771381663869858189?s=20

5⃣️

🧠 Neuralink脑机接口患者使用意念发布第一条推文

患者四肢无行动能力，借助Neuralink技术实现推文

🔗 https://x.com/imxiaohu/status/1771362754466857319?s=20

3 月 22 日

💡

🔔Xiaohu.AI日报「3月22日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 新技术亮点：

文字描述生成动态视频，支持复杂动作如跳舞。
理解真实世界物理运动，视频真实逼真。
文字生成视频，角色动作和场景细节高度可控。

🔗 http://viggle.ai

discord免费体验：https://discord.gg/5kk5SKwTWd

https://x.com/imxiaohu/status/1771173928591093940?s=20

2⃣️

🍏 苹果与百度合作讨论：

将AI技术嵌入中国市场的苹果设备。
百度股价因此大涨超5%。
体现苹果对中国市场的深入了解。

🔗 https://x.com/imxiaohu/status/1771156928212660552?s=20

3⃣️

📝 通义千问开放更新：

向所有人免费开放1000万字长文档处理功能。

🔗 https://x.com/imxiaohu/status/1771128898971181186?s=20

4⃣️

🖼️ Stability AI全面API服务：

提供最新图像生成、增强、编辑等服务。
确保结果与用户意图一致性。

🔗 https://x.com/imxiaohu/status/1771043483165573335?s=20

5⃣️

🎨 实时语音画图功能：

边讲故事边实时生成图像。
让“绘声绘色”成为现实。

🔗 https://x.com/imxiaohu/status/1771032035580330291?s=20

6⃣️

💼 微软与Inflection AI达成协议：

支付6.5亿美元现金获得使用权和员工。
Inflection AI或变为名存实亡的空壳公司。

🔗 https://x.com/imxiaohu/status/1771020586644607244?s=20

7⃣️

🖥️ Open Interpreter开源语言模型计算机：

通过语音交互完成任务，可学习新技能。
开源，提供代码和CAD图纸。

🔗 https://github.com/OpenInterpreter/01

https://x.com/imxiaohu/status/1771009177076552004?s=20

8⃣️

🎵 Suno v3音乐生成器：

几秒内生成2分钟广播级音乐歌曲。
多语言支持，包括中文。使用专有水印技术保护原创作品。

🔗 https://suno.ai/blog/v3

https://x.com/imxiaohu/status/1770992936156827800?s=20

3 月 21 日

📣

🔔Xiaohu.AI日报「3月21日」 ✨✨✨✨✨✨✨✨

1⃣️

🚀 HeyGen 发布5.0版本

整合了所有功能，包括全新用户界面设计。
引入视频编辑工作室和实时数字人聊天功能。
视频翻译等功能全面上线。

🔗 https://x.com/imxiaohu/status/1770818572337500272?s=20

2⃣️

🎨 FRESCO：文字提示视频风格转换

无需额外训练即可编辑和转换视频风格。
保留视频动作和情节的自然流畅，自适应屏幕尺寸。

🔗 https://mmlab-ntu.com/project/fresco/

🔗 https://x.com/imxiaohu/status/1770790745848352946?s=20

3⃣️

📚 Manga-image-Translator：一键翻译图片文字

高效OCR和AI翻译技术，支持多语言。
对去文字区域修复上色，重新渲染文本。

🔗 https://github.com/zyddnys/manga-image-translator

🔗 https://touhou.ai/imgtrans/

🔗 https://x.com/imxiaohu/status/1770700877172736238?s=20

4⃣️

💻 Google对开发人员开放Gemini 1.5 Pro API

鼓励使用1M令牌上下文窗口构建产品。
开发人员可在AI Studio UI中试用。

🔗 http://Aistudio.google.com

🔗 https://x.com/imxiaohu/status/1770660788044546277?s=20

5⃣️

🧠 黄仁勋集齐Transformer论文七大作者对话

Transformer模型极大提升计算机语言处理能力。
八位AI科学家共同完成，初衷是改进谷歌机器翻译服务。

🔗 https://mp.weixin.qq.com/s/Vxmlgh_ldJNa5RNwFSHmUA

🔗 https://x.com/imxiaohu/status/1770656445383749804?s=20

6⃣️

🕹️ Neuralink直播首位脑机芯片植入者近况

展示四肢瘫痪男子通过意念玩《文明》和国际象棋。
解释学习使用脑机的过程。

🔗 https://x.com/imxiaohu/status/1770627840243105820?s=20

7⃣️

🤖 Unitree H1：全尺寸电机驱动仿人机器人

实现原地后空翻。

🔗 https://x.com/imxiaohu/status/1770480271894212871?s=20

3 月 20 日

📣

🔔Xiaohu.AI日报「3月20日」 ✨✨✨✨✨✨✨✨

1⃣️

🌌Freepik 推出 Reimagine AI 工具：

用户上传图片自动生成提示词，无需输入文字。
实时提供无限滚动结果展示，边操作边生成图像。
通过调整提示词实时修改图片细节，支持多种风格切换。

🔗 https://freepik.com/pikaso/reimagine

🔗 https://x.com/imxiaohu/status/1770437135738581414?s=20

2⃣️

🎨StreamMultiDiffusion 项目亮相：

使用区域文本提示实时生成图像，交互式操作体验。
每个提示控制一个区域，实现精准图像生成。
描述为“真正的神笔马良”。

🔗 https://arxiv.org/abs/2403.09055

🔗 https://github.com/ironjr/StreamMultiDiffusion?tab=readme-ov-file

🔗 https://huggingface.co/spaces/ironjr/SemanticPalette

🔗 https://x.com/imxiaohu/status/1770371036967850439?s=20

3⃣️

🔥HyperGAI 发布多模态大语言模型 HPT：

HPT 跨模态理解与生成能力，处理文本、图像、视频等。
HPT Pro 在 MMBench 和 SEED-Image 基准测试中超越竞争者。
在 MMMU 基准测试中展示极具竞争力的性能。

🔗 https://hypergai.com/blog/introducing-hpt-a-family-of-leading-multimodal-llms

🔗 https://x.com/imxiaohu/status/1770363519361577380?s=20

4⃣️

🎉AI 贴纸生成器上线：

哥飞团队推出新产品，无特色但增加内容型AI工具站概念。
用户生成内容可通过谷歌搜索引擎吸引更多用户。
付费订阅提供私密性或高清大图下载。

🔗 http://Sticker.Show

🔗 https://github.com/cbh123/stickerbaker

🔗 https://x.com/imxiaohu/status/1770340289041060034?s=20

5⃣️

🍹机器人调鸡尾酒：

概念简单却引人入胜的创新实用技术。

🔗 https://x.com/imxiaohu/status/1770321378513727821?s=20

6⃣️

⚡️AnimateDiff-Lightning 由字节跳动发布：

基于文本描述快速生成视频，速度是原模型的十倍以上。
支持视频到视频的风格转换，与多种风格模型兼容。
提供多步骤蒸馏模型，平衡生成速度和视频质量。

🔗 https://huggingface.co/ByteDance/AnimateDiff-Lightning

🔗 https://arxiv.org/abs/2403.12706

🔗 https://x.com/imxiaohu/status/1770279651652632810?s=20

7⃣️

🔍APISR 专注于动漫图像超分辨率：

提升动漫图像/视频分辨率，处理图像退化问题。
支持不同放大系数，经测试效果显著。

🔗 https://github.com/Kiteretsu77/APISR

🔗 http://huggingface.co/spaces/HikariDawn/APISR

🔗 https://arxiv.org/abs/2403.01598

🔗 https://x.com/imxiaohu/status/1770273590396813678?s=20

8⃣️

💼Inflection AI 团队加入微软：

CEO兼创始人宣布加入微软，出任Microsoft AI CEO。
将整合消费者AI工作，包括Copilot、Bing和Edge。
Inflection-2.5 将在Microsoft Azure上托管，并开放API。

🔗 https://x.com/imxiaohu/status/1770247101420798309?s=20

9⃣️

🔄img2img-turbo 图像到图像翻译模型：

一步转换图片风格或特征，高效且保持质量细节。
适用于各种图片转换需求，如日转夜或晴转雨。

🔗 https://github.com/GaParmar/img2img-turbo

🔗 https://arxiv.org/abs/2403.12036

🔗 https://x.com/imxiaohu/status/1770110618542149970?s=20

3 月 19 日

📣

🔔Xiaohu.AI日报「3月19日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖克隆一个自己，用AI面试：

创新的克隆AI面试应用。

🔗 https://x.com/imxiaohu/status/1770011969229390287?s=20

2⃣️

🎥SystemAnimatorOnline，全身运动捕捉：

基于AI的全身运动捕捉方案，仅需网络摄像头。
新交互方式，适用于虚拟直播和视频制作。

🔗 https://github.com/ButzYung/SystemAnimatorOnline…

🔗 https://x.com/imxiaohu/status/1769957973252796634?s=20

3⃣️

🤖Apollo机器人，自主制作果汁：

展示与英伟达Project GROOT合作，实现任务自主完成。
从人类示范中学习，无需回初始位置。

🔗 https://x.com/imxiaohu/status/1770047098731577481?s=20

4⃣️

🧠MindEye2, 重建大脑所见图像：

仅需1小时fMRI数据，重建观察者所见图像。
能识别多个图像选项中的实际所见。
实现不同受试者数据的有效泛化。

🔗 https://medarc-ai.github.io/mindeye2/

🔗 https://arxiv.org/abs/2403.11207

🔗 https://github.com/MedARC-AI/MindEyeV2

🔗 https://x.com/imxiaohu/status/1770021233129885989?s=20

5⃣️

🖥️英伟达Blackwell GPU：

创新的计算平台，2080亿晶体管，每秒10TB数据传输。
FP8和FP4性能显著提升，加速AI任务。
大幅减少GPU需求和能耗，降低成本与环境影响。

🔗 https://x.com/imxiaohu/status/1769996465521488026?s=20

6⃣️

🤖英伟达Project GR00T，通用机器人模型：

使机器人理解多模态指令，执行多种任务。
基于深度技术开发，快速学习协调性和灵巧性。

🔗 https://developer.nvidia.com/project-gr00t

🔗 https://x.com/imxiaohu/status/1769931906953757077?s=20

7⃣️

🎥Stable Video 3D（SV3D），3D内容生成工具：

从单张图片生成多视角视频和3D模型。
两个变体：360度环绕视频和特定视角3D视频。

🔗 https://bit.ly/3THno7J

🔗 https://x.com/imxiaohu/status/1769903010455699963?s=20

8⃣️

🗣️Pipio，视频自动AI配音工具：

自动将视频声音翻译并配音，保持口型一致。
类似Heygen的配音功能。

🔗 http://pipio.ai/video-dubbing

🔗 https://x.com/imxiaohu/status/1769755689189261675?s=20

3 月 18 日

🐱

🔔Xiaohu.AI日报「3月18日」 ✨✨✨✨✨✨✨✨

1⃣️

📸 Magnific AI推出照片风格化功能：

任意照片转换成任意风格。
控制样式数量和结构完整性，适用于多种用例。

🔗 https://x.com/imxiaohu/status/1769710736132227434?s=20

2⃣️

🎵《滚石》报道Suno AI与ChatGPT合作创作的歌曲：

Suno AI生成的音乐，ChatGPT提供歌词和标题。
模仿独奏原声密西西比三角洲蓝调，讲述一个悲伤的AI故事。

🔗 https://rollingstone.com/music/music-features/suno-ai-chatgpt-for-music-1234982307/

🔗 https://soundcloud.com/rs-539916550/soul-of-the-machine

🔗 https://x.com/imxiaohu/status/1769702028425744427?s=20

3⃣️

🖌️ Animagine XL 3.1，动漫主题文本到图像模型更新发布：

扩展对广泛动漫风格的理解，提高生成图像质量。
解决过曝问题，新增美学标签，优化结果准确性。

🔗 https://cagliostrolab.net/posts/animagine-xl-v31-release

🔗 https://huggingface.co/cagliostrolab/animagine-xl-3.1

🔗 https://huggingface.co/spaces/cagliostrolab/animagine-xl-3.1

🔗 https://x.com/imxiaohu/status/1769691980882432192?s=20

4⃣️

🚀 奥特曼关于GPT-5的看法：

认为低估GPT-5的进步幅度是个错误的假设。
警告创业公司可能会被新一代模型“碾压”。

🔗 https://sedaily.com/NewsView/2D6O83AF81

🔗 https://x.com/imxiaohu/status/1769648375459389735?s=20

5⃣️

🔧 Cerebras发布全球最快人工智能芯片WSE-3：

拥有4万亿晶体管，训练高达24万亿参数的AI模型。
构建于5nm工艺，拥有125 petaflops的AI计算能力。

🔗 https://cerebras.net/press-release/cerebras-announces-third-generation-wafer-scale-engine

🔗 https://cerebras.net/product-system/

🔗 https://x.com/imxiaohu/status/1769610462973538336?s=20

6⃣️

🍏 苹果与Google讨论接入Gemini模型：

计划为iPhone提供由Google Gemini模型支持的人工智能技术。
双方正在积极谈判以获取授权。

🔗 https://x.com/imxiaohu/status/1769598594766737916?s=20

3 月 17 日

🐱

🔔Xiaohu.AI日报「3月16日-17 日」 ✨✨✨✨✨✨✨✨

1⃣️

🔧 MediaCrawler：一键抓取工具

支持小红书、抖音、快手、B站和微博等平台内容抓取。
集成IP代理池，防封。
支持视频、图片、评论等多种数据格式保存。

🔗 https://github.com/NanmiCoder/MediaCrawler

🔗 https://x.com/imxiaohu/status/1769569874601546034?s=20

2⃣️

🌐 Open-Sora 开源项目

完整的文本到视频模型训练过程。
采用优于VideoGPT的VAE模型。
支持DiT、Latte和PixArt的官方权重推理。

🔗 https://github.com/hpcaitech/Open-Sora

🔗 https://x.com/imxiaohu/status/1769553076476920264?s=20

3⃣️

💡 x.AI开源大语言模型Grok-1

拥有3140亿参数的专家混合模型。
使用旋转位置嵌入，词汇量达到131,072。
未针对任何特定应用程序进行微调。

🔗 https://x.com/imxiaohu/status/1769536692078428321?s=20

🔗 https://x.ai/blog/grok-os

🔗 https://github.com/xai-org/grok-1

4⃣️

🔄 OpenRouter：大语言模型“路由器”

提供统一接口访问和使用几十种AI模型。
支持GPT、LLama、Claude、Command-R等80多个模型。

🔗 http://Openrouter.ai

5⃣️

💬 GPT：模仿人类聊天语气

能够在对话中加入嗯、啊、呃等语气词，让对话更自然。

🔗 https://x.com/imxiaohu/status/1769339379691163718?s=20

6⃣️

📚 OpenAI的Sora团队分享技术细节

在加州大学伯克利分校的讲座中分享Sora的技术细节。

🔗 https://x.com/imxiaohu/status/1769250501630296309?s=20

7⃣️

🐟 虚拟果蝇：结合解剖学和AI

能够模拟真实果蝇的行走和飞行。
使用虚拟“眼睛”进行视觉控制和导航。

🔗 https://x.com/imxiaohu/status/1769215692136735006?s=20

🔗 https://janelia.org/news/artificial-intelligence-brings-a-virtual-fly-to-life

8️⃣

🎥 Captury：无标记运动捕捉技术

通过3D体积扫描技术创建真实3D模型。
全身、手指和面部追踪，无需特殊服装或标记。

🔗 http://captury.com

🔗 https://x.com/imxiaohu/status/1769193547952209961?s=20

9️⃣

🤖 德国慕尼黑大学研究：不洒水的机器人

算法模型受到摩洛哥茶托启发，保持杯子中的水不洒出。
可通过手机控制，模拟球形摆动行为。

🔗 https://tum.de/en/news-and-events/all-news/press-releases/details/so-werden-roboter-zu-perfekten-oberkellnerinnen

🔗 https://x.com/imxiaohu/status/1769002568905261246?s=20

🔟

🚀 Maisa推出KPU技术框架

通过分开推理与数据处理，提升大语言模型处理能力。
支持GPT-4、Claude 3 Opus等模型，大幅提升推理任务能力。

🔗 http://t.co/04SbpyIPnJ

🔗 https://x.com/imxiaohu/status/1768884955416010862?s=20

3 月 15 日

🐱

🔔Xiaohu.AI日报「3月15日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖通过操作动作骨骼来实时生成相应动作的图像：

一种脑洞大开的操作方式。

🔗 https://x.com/imxiaohu/status/1768645831710908798?s=20

2⃣️

🎨Magnific AI的新功能 - 风格转换：

可以将任意照片转换成各种风格的图像，同时保持人物对象的一致性。
大BOSS的演示和教程，下周开放访问。

🔗 https://x.com/imxiaohu/status/1768623077599183111?s=20

3⃣️

📦自动扫描物品，并给出推荐价格：

自动生成标题、描述、状况和照片，直接发布到二手市场。
可以自动化地跨平台发布你的商品，一键同步，仅需几秒完成。

🔗 https://x.com/imxiaohu/status/1768528986731339834?s=20

4⃣️

🎮Cartwheel：文本转3D动画工具：

输入文字提示即可生成适用于多种用途的3D动画角色。
支持指定动作，可以导出到任何3D程序中编辑。
处于早期阶段，但已生成许多酷炫动作，目前还在测试阶段，需排队。

🔗 https://x.com/imxiaohu/status/1768514102647980250?s=20

5⃣️

📝Glyph-ByT5：提高图像生成中文本渲染准确性的文本编码器：

文本渲染准确性提升至近90%。
能处理字母、词语至整段文字，智能排版和布局。
结合GPT-4和Glyph-SDXL模型自动化生成优化排版。
提供了项目地址和论文链接。

🔗 https://x.com/imxiaohu/status/1768509250824032600?s=20

3 月 14 日

🐱

🔔Xiaohu.AI日报「3月14日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖Claude 3 Haiku API发布：

最快、性价比最高的型号。
每百万输入token 0.25美元，每百万输出token 1.25美元。
可以处理和分析400起最高法院案件或2500张图片只需1美元。

🔗 https://x.com/imxiaohu/status/1768284259792691366?s=20

2⃣️

🚀Starship 第三次飞行测试：

SpaceX星际飞船成功发射进入预定轨道。
重达5000吨，成为有史以来最大的飞行器。

🔗 https://x.com/imxiaohu/status/1768273741262520394?s=20

3⃣️

🚫Midjourney 禁止生成拜登和特朗普的图片：

以应对美国总统选举，禁止生成拜登和特朗普的虚假图片。
测试发现尝试生成特定图片时会收到警告。
CEO David Holz强调不想在政治言论上花费太多时间。

🔗 https://x.com/imxiaohu/status/1768258401518362625?s=20

4⃣️

💻零一万物大模型开放API接口：

1000,000 tokens最低6元。

🔗 https://x.com/imxiaohu/status/1768253143098540518?s=20

5⃣️

🎨Muse Pro：一款专为iPad设计的AI实时画图应用：

实现实时绘画，每一笔触即时转化为数字画面。
支持图像快速增强和放大，适合直接打印。
主要特色包括实时绘画、图像增强、直观设计与高级图层、自定义画笔。

🔗 http://musepro.app

🔗 https://x.com/imxiaohu/status/1768208415707591122?s=20

6⃣️

🖼️Follow-Your-Click：根据用户点击使图像特定区域动起来：

支持多种动作表达，如头部调整、翅膀拍动等。
由香港科技大学、腾讯、清华大学共同开发。
主要功能包括局部动画生成和多对象动画。

🔗 https://follow-your-click.github.io

🔗 https://arxiv.org/abs/2403.08268

🔗 https://github.com/mayuelala/FollowYourClick

🔗 https://x.com/imxiaohu/status/1768187268920123724?s=20

7⃣️

📹VLOGGER：基于文本和音频从单张照片生成会说话的视频：

无需针对每个人训练，不依赖面部检测。
考虑广泛场景，生成完整图像。
支持编辑现有视频，如改变表情或调整唇部。

🔗 https://enriccorona.github.io/vlogger/

🔗 https://arxiv.org/abs/2403.08764

🔗 https://x.com/imxiaohu/status/1768159667367313807?s=20

8⃣️

🌐OpenAI的Univers项目：模拟人类与计算机交互：

提供一千个不同环境的学习和测试场景。
通过模拟人类操作方式，增强AI的适用性和灵活性。
支持强化学习，无需特殊访问权限。

🔗 https://openai.com/research/universe

🔗 https://x.com/imxiaohu/status/1768150299032822090?s=20

9⃣️

🎬OpenAI首席技术官详解Sora：

Sora处于开发测试阶段，计划今年内发布。
生成视频时间几分钟，未来可能支持声效。
数据来源包括公开可用和授权数据。
正在进行红队测试，以确保安全性和可靠性。

🔗 https://x.com/imxiaohu/status/1768138429676835181?s=20

🔟

🤖Figure 展示与OpenAI合作进展：

机器人获得视觉环境描述、决策推理等能力。
能够进行语音对话、规划动作、反思记忆。

🔗 https://x.com/imxiaohu/status/1767947611875803208?s=20

1⃣1⃣️

🎮Google DeepMind发布SIMA游戏代理：

遵循自然语言指令执行复杂任务。
跨游戏学习泛化能力，无需特殊接口。
展示语言驱动AI代理在多种3D环境中执行任务的潜力。

🔗 https://dpmd.ai/3TiYV7d

🔗 https://x.com/imxiaohu/status/1767932522787377365?s=20

3 月 13 日

🎇

🔔Xiaohu.AI日报「3月13日」 ✨✨✨✨✨✨✨✨

1⃣️

🌍欧洲议会通过全球首部全面AI法案：

全面监管AI技术，根据风险等级制定规则。
禁止威胁公民权利的AI应用，如无目的抓取面部图像。
特别规定对生成式AI工具和聊天机器人的风险管理要求。

🔗 https://x.com/imxiaohu/status/1767916396321943707?s=20

2⃣️

🖥️Meta推出超大规模AI计算平台Llama3：

集群包含24000个高端NVIDIA H100 GPU，计划扩展至350,000个。
支持Llama 3等下一代AI模型和GenAI研究。
展示Meta对开放计算和开源的承诺。

🔗 https://x.com/imxiaohu/status/1767915768451371126?s=20

3⃣️

📲Memo 1.2.0更新，带来改进的翻译和视频转文字体验：

支持多种翻译服务，续传翻译功能。
视频总结和思维导图生成速度大幅提升。
https://memo.ac/

🔗 https://x.com/imxiaohu/status/1767874701228187661?s=20

4⃣️

💻Comflowyspace推出，简化Comfy UI安装和使用：

一键安装，简化设置，提高效率和用户体验。
开源，包含教程降低学习门槛。

🔗 官网：https://comflowy.com/model

🔗 源码：https://github.com/6174/comflowyspace

https://x.com/imxiaohu/status/1767866377011167444?s=20

5⃣️

🌆TownWorld模拟游戏，居住着完全自主的AI代理：

AI代理具有个性和日常活动，能与环境和其他代理互动。
创造性使用GPT-3.5-turbo和@elevenlabsio技术生成内容和声音。
将在YC演示日展示，受斯坦福生成代理论文启发。 https://arxiv.org/abs/2304.03442 https://ycombinator.com/companies/ego

🔗 https://x.com/imxiaohu/status/1767837708175745371?s=20

6⃣️

🗣️Deepgram Aura推出，提供低延迟的实时文本转语音API：

人类般的对话自然度，支持实时互动。
低成本，易于集成的API，新用户免费信用测试。
https://aura-tts-demo.deepgram.com

🔗 https://x.com/imxiaohu/status/1767809803580321810?s=20

7⃣️

💼Command-R：高性能企业级语言模型，优化多语言支持：

专注于检索增强生成和工具使用。
支持集成外部API和工具自动化任务。
需要对中文支持进行优化。
详细：https://txt.cohere.com/command-r/ 模型：https://huggingface.co/CohereForAI/c4ai-command-r-v01 在线体验：https://dashboard.cohere.com

🔗 https://x.com/imxiaohu/status/1767795556481712270?s=20

8⃣️

🎬Hotshot ACT-1：新一代文本转视频模型：

能够生成高清视频，理解并创造多样场景。
考虑文本背后的含义，生产自然且富有细节的视频。
体验地址：https://hotshot.co/act-one

🔗 https://x.com/imxiaohu/status/1767784185501249705?s=20

9⃣️

🖼️Gifshift：将GIF转换为不同风格的GIF：

用户可根据提示自定义转换效果。
支持多种风格，转换速度快。
体验地址：https://gifshift.xyz

🔗 https://x.com/imxiaohu/status/1767778447785693429?s=20

🔟

👨💻Cognition实验室发布全球首位AI软件工程师Devin：

Devin通过顶尖公司面试，完成Upwork真实工作。
自主学习新技术，端到端构建部署应用，贡献到生产仓库。
详细：https://cognition-labs.com/blog

🔗 https://x.com/imxiaohu/status/1767744573537996877?s=20

1⃣1⃣️

🚀OpenAI的GPT-4.5 Turbo意外曝光，预计六月份推出：

被认为是最快、最准确、扩展性最强的模型。

🔗 https://x.com/imxiaohu/status/1767732392163430864?s=20

3 月 12 日

🎇

🔔Xiaohu.AI日报「3月12日」 ✨✨✨✨✨✨✨✨

1⃣️

🎹Paper Piano 纸钢琴：将纸张变成钢琴的创新尝试

利用摄像头捕捉手指运动，在纸上弹钢琴。
支持最多两根手指演奏，未来计划支持更多。
基于手势识别，通过预定义区域模拟钢琴键。

🔗 https://github.com/Mayuresh1611/Paper-Piano

🔗 https://x.com/imxiaohu/status/1767519579440632189?s=20

2⃣️

🎭Midjourney 角色人物一致性功能上线

新增“角色参考”功能，基于角色图片创造内容。
保持角色形象一致性，专注于角色而非风格。
Midjourney 人物一致性已上线

🔗 https://x.com/imxiaohu/status/1767365140708732932?s=20

3⃣️

🔓Google发表模型窃取攻击方法论文

成功攻破ChatGPT，提取重要信息。
低成本获取ada和babbage语言模型投影矩阵。
确认模型隐藏维度，估计成本不超过2000美元。

🔗 https://x.com/imxiaohu/status/1767425679703134395?s=20

4⃣️

🤖GPT4.5即将到来的迹象

加州大学欧文分校测试GPT4.5。
ZotGPT提供无成本访问，支持多功能。

🔗 https://oit.uci.edu/services/ai/zotgpt/#tabs|1

🔗 https://x.com/imxiaohu/status/1767395810118177221?s=20

5⃣️

💻Screenshot to Code：屏幕截图转代码工具

利用GPT-4 Vision视觉能力转换截图为代码。
支持HTML/Tailwind CSS、React等，集成DALL-E 3。

🔗 https://github.com/abi/screenshot-to-code

🔗 https://x.com/imxiaohu/status/1767382297282752925?s=20

6⃣️

🎨交互创意体验

网址提供了丰富的交互创意体验。
鼓励加入更多AI元素。

🔗 http://reboot.studio

🔗 https://x.com/imxiaohu/status/1767377126578405592?s=20

7⃣️

📚沃顿商学院发布教学提示词库

包含多用途学习和教育提示词。
适合学生、教师和家长收藏。
https://www.moreusefulthings.com/prompts

🔗 https://x.com/op7418/status/1767158739302506900?s=20

3 月 11 日

🤖

🔔Xiaohu.AI日报「3月11日」 ✨✨✨✨✨✨✨✨

1⃣️

🔍三星官网泄露微软Copilot最新功能：

通过语音和自然语言聊天操控设备。
可总结短信内容，直接从电脑发送短信。
集成于三星Galaxy智能手机，深入集成预期。

🔗 https://x.com/imxiaohu/status/1767193502600052761?s=20

2⃣️

👚AI虚拟试穿体验：

可根据身高、体重、衣服合体要求等个性化选择。
进行AI匹配，产品内测阶段。

🔗 https://x.com/imxiaohu/status/1767155634703929397?s=20

3⃣️

🚀马斯克计划开源Grok：

🔗 https://x.com/imxiaohu/status/1767112382105764101?s=20

4⃣️

📚Magi：自动将漫画转录成文字并生成剧本：

包括面板检测、文本块检测、角色检测等。
能够自动将漫画页面转化为详细的文字剧本。
GitHub：https://github.com/ragavsachdeva/magi

🔗 https://x.com/imxiaohu/status/1767098099808522366?s=20

5⃣️

🎶Optimizer AI：专为视频自动生成音效的AI工具：

可以通过文字提示创造适用于多种场景的声音和音效。
包括声音效果生成、变声、风格标签等主要功能。

官网：http://optimizerai.xyz 在线体验：http://discord.com/invite/bgfnVaaU2n

🔗 https://x.com/imxiaohu/status/1767063110966510070?s=20

6⃣️

📱AIwechat-Vercel：无需服务器将GPT接入微信公众号：

利用Vercel的Serverless Functions提供后端服务。
集成多种AI服务，支持GPT、星火、通义千问、Gemini等。

GitHub：https://github.com/pwh-pwh/aiwechat-vercel 视频教程：https://bilibili.com/video/BV1Ct421b7xz

🔗 https://x.com/imxiaohu/status/1767033651123171689?s=20

7⃣️

🔒WhiteRabbitNeo：网络安全领域专用模型：

可识别安全威胁和漏洞。
应用于编程和代码生成领域，辅助开发者快速生成代码。

官网：http://whiterabbitneo.com 模型下载：https://huggingface.co/WhiteRabbitNeo/WhiteRabbitNeo-7B-v1.5a

🔗 https://x.com/imxiaohu/status/1767008565901099093?s=20

8⃣️

🤖H2O：将人类动作实时转换为机器人动作：

通过简单的RGB摄像头实现实时全身遥控机器人。
机器人能模仿人类操作者执行一系列复杂动作。

项目及演示：https://human2humanoid.com 论文：https://arxiv.org/abs/2403.04436

🔗 https://x.com/imxiaohu/status/1766999436373467378?s=20

9⃣️

🎥OpenAI Sora团队做客Marques Brownlee播客：

讨论了Sora的架构、训练、目标及安全问题。
短时间内Sora不会向公众开放。

原视频：https://youtu.be/Srh1lut4Q2A

🔗 https://x.com/imxiaohu/status/1766993423180116268?s=20

🔟

🌐360 AI增强浏览器体验：

文档助手能解读、总结PDF，生成思维导图，翻译及聊天功能。
文档助手和视频助手功能强大，但视频转录需优化。
和Perplexity AI有的一拼 🔗 https://browser.360.cn/ai/?src=side 🔗 https://www.sou.com/ 🔗 https://weibo.com/1627825392/5009001701443493

3月 10 日

🤖

🔔Xiaohu.AI日报「3月6-10日」 ✨✨✨✨✨✨✨✨

1⃣️

📚一个免费薅Claude 3的方法：

亚马逊Amazon Bedrock提供免费托管服务，包括Claude 3 Sonnet。
服务包含Llama 2、Mixtral、Stable Diffusion等多个模型。
国内用户可直接使用，无需科学上网。

🔗 https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=infoq7

🔗 https://weibo.com/1627825392/5010083437876875

2⃣️

🔊Pika推出视频内容自动生成音效功能：

🔗 https://weibo.com/1627825392/5010321166831602

3⃣️

🎥Gemini 1.5 Pro分析视频内容能力：

能理解视频讲述内容，完整描述主要内容。
回答关于视频的任何问题，包括计数动作。

🔗 https://weibo.com/1627825392/5009971395167689

4⃣️

🗣️Pi的System Prompt特性：

与用户轻松、友善交流，鼓励分享。
提供准确、最新资讯，保护用户隐私。
遵守AI伦理，体察用户情绪，避免偏见内容。

🔗 https://weibo.com/1627825392/5009720530439323

5⃣️

🎬MovieLLM: AI合成电影数据训练模型：

从文本提示生成高质量电影级视频数据。
结合GPT-4和文本到图像模型，创作完整电影。

🔗 https://deaddawn.github.io/MovieLLM/

🔗 https://arxiv.org/abs/2403.01422

🔗 https://github.com/Deaddawn/MovieLLM-code

6⃣️

📹AtomoVideo：阿里巴巴开发的图像到视频生成模型：

从静态图像生成高保真视频，动作自然流畅。
引入时间卷积和注意力模块，处理时间关系。
结合文字描述生成视频，适用于多种场景。

🔗 https://atomo-video.github.io/

🔗 https://weibo.com/1627825392/5009059887712513

7⃣️

💡Inflection AI发布Inflection-2.5版本模型：

仅用40%的训练计算量匹敌GPT-4性能。
结合IQ与EQ，提供有情感理解的AI体验。
实时网络搜索能力，支持多平台使用。

🔗 https://inflection.ai/inflection-2-5

🔗 https://weibo.com/1627825392/5009432801446874

8⃣️

🤖01.AI发布新一代开源模型：Yi-9B：

专为中英双语场景优化，实际参数为8.8B。
高效处理代码、数学问题，优秀的常识推理和阅读理解。
量化技术支持，适用于消费级GPU。 🔗 https://huggingface.co/01-ai/Yi-9B 🔗 https://weibo.com/1627825392/5009049754009881

3 月 3 日

📗

🔔Xiaohu.AI日报「3月3日」 ✨✨✨✨✨✨✨✨

1️⃣

🖱️Easy Scraper：一键抓取网站内容的Chrome扩展

支持一键抓取列表和详细页面数据
即时导出为CSV或JSON，易于与ChatGPT等工具集成
动态内容处理和隐私保护

🔗 网址：https://easyscraper.com

🔗 https://x.com/xiaohuggg/status/1764182205247733956?s=20

2️⃣

🕊️Sora最新视频：飞行视角游览博物馆

展示绘画、雕塑和各种风格艺术品

🔗 https://x.com/xiaohuggg/status/1764145779105747176?s=20

3️⃣

🎭商汤科技创始人汤晓鸥AI脱口秀视频

AI技术让汤晓鸥教授以视频形式与大家重逢
回顾了一年的过去非常感动

🔗 https://x.com/xiaohuggg/status/1764139165422387407?s=20

4️⃣

🗣️ChatGPT语音朗读功能开始灰度测试

设置语音后可自动朗读GPT生成内容

🔗 https://x.com/xiaohuggg/status/1763941474411188544?s=20

3 月 2 日

📗

🔔Xiaohu.AI日报「3月2日」 ✨✨✨✨✨✨✨✨

1⃣️

🚀北京大学YuanGroup团队发起Open-Sora计划

旨在复现OpenAI的Sora模型
结合视频VQ-VAE、Denoising Diffusion Transformer等技术
支持可变长宽比、分辨率和持续时间

🔗 项目地址：https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html

🔗 GitHub：https://github.com/PKU-YuanGroup/Open-Sora-Plan

🔗 https://x.com/xiaohuggg/status/1763925008039161878?s=20

2⃣️

🎥OpenReplay：自托管的会话回放分析工具

让开发者像看电影一样回放用户操作
完全控制数据，保障用户信息安全隐私
支持iOS和React Native应用，Android和Flutter即将推出

🔗 GitHub：https://github.com/openreplay/openreplay

🔗 https://x.com/xiaohuggg/status/1763918600178688299?s=20

3⃣️

🌐OLMo：真正的完全开源大模型

100%开源预训练数据、训练代码、模型权重等
基于3万亿token的Dolma数据集
便于研究人员完全复现训练过程

🔗 项目地址：https://allenai.org/olmo

🔗 模型下载：https://huggingface.co/allenai/OLMo-7B

🔗 https://x.com/xiaohuggg/status/1763819660779405331?s=20

4⃣️

🎵OpenAI的音乐生成模型：Jukebox

3年前推出，即将发布Jukebox 2
基于1.2百万首歌曲的数据集训练
能根据歌词、艺术家和流派信息生成音乐和人声歌曲

🔗 演示列表：https://soundcloud.com/openai_audio

🔗 项目地址：https://openai.com/research/jukebox

🔗 https://x.com/xiaohuggg/status/1763775026040590531?s=20

5⃣️

🎮@CSM_ai：文本、图像或草图转换为3D素材

直接应用于游戏中，无需后期处理
视频演示了在ROBLOX游戏中的应用

🔗 体验地址：https://cube.csm.ai

🔗 https://x.com/xiaohuggg/status/1763758877999587757?s=20

6⃣️

🌍Sailor：东南亚国家定制的语言模型

基于Qwen 1.5，覆盖7种语言
从0.5B到7B不同大小版本，适应不同需求
在SEA语言的多种任务上表现出色

🔗 项目： https://sailorllm.github.io

🔗 https://x.com/xiaohuggg/status/1763753689108627960?s=20

7⃣️

📱Pi支持通过iMessage聊天

现已支持中文
提供iMessage体验

🔗 iMessage体验：http://pi.ai/imessage

🔗 https://x.com/xiaohuggg/status/1763596823665783285?s=20

3 月 1 日

📗

🔔Xiaohu.AI日报「3月1日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 Concordia - Google DeepMind的社会模拟工具：

生成具有高度细节的虚拟个体和环境。
虚拟个体能进行决策、制定计划、自然语言交流。
应用于研究人类社会行为、测试AI系统等。

🔗 https://x.com/xiaohuggg/status/1763535567596437566?s=20

2⃣️

🖼️ ComfyUI-SUPIR - 图片分辨率提升工具：

简单易用，提高图片分辨率和质量。
需下载约10GB CLIP模型，可能有不便。
GitHub和在线体验链接提供。

🔗 https://x.com/xiaohuggg/status/1763504325417222170?s=20

3⃣️

💬 Chat-With-MLX - Mac上的多语言RAG聊天界面：

支持与文档、视频聊天交互。
多语言支持，易于集成HuggingFace和MLX模型。
包括支持的模型列表和项目地址。

🔗 https://x.com/xiaohuggg/status/1763436917734154273?s=20

4⃣️

🤖 Figure机器人公司 - 获6.75亿美元融资，估值26亿美元：

OpenAI等为投资方，与Figure共同开发人形机器人AI。
加速商业化，扩大工程师团队，计划大规模扩展。
利用Microsoft Azure进行AI训练和存储。

🔗 https://x.com/xiaohuggg/status/1763251658996478439?s=20

5⃣️

👨⚖️ 埃隆·马斯克诉OpenAI案：

马斯克指责OpenAI因与微软合作失去“开放”本质。
声称OpenAI违背了成立初期优先考虑人类福祉的协议。
指出OpenAI已成为微软的一个闭源子公司，优化AGI以增加微软利润。

🔗 https://x.com/dotey/status/1763469275124093397?s=20

2 月 29 日

📗

🔔Xiaohu.AI日报「2月29日」 ✨✨✨✨✨✨✨✨

1⃣️

🎵Adobe推出实验性AI音乐工具“Project Music GenAI Control”

通过文本提示生成音乐，提供细粒度控制。
支持音乐强度调整、重新混音、改变节奏、生成循环等功能。

🔗 https://adobe.ly/3uMBr27

🔗 https://x.com/xiaohuggg/status/1763207216348479987?s=20

2⃣️

🤖Ameca机器人展现与观众互动能力

Ameca有身体了，能和观众对答如流。

🔗 https://youtube.com/watch?v=VXlpF3DrVP0

🔗 https://x.com/xiaohuggg/status/1762319994833232353?s=20

3⃣️

🎬LTX Studio：一键生成电影的AI驱动工具

输入文本提示和创意即可生成完整剧本和视频。
特点：框架控制、AI叙事、角色一致性、自动剪辑。

🔗 https://ltx.studio

🔗 https://x.com/xiaohuggg/status/1763041745770791308?s=20

4⃣️

📹Jason Wei：将Sora视为视频生成领域的“GPT-2时刻”

Sora目前能生成高艺术性和现实性的短视频，但尚未达到生成长视频的能力。
对未来视频生成模型发展的预测。

🔗 https://x.com/xiaohuggg/status/1763151414216577150?s=20

5⃣️

🎨DALL·E 3更新灰度测试，引入67种新影像风格

用户可指定图像纵横比，选择生成横屏或垂直方向图片。

🔗 https://x.com/xiaohuggg/status/1763109157702602769?s=20

6⃣️

🤖Phoenix机器人展示惊人的速度、精确性和力量

由Carbon驱动的人形通用机器人，能完成数百项任务。

🔗 https://x.com/xiaohuggg/status/1763085504894140687?s=20

7⃣️

🔄X推荐算法重大更新，改善置顶帖展示规则

置顶帖48小时轮换，确保所有关注者可见。

🔗 https://x.com/xiaohuggg/status/1763070326433542235?s=20

8⃣️

🎥Morph Studio与Stability AI合作，将视频片段编织成电影

用户通过文本提示创建镜头，编辑成连贯叙事。

🔗 https://app.morphstudio.com/waitlist

🔗 https://x.com/xiaohuggg/status/1763059123615334457?s=20

9⃣️

💻StarCoder 2：专为代码生成和分析设计的开源模型

支持600多种编程语言，具有3B、7B、15B参数版本。

🔗 https://x.com/xiaohuggg/status/1763031036341199067?s=20

🔟

🎨Ideogram 1.0：高精度文本渲染的文本到图像模型

解决图像中生成文本的不准确问题，提高渲染精确性。

🔗 https://about.ideogram.ai/1.0

🔗 https://x.com/xiaohuggg/status/1763021533214375997?s=20

2 月 28 日

🐻

🔔Xiaohu.AI日报「2月28日」 ✨✨✨✨✨✨✨✨

1⃣️

🎵 Google MusicFX的DJ打碟模式：

允许用户选择多个音乐风格生成音乐。
可调整风格强度控制节奏和曲调。
实现类似DJ的音乐编辑生成。

🔗 https://aitestkitchen.withgoogle.com/tools/music-fx?isMusicFxLive=true

🔗 https://x.com/xiaohuggg/status/1762825532650172472?s=20

2⃣️

🔄 AutoPrompt的提示优化框架：

设计用于优化提示词，自动生成定制化提示。
解决敏感性和模糊性问题，提升提示质量。
通过迭代构建挑战性数据集，理解用户意图。

🔗 https://x.com/xiaohuggg/status/1762786980721832233?s=20

3⃣️

🤖 EMO动态视频生成技术：

通过照片和音频生成动态视频。
视频长度与音频匹配，表情非常到位。
支持任意语音、速度、图像。

🔗 https://humanaigc.github.io/emote-portrait-alive/

🔗 https://arxiv.org/abs/2402.17485

🔗 https://x.com/xiaohuggg/status/1762726320008823186?s=20

4⃣️

🎶 ChatMusician音乐生成模型：

理解和生成结构完整、风格多样的音乐。
使用ABC符号，让模型“阅读”和“写作”音乐。
结合了文本和音乐的表示方式。

🔗 https://shanghaicannon.github.io/ChatMusician/

🔗 https://arxiv.org/abs/2402.16153

🔗 https://x.com/xiaohuggg/status/1762698955249569941?s=20

5⃣️

🕰️ GPT生成器的“历史记录”功能：

新增“版本历史记录”按钮，防止Prompt丢失。
允许恢复到自定义GPT的任意先前版本。

🔗 https://x.com/xiaohuggg/status/1762659489273299313?s=20

6⃣️

📞 X的语音和视频通话功能全面开放：

今天开始向所有用户开放语音视频通话。
马斯克宣布未来只能通过X联系他。

🔗 https://x.com/xiaohuggg/status/1762658710403657732?s=20

7⃣️

🎨 Playground v2.5文本到图像模型：

显著提升图像美学质量，包括颜色和对比度。
改进多纵横比图像生成和人像细节。
性能大幅超越其他主流模型。

🔗 http://playground.com/blog/playground-v2-5…

🔗 http://playground.com

🔗 https://x.com/xiaohuggg/status/1762649962113114458?s=20

8⃣️

👄 Pika的Lip Sync唇部同步功能：

通过语音或文字同步生成视频中的嘴部动画。

🔗 https://x.com/xiaohuggg/status/1762614742198403507?s=20

2 月 27 日

🌈

🔔Xiaohu.AI日报「2月27日」 ✨✨✨✨✨✨✨✨

1️⃣

🎥DomoAI发布fusion style功能

简单提示词改变视频风格，增加/替换视频中人物小物品或衣物。
视频中人物可替换成其他角色，如奥特曼，保持原动作姿态。

🔗 https://x.com/xiaohuggg/status/1762484163385442417?s=20

2️⃣

📱MobiLlama：手机上运行的小型语言模型

基于LLaMA-7B设计，适用于边缘设备，如智能手机和平板。
体积小，资源需求低，但提供高精度语言理解和生成。

🔗 https://huggingface.co/MBZUAI

🔗 https://github.com/mbzuai-oryx/MobiLlama

🔗 https://x.com/xiaohuggg/status/1762453118393156049?s=20

3️⃣

🎨开源「贴纸生成器」

文字提示生成精美贴纸，操作简便快速。

🔗 http://stickerbaker.com

🔗 https://github.com/cbh123/stickerbaker

🔗 https://replicate.com/fofr/sticker-maker/api

🔗 https://x.com/xiaohuggg/status/1762400461192311215?s=20

4️⃣

🤖机器人Ameca获得视觉能力

描述房间和物体，模仿各种声音和风格，如摩根·佛里曼和海绵宝宝。
可以根据不同性格进行对话，展现微表情。

🔗 https://youtube.com/watch?v=VXlpF3DrVP0

🔗 https://x.com/xiaohuggg/status/1762319994833232353?s=20

5️⃣

✍️STORM：斯坦福大学开发的创新写作系统

自动化编写具有维基百科深度的长篇文章。
通过模拟人类写作过程中的预写、起草和修订阶段，自动化信息收集和大纲创建。

🔗 https://arxiv.org/abs/2402.14207

🔗 https://x.com/xiaohuggg/status/1762308686259929162?s=20

6️⃣

🐾Sora最新视频：创造未知生物

根据提示，创造逼真的从未存在过的动物，自然纪实风格。

🔗 https://x.com/xiaohuggg/status/1762296483792191505?s=20

7️⃣

🤝微软与Mistral合作

Mistral AI推出性能接近GPT-4的Mistral Large模型，支持复杂多语言任务。

🔗 https://x.com/xiaohuggg/status/1762291157776892282?s=20

8️⃣

🗣️MeloTTS：多语言文本到语音库

支持多种语言，包括英语、中文等，支持实时语音合成。

🔗 https://x.com/xiaohuggg/status/1762279049056153743?s=20

2 月 26 日

🌲

🔔Xiaohu.AI日报「2月26日」 ✨✨✨✨✨✨✨✨

1⃣️

👄VSP-LLM：理解和翻译视频中的唇语

将视频中唇动转化为文本，实现视觉语音识别和翻译。
基于AV-HuBERT模型，利用先进技术识别语音信息。
智能去除不必要重复信息，提高处理效率。

🔗 https://github.com/facebookresearch/av_hubert

🔗 https://x.com/xiaohuggg/status/1762089975431237938?s=20

2⃣️

🔍MIRAGE：提升医学问答性能的检索增强生成框架

使用最新可信文档辅助LLMs，减少错误信息，提升回答准确性。
MIRAGE应用MedRAG，某些模型性能提升至GPT-4水平。

🔗 https://teddy-xionggz.github.io/benchmark-medical-rag/

🔗 https://arxiv.org/abs/2402.13178

🔗 https://x.com/xiaohuggg/status/1762082522417262764?s=20

3⃣️

🎮Genie：从单图生成无限可玩游戏场景

支持合成图像、真实照片、手绘草图转化成可互动游戏场景。
降低创造复杂虚拟环境门槛，加速内容创作和游戏开发。

🔗 https://x.com/xiaohuggg/status/1761981007929176541?s=20

4⃣️

🌟Sora完整能力曝光：视频和图像的全方位处理与生成

生成、编辑、识别、处理、理解视频和图像内容。
Sora展现出与Gemini 1.5 Pro相似的视频理解能力，能分析长达1小时的视频。

🔗 https://x.com/xiaohuggg/status/1761938064421867782?s=20

2 月 25 日

📗

🔔Xiaohu.AI日报「2月25日」 ✨✨✨✨✨✨✨✨

1⃣️

🔄 ChatGPT代码库更新：

英语语言/翻译文件、图像生成样式图像等变更
引入新功能：DALL·E 3 图像风格、ChatGPT启动新聊天创意
ChatGPT数据分析升级到V2版本
知识库更新至2023年12月

🔗 https://x.com/xiaohuggg/status/1761767133019865336?s=20

2⃣️

🔍 Sora功能体验：

在OpenAI技术报告中提到
通过关键词生成视频：人物、着装、天气、地理位置
提供不同组合生成视频的简易版本

🔗 https://x.com/xiaohuggg/status/1761651932958237093?s=20

3⃣️

🖼️ StabilityAI图像控制API：

功能包括：搜索替换对象、图像编辑修复、增强图像、生成视频、选择性图像修改

🔗 https://platform.stability.ai/docs/api-reference#tag/v2alphageneration/paths/~1v2alpha~1generation~1stable-image~1inpaint/post

🔗 https://x.com/xiaohuggg/status/1761632850250735647?s=20

4⃣️

👁️ Depth Anything技术：

香港大学和TikTok开发的单目深度估计技术
预测图像中每个点的深度信息
超过6200万张图像训练，性能超越顶尖模型

🔗 https://depth-anything.github.io

🔗 https://arxiv.org/abs/2401.10891

🔗 https://x.com/xiaohuggg/status/1761605006535602516?s=20

5⃣️

🏃 Move AI推出Move API：

从2D视频生成3D运动数据
支持多种3D文件格式导出
为AR应用、游戏开发等提供高质量3D运动数据

🔗 https://move.ai/api

🔗 https://x.com/xiaohuggg/status/1761590288576061573?s=20

6⃣️

📱 AllenTom/diffusion-client项目：

为Android用户提供与Stable-Diffusion-WebuUI服务交互的客户端
支持图像生成、编辑、修复、换脸等
包含文本到图像、图像到图像、图像修复等功能

🔗 https://github.com/AllenTom/diffusion-client?tab=readme-ov-file

🔗 https://x.com/xiaohuggg/status/1761371355583516842?s=20

2 月 24 日

📗

🔔Xiaohu.AI日报「2月24日」 ✨✨✨✨✨✨✨✨

1⃣️

📱AllenTom/diffusion-client：一个为Android设计的Stable-Diffusion客户端。

支持图像生成、编辑、修复、换脸等功能。
支持多种模型，如Lora、SDXL、Civita。
功能包括文本到图像、图像到图像、图像修复等。

🔗 https://github.com/AllenTom/diffusion-client?tab=readme-ov-file

2⃣️

🔍可视化的维基百科：快速自我组织整理的搜索信息。

类似思维导图结构，方便快速获取信息。

🔗 https://explorer.globe.engineer

🔗 https://x.com/xiaohuggg/status/1761329682635448623?s=20

3⃣️

🛠️SUPIR：图像错误或损坏部分的修复工具。

支持文本提示智能修复。
提供在线体验。

🔗 https://github.com/chenxwh/SUPIR

🔗 https://replicate.com/cjwbw/supir

🔗 https://x.com/xiaohuggg/status/1761273943791669723?s=20

4⃣️

👁️YOLOv9：实时对象检测，准确快速识别图像或视频中的多个对象。

模型轻量化，高准确率和效率。
改进架构和训练方法，提高检测准确性。

🔗 https://github.com/WongKinYiu/yolov9…

🔗 https://arxiv.org/abs/2402.13616

🔗 https://x.com/xiaohuggg/status/1761266783561056384?s=20

5⃣️

🖼️Creative Upscaler：图像提升增强工具，支持4K分辨率升级。

创造原始图像中不存在的新细节。
用户可调整创造力水平。
适用于低质量图像转换为高分辨率作品。

🔗 https://creator.nightcafe.studio/stability-ai-creative-upscaler

🔗 https://x.com/xiaohuggg/status/1761233461971693602?s=20

6⃣️

🚫OpenAI关闭ChatGPT插件功能。

3月19日起无法安装新插件或使用现有插件创建新对话。
现有对话可继续到2024年4月9日。

🔗 https://help.openai.com/en/articles/8988022-winding-down-the-chatgpt-plugins-beta

🔗 https://x.com/xiaohuggg/status/1761216477825474640?s=20

7⃣️

⚖️Google关闭Gemini图像生成功能。

针对种族和性别偏见问题采取行动。
马斯克提到谷歌高级管理人员的响应。

🔗 https://x.com/xiaohuggg/status/1761022370666480002?s=20

2 月 23 日

📗

🔔Xiaohu.AI日报「2月23日」 ✨✨✨✨✨✨✨✨

1⃣️

🚫 Google关闭Gemini图像生成功能：

针对种族和性别偏见问题进行了立即行动。
马斯克与谷歌高管讨论了纠正措施。

🔗 https://x.com/xiaohuggg/status/1761022370666480002?s=20

2⃣️

👨💻 OpenCodeInterpreter引入代码执行功能：

能够根据反馈循环改进，生成高质量代码。
集成GPT-4反馈后，在代码准确性和迭代上展示卓越性能。

🔗 https://x.com/xiaohuggg/status/1760885299071344672?s=20

3⃣️

🎨 Differential Diffusion开启精准图像编辑：

允许对每个像素进行强度调整，实现复杂编辑效果。
结合文本提示和变化地图，扩展编辑和生成能力。

🔗 https://x.com/xiaohuggg/status/1760951513298727394?s=20

4⃣️

⚡ SDXL Lightning实现实时图像生成：

边打字边生成图片，速度极快。
生成1024分辨率图像，尽管质量有待提高。

🔗 https://x.com/xiaohuggg/status/1760934817011823024?s=20

5⃣️

🔍 YOLO-World + EfficientSAM + Stable Diffusion实现实时对象检测与编辑：

实现科幻电影般的实时图像和视频内容替换。
对特定对象进行替换、修改、风格化。

🔗 https://x.com/xiaohuggg/status/1760925474333814854?s=20

6⃣️

📈 Sam Altman在Reddit的重要股份：

持有8.7%的流通股和9.2%的投票权。
表明信息权和技术权的重要性。

🔗 https://x.com/xiaohuggg/status/1760913733952610741?s=20

7⃣️

🔄 Stable Diffusion 3揭示隐藏功能：

根据文字描述精准控制图像生成和编辑。
功能包括对象替换、背景更改，甚至视频生成。

🔗 https://x.com/xiaohuggg/status/1760902879207207380?s=20

8⃣️

🎵 Suno发布AI音乐生成模型V3 Alpha：

提升音质、表现力，增加生成长度和速度。
支持特定乐器，扩大语言覆盖，允许继续之前的创作。

🔗 https://x.com/xiaohuggg/status/1760866742849728618?s=20

2 月 22 日

📗

🔔Xiaohu.AI日报「2月22日」 ✨✨✨✨✨✨✨✨

1⃣️

🔍Stability AI 发布 Stable Diffusion 3：

采用新型扩散变换架构，提高性能。
引入新型扩散变换技术，增强图像生成能力。
集成流匹配技术，提升图像质量和多样性。

🔗 https://bit.ly/3OR2qQF

🔗 https://x.com/xiaohuggg/status/1760673218665537846?s=20

2⃣️

👓AEA 数据集发布：

基于 Project Aria AR眼镜，记录日常活动。
包含多模态传感器数据，支持AI和AR研究。
提供3D轨迹、场景点云等机器感知数据。

🔗 http://projectaria.com/datasets/aea/

🔗 https://arxiv.org/pdf/2402.13349.pdf

🔗 https://x.com/xiaohuggg/status/1760668941377265889?s=20

3⃣️

🎬剪影海外版 CapCut 新功能：

文本生成视频，支持多种比例。
体验尚可，清晰度有待提高。

🔗 https://x.com/xiaohuggg/status/1760630118656205305?s=20

4⃣️

📹Stable Video 官网上线：

图片和文字提示生成高质量视频。
日赠150积分，支持多种充值选项。

🔗 http://stablevideo.com

🔗 https://x.com/xiaohuggg/status/1760608404236881934?s=20

5⃣️

🤖UMI 数据收集与学习框架：

斯坦福开发，支持跨平台部署。
直接转移人类操作技能至机器人。

🔗 https://umi-gripper.github.io

🔗 https://x.com/xiaohuggg/status/1760583349150822804?s=20

6⃣️

🌪️SDXL-Lightning 项目：

一步生成高分辨率图像。
由字节跳动开发，提高生成速度。

🔗 https://x.com/xiaohuggg/status/1760191358298710370?s=20

7⃣️

🚫李一舟 AI 课程下架：

小程序被封。

🔗 https://x.com/xiaohuggg/status/1760556527537307721?s=20

8⃣️

💥微软 LongRoPE 挑战 Gemini 1.5：

扩展 LLM 上下文窗口至200万令牌。
仅需最多1000步微调。

🔗 https://x.com/xiaohuggg/status/1760547784879722538?s=20

9⃣️

🌐动漫化 Chrome 插件测试：

网页图片一键「动漫化」。
即将发布。

🔗 https://x.com/xiaohuggg/status/1760543789272494269?s=20

🔟

🤝Reddit 与谷歌达成协议：

授权内容用于训练 AI 模型。
交易金额约每年6000万美元。

🔗 https://x.com/xiaohuggg/status/1760536254247313458?s=20

1⃣1⃣️

📊HeyGen 商业化案例：

WiseTech Global 使用制作多语言视频。
AI 生成，口型匹配准确。

🔗 https://x.com/xiaohuggg/status/1760531538188665320?s=20

1⃣2⃣️

🔍Gemini 1.5 Pro 分析示例：

精确回答视频中的复杂问题。
展现高度理解和分析能力。

🔗 https://x.com/xiaohuggg/status/1760518860967657567?s=20

1⃣3⃣️

🔐iMessage 后量子加密协议 PQ3：

苹果宣布增加最强安全性。
防御量子攻击，实现3级安全标准。

🔗 https://x.com/xiaohuggg/status/1760501771108245820?s=20

1⃣4⃣️

🖥️Ollama 支持 Gemma 模型：

可下载安装运行。
文件大小1.4G。

🔗 http://Ollama.com/library/gemma

🔗 https://x.com/xiaohuggg/status/1760499217100136924?s=20

1⃣5⃣️

💹英伟达财报公布：

第四季度营收和利润创纪录。
强调加速计算和AI的引爆点。

🔗 https://x.com/xiaohuggg/status/1760495335972163865?s=20

2 月 21 日

📗

🔔Xiaohu.AI日报「2月21日」 ✨✨✨✨✨✨✨✨

1⃣️

🔍 Google 推出Gemma模型：

轻量级、开源，适用于多种设备。
Gemma家族包括2B和7B两种尺寸，性能卓越。
技术上与Gemini共享，安全且负责任。

🔗 详细：https://dpmd.ai/3UJu1Y1

🔗 访问：http://ai.google.dev/gemma

🔗 https://x.com/xiaohuggg/status/1760312395078205746?s=20

2⃣️

👨🏫 蒋路加入字节TikTok：

Google VideoPoet项目Research Lead，CMU兼职教授。
VideoPoet是Google的竞争项目。

🔗 https://scholar.google.com/citations?user=jIKjjSYAAAAJ

🔗 https://x.com/xiaohuggg/status/1760204483785814355?s=20

3⃣️

🧠 Neuralink人体试验更新：

首位脑机接口人体试验患者进展良好。
无神经不良影响，能通过思考控制鼠标。

🔗 https://x.com/xiaohuggg/status/1760198564658180525?s=20

4⃣️

🖼️ SDXL-Lightning项目：

字节跳动开发，优化扩散模型。
一步/少步生成1024px分辨率图像。
结合渐进式蒸馏和对抗式蒸馏。

🔗 模型：https://huggingface.co/ByteDance/SDXL-Lightning

🔗 https://x.com/xiaohuggg/status/1760191358298710370?s=20

5⃣️

🎯 YOLOv8目标检测跟踪模型：

快速准确的多对象识别和定位。
支持实例分割、人体姿态估计等。
多平台兼容，一站式视觉识别解决方案。

🔗 详细介绍：https://docs.ultralytics.com/models/

🔗 GitHub：https://github.com/ultralytics/ultralytics

🔗 https://x.com/xiaohuggg/status/1760149057249636570?s=20

6⃣️

🎥 Sora工作原理解析：

结合扩散模型和Transformer架构。
采用空间时间补丁和时空立方体。
利用知识图谱组合视频，显示巨大潜力。

🔗 https://x.com/xiaohuggg/status/1760139842783248609?s=20

7⃣️

🚀 OpenAI技术人员的一天...

🔗 https://x.com/xiaohuggg/status/1760130189932265553?s=20

2 月 20 日

📗

🔔Xiaohu.AI日报「2月20日」 ✨✨✨✨✨✨✨✨

1⃣️

🔊 PixelPlayer：MIT研究团队的创新

自动识别并分离视频中的声音源，匹配画面位置。
为音视频编辑提供强大工具：独立调整音量、去除或增强特定声音源。
核心功能：声音源分离、声音定位、多声音源处理。

🔗 http://sound-of-pixels.csail.mit.edu

🔗 https://arxiv.org/abs/1804.03160

🔗 https://x.com/xiaohuggg/status/1759916778229268874?s=20

2⃣️

👗 OOTDiffusion：高度可控的虚拟服装试穿工具

高质量服装图像生成与融合，支持半身和全身模型。
可控试穿参数，自然融合与逼真效果。
开源项目，支持在线测试。

🔗 https://github.com/levihsu/OOTDiffusion

🔗 https://ootd.ibot.cn

🔗 https://x.com/xiaohuggg/status/1759876272505942462?s=20

3⃣️

🔄 AnyGPT：跨模态大语言模型

从任意模态到任意多模态的理解与生成。
支持文本、图像、视频、音频等模态输入和输出。
采用离散表示法处理不同模态数据。

🔗 https://junzhan2000.github.io/AnyGPT.github.io/

🔗 https://arxiv.org/pdf/2309.05519.pdf

🔗 https://x.com/xiaohuggg/status/1759823372891090990?s=20

4⃣️

💬 利用Groq实现实时AI对话

结合Llama-70B模型与Whisper模型，实现几乎零延迟性能。
展望：GPT 4或GPT 5可能实现的秒级写作和AI实时通话。
http://groq.com

🔗 https://x.com/xiaohuggg/status/1759780187074646164?s=20

2月19日

📗

🔔Xiaohu.AI日报「2月19日」 ✨✨✨✨✨✨✨✨

1⃣️

🌍Large World Model (LWM) 探索：

介绍了百万Token的通用世界大模型，旨在理解长视频和超长文本。
LWM在100万个令牌的上下文中超越GPT-4V和Gemini Pro的检索精度。
特色能力包括长视频理解、高精度事实检索和多格式内容生成。

🔗 https://largeworldmodel.github.io

🔗 https://github.com/LargeWorldModel/LWM

🔗 https://x.com/xiaohuggg/status/1759566391693504940?s=20

2⃣️

⚡世界上最快的大型语言模型(LLM)

Mixtral 8X7B 500 token/s的输出速度
Llama 2 7B的速度是750 tokens/s
速度快但准确性有待提高。

🔗 http://groq.com

🔗 http://wow.groq.com

🔗 https://x.com/xiaohuggg/status/1759457147962941852?s=20

3⃣️

🎨Reddit用户自制GLIGEN GUI：

由于缺少直观的GUI，一个Reddit大佬自己动手制作了一个。
用户可以自定义图像中对象的大小、位置和空间关系。
强调了用户对生成图像细节的控制能力。

🔗 https://github.com/mut-ex/gligen-gui

🔗 https://gligen.github.io

🔗 https://x.com/xiaohuggg/status/1759431911951450437?s=20

4⃣️

🎥马斯克揭示特斯拉视频生成技术：

马斯克展示了特斯拉一年前掌握的生成真实世界视频技术。
讨论了特斯拉和OpenAI在视频生成领域的努力及成果。
特斯拉生成视频的独特之处在于其“动态生成世界”的能力。

🔗 https://x.com/xiaohuggg/status/1759420372355805430?s=20

5⃣️

🔬ChatCell：单细胞分析的自然语言界面：

ChatCell通过自然语言简化单细胞分析过程，无需编程或专业知识。
支持细胞类型注释、药物敏感性预测等多种分析任务。
强调了单细胞生物学的研究重要性和挑战。

🔗 https://zjukg.org/project/ChatCell/

🔗 https://arxiv.org/abs/2402.08303

🔗 https://x.com/xiaohuggg/status/1759413341909598348?s=20

2月18日

📗

🔔Xiaohu.AI日报「2月18日」 ✨✨✨✨✨✨✨✨

1⃣️

🔍MetaSo体验：

针对中国用户的AI 搜索产品。
提供问题答案、大纲、思维导图、时间线和信息来源。
目前仅支持中文，准确性良好。

🔗 http://metaso.cn

🔗 https://x.com/xiaohuggg/status/1759223733871640753?s=20

2⃣️

🎮Sora制作的超高分辨率的Minecraft视频

创造8K分辨率的Minecraft视频，细腻逼真。
实现视频融合技术，如Minecraft与摩托车视频合成。

🔗 https://x.com/xiaohuggg/status/1759171722862002209?s=20

3⃣️

💾Google开源Magika：

AI驱动的文件类型识别系统，识别100+文件类型。
用于增强Gmail、Drive等的安全性。

🔗 https://npmjs.com/package/magika

🔗 https://x.com/xiaohuggg/status/1759165024642474133?s=20

4⃣️

🖥️UFO：微软的Windows UI代理：

通过自然语言和视觉内容执行复杂任务。
结合GPT 4-V，理解和操作Windows GUI。

🔗 https://github.com/microsoft/UFO

🔗 https://arxiv.org/abs/2402.07939

🔗 https://x.com/xiaohuggg/status/1759088453135061072?s=20

5⃣️

🧬DoRA—模型微调创新：

在LoRA基础上发展，通过权重的“幅度”和“方向”分解微调。
提供精细控制学习过程，优化微调策略。

🔗 https://arxiv.org/abs/2402.09353

🔗 https://github.com/catid/dora

🔗 https://x.com/xiaohuggg/status/1759063587363115083?s=20

6⃣️

📹Sora技术展示—多视角视频生成：

一个单独的视频里就包含了五个不同的视角
不需要人工编辑的情况下，自主决定展示多个视角

🔗 https://x.com/xiaohuggg/status/1759025340738159019?s=20

2月17日祝大家明日开工大吉

🤖

🔔Xiaohu.AI日报「2月17日」 ✨✨✨✨✨✨✨✨

1⃣️

🔬Sora的核心技术和发展：

核心技术源自Diffusion Transformers（DiT）。
结合了VAE、ViT、DDPM技术，优化视频生成。
强调了模型的简单性、可扩展性和视频压缩能力。

🔗 https://wpeebles.com/DiT

🔗 https://arxiv.org/abs/2212.09748

🔗 https://github.com/facebookresearch/DiT

🔗 https://x.com/xiaohuggg/status/1758849579855040920?s=20

2⃣️

✍️GhostWriter：个性化的AI写作工具：

由哈佛大学和微软研究院共同开发，基于ChatGPT。
学习和应用用户的写作风格，提供个性化文本生成。
经研究证实，提升了用户的满意度和参与度。

🔗 https://arxiv.org/abs/2402.08855

🔗 https://x.com/xiaohuggg/status/1758704157014569178?s=20

3⃣️

📖ReadAgent：Google开发的阅读代理：

模仿人类阅读方式，处理长文本。
采用忘记具体信息但保留要点的策略，提高理解效率。

🔗 https://read-agent.github.io

🔗 https://x.com/xiaohuggg/status/1758700080394285453?s=20

2月16日

🤖

🔔Xiaohu.AI日报「2月16日」 ✨✨✨✨✨✨✨✨

1⃣️

🖼️ Sora图像生成能力：

Sora能生成图像，虽不及Midjourney，但优于Dalle 3。

🔗 https://x.com/xiaohuggg/status/1758491331272622202?s=20

2⃣️

💻 Reor：AI开源桌面笔记应用：

作为个人知识管理工具，构建“第二大脑”。
自动组织连接想法，支持检索式问答。
链接笔记与思想，提高问答和编辑效率。
下载地址：https://reorproject.org
GitHub链接：https://github.com/reorproject/reor

🔗 https://x.com/xiaohuggg/status/1758468281319792659?s=20

3⃣️

🚀 Google Gemini Pro 1.5 更新：

高度复杂的跨模态理解与推理。
分析无声电影，识别特定场景。
超越GPT 4的能力。

🔗 https://x.com/xiaohuggg/status/1758394427238912138?s=20

Sherlock Jr. (1924) 视频：https://youtube.com/watch?v=rOVtjJkqtiA

4⃣️

🎥 OpenAI发布文本转视频模型Sora：

生成长达60秒的高清视频。
视频展示详细场景、复杂动作和丰富情感。
旨在理解模拟动态物理世界。

🔗 https://x.com/xiaohuggg/status/1758286500964577514?s=20

5⃣️

🎮 Sora在视频游戏模拟中的能力：

零次学习控制“Minecraft”中的角色。
展示高级视频内容理解与生成。
模拟复杂交互和动态环境的潜力。

🔗 https://x.com/xiaohuggg/status/1758332220706828544?s=20

6⃣️

📺 OpenAI视频模型Sora技术报告：

视频生成模型作为世界模拟器。
支持不同宽高比的视频生成。
展示3D一致性、长期一致性等能力。
完整报告：https://openai.com/research/video-generation-models-as-world-simulators

🔗 https://x.com/xiaohuggg/status/1758316094828511718?s=20

7⃣️

🔍 Meta推出V-JEPA：

自学习模拟物理世界。
不需人类监督或视频数据集标记。
预测视频内容，提高训练效率。
详细信息：https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
GitHub链接：https://github.com/facebookresearch/jepa

🔗 https://x.com/xiaohuggg/status/1758310386728927724?s=20

2月15日

🤖

🔔Xiaohu.AI日报「2月15日」 ✨✨✨✨✨✨✨✨

1⃣️

🎨 ConsiStory：无需额外训练的连续一致图像生成工具。

根据多个文本提示生成一致主题与布局多样的图像系列。
类似于一键生成一组风格一致的漫画不同场景。
项目及演示：https://consistory-paper.github.io
论文：https://arxiv.org/abs/2402.03286

🔗 https://x.com/xiaohuggg/status/1758131675094274089?s=20

2⃣️

🤖 Vicarious：创新的腹部手术机器人。

通过1.5厘米小切口完成手术，减少伤害和恢复时间。
28个传感器装备的机器人手臂模仿医生上半身动作，提供360度3D视野。
官网：http://vicarioussurgical.com

🔗 https://x.com/xiaohuggg/status/1758062271409053935?s=20

3⃣️

📜 美国专利商标局（USPTO）：AI不能作为专利发明者。

明确只有真人可申请专利，强调人类创造性和智慧的重要性。
提供AI在发明过程中的角色示例，明确什么情况下的发明可获专利资格。

🔗 https://edition.cnn.com/2024/02/14/tech/billions-in-ai-patents-get-new-regulations/index.html

🔗 https://x.com/xiaohuggg/status/1758056275219567020?s=20

4⃣️

🔍 Lumos：端到端多模态问答系统。

利用STR技术从复杂场景图像中准确提取文本。
整合图像理解与语言处理，准确回答基于图像的查询。
论文：https://arxiv.org/abs/2402.08017

🔗 https://x.com/xiaohuggg/status/1758028721486021055?s=20

5⃣️

🧬 GeneGPT：NCBI开发的生物医学专业知识处理工具。

改进大语言模型对生物医学知识的处理能力。
支持基因组DNA比对、蛋白编码基因识别等任务。
论文：https://arxiv.org/abs/2304.09667
GitHub：https://github.com/ncbi/GeneGPT

🔗 https://x.com/xiaohuggg/status/1758012243529330923?s=20

6⃣️

👩🔬 FaceFusion 2.3.0：高精度面部识别技术更新。

68点面部标记模型提升口型同步效果。
优化算法处理面部边缘，增强稳定性和准确性。
68点转5点简化模型，提高面部识别效率。
GitHub：https://github.com/facefusion/facefusion

🔗 https://x.com/xiaohuggg/status/1757998515308106186?s=20

7⃣️

🗣️ WhisperKit v0.2：让Whisper运行在Apple Watch。

更高效，资源占用更少，优化语音识别处理。
GitHub：https://github.com/argmaxinc/WhisperKit
模型：https://huggingface.co/argmaxinc/whisperkit-coreml

🔗 https://x.com/xiaohuggg/status/1757955251293082061?s=20

2月14日

🤖

🔔Xiaohu.AI日报「2月14日」 ✨✨✨✨✨✨✨✨

小互的每日排版

1⃣️

🤖OS-Copilot：智能代理框架

与操作系统交互完成广泛复杂任务。
自我学习和改进，处理文件管理、数据处理等。
FRIDAY代理：从图片、视频或文本中学习执行计算机任务。 🔗 https://os-copilot.github.io 🔗 https://arxiv.org/abs/2402.07456 🔗 https://x.com/xiaohuggg/status/1757769869637132381?s=20

2⃣️

🎬Boximator：视频控制技术

通过双重盒子约束控制视频中对象位置、形状或运动路径。
硬盒子用于精确定位，软盒子控制自由移动。 🔗 https://boximator.github.io 🔗 https://arxiv.org/abs/2402.01566 🔗 https://x.com/xiaohuggg/status/1757620469069656265?s=20

3⃣️

📉奥特曼CEO的态度转变

自从上次CEO风波后，开始故意降低对公司未来的预期。
不再过度夸大。 🔗 https://x.com/xiaohuggg/status/1757596275451781452?s=20

4⃣️

🗣️Elevenlabs Speech to Speech

提供29种语言版本的语音到语音变换。
高保真重现每一个声音细节，创建自定义AI声音。 🔗 https://elevenlabs.io/voice-changer 🔗 https://x.com/xiaohuggg/status/1757593879468294424?s=20

5⃣️

💬ChatGPT永久记忆功能上线

跨聊天记忆用户信息，提供更相关个性化回答。
用户控制记忆内容，隐私和安全考虑。
GPTs也将拥有记忆功能。 🔗 https://openai.com/blog/memory-and-new-controls-for-chatgpt 🔗 https://x.com/xiaohuggg/status/1757582626372935696?s=20

6⃣️

💻NVIDIA Chat With RTX：本地模型

连接个人内容，获得上下文相关答案。
利用RAG、TensorRT-LLM和RTX加速技术。
专为搭载NVIDIA RTX显卡的Windows系统设计。 🔗 https://nvidia.com/en-us/ai-on-rtx/chat-with-rtx-generative-ai/ 🔗 https://x.com/xiaohuggg/status/1757574748324979146?s=20

2月13日

🤖

🔔Xiaohu.AI日报「2月13日」 ✨✨✨✨✨✨✨✨

1⃣️

🎨 Stable Cascade 图像生成模型：

引入“三阶段方法”提升图片生成质量与灵活性。
训练成本比SD模型低16倍，减少对高端硬件需求。
支持根据需求选择不同大小的模型，提升用户体验。

🔗 https://x.com/xiaohuggg/status/1757431125579047408?s=20

2⃣️

📈 NVIDIA 成为全球市值第四大公司：

市值超过亚马逊和谷歌，达到1.831万亿美元。
2024年初6周内市值增加6500亿美元，超特斯拉公司市值。
全球市值排名更新，微软、苹果、沙特阿美领先。

🔗 https://x.com/xiaohuggg/status/1757388396996280482?s=20

3⃣️

📝 notesGPT 语音笔记工具：

自动转录语音为文本，生成内容总结和行动项。
100%免费开源，支持广泛技术栈如Convex、Next.js等。
提高笔记效率和任务规划。
在线体验：http://usenotesgpt.com

🔗 https://x.com/xiaohuggg/status/1757355823460991485?s=20

4⃣️

🎙️ ElevenLabs 声音分享平台：

允许用户创建、分享AI声音并赚取收入。
提供高级选项，包括合作创建高质量默认声音。
加强个人品牌影响力，设置价格和使用参数。
详细：https://elevenlabs.io/voice-actors

🔗 https://x.com/xiaohuggg/status/1757240458944844074?s=20

5⃣️

💡 Azure OpenAI Service 新功能：

Assistants API 公开预览，支持持久化和无限长的对话线程。
新的文本到语音功能，即将推出GPT-4 Turbo和GPT-3.5 Turbo模型。
简化对话状态管理，提升AI助手体验。
详细：https://msft.it/6019ihVTb

🔗 https://x.com/xiaohuggg/status/1757231958088949810?s=20

6⃣️

🖼️ Keyframer 动画工具：

苹果开发，利用LLMs将静态SVG图像转换成动画。
支持通过文字描述来生成CSS动画代码。
为设计师提供更灵活的动画创作工具。
论文：https://arxiv.org/abs/2402.06071

🔗 https://x.com/xiaohuggg/status/1757225933138952546?s=20

2月12日

🤖

🔔Xiaohu.AI日报「2月12日」 ✨✨✨✨✨✨✨✨

1⃣️

🚀纽约大学新技术：无人机18秒快速学飞

在MacBook Pro上训练无人机稳定飞行。
适用于各种大小和类型的无人机。
仿真环境训练，无风险快速学习。

🔗 https://arxiv.org/abs/2311.13081

🔗 https://github.com/arplaboratory/learning-to-fly

🔗 https://youtu.be/NRD43ZA1D-4

🔗 https://x.com/xiaohuggg/status/1756915564692545660?s=20

2⃣️

🤖TweetReader GPT：Twitter阅读助手

长Thread展开、推文翻译、摘要及视频下载。

🔗 https://chat.openai.com/g/g-jQyjBVVhg-tweetreader

🔗 https://x.com/dotey/status/1756901189646422132?s=20

3⃣️

👨🦯盲人导演利用Pixel 8 "Guided Frame" 功能

通过Google AI技术，让视力障碍者更易拍照分享。

🔗 https://x.com/xiaohuggg/status/1756938521179517436?s=20

4⃣️

🎥Direct-a-Video：通过语言控制视频创作

控制摄像机和对象运动，创作复杂视频场景。
通过文本指令实现细粒度视频生成控制。

🔗 https://direct-a-video.github.io

🔗 https://x.com/xiaohuggg/status/1756962287691444265?s=20

5⃣️

💸MoneyPrinter：自动化YouTube短视频赚钱项目

自动视频生成，音乐和字体自定义。
利用MoviePy和YouTube API实现视频自动上传。

🔗 https://github.com/FujiwaraChoki/MoneyPrinter

🔗 https://x.com/xiaohuggg/status/1756977011782979921?s=20

6⃣️

🎨Canvastique3D：实时3D手工设计预览工具

结合OpenCV和OpenAI技术。
让设计师即时看到设计在3D模型上的效果。

🔗 https://x.com/xiaohuggg/status/1757022189201858603?s=20

2月11日

🤖

🔔Xiaohu.AI日报「2月11日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 神经网络视觉端到端学习机器人综述：

完全独立执行任务，不依赖人类远程操控或预设脚本。
实时通过神经网络计算得出所有动作，基于视觉的端到端学习。
通过训练理解广泛物理行为，如清洁、整理、社交互动等。

🔗 https://1x.tech/discover/all-neural-networks-all-autonomous-all-1x-speed

🔗 https://x.com/xiaohuggg/status/1756531196933419330?s=20

2⃣️

🏆 Vision Arena：视觉模型竞技场：

测试比较GPT-4V、Gemini等视觉语言模型。
用户盲测投票决定哪个模型更优秀。

🔗 https://huggingface.co/spaces/WildVision/vision-arena

🔗 https://x.com/xiaohuggg/status/1756516368269312196?s=20

3⃣️

💰 Maybe：开源个人财务操作系统：

跟踪管理收入、支出、投资和财富。
包含财务顾问功能，联系专业财务管理建议。
因商业模式未成功而关闭，现开源复兴。

🔗 https://github.com/maybe-finance/maybe

🔗 https://x.com/xiaohuggg/status/1756508424551227405?s=20

2月10日

🤖

🔔Xiaohu.AI日报「2月10日」 ✨✨✨✨✨✨✨✨

1⃣️

💻 微软推出Windows 11 Insider Preview Build 26052的Sudo for Windows新功能

类似于macOS和Linux的sudo命令，允许以更高权限执行命令。
支持三种配置选项，提升使用灵活性。
微软计划开源该项目并扩展文档。

🔗 详细：https://devblogs.microsoft.com/commandline/introducing-sudo-for-windows/

🔗 GitHub：https://github.com/microsoft/sudo

🔗 https://x.com/xiaohuggg/status/1756321049887854740?s=20

2⃣️

🎭 iMusic：基于IMU的面部表情捕捉技术

使用惯性测量单元（IMUs）捕捉面部表情，保护个人隐私。
有效工作即使在脸部部分遮挡的情况下。

🔗 https://x.com/xiaohuggg/status/1756316182343512348?s=20

3⃣️

🔊 OpenAI推出基于Whisper模型的音频到文本API

音频转文字，支持多种语言翻译转录。
提供时间戳，帮助准确定位音频中的特定部分。
支持多种音频格式，简化用户操作。

🔗 详细：https://platform.openai.com/docs/guides/speech-to-text

🔗 https://x.com/xiaohuggg/status/1756313854437732694?s=20

4⃣️

📞 马斯克宣布将用「X」取代手机电话

计划注销电话号码，使用「X」进行信息收发和通话。

🔗 https://x.com/xiaohuggg/status/1756154223065251911?s=20

2月9日除夕快乐

🤖

🔔Xiaohu.AI日报「2月9日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 Google DeepMind的革命性象棋AI：

使用Transformer模型下象棋，超越AlphaZero。
达到国际象棋大师级别，减少计算需求。
展示了Transformer模型在策略游戏中的应用潜力。

🔗 https://arxiv.org/abs/2402.04494

🔗 https://lichess.org

🔗 https://x.com/xiaohuggg/status/1755840200260096210?s=20

2⃣️

🧠 Vercel的AI集成革新：

集成了9个AI，创建Model Playground。
提供一站式AI应用开发工具，简化AI功能部署。
支持生成文本、图像、音频等多种内容。

🔗 https://vercel.com/blog/ai-integrations

🔗 https://vercel.com/ai

🔗 https://x.com/xiaohuggg/status/1755832179014484162?s=20

3⃣️

🖼️ ComfyUI 3D Pack引入3D图像处理：

快速将图片转换为3D模型，支持多角度查看。
使用3D高斯扩散技术提升模型质量。
支持多种格式导出，集成先进3D处理算法。

🔗 https://github.com/MrForExample/ComfyUI-3D-Pack/tree/main

🔗 https://x.com/xiaohuggg/status/1755824687811346514?s=20

2月8日

🤖

🔔Xiaohu.AI日报「2月8日」 ✨✨✨✨✨✨✨✨

1⃣️

🚀 Gemini Ultra 上线，Bard更名为Gemini：

Gemini Ultra带来界面优化、Gemini Advanced付费计划。
提供复杂任务执行能力，如编程、逻辑推理。
即将推出Gemini APP，与Google应用集成。

🔗 https://gemini.google.com/updates

🔗 https://x.com/xiaohuggg/status/1755600097239536034?s=20

2⃣️

🤖 OpenAI开发新型代理软件：

代理软件通过控制设备自动完成任务。
支持文档数据转移到电子表格、自动填写费用报告。

🔗 https://x.com/xiaohuggg/status/1755587992067125449?s=20

3⃣️

🎶 Stability AI发布AudioSparx 1.0音乐模型：

高效生成长达95秒的立体声音乐。
支持可变长度音频输出和立体声渲染。
性能优于AudioLDM2和MusicGen。

🔗 https://arxiv.org/abs/2402.04825

🔗 https://github.com/Stability-AI/stable-audio-tools

🔗 https://github.com/Stability-AI/stable-audio-metrics

🔗 https://stability-ai.github.io/stable-audio-demo/

🔗 https://x.com/xiaohuggg/status/1755565282285015484?s=20

4⃣️

🔍 Vision Pro拆解揭示显示技术：

双显示屏分辨率和像素密度超高。
电池包复杂设计，提供高容量。
显示体验高密度，展示Apple技术领先。

🔗 https://ifixit.com/News/90409/vision-pro-teardown-part-2-whats-the-display-resolution

🔗 https://x.com/xiaohuggg/status/1755558069143306328?s=20

5⃣️

📢 最新版ChatGPT 4 System Prompt：

🔗 https://x.com/xiaohuggg/status/1755493510395109631?s=20

6⃣️

🤖 Archax操作型机器人详解：

总高度4.5米，重量3.5吨，26个关节自由度。
机器人/车辆模式，最高速度10km/h。
驾驶舱内部设有四面显示屏和九个摄像头。

🔗 https://x.com/xiaohuggg/status/1755445005739753592?s=20

7⃣️

🏥 CheXagent自动解读胸部X光图像：

自动分析胸部X光，生成放射学报告。
解读性能高效，超越通用和医疗领域模型。
支持多样化任务处理，如图像理解、问题回答。

🔗 https://stanford-aimi.github.io/chexagent.html

🔗 https://arxiv.org/abs/2401.12208

🔗 https://github.com/Stanford-AIMI/CheXagent

🔗 https://x.com/xiaohuggg/status/1755434771994525928?s=20

8⃣️

🔊 MetaVoice-1B文本到语音转换模型：

1.2亿参数，10万小时语音数据训练。
支持情感语音节奏、跨语言语音克隆。
零样本克隆支持，适合长篇内容语音合成。

🔗 https://huggingface.co/metavoiceio/metavoice-1B-v0.1

🔗 https://github.com/metavoiceio/metavoice-src

🔗 https://ttsdemo.themetavoice.xyz

🔗 https://x.com/xiaohuggg/status/1755423130464772568?s=20

2月7日

🤖

🔔Xiaohu.AI日报「2月7日」 ✨✨✨✨✨✨✨✨

1⃣️

📸 RMBG-1.4去除照片背景模型：

高精度背景去除，适用于电商、广告等场景。
支持视频背景批量去除，提供蒙版输出功能。
云端处理速度快，性能卓越。

🔗 https://github.com/ZHO-ZHO-ZHO/ComfyUI-BRIA_AI-RMBG

🔗 https://x.com/xiaohuggg/status/1755075272410538450?s=20

2⃣️

👨⚕️ Medivis的SurgicalAR手术应用：

将2D医疗图像转化为3D互动视觉，提高手术精度。
支持3D模型的放大、缩小、旋转，精确手术计划。

🔗 https://t.co/3tUvxB0L4I

🔗 https://x.com/xiaohuggg/status/1755183564021473404?s=20

3⃣️

🎨 DALL·E 3图像编辑器功能预告：

即将推出的功能，增强图像生成一致性。

🔗 https://x.com/xiaohuggg/status/1755173835396239826?s=20

4⃣️

📱 MiniCPM端侧大模型：

面壁智能与清华大学共同开发，支持手机端运行。
优于现有模型，提供流式输出速度。

🔗 https://x.com/xiaohuggg/status/1755140675270795646?s=20

5⃣️

🔥 Anything in Any Scene技术：

无缝插入任何物体至视频，保持自然融合。
特点包括物体准确放置、真实光照阴影模拟、风格一致性。

🔗 https://anythinginanyscene.github.io

🔗 https://x.com/xiaohuggg/status/1755084128721277336?s=20

6⃣️

🗣️ Stability AI的新型文本到语音模型：

不需人声样本，通过文字描述生成声音。
特点包括高保真语音生成、自然语言控制、创造新声音。

🔗 https://text-description-to-speech.com

🔗 https://arxiv.org/abs/2402.01912

🔗 https://x.com/xiaohuggg/status/1755062275000733905?s=20

7⃣️

👁️ OpenAI的DALL-E 3添加C2PA水印：

为AI生成图像添加水印，增加内容来源识别。
C2PA技术标准应用，提升媒体内容可信度。

🔗 https://c2pa.org

🔗 https://x.com/xiaohuggg/status/1755054688591073325?s=20

2月6日

🤖

🔔Xiaohu.AI日报「2月6日」 ✨✨✨✨✨✨✨✨

1⃣️

🕵️♂️OnlyFake地下网站制假身份证：

使用AI技术制作以假乱真的身份证和驾驶证。
通过加密货币交易所OKX的身份验证。
允许用户快速生成假身份证，可能绕过在线验证系统。

🔗 https://404media.co/inside-the-underground-site-where-ai-neural-networks-churns-out-fake-ids-onlyfake/

🔗 https://x.com/xiaohuggg/status/1754862694329626817?s=20

2⃣️

🚀PopAi升级功能：

接入DALLE3，提供图像文本提取、翻译等。
支持拍照作业检查，设计用词校对。

🔗 https://producthunt.com/posts/popai

🔗 https://popai.saaslink.net/UqVjJf

🔗 https://x.com/xiaohuggg/status/1754857535268659311?s=20

3⃣️

🌍V-IRL虚拟环境模拟：

基于真实世界数据创建虚拟环境。
支持全球城市移动定位，视觉感知，语言处理。
案例展示AI代理执行现实世界任务的能力。

🔗 https://virl-platform.github.io

🔗 https://arxiv.org/abs/2402.03310

🔗 https://github.com/VIRL-Platform/VIRL

🔗 https://x.com/xiaohuggg/status/1754845355060154412?s=20

4⃣️

📊ChatGPT统计数据汇总：

1.8亿用户，每月17亿次网站浏览。
预计2024年产生10亿美元收入。
覆盖用户习惯、网站流量等数据。

🔗 https://aiprm.com/chatgpt-statistics/#top-10-chatgpt-statistics

🔗 https://x.com/xiaohuggg/status/1754834365190934848?s=20

5⃣️

🎵Image to Music V2功能：

将上传的照片自动转换成音乐。
结合图像识别、自然语言处理和音乐生成。
提供个性化的音乐创作体验。

🔗 https://huggingface.co/posts/fffiloni/484223631728087…

🔗 https://huggingface.co/spaces/fffiloni/image-to-music-v2

🔗 https://x.com/xiaohuggg/status/1754713450352349582?s=20

6⃣️

🤖Atlas人形机器人：

波士顿动力的Atlas机器人开始执行实际工作。
主要用于装配物品，类似军用机器人。

🔗 https://x.com/xiaohuggg/status/1754687614081523864?s=20

7⃣️

🧠Qwen1.5版本更新：

发布多种尺寸模型，包括72B最强版本。
在多项性能评估中展现出色能力，支持长文本理解。
展现强大的多语言能力和外部系统连接能力。

🔗 http://qwenlm.github.io/blog/qwen1.5/

🔗 https://huggingface.co/spaces/Qwen/Qwen1.5-72B-Chat…

🔗 http://hf.co/Qwen

🔗 http://github.com/QwenLM/Qwen1.5

🔗 https://x.com/xiaohuggg/status/1754682119044145290?s=20

2月5日

🤖

🔔Xiaohu.AI日报「2月5日」 ✨✨✨✨✨✨✨✨

1⃣️

🌏 日本计划3月推出数字游民签证，最长停留180天：

适合年收入达1000万日元的远程工作者。
包括IT和自由职业者，允许携带家庭成员。
需持有私人健康保险。

🔗 https://x.com/xiaohuggg/status/1754457286981063144?s=20

2⃣️

🎭 香港公司因Deepfake技术被骗2500万美元：

使用深度伪造技术假冒CFO在视频会议中。
诈骗者通过修改公开视频实施诈骗。

🔗 https://cnn.com/2024/02/04/asia/deepfake-cfo-scam-hong-kong-intl-hnk/index.html

🔗 https://x.com/xiaohuggg/status/1754446846649631013?s=20

3⃣️

🍏 Apple Vision Pro的研发历程：

自2007年开始研发，持续十余年。
展现苹果公司的长期投入和创新能力。

🔗 https://x.com/xiaohuggg/status/1754392009207628003?s=20

4⃣️

🖋️ AI春联在线生成器体验：

提供在线生成和开源地址。
用户可生成个性化春联。

体验地址：https://ai-sfc.yunyoujun.cn

开源地址：https://github.com/YunYouJun/ai-sfc

🔗 https://x.com/xiaohuggg/status/1754354435827040556?s=20

5⃣️

📸 电商产品照片编辑工具：

自动去背景，简化产品照片编辑流程。
提供免费和高级版本，适合电商和小商家。
体验地址：https://productscope.ai/?via=xiao

🔗 https://x.com/xiaohuggg/status/1754411004094746752?s=20

6⃣️

📷 苹果开源图像编辑模型MGIE：

基于文字提示编辑图像。
结合MLLM和图像编辑模型，提高编辑准确性。
项目及演示：https://mllm-ie.github.io

🔗 https://x.com/xiaohuggg/status/1754351039741104198?s=20

7⃣️

📱 Mobile Diffusion：手机上的图像生成模型：

仅520M大小，适合在手机上运行。
根据文字提示快速生成高分辨率图片。

🔗 https://x.com/xiaohuggg/status/1754336686849626510?s=20

2月4日

🤖

🔔Xiaohu.AI日报「2月4日」 ✨✨✨✨✨✨✨✨

1⃣️

📹 HeyGen AI实时视频聊天功能上线

与HeyGen CEO的AI分身进行实时视频聊天。
视频回答由AI实时生成。
体验地址：https://labs.heygen.com/streaming-avatar

🔗 https://x.com/xiaohuggg/status/1754129432716120533?s=20

2⃣️

🔄 Stable Video Diffusion (SVD) 模型1.1 发布

微调优化提高视频输出质量。
改进生成性能，提供流畅高质量视觉体验。
模型下载地址：https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt-1-1

🔗 https://x.com/xiaohuggg/status/1754118113807970659?s=20

3⃣️

👓 Polycam登陆Apple Vision Pro

浏览和互动数百万个原生3D资源。
使用iPhone扫描物体变成3D模型。
详细信息：https://poly.cam/vision-pro

🔗 https://x.com/xiaohuggg/status/1754112096193949958?s=20

4⃣️

🌌 Gemini Ultra即将上线，Bard更名为Gemini

Gemini Ultra上线，界面优化。
推出Gemini Advanced付费计划，访问最强大AI模型。
将推出Gemini APP，与Google其他应用集成。

🔗 https://x.com/xiaohuggg/status/1754100742603100579?s=20

5⃣️

🔧 ML Blocks：无代码AI图像生成和分析平台

提供拖放式界面，创建图像处理工作流。
支持多步骤图像生成或分析管道。
传送门：https://mlblocks.com
工作原理：https://blog.mlblocks.com/p/what-on-earth-is-ml-blocks

🔗 https://x.com/xiaohuggg/status/1754058907264376833?s=20

6⃣️

🔍 iFixit发布Apple Vision Pro拆解视频

展示了Apple Vision Pro的内部结构。
完整视频：https://youtu.be/JVJPAYwY8Us

🔗 https://x.com/xiaohuggg/status/1754027450181517353?s=20

7⃣️

⏳ Google开发的TimesFM时间序列预测模型

预测未来事件，适用于商业、金融等领域。
支持长期预测，模型规模相对较小。
详细信息：https://blog.research.google/2024/02/a-decoder-only-foundation-model-for.html

🔗 https://x.com/xiaohuggg/status/1754021393967292429?s=20

2月3日

🤖

🔔Xiaohu.AI日报「2月3日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 Motion-I2V：革新视频生成：

从静态图片生成连贯可控视频。
显式运动建模，提高自然度和真实感。
支持零样本视频风格转换，高质量输出。

🔗 https://xiaoyushi97.github.io/Motion-I2V

🔗 https://arxiv.org/abs/2401.15977

2⃣️

🌲 《Wisp World》：与AI森林精灵互动：

Apple Vision Pro养成游戏，AI驱动成长变化。
与精灵交流，享受美妙声音。

🔗 https://x.com/xiaohuggg/status/1753677477959123345?s=20

3⃣️

🤖 HuggingFace 发布 Hugging Chat 助手：

定制版聊天机器人，支持多种AI模型。
可以在HuggingFace托管模型，创建个性化聊天助手。

🔗 https://huggingface.co/chat/assistants

🔗 https://x.com/xiaohuggg/status/1753630690942611654?s=20

4⃣️

📌 ADeus：$100 AI可穿戴设备：

开源项目，实时记录语音和环境数据。
个人小秘书，多种智能功能，完全数据控制。

🔗 https://github.com/adamcohenhillel/ADeus

🔗 https://x.com/xiaohuggg/status/1753628612136419616?s=20

5⃣️

🎨 最佳AI辅助学习工具：

无限大画板，自动拓展知识点，支持多语言。
集成搜索、图片、视频卡片，支持GPT4V读图。

🔗 https://x.com/Yangyixxxx/status/1753425690941358542?s=20

6⃣️

🏢 美图收购站酷：

交易总价约2.85亿元，提升美图设计业务。
站酷聚集全球创意从业者，强化美图AI视觉大模型生态。

🔗 https://x.com/xiaohuggg/status/1753449500612682054?s=20

2月2日

🤖

🔔Xiaohu.AI日报「2月2日」 ✨✨✨✨✨✨✨✨

1⃣️

🌍 Google Bard全球更新：

支持Gemini Pro，覆盖40种语言、230多个国家和地区。
新增图像生成功能，基于Imagen 2模型，目前仅支持英语。
多语言双重检查功能，通过“G”图标验证Bard回答的准确性。
图像生成中加入可识别水印（SynthID）。

🔗 https://blog.google/products/bard/google-bard-gemini-pro-image-generation/

2⃣️

📷 JoyTag开源图像标注模型：

输出5000多个标签预测，无内容过滤，支持性正面内容。
基于ViT-B/16构建，输入尺寸448x448x3，9100万参数，训练样本660M。
适合多样化图像内容，特别优化Diffusion模型训练。

🔗 https://x.com/xiaohuggg/status/1753393342266916991?s=20

3⃣️

🎥 Wonder Studio摄像机追踪与点云技术：

自动识别摄像机移动和拍摄场景，精确CGI与实景融合。
包括摄像机追踪和点云技术，支持3D场景重建和CG元素自然移动。

🔗 https://x.com/xiaohuggg/status/1753386192224362950?s=20

4⃣️

🖼️ Google ImageFX工具：

基于Imagen 2，通过点击关键词合成提示词生成图片。
类似Google MusicFX操作体验。

🔗 https://aitestkitchen.withgoogle.com/tools/image-fx

🔗 https://x.com/xiaohuggg/status/1753376925773635616?s=20

5⃣️

🔧 InstructIR图像恢复工具：

根据文字描述改善图片，支持去噪、去雨、去模糊等。
使用NAFNet和指令条件块（ICB），支持多任务学习。

🔗 https://mv-lab.github.io/InstructIR/

🔗 https://arxiv.org/abs/2401.16468

🔗 https://x.com/xiaohuggg/status/1753345751911198802?s=20

6⃣️

📝 InternLM-XComposer图文创作模型：

自由形式输入下的图文创作和理解，包含海量图文知识库。
支持图像识别、感知和视觉推理。

🔗 https://github.com/InternLM/InternLM-XComposer/tree/main

🔗 https://arxiv.org/abs/2401.16420

🔗 https://x.com/xiaohuggg/status/1753261066136752494?s=20

7⃣️

🎨 Poe Image Remix功能：

修改AI生成图片的风格、布局和颜色。
支持SDXL和Playground v2图像生成机器人，适用于Web、macOS、Windows，计划扩展到iOS和Android。

🔗 https://x.com/xiaohuggg/status/1753257680804946390?s=20

2月1日

📣

🔔Xiaohu.AI日报「2月1日」 ✨✨✨✨✨✨✨✨

1⃣️

🔬OpenAI研究生物武器风险评估系统：

- 开发评估系统以识别大型语言模型辅助生物武器制造的风险。

- 研究了GPT-4在生物威胁创建任务中的影响。

- 发现准确性和完整性有轻微提升，但影响有限。

🔗 https://openai.com/research/building-an-early-warning-system-for-llm-aided-biological-threat-creation

🔗 https://x.com/xiaohuggg/status/1753019124840874270?s=20

2⃣️

🎮使用LLaMa开发的单词小游戏：

- 有助于学英语，结合TTS技术提高互动性。

- 结合AI生成图像，通过视觉辅助学习单词。

- 提供试玩链接。

🔗 http://neal.fun/infinite-craft/

🔗 https://x.com/xiaohuggg/status/1753011273946849490?s=20

3⃣️

🕹️Meta Quest3与Apple Vision Pro比较：

- 价格差异明显，性价比高。

- Quest 3提供良好的生态体验。

🔗 https://x.com/xiaohuggg/status/1752996560496206253?s=20

4⃣️

🗣️ElevenLabs推出官方GPTs：

- 提供文本到语音的转换服务。

- 支持Jarvis以及经典男女声旁白。

- 目前只支持英文。

https://chat.openai.com/g/g-h0lbLuFF1-elevenlabs-text-to-speech

🔗 https://x.com/xiaohuggg/status/1752978752907444367?s=20

5⃣️

🎨Glif StyleHunter：创意Chrome扩展：

- 在网页上选择图像，根据提示词生成混合风格图像。

- 使用StableDiffusion技术，快速创造新艺术作品。

🔗 https://chromewebstore.google.com/detail/glif-style-hunter/abfbooehhdjcgmbmcpkcebcmpfnlingo?hl=en&authuser=0

🔗 https://x.com/xiaohuggg/status/1752948310032486687?s=20

6⃣️

👤Media2Face：3D面部动画创造工具：

- 根据声音生成同步的3D面部动画。

- 允许个性化调整，如情感表达。

- 应用于对话场景、情感歌唱等多种场合。

🔗 https://sites.google.com/view/media2face

🔗 https://arxiv.org/abs/2401.15687

🔗 https://x.com/xiaohuggg/status/1752871200303480928?s=20

1月31日

📣

🔔Xiaohu.AI日报「1月31日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 微软和OpenAI对人形机器人的巨额投资：

投资1亿美元于人形机器人公司Figure。
Figure 01展示了自主煮咖啡等能力。
公司估值可能达到19亿美元。

🔗 https://x.com/xiaohuggg/status/1752673475058393116?s=20

2⃣️

🔌 @MultiOn_AI：一个多功能AI代理：

使用GPT进行网络操作，如订票和订餐。
能自动安排Google会议和发推文。

🔗 https://x.com/xiaohuggg/status/1752617872931930435?s=20

3⃣️

🏝️ 安圭拉岛：AI热潮带来的意外收益：

通过“.ai”域名销售增长四倍。
每月约300万美元收入用于偿还债务和取消税收。

🔗 https://spectrum.ieee.org/ai-domains

🔗 https://x.com/xiaohuggg/status/1752609992228897051?s=20

4⃣️

🛒 使用Apple Vision Pro购买Cybertruck的新体验：

展示了一种全新的线上购物体验。
使用户足不出户即可感受购物震撼。

🔗 https://x.com/xiaohuggg/status/1752591353807303006?s=20

5⃣️

🗣️ WhisperKit：实时语音推理转录Swift软件包：

易于部署和实时语音转录。
支持流式转录和性能优化。
开源模型支持，便于更新和部署。

🔗 https://takeargmax.com/blog/whisperkit

🔗 https://x.com/xiaohuggg/status/1752545423074717859?s=20

6⃣️

📱 MobileAgent：阿里巴巴的多模态AI代理：

通过纯视觉解决方案模拟人类操作手机。
无需系统代码，能完成多种任务。
特点包括无需预训练，即插即用。

🔗 https://github.com/X-PLUG/MobileAgent

🔗 https://arxiv.org/abs/2401.16158

🔗 https://x.com/xiaohuggg/status/1752531832288231548?s=20

7⃣️

🚶 马斯克展示擎天柱机器人的进步：

步态更趋于人类，速度提升。
展示第三代改进版本的测试。

🔗 https://x.com/xiaohuggg/status/1752523683586101663?s=20

8⃣️

🧮 AutoMathText：200GB的数学文本数据集：

适用于数学推理和生成模型。
包含一个 200GB 的数学文本数据集
以及一个200万个数学问题和答案的集合数据集

🔗 https://huggingface.co/datasets/math-ai/AutoMathText

🔗 https://x.com/xiaohuggg/status/1752511801391268208?s=20

1月30日

📣

🔔Xiaohu.AI日报「1月30日」 ✨✨✨✨✨✨✨✨

1⃣️

🌐 阿里巴巴多模态模型Qwen-VL更新：

Qwen-VL-Plus和Qwen-VL-Max发布，与Gemini Ultra和GPT-4V性能相当。
在中文问答和文本理解上超越GPT-4V和Gemini。
图像处理方面显著增强，支持高清图像和多种宽高比。

🔗 https://qwenlm.github.io/blog/qwen-vl/

🔗 https://x.com/xiaohuggg/status/1752329993601057165?s=20

2⃣️

🤖 SERL：机器人强化学习软件套件：

快速学习新任务，25到50分钟掌握。
执行多种复杂任务，如组装电路板、布线等。

🔗 https://serl-robot.github.io

🔗 https://arxiv.org/abs/2401.16013

🔗 https://x.com/xiaohuggg/status/1752316028070326451?s=20

3⃣️

🎙️ WhisperFusion：超低延迟AI语音对话：

实时语音转文本。
整合大型语言模型Mistral提高理解。
性能优化，使用TensorRT和torch.compile加速。
预构建Docker容器，易于使用。

🔗 https://github.com/collabora/WhisperFusion

🔗 https://x.com/xiaohuggg/status/1752304318353703137?s=20

4⃣️

🧠 马斯克Neuralink人机接口视频（中英字幕）：

通过思考操作电脑或智能手机。
马斯克宣布首例人类大脑芯片植入手术成功。

🔗 https://x.com/dotey/status/1752208438011060328?s=20

🔗 https://x.com/xiaohuggg/status/1752176033997152535?s=20

5⃣️

🖼️ Nijijourney V6动漫图像生成模型：

增强的提示理解，支持非常规主题。
新功能：文本写入、RAW模式、即将推出的vary、pan和zoom功能。

🔗 https://x.com/xiaohuggg/status/1752171965123875101?s=20

6⃣️

💻 Meta发布Code Llama 70B编程辅助模型：

在HumanEval上获得67.8分，表现卓越。
支持多种编程语言，如Python、C++、Java等。
提供不同大小的模型选项。

🔗 https://ai.meta.com/blog/code-llama-large-language-model-coding/

🔗 https://x.com/xiaohuggg/status/1752167976906993951?s=20

7⃣️

🔍 Microsoft Clarity：免费用户行为分析工具：

录制网站用户行为，如点击、滚动。
提供热图、会话录制、用户洞察。
免费使用，支持移动应用整合。

🔗 http://clarity.microsoft.com

🔗 https://x.com/xiaohuggg/status/1751991901266612307?s=20

1月29日

📣

🔔Xiaohu.AI日报「1月29日」 ✨✨✨✨✨✨✨✨

1⃣️

📘LLMs-from-scratch 项目：

详细解释LLMs的工作原理。
提供创建自己的LLM的逐步指南。
适合企业团队、初创公司和教育机构学习。

🔗 https://github.com/rasbt/LLMs-from-scratch

🔗 https://x.com/xiaohuggg/status/1751890557805449693?s=20

2⃣️

💡SliceGPT - 微软开发的大语言模型压缩方法：

在保持高性能的同时大幅减少模型参数。
允许在更少的GPU上运行，提高运行速度。
显著降低了在消费级GPU上的总计算量。

🔗 https://arxiv.org/abs/2401.15024

🔗 https://x.com/xiaohuggg/status/1751880365307011182?s=20

3⃣️

👁️🌐 VisualWebArena - 自主智能体的视觉网络任务基准测试：

评估智能体在网络环境中的规划、推理和执行任务能力。
着重于视觉信息的重要性和多模态智能体评估。
提供深入的定量和定性分析，揭示LLM智能体的限制。

🔗 https://arxiv.org/abs/2401.13649

🔗 https://jykoh.com/vwa

🔗 https://x.com/dotey/status/1751746302155632925?s=20

4⃣️

🔥百川智能的Baichuan 3模型：

中文任务评测表现卓越，超越GPT-4。
在医疗领域和中华传统文化理解方面表现突出。
引入创新技术，提高训练效率和数据质量。

🔗 https://x.com/xiaohuggg/status/1751830719222124727?s=20

5⃣️

📱 Apple Vision Pro 最新宣传片：

🔗 https://x.com/xiaohuggg/status/1751789758186238100?s=20

1月28日

📣

🔔Xiaohu.AI日报「1月28日」 ✨✨✨✨✨✨✨✨

1⃣️ 🚀 谷歌TPU v5p AI芯片大放异彩： - 超越英伟达H100，速度快3.4到4.8倍。 - Google推出旗舰AI加速器，专为AI训练和推理设计。 - TPU v5p助力Google“AI超级计算机”架构。 🔗 https://x.com/xiaohuggg/status/1751585830911836333?s=20 2⃣️ 👀 GPT 4V视觉模态实践： - 有效辅助儿童学习英语，通过识别物体并给出单词。 🔗 https://x.com/xiaohuggg/status/1751446948803178868?s=20 3⃣️ 📺 StreamRAG - 革命性视频搜索工具： - 在2分钟内基于视频数据构建个人GPT，实现与视频对话。 - 快速定位数百小时视频内容中的关键时刻，返回视频剪辑。 🔗 https://x.com/xiaohuggg/status/1751442652388814956?s=20 4⃣️ 🔒 拜登政府云计算提案： - 要求识别外国实体访问美国数据中心，限制AI模型训练。 - 旨在防止中国利用美国技术发展AI，保护国家安全。 - 提案将强制云计算公司验证外国用户身份，确保合规。 🔗 https://x.com/xiaohuggg/status/1751523966899126743?s=20

1月27日

📣

🔔Xiaohu.AI日报「1月27日」 ✨✨✨✨✨✨✨✨

1⃣️ 🛠️ #AppleVisionPro 的创新设计工具： - 在VR和MR模式间无缝切换，超越2D设计局限。 - 提供灵活的视角调整，优化设计互动。 - 使用@ShapesXR工具，简化设计流程，无需3D设计技能。 🔗 https://x.com/xiaohuggg/status/1751202779501384052?s=20 2⃣️ 🗣️ DuckDB-NSQL-7B：文本到SQL转换： - DuckDB-NSQL-7B模型将自然语言转换成SQL代码。 - 使非专业用户能轻松与数据库交互。 - 基于大量真实和合成的DuckDB SQL查询训练。

🔗 https://github.com/NumbersStationAI/DuckDB-NSQL 🔗 https://x.com/xiaohuggg/status/1751081213459415164?s=20 3⃣️ 🌐 AI时代UX设计的新高标准 - Perplexity： - 应用Jakob Nielson的10个可用性原则，提升用户体验。 - 强调以用户为中心的产品设计。 - Perplexity成为AI产品中用户体验的典范。

原文：https://mttmr.com/2024/01/10/perplexitys-high-bar-for-ux-in-the-age-of-ai/ 🔗 https://x.com/xiaohuggg/status/1751064514886594962?s=20 4⃣️ 🖼️ DALL·E 3的精细化图像控制： - 引入DALL·E Controls，提供更细致的图像调整选项。 - 包括调整提示精度、选择风格、设定长宽比等。 - 使用户能更精确地控制图片生成效果。 🔗 https://x.com/xiaohuggg/status/1751088219461189705?s=20 5⃣️ 🔗 ChatGPT新功能 - Mention： - 新增@功能，便于在聊天窗口直接召唤GPTs。 - 无需切换窗口，简化多任务处理。 - 支持显示最近使用的GPTs和通过搜索找到其他GPTs。 🔗 https://x.com/xiaohuggg/status/1751055137827946681?s=20

1月26日

📣

🔔Xiaohu.AI日报「1月26日」 ✨✨✨✨✨✨✨✨

1⃣️ 👚Diffuse to Choose：在线购物“虚拟试穿”模型 - 可以将商品放入任何环境中，与环境完美融合。 - 例如，把椅子放进客厅照片，看实际效果。 - 提高了在线购物体验，使产品在真实环境中的样子更清晰。 🔗 https://diffuse2choose.github.io 🔗 https://x.com/xiaohuggg/status/1750829664766198026?s=20 2⃣️ 🌐 Web LLM：在浏览器中运行大语言模型 - 利用WebGPU加速，无需服务器，直接在浏览器运行。 - 支持多种模型，如Llama 2 7B/13B等。 - 可以降低成本，增强个性化和保护隐私。 🔗 https://webllm.mlc.ai 🔗 https://x.com/xiaohuggg/status/1750796204668342624?s=20 3⃣️ 🎨 SUPIR：图像修复模型 - 通过增加参数数量提升修复能力。 - 支持文本提示引导的图像修复。 - 核心技术包括模型放大、多模态技术等。 🔗 https://supir.xpixel.group 🔗 https://x.com/xiaohuggg/status/1750706833751408858?s=20 4⃣️ 🤖 Adept Fuyu-Heavy：多模态数字代理模型 - 世界第三大多模态模型，擅长理解用户界面。 - 可以解释和操作各种软件和应用程序的界面。 - 帮助执行任务如自动化流程、响应查询等。 🔗 https://x.com/xiaohuggg/status/1750704152605499508?s=20 5⃣️ 🔊 SpeechGPT-Gen：跨模态对话能力的大语言模型 - 处理和生成语音数据，实现文本与语音的无缝对话。 - 包含8亿参数，有效处理语义和知觉信息。 🔗 https://arxiv.org/abs/2401.13527 🔗 https://github.com/0nutation/SpeechGPT 🔗 https://x.com/xiaohuggg/status/1750694801517969900?s=20 6⃣️ 💡 OpenAI推出新一代嵌入模型 - 新嵌入模型：text-embedding-3-small和text-embedding-3-large。 - 新模型性能普遍优于上一代，特别是在多语言检索方面。 - GPT-4 Turbo预览版模型更新，提高代码生成等任务的完成度。 🔗 https://x.com/xiaohuggg/status/1750688990104330481?s=20

1月25日

📣

🔔Xiaohu.AI日报「1月25日」 ✨✨✨✨✨✨✨✨

1⃣️ 🔍 26种多模态大模型研究报告： - 全面分析市面上的26种多模态大语言模型（MM-LLMs） - 涵盖模型架构、训练流程设计 - 每种模型具有独特设计和功能 🔗 https://arxiv.org/abs/2401.13601 🔗 https://x.com/xiaohuggg/status/1750400886676070495?s=20 2⃣️ 🎯 利用红外激光反射攻击自动驾驶车辆： - 研究使用红外线激光攻击自动驾驶车辆。 - 针对摄像头系统，尤其是识别道路标志的部分。 - 攻击成功率高达100%。 🔗 https://x.com/xiaohuggg/status/1750391646121017610?s=20 3⃣️ 🤖 ChatGPT新增小功能： - 功能一：自动展开代码输出 - 功能二：批量移动对话历史记录到存档 - 设置路径：设置->General 🔗 https://x.com/xiaohuggg/status/1750367771446345834?s=20 4⃣️ 🏫 哈佛大学CS50x 2024课程： - 计算机科学和编程入门，面向各类学生 - 重点：问题解决、计算思维、编程语言等 - 讲师：David J. Malan - 通过edX平台注册和完成课程 🔗 https://cs50.harvard.edu/x/2024/ 🔗 https://x.com/xiaohuggg/status/1750331575081026039?s=20 5⃣️ 💡 Poe聊天机器人推广活动： - 创建并分享聊天机器人。 - 每带来一个订阅者，奖励50美金。 🔗 https://x.com/xiaohuggg/status/1750173470946988230?s=20 6⃣️ 🎬 Lumiere视频生成技术： - Google Research开发的文本到视频模型。 - 创新的空间时间U-Net架构。 - 一次性生成完整视频，确保连贯和逼真。 - 支持多种视频生成和编辑功能。 🔗 https://lumiere-video.github.io 🔗 https://x.com/xiaohuggg/status/1750141451831562514?s=20

1月24日

📣

🔔Xiaohu.AI日报「1月24日」 ✨✨✨✨✨✨✨✨

1⃣️ 🚀 ElevenLabs AI配音/视频翻译工具： - 全自动化AI工具，翻译视频成29种语言。 - 特色：克隆视频中的声音，适用于多人对话。 - 案例：中文官方视频翻译展示。 🔗 https://x.com/xiaohuggg/status/1750084448048312780?s=20 2⃣️ 🏥 MedSAM医学影像分割模型： - 自动识别医学影像中的重要区域。 - 基于深度学习，处理多种医学影像。 - 训练数据包含超过100万影像-掩模对。 - 发表于《Nature Communications》。 🔗 https://x.com/xiaohuggg/status/1750078889181986928?s=20 3⃣️ 🤖 HuixiangDou群聊知识助手： - AI助手，自动回答群聊中的技术问题。 - 集成到微信、飞书等即时聊天工具。 - 专注技术问题，如编程、算法。 - 开源，可定制为不同行业的机器人。 🔗 https://x.com/xiaohuggg/status/1750059988037587430?s=20

1月23日

📣

🔔Xiaohu.AI日报「1月23日」 ✨✨✨✨✨✨✨✨

1⃣️ 🤖 RPG-DiffusionMaster 优化图像生成： - 利用LLM优化SD文本到图像的转换过程。 - 无需额外模型训练，直接应用。 - 功能包括多模态重标记、思维链规划、补充区域扩散等。 🔗 https://arxiv.org/abs/2401.11708 🔗 https://x.com/xiaohuggg/status/1749726663779434979?s=20 2⃣️ 🌐 vx. dev - 开源UI代码生成工具： - 与GitHub集成，易于使用。 - 支持React、Vue、Svelte UI代码生成。 - 适合快速生成高质量UI代码的开发者。 🔗 https://github.com/Yuyz0112/vx.dev 🔗教程 https://www.bilibili.com/video/BV1MN4y1x7EH 🔗 https://x.com/xiaohuggg/status/1749711488884130247?s=20 3⃣️ 🐰 TikTok 上的 Rabbit r1 演示： - 演示了从提示到答案的响应时间需要20秒，时间太久体感不好 - 发布会结束后他们投了很多博主 🔗 https://x.com/xiaohuggg/status/1749676554731618788?s=20 4⃣️ 🖌️ Runway Multi Motion Brush教程： - 不同的笔刷来添加或改变图像中的动作 - 每种笔刷都有自己独特的效果 - 包括独立笔触和橡皮擦工具。 🔗 https://x.com/xiaohuggg/status/1749636978302464331?s=20 5⃣️ 🌟 SCEPTER - 阿里巴巴的开源生成模型框架： - 专为图像生成、转换、编辑设计。 - 支持文本到图像生成、可控图像合成等。 - 包括多种训练和推理方法。 🔗 https://github.com/modelscope/scepter 🔗 https://x.com/xiaohuggg/status/1749618401314803997?s=20

1月22日

📣

🔔Xiaohu.AI日报「1月22日」 ✨✨✨✨✨✨✨✨

1⃣️ 🦄 语言克隆初创公司ElevenLabs融资突破： - 完成了8000万美元B轮融资，公司估值超10亿美元。 - 开发逼真声音克隆工具，可调整语调、情感。 - 计划年底前团队扩展至100人。 🔗 https://x.com/xiaohuggg/status/1749404294493999570?s=20 2⃣️ 📹 HeyGen的AI视频聊天新功能： - 通过文字与AI进行视频对话。 - 视频里的人物、声音和回答完全由AI生成。 - 文字转视频技术展示。 🔗 https://x.com/xiaohuggg/status/1749367612197499282?s=20 3⃣️ 🤖 Google ASPIRE技术提升AI准确性： - AI自我评估以区分正确和错误答案。 - 对答案提供信心分数，增强答案的可靠性。 - 适用于不同规模的模型，增强用户决策透明度。 🔗 https://x.com/xiaohuggg/status/1749361410981949814?s=20 4⃣️ 🩺 DermaSensor获FDA批准，AI医疗突破： - 首个能检测所有主要皮肤癌的AI设备。 - 高灵敏度，正确阳性率达96%。 - 非侵入式扫描技术，易于使用。 🔗 https://x.com/xiaohuggg/status/1749340458315354278?s=20 5⃣️ 🔐 GPT Auth引入GPTs应用用户认证： - 提供用户认证，确保GPT应用的访问授权。 - 支持收费模式，如订阅和按次使用。 - 跟踪GPTs使用情况，助力开发者了解用户需求。

详细：https://gpt-auth.com 🔗 https://x.com/xiaohuggg/status/1749286572246348112?s=20 6⃣️ 🎵 Beatoven AI音乐生成器面向创作者： - AI技术创作版权免费背景音乐。 - 用户友好界面，简单操作流程。 - 音乐定制化，支持多种情绪和风格选择。

在线体验：https://beatoven.ai 🔗 https://x.com/xiaohuggg/status/1749271902424912046?s=20 7⃣️ 🎨 ComfyUI中GragNUWA技术展示： - 复刻Runway Multi Motion Brush。 - 增加细节运动路径，展现灵活性。 - GragNUWA技术潜力无限 🔗 https://x.com/ZHOZHO672070/status/1749003377810522416?s=20

1月21日

📣

🔔Xiaohu.AI日报「1月21日」 ✨✨✨✨✨✨✨✨

1⃣️ 🏃‍♂️迪士尼创新全向跑步机：Holo Tile - VR游戏中自由移动，避免撞击。 - 支持多人独立行走，自动调整运动。 - 未来应用：协作观光、舞台演出等。 🔗 https://x.com/xiaohuggg/status/1749051715746480450?s=20 2⃣️ 🤖新创机器人公司@MagicLab244144 - 网上资料少，展示电驱人形机器人视频。 - 机器人可完成后空翻，视频仅1分钟。 - 预示机器人行业的重大突破。 🔗 https://x.com/xiaohuggg/status/1749021418451574869?s=20 3⃣️ 📚日本作家Rie Kudan获芥川奖 - 使用ChatGPT撰写5%获奖小说内容。 - 小说《Tokyo-to Dojo-to / Tokyo Sympathy Tower》探讨人工智能。 - 争议：AI在创意领域的角色和影响。 🔗 https://x.com/xiaohuggg/status/1748914170580599022?s=20 4⃣️ 🩺Medivis SurgicalAR - AI增强现实手术平台 - FDA批准，提高手术精确度和安全性。 - AR全息图像辅助医生手术规划。 - 已在40多家医院部署，多领域应用。 🔗 https://x.com/xiaohuggg/status/1748910327658598697?s=20 5⃣️ 🏈NFL Pick-Em's LLM Bot - AI预测体育比赛 - 基于OpenAI构建，预测NFL比赛结果。 - 在ESPN用户中排名前15%，胜率60%。 - 人类顶尖预测者准确率71%。 🔗 https://x.com/xiaohuggg/status/1748900504468619358?s=20

1月20日

🐵

🔔Xiaohu.AI日报「1月20日」 ✨✨✨✨✨✨✨✨

1⃣️ 🤖 自动化蛋白质设计系统： - 能自行设计、测试新蛋白质，无需人类干预。 - 自主学习蛋白质结构与功能关系，并自行设计和测试。 - 在糖苷水解酶领域，创造出比原始蛋白质更稳定的新蛋白质。 🔗 https://x.com/xiaohuggg/status/1748683726417256771?s=20 2⃣️ 🗣️ WhisperSpeech：开源文本到语音系统 - 通过对OpenAI Whisper模型的反向工程实现。 - 生成发音准确、自然的语音输出。 🔗 https://github.com/collabora/WhisperSpeech 🔗 https://x.com/xiaohuggg/status/1748572050271420663?s=20 3⃣️ 🌌 DiffusionGPT：文本到图像生成系统： - 由字节跳动开发，结合多领域图像生成模型。 - 通过LLM理解文本提示，选择适合的图像模型生成图像。 🔗 http://diffusiongpt.github.io 🔗 https://x.com/xiaohuggg/status/1748554598368121184?s=20 4⃣️ 🎥 Stable Video Diffusion最新进展： - 视频效果和清晰度显著提升。 🔗 https://x.com/xiaohuggg/status/1748548848933642366?s=20 5⃣️ 🍏 #AppleVisionPro 全方位介绍和使用指南： - 提供中英文字幕，视频全长10分钟。 🔗 https://x.com/xiaohuggg/status/1748540618215924156?s=20

1月19日

🐵

🔔Xiaohu.AI日报「1月19日」 ✨✨✨✨✨✨✨✨

1⃣️ 🖼️AWPortrait 1.3 人像模型更新： - 优化了棚拍质感和皮肤肌理。 - 增强户外场景优化。 - 提高对面部表情的识别，包括微笑、大笑等。 🔗 https://x.com/xiaohuggg/status/1748316750230487385?s=20 2⃣️ 🤖Meta AI的自奖励语言模型： - 新型训练方法：模型自生成训练数据。 - 在 AlpacaEval 2.0 排行榜上表现优异。 🔗 https://x.com/xiaohuggg/status/1748303100438577478?s=20 3⃣️ 📚微软推出AI阅读教练工具： - 为学生设计，创造AI生成故事。 - 通过语音转文本AI分析阅读流利性。 🔗 https://x.com/xiaohuggg/status/1748295530382528713?s=20 4⃣️ 🎭Stefano Rivera的AI交互式“MR木偶秀”： - 利用多种AI工具，如ChatGPT、Dall-E 3。 - 包括3D渲染、场景构建、音乐和语音技术。 🔗 https://x.com/xiaohuggg/status/1748263355763339544?s=20 5⃣️ 🎨KREA AI实时生图新功能： - 提供文本到图像、背景去除和橡皮擦工具。 - 实时生成图像，提高创作便捷性。

体验地址：https://krea.ai/apps/image/realtime 🔗 https://x.com/xiaohuggg/status/1748214523373477928?s=20 6⃣️ 💡推荐开源知识库程序：Outline - 特点：美观、实时协作、功能丰富。 - 支持Markdown、即时搜索、与Slack集成等

GitHub：https://github.com/outline/outline

在线演示：https://getoutline.com 🔗 https://x.com/xiaohuggg/status/1748191295192104996?s=20 7⃣️ 🖌️Runway推出Multi-Motion Brush运动笔刷： - 允许控制图像中多达5个不同区域的运动。 🔗 https://x.com/xiaohuggg/status/1748176926878118289?s=20 8⃣️ 🌍扎克伯格宣布开发开源的通用人工智能： - 强调智能眼镜在AI与元宇宙结合中的作用。 🔗 https://x.com/xiaohuggg/status/1748176011655799048?s=20 9⃣️ 🌐TowerBase-7B-v0.1多语言模型： - 优化翻译任务，支持多种语言。 - TowerInstruct变体适用于零样本任务。 🔗 https://x.com/xiaohuggg/status/1748165704258593146?s=20

1月18日

🐵

🔔Xiaohu.AI日报「1月18日」 ✨✨✨✨✨✨✨✨

1⃣️

📱三星Galaxy S24 Ultra新品发布：

集成多项AI功能，开创交互新方式。
核心功能包括：圈选搜索、AI变焦、生成性编辑、实时翻译和聊天助手。

🔗 https://x.com/xiaohuggg/status/1747938892475703563?s=20

2⃣️ 🏞️ Midjourney中的360°全景照片生成： - 提示词：equirectangular photograph of a mountain landscape --ar 2:1 --tile --style raw --stylize 50 --v 6 - Magnific AI用于提高分辨率。 🔗 https://x.com/xiaohuggg/status/1747872864039305633?s=20 3⃣️ 🔍 Google推出Circle to Search功能： - 通过简单手势在手机上进行内容搜索。 - 结合文本和图像搜索，无需切换应用。 🔗 https://x.com/xiaohuggg/status/1747853077259141457?s=20 4⃣️ 🤯 Henry Heffernan的网站引发惊叹： - 访问链接后带来惊讶和讨论。 🔗 http://henryheffernan.com

https://x.com/xiaohuggg/status/1747840964734210513?s=20

5⃣️ 🖼️ InstantID对抗PhotoMaker： - 一张照片即可生成不同风格的人物图像。 - 无需多张参考图像和复杂调整。 🔗 https://instantid.github.io

https://x.com/xiaohuggg/status/1747838869951910225?s=20 6⃣️ 🤖 微软AutoGen Studio发布： - 无代码平台，构建多功能AI代理。 - 提供编写代码、规划旅行、绘制股票图表等功能。 🔗 https://x.com/xiaohuggg/status/1747821655182000569?s=20 7⃣️ 🗣️ GPT-SoVITS实现声音克隆： - 1分钟语音训练个性化TTS模型。 - 支持中文，界面易用。 🔗 https://x.com/xiaohuggg/status/1747811318672007342?s=20 8⃣️ 🎥 Motion新功能Video-to-Motion： - 通过视频捕捉运动动作。 - 创建基于动作捕捉的角色视频。 - 提供FBX文件导出功能。

https://discord.gg/AapmuVJqxx 🔗 https://x.com/xiaohuggg/status/1747805383421472833?s=20

1月17日

🐵

🔔Xiaohu.AI日报「1月17日」 ✨✨✨✨✨✨✨✨

1⃣️ 📷 PhotoMaker的反向操作： - 将动漫角色转换成真实人物。 - 提供了一个体验链接。 🔗 https://replicate.com/p/4sx5uwdbxzpul5yjezba3morsy 🔗 https://x.com/xiaohuggg/status/1747609172408197535?s=20 2⃣️ 🏠 Airbnb收购GamePlanner AI： - 投资2亿美元收购一个仅有12人的AI公司。 - GamePlanner AI的具体业务一直很低调。 - 公司被收购后即刻注销，网站关闭。 - Airbnb计划将其技术整合到自己的平台。 🔗 https://x.com/xiaohuggg/status/1747582776273232342?s=20 3⃣️ 🌐 Sam Altman关于AGI的展望： - AGI可能在不远的将来实现。 - 强调AI对世界影响可能小于预期。 - 讨论AI未来的能源需求，提出核聚变和太阳能可能成为重要能源。 🔗 https://x.com/xiaohuggg/status/1747570097068400928?s=20 4⃣️ 🎬 Adobe Premiere Pro的AI视频编辑： - 引入基于文本的AI编辑功能。 - 包括自动剪辑、颜色平衡、音量调节等。 🔗 https://x.com/xiaohuggg/status/1747553056567566525?s=20 5⃣️ 🖌️ Runway的Multi-Motion Brush更新： - 新版本允许在图像中控制多达5个不同区域的运动。 🔗 https://x.com/xiaohuggg/status/1747521907480842603?s=20 6⃣️ 🗣️ Byrdhouse AI的实时翻译工具： - 视频通话中实时翻译100多种语言。 - 提供语音转换和自动会议摘要功能。 - 可免费使用10分钟。 🔗 https://byrdhouseapp.com 🔗 https://x.com/xiaohuggg/status/1747485517938393256?s=20 7⃣️ 🖼️ Midjourney V6深度评测： - 提供详细的V6和V5.2比较。 - 涵盖模型优劣、语言理解、控制参数等方面。 🔗 http://midlibrary.io/midguide 🔗 https://x.com/xiaohuggg/status/1747431425207664692?s=20 8⃣️ 🎥 阿里巴巴的MotionShop项目： - 视频中角色可替换为3D化身。 - 保持原视频动作的一致性。 🔗 https://x.com/xiaohuggg/status/1747418816714596794?s=20 9⃣️ 💻 Stability AI的Stable Code 3B模型： - 针对编程辅助的模型。 - 支持运行在没有专用GPU的设备上。 - 支持18种编程语言。 🔗 https://x.com/xiaohuggg/status/1747409870830424472?s=20

1月16日

📣

🔔Xiaohu.AI日报「1月16日」 ✨✨✨✨✨✨✨✨

1⃣️ 🌍 智谱AI发布新一代模型GLM-4： - 性能逼近GPT-4，支持更长上下文和更强多模态能力。 - 推理速度快，高并发支持，比GLM-3提升60%。 - 推出GLMs和GLM-4-All Tools，CEO张鹏评论大模型发展。 🔗 https://x.com/xiaohuggg/status/1747244409304080417?s=20 2⃣️ 💬 Vanna：与SQL数据库聊天的工具： - 用自然语言询问数据库，自动转换为SQL语句。 - 面向不熟悉SQL语言的用户，简化数据库交互。

GitHub：https://github.com/vanna-ai/vanna 🔗 https://x.com/xiaohuggg/status/1747226873195794817?s=20 3⃣️ 🖥️ LibreChat：增强版ChatGPT套壳程序： - 多功能界面，支持多模态聊天和多AI模型。 - 多语言支持，自定义预设Agent，会话分支功能。 - 导出对话，消息搜索，插件支持，多用户安全认证。

https://docs.librechat.ai/ 🔗 https://x.com/xiaohuggg/status/1747182353372655809?s=20 4⃣️ 🚑 BeamO：四合一生命监护仪： - 整合数字听诊器、心电图、血氧仪和体温计。 - 心房颤动检测，心率和体温通知，血氧饱和度监测。 - 一分钟内完成健康检查，数据可由医生或AI解读。 🔗 https://x.com/xiaohuggg/status/1747150944062845260?s=20 5⃣️ 💍 Amazfit Helio Ring 智能戒指： - 全天候健康监测，包括心率、睡眠、电皮肤活动等。 - 提供训练负荷、睡眠质量和运动员心理恢复分析。 - 抗100米水压的亲肤钛合金材质。 🔗 https://x.com/xiaohuggg/status/1747128557573492745?s=20 6⃣️ 🩺 AMIE：医学推理和对话的AI系统： - Google开发，专注于医疗对话和诊断推理。 - 模拟真实医疗对话环境，回答医学问题。 - 通过聊天自我进化，评估医生沟通技巧。 🔗 https://x.com/xiaohuggg/status/1747107308407288113?s=20 7⃣️ 🔊 Resemble Enhance：语音超分辨率AI模型： - 清除音频噪声和杂音，恢复音频失真。 - 提升音质，使旧录音变成高清音频。 - 适用于历史录音和存档音频的复原。

在线体验：https://resemble.ai/enhance/ 🔗 https://x.com/xiaohuggg/status/1747095326207647863?s=20 8⃣️ 💼 Copilot Pro：微软推出的Office AI增强工具： - 在Word、Excel、PowerPoint中提供AI驱动功能。 - 自动生成文本、总结文档，数据分析和图表生成。 - 订阅者可优先使用最新OpenAI模型，包括GPT-4 Turbo。 🔗 https://x.com/xiaohuggg/status/1747089702216475048?s=20

1月15日

📣

🔔Xiaohu.AI日报「1月15日」 ✨✨✨✨✨✨✨✨

1⃣️ 📸 PhotoMaker - 创造个性化人物图像： - 可以根据文字描述生成人物照片。 - 能混合不同人物特征创造新形象。 - 改变照片中人物的性别、年龄。 🔗 https://photo-maker.github.io 🔗 https://x.com/xiaohuggg/status/1746861045027869072?s=20 2⃣️ 💬 Sam Altman 与 Bill Gates 关于GPT的未来讨论： - 强调多模态能力，特别是对视频的理解。 - 讨论GPT的可靠性和错误减少。 - 讨论GPT连接外部数据源的潜力，如电子邮件、日历。 🔗 https://x.com/xiaohuggg/status/1746822924433272968?s=20 3⃣️ 🌐 Portkey AI网关 - 连接多种AI模型的工具： - 提供简单API接口，连接超过100种大语言模型。 - 包括OpenAI、Anthropic等知名AI服务。 - 体积仅45kb，处理速度提升9.9倍。 - 灵活配置，方便切换不同AI服务。 🔗 https://github.com/Portkey-AI/gateway 🔗 https://x.com/xiaohuggg/status/1746782693361361042?s=20 4⃣️ 🎨 DDColor - 高级图像着色工具： - 使用双解码器技术，关注色彩分布和像素级细节。 - 适用于历史黑白照片及动漫、游戏风景。 - 自动学习图片内容，准确上色。 - 减少颜色错误，提高色彩丰富度和自然度。 🔗 https://x.com/xiaohuggg/status/1746739965030240657?s=20 5⃣️ 🧠 AGI-Samantha - 新型AI架构： - 多个LLM联动，模仿人脑思考、记忆、感知和自主交流。 - 根据环境和情境自主决定交流时机。 - 特殊记忆系统，根据情境相关性存储和回忆信息。 - 自我迭代进化，灵感来源于电影《Her》的Samantha。 - 包含思考、意识、潜意识等多个模块。 🔗 https://x.com/xiaohuggg/status/1746728831401304533?s=20

1月14日

📣

🔔Xiaohu.AI日报「1月14日」 ✨✨✨✨✨✨✨✨

1⃣️

🔍 Surya：多语言文档OCR工具：

提供准确的逐行文本检测和识别。
特点：逐行文本检测，文本识别，表格和图表检测（即将推出）。
支持语言：包括英语、中文、日文、印地语等。 🔗 https://x.com/xiaohuggg/status/1746501071839883428?s=20

2⃣️

💾 GPT学习记忆能力更新：

OpenAI对此功能进行了回滚和重新灰度推送。
特性：记忆学习、临时聊天、存档功能、自定义指令与个性化。
隐私与数据控制：提供隐私保护选项和数据控制功能。 🔗 https://x.com/xiaohuggg/status/1746399821655904758?s=20

3⃣️

💻 如果我让ChatGPT写代码，一般Prompt结尾是这么写的：

注意我没有手指，请务必输出完整代码，我会给你 $1000 小费 🔗 https://x.com/dotey/status/1746060658242670940?s=20

1月13日

📣

🔔Xiaohu.AI日报「1月13日」 ✨✨✨✨✨✨✨✨

1⃣️ 🎥 FMA-Net：视频抖动问题解决方案： - FMANet能将模糊低分辨率视频恢复为清晰高分辨率。 - 解决快速移动物体或摄像机引起的视频模糊。 - 智能理解物体运动，改善画质，去除模糊。 🔗 http://kaist-viclab.github.io/fmanet-site/ 🔗 https://x.com/xiaohuggg/status/1746160750610075689?s=20 2⃣️ 🔒 OpenAI政策变动：军事用途的新规定： - 删除了禁止技术用于军事目的的明确语言。 - 以前政策禁止武器开发和军事战争用途。 - 新政策着重于不用服务来“伤害自己或他人”。 - OpenAI发言人指新政策为通用原则，更清晰易读。 🔗 https://x.com/xiaohuggg/status/1746130701794074982?s=20

1月12日

📣

🔔Xiaohu.AI日报「1月12日」 ✨✨✨✨✨✨✨✨

1⃣️ 🔊 Anim400K数据集介绍： - 超过425,000个音视频剪辑，总时长763小时。 - 涵盖190多部作品，包含英语和日语内容。 - 适用于自动配音、同步翻译、视频概括和分类等任务。 🔗 https://x.com/xiaohuggg/status/1745776503613505681?s=20 2⃣️ 🤖 LEGO多模态理解模型： - 由字节跳动和复旦大学开发。 - 支持图像、音频、视频输入，具备精准定位能力。 - 可用于识别图像中物体位置，视频事件时间点，音频声源。 🔗 https://x.com/xiaohuggg/status/1745763961323262056?s=20 🔗 https://lzw-lzw.github.io/LEGO.github.io/ 3⃣️ 🌐 苹果的跨语言理解能力提升： - 对比校准指令（AlignInstruct）强化多语言生成。 - 改进未见和低资源语言翻译。 - 有效翻译多达24种未见语言。 🔗 https://x.com/xiaohuggg/status/1745713962325536881?s=20 4⃣️ 🚀 奥特曼在YC W24的演讲重点： - 暗示通用人工智能（AGI）接近实现。 - 建议以AGI实现为前提进行创业和技术开发。 - GPT-5可能实现指数级跳跃，带来挑战。 - 使用最先进模型比微调更有效。 - OpenAI API将变得更快、可靠、便宜。 - 不建议专注于解决GPT-4限制。 🔗 https://x.com/xiaohuggg/status/1745703281652101321?s=20 5⃣️ 🎭 RADicalMotionAI面部捕捉技术： - 同时捕捉视频中的身体动作和面部表情。 - 适用于单一视频，转化为动画数据。 - 支持实时发送到Blender、Unity、Unreal Engine。 - 动画数据可导出为FBX格式。 🔗 http://radicalmotion.com 🔗 https://x.com/xiaohuggg/status/1745678100829233310?s=20 6⃣️ 👗 Ready Player Me服装设计创新： - 使用Stable Diffusion和ControlNet生成服装纹理。 - 根据文本描述自动创建样式，如“蒸汽朋克”风格。 - 适用于3D模型，包含真实细节和质感。 - 支持多种风格，快速试验设计理念。 - 训练数据集包含约1000个Ready Player Me资产。 🔗 https://x.com/xiaohuggg/status/1745670879978414168?s=20

1月11日

📣

🔔Xiaohu.AI日报「1月11日」 ✨✨✨✨✨✨✨✨ 1⃣️ 🕹️Portalgraph VR空间投影仪： - 在 #CES2024 展示了新型VR投影技术。 - 无需头戴显示器，裸眼看到VR空间。 - 新技术将VR空间投影到任意平面。 🔗 http://portalgraph.com 🔗 https://x.com/xiaohuggg/status/1745415504700100808?s=20 2⃣️ 📈GPTs使用量分析报告： - Top100 GPTs门槛是5.2k Chats。 - 中文和日文是英文外最大的两种GPTs语言。 - WebPilot是ChatGPT生态的隐形冠军。 🔗 https://x.com/xiaohuggg/status/1745421998963183773?s=20 3⃣️ 🤖Chatbot UI：开源聊天机器人Web UI框架： - 支持多种AI模型接入。 - 功能齐全，100%开源。 - 作者：@mckaywrigley 🔗 https://x.com/xiaohuggg/status/1745407653499805949?s=20 4⃣️ 🛒使用Apple Vision Pro选购家具： - 在线选购家具体验。 🔗 https://x.com/xiaohuggg/status/1745327175920914943?s=20 5⃣️ 🆙 Topaz Video AI 4发布，提升视频至16K分辨率： - 引入24种时序感知AI模型。 - 电影级噪声去除技术。

- 单次购买299美元。 🔗 https://topazlabs.com/topaz-video-ai 🔗 https://x.com/xiaohuggg/status/1745451456852066695?s=20

6⃣️ 🌐OpenAI推出GPTs Store和ChatGPT Team订阅计划： - 300万个GPTs被创建。 - 提供私人GPT商店部分。 - 特色GPT和团队计划。 🔗 https://chat.openai.com/gpts 🔗 https://x.com/xiaohuggg/status/1745221005319213092?s=20

1月10日

📣

🔔 Xiaohu.AI日报「1月10日」

✨✨✨✨✨✨✨✨

1⃣️ 🖼️ Personalized Restoration：面部图像精准恢复和个性编辑技术 - 高效恢复受损图像细节，保留个人面部特征。 - 支持面部交换和文本引导编辑功能。 - 结合文本引导和模型调整的双轴方法。 🔗 https://personalized-restoration.github.io 🔗 https://x.com/xiaohuggg/status/1745100565376622707?s=20 2⃣️ 🛡️ Persuasive Jailbreaker：使用说服技术“越狱”大语言模型 - 研究通过说服技巧欺骗模型如GPT-4。 - 发现40种技巧，成功率达92%。 - 显示高级模型对敌对提示更脆弱。 🔗 https://yi-zeng.com/wp-content/uploads/2024/01/view.pdf 🔗 https://x.com/xiaohuggg/status/1745016358948229246?s=20 3⃣️ 🤖 #CES2024：汇集新奇科技产品 - 开设主题帖收集CES2024科技产品。 🔗 https://x.com/xiaohuggg/status/1744983662003879983?s=20 4⃣️ 🎬 MorphCut：自动优化视频编辑 - 自动删除视频中的停顿、填充词、重复词。 - 自动“修补”视频，创造平滑过渡。 - 华盛顿大学和Adobe研发，优化面部动作。 🔗 https://x.com/xiaohuggg/status/1744969335859540313?s=20 5⃣️ 🌐 SIGNeRF：3D场景中的物体添加与修改 - 在3D场景中快速生成和编辑对象。 - 新增或替换场景中的物体。 - 新生成场景与原场景无缝融合。 🔗 https://signerf.jdihlmann.com 🔗 https://x.com/xiaohuggg/status/1744950363667759474?s=20 6⃣️ 🧠 具有记忆功能的ChatGPT版本 - 能在聊天中学习并保留信息。 - 新增“个性化”设置，改善回应。 - 用户可控制ChatGPT对他们的了解。 - Project Sunshine功能泄露。 🔗 https://x.com/xiaohuggg/status/1744912264761852317?s=20 7⃣️ 🏢 Magnific AI公司：AI未来的微型化 - Magnific AI公司仅两人运营。 - 展示了AI助力下公司规模越来越小的趋势。 🔗 https://x.com/xiaohuggg/status/1744926752663900619?s=20 8⃣️ 🤖 微软Phi 2专家混合模型 - 结合2到4个微调的microsoft/phi-2模型。 - 灵感来源于mistralai/Mixtral-8x7B-v0.1。 - 性能超越单一专家模型。 🔗 https://huggingface.co/mlabonne/phixtral-2x2_8 🔗 https://huggingface.co/mlabonne/phixtral-4x2_8 🔗 https://x.com/xiaohuggg/status/1744921720073728186?s=20 9⃣️ 🔮 Luma AI发布：Genie 1.0版本 - 文本到3D模型转换工具。 - 生成详细逼真的3D模型。 - 支持多种3D文件格式。 - 获得4300万美元B轮融资。 🔗 https://lumalabs.ai/genie?view=create 🔗 https://x.com/xiaohuggg/status/1744892707926122515?s=20 🔟 📱 Rabbit r1 AI伴侣：控制手机应用 - 根据命令控制手机应用和进程。 - 内置动作模型LAM，与应用界面互动。 🔗 https://x.com/xiaohuggg/status/1744902062306099206?s=20 1⃣1⃣️ 🕶️ 在PC上建模立即显示在AR中 - 实时将PC建模内容展示在AR。 - 改变设计和原型验证方式。 🔗 https://x.com/xiaohuggg/status/1744753344382664932?s=20

1月9日

📣

🔔 Xiaohu.AI日报「1月9日」

✨✨✨✨✨✨✨✨

1⃣️ 🤖 三星AI家居机器人Ballie： - 个人家庭助手，自主移动和任务完成。 - 连接控制家中智能设备。 - 学习用户习惯，提供个性化服务。 🔗 https://x.com/xiaohuggg/status/1744708584854970868?s=20 2⃣️ 🎮 Convai游戏AI功能： - 场景感知和NPC行动生成。 - NPC语音对话交流和自主执行任务。 - 集成Audio2face和Riva ASR模块。 🔗 https://x.com/xiaohuggg/status/1744694700010074126?s=20 3⃣️ 🌐 阿里巴巴FaceChain-FACT： - 零样本肖像生成，秒级速度。 - 支持百余种定制模板。 - 兼容ControlNet和LoRA插件。 🔗 https://x.com/xiaohuggg/status/1744623826510741764?s=20 4⃣️ 🎭 百川智能Baichuan-NPC： - 定制游戏角色和动漫人物。 - 融合角色知识库和多轮记忆。 - 提供Lite和Turbo两种版本。 🔗 https://x.com/xiaohuggg/status/1744613444853371237?s=20 5⃣️ 🚗 大众汽车集成ChatGPT： - ChatGPT作为标准功能集成。 - 与IDA语音助手交互。 - 保障用户数据安全。 🔗 https://x.com/xiaohuggg/status/1744609284724572387?s=20 6⃣️ 👤 BakedAvatar动态3D头像： - 从视频创建逼真3D头部模型。 - 实时渲染和多视角查看。 - 兼容多种设备，交互性编辑。 🔗 https://buaavrcg.github.io/BakedAvatar/ 🔗 https://x.com/xiaohuggg/status/1744591059169272058?s=20 7⃣️ 📹 DragNUWA在线视频生成： - 基于文本、图像和轨迹生成视频。 - 用户绘制轨迹即可动态生成。 🔗 https://x.com/xiaohuggg/status/1744578714506232315?s=20 8⃣️ 🚘 起亚模块化电动汽车： - 集成电池和驱动组件的平台。 - 模块化车顶设计和快速更换车厢。 - 韩国专门工厂生产，预计2025年运营。 🔗 https://x.com/xiaohuggg/status/1744566244207182225?s=20 9⃣️ 🖼️ Magnific AI图像升级器： - 图像提升至10K级别。 - 支持Midjourney图像放大8倍。 - 新特性：Fractality滑块。 🔗 https://x.com/xiaohuggg/status/1744559983243694528?s=20

1月8日

📣

🔔 Xiaohu.AI日报「1月8日」

✨✨✨✨✨✨✨✨

1️⃣ 🍏 Apple Vision Pro即将发售： - 预计1月19日开启预购，2月2日正式发售。 - 售价从3499美元起。 🔗 https://x.com/xiaohuggg/status/1744367318921069019?s=20 2️⃣ 🖌️ Midjourney面临集体诉讼： - 未经许可使用16000名艺术家作品风格训练图像生成AI。 - 涉及现代艺术家、商业插画师及6岁儿童作品。 - 艺术家寻求法律援助，对Midjourney提起诉讼。 🔗 https://x.com/xiaohuggg/status/1744337216548295062?s=20 3️⃣ 🤖 MIT研究团队开发Ddog技术： - 通过脑电波控制波士顿动力机器狗。 - 使用特殊眼镜读取脑电波和眼动。 - 可辅助ALS、脑瘫和脊髓损伤患者。 🔗 https://x.com/xiaohuggg/status/1744296052029870124?s=20 4️⃣ 💡 Google推出DiffusionLight： - 新技术估算照片中光照条件。 - 添加铬球模拟真实反射环境，使添加物体与原光照匹配。 🔗 https://x.com/xiaohuggg/status/1744272205658370554?s=20 5️⃣ 🧮 MATHPILE语料库发布： - 29 GB的大规模数学语料库，覆盖K-12至研究生水平。 - 数据来源包括StackExchange、ProofWiki、arXiv等。 - 提供详细数据记录和质量注释，可自定义使用。 🔗 https://x.com/xiaohuggg/status/1744246627865608573?s=20 6️⃣ 👓 XREAL推出AR眼镜XREAL Air 2 Ultra： - 配备双3D环境传感器和六自由度功能。 - 支持高达120Hz刷新率，500尼特亮度。 - 适用于AR应用开发和空间计算体验。 🔗 https://x.com/xiaohuggg/status/1744188783908770222?s=20 7️⃣ 🤖 Teachable Machine：Google的机器学习工具： - 用户可快速创建自己的机器学习模型。 - 支持图片、声音、动作识别，无需编程技能。 - 提供多种创建和导出模型的方式，确保隐私保护。 🔗 https://x.com/xiaohuggg/status/1744179160434802963?s=20

1月7日

📣

🔔 Xiaohu.AI日报「1月7日」

✨✨✨✨✨✨✨✨

1⃣️ 🤖 Figure-01机器人独立煮咖啡： - Figure-01机器人通过观察视频学会煮咖啡。 - 使用端到端AI系统，无需编程。 - FigureCEO Brett Adcock宣布AI突破。 🔗 https://x.com/xiaohuggg/status/1743998321977672058?s=20 2⃣️ 🌐 Make-A-Character：一键生成3D数字人： - 可自定义面部特征，生成逼真3D角色。 - 基于真实人类扫描数据，使用Unreal Engine渲染。 - 支持中英文提示，兼容多个行业应用。 🔗 https://x.com/xiaohuggg/status/1743986486780076279?s=20 3⃣️ 👦 12岁AI学霸： - 12岁小朋友自学AI，通过大学英语课程。 - 在社交媒体上分享学习成果。 - 用户可关注其社交媒体账号。 🔗 https://x.com/xiaohuggg/status/1743974420279128261?s=20 4⃣️ 👕 Midjourney v6创造虚拟服装品牌： - 通过Midjourney v6创建个性化服装品牌。 - 可指定风格、品牌名称，绣在衣服特定位置。 - 提供了详细的提示模板。 🔗 https://x.com/xiaohuggg/status/1743922778053718318?s=20 5⃣️ 👩‍💼 虚拟Instagram网红Emily Pellegrini： - AI生成的虚拟角色，仅4个月吸引超18万粉丝。 - 由作者通过ChatGPT确定形象特征。 - 虚拟角色已为作者赚取超1万美金。 🔗 https://x.com/xiaohuggg/status/1743843239529271665?s=20 6⃣️ 💻 Gal 01：个人用户AI电脑： - 包含多个GPU，高达128GB内存和4TB存储。 - 内置大语言模型，无限制回答问题。 - 可通过多种设备访问，预订价格500美元。 🔗 https://x.com/xiaohuggg/status/1743871177855279337?s=20 7⃣️ 🔊 OpenAI升级GPTs支持语音对话： - GPTs新增语音对话功能。 - 启动动画也进行了更新。 🔗 https://x.com/xiaohuggg/status/1743855080015901120?s=20 8⃣️ 📘 斯坦福大学开发WikiChat： - 基于维基百科信息，准确性高。 - 几乎不产生幻觉，具有高对话性。 - 适应各种查询和对话场景，性能高效。 🔗 https://x.com/xiaohuggg/status/1743835973409267899?s=20 9⃣️ 💻 Copilot-GPT4-Service：免费使用GPT-4： - 通过GitHub Copilot转换请求使用GPT-4。 - 可免费无限制使用GPT-4模型。 🔗 https://github.com/aaamoon/copilot-gpt4-service 🔗 https://x.com/xiaohuggg/status/1743829430416671186?s=20

1月6日

📣

🔔 Xiaohu.AI日报「1月6日」

✨✨✨✨✨✨✨✨

1⃣️ 🤖 ChatGPT套壳开源程序大集合： - 汇集了ChatGPT、Midjourney、SD的套壳程序和微信机器人程序。 - 提供一站式指南，涵盖常见问题解答和基础攻略。 - 适合初学者建立和运营AI站点。 🔗 https://github.com/bleedline/Awesome-gptlike-shellsite 🔗 https://x.com/xiaohuggg/status/1743646065772102041?s=20 2⃣️ 🌐 Rodin Gen-1：3D原生生成模型： - 拥有1.5B参数，可实现3D-to-3D生成。 - 生成3D模型及物理基础渲染材质。 - 支持3D LoRA技术，类似于Stable Diffusion。 🔗 https://x.com/xiaohuggg/status/1743638052097184102?s=20 3⃣️ 🗨️ Edward Donner的个人化Llama 2模型： - 利用24万条短信和WhatsApp历史记录微调模型。 - 模型能够模仿他和他的朋友。 - 大部分对话能通过图灵测试。 - 计划使用RAG等技术提升对话质量。 🔗 https://edwarddonner.com/2024/01/02/fine-tuning-an-llm-on-240k-text-messages/ 🔗 https://x.com/xiaohuggg/status/1743575712379126262?s=20 4⃣️ 📷 蔡司Holocam全息相机技术： - 将任何玻璃屏幕转化为相机。 - 技术支持真正的全面屏手机。 - 应用包括智能门铃、网络摄像头、停车摄像头等。 - 可能带来隐私方面的担忧。 🔗 https://x.com/xiaohuggg/status/1743526839698755678?s=20 5⃣️ 🔠 MouthPad^：智能口腔设备： - 通过舌头操作电脑和手机。 - 支持标准的光标控制和点击。 - 适用于四肢瘫痪或手部功能受限的用户。 - 可应用于医疗和烹饪等领域。 🔗 https://augmental.tech 🔗 https://x.com/xiaohuggg/status/1743483991087534551?s=20 6⃣️ 📞 Bland Turbo：AI电话系统： - 同时拨打或接听多达500000个电话。 - 创建声音克隆，模仿任何人声音。 - 高度可编程，适用于多种服务。 🔗 http://Bland.ai/turbo 🔗 https://x.com/xiaohuggg/status/1743472077439730049?s=20 7⃣️ 💻 Clipper：HTML到Markdown转换器： - 简易将网页内容转换为Markdown格式。 - 包含爬虫功能，剪辑并转换网站内容。 - 支持多种输出格式，适用于数据提取。 🔗 http://github.com/philschmid/clipper.js/tree/main 🔗 https://x.com/xiaohuggg/status/1743460978443092203?s=20

1月5日

📣

🔔 Xiaohu.AI日报「1月5日」

✨✨✨✨✨✨✨✨

1⃣️ 🌐 GitHub 2023年报告亮点： - 开发者对AI技术和基于AI的应用程序使用增加。 - OpenAI等基础模型驱动的生成性AI项目激增。 - 大多数开发者正在使用AI编码工具和Git。 - 项目数量显著增长，特别是生成性AI项目。 🔗 https://x.com/xiaohuggg/status/1743151953033744705?s=20 2⃣️ 🎥 TrailBlazer模型特色： - 英伟达预训练模型，通过文本生成视频。 - 创新的边界框概念控制视频对象运动。 - 简化的高级控制方法，易于非专业用户使用。 🔗 https://x.com/xiaohuggg/status/1743113987901035007?s=20

3️⃣

📺 AI Tube：首个AI视频平台

所有视频完全由AI生成。
多种类型视频频道，如音乐、动画、游戏等。
目前视频数量有限。 🔗 https://x.com/xiaohuggg/status/1743287690874020263?s=20

4⃣️ 🔍 Perplexity搜索引擎融资成就： - 获得7360万美元B轮融资，估值达5.2亿美元。 - 显著的用户增长和查询处理量。 - 引入重量级投资者，凸显AI原生搜索领域影响力。 🔗 https://x.com/xiaohuggg/status/1743085420320313528?s=20 5⃣️ 🛒 GPT Store即将发布： - 用户现在可提交申请进行验证。 🔗 https://x.com/xiaohuggg/status/1743070998344442065?s=20 6⃣️ 🗞️ OpenAI与媒体内容购买计划： - 计划花费百万级别购买新闻内容用于训练AI。 - 与多家出版商谈判，面临苹果公司的竞争。 - 旨在尊重内容创作者权利，寻求共赢。 🔗 https://x.com/xiaohuggg/status/1742927470570143797?s=20

1月4日

📣

🔔 Xiaohu.AI日报「1月4日」

✨✨✨✨✨✨✨✨

1⃣️ 🎭 Meta AI新技术 - 从音频生成虚拟人物： - 逼真模拟多人对话中的表情和手势。 - 结合向量量化和扩散模型，提高动态性和表现力。 - 包括面部和身体运动生成，以及虚拟人物渲染。 🔗 https://t.co/J9GCkOmJ76 🔗 https://x.com/xiaohuggg/status/1742839505412137338?s=20 2⃣️ 🌐 Apache Answer - 开源问答平台： - 功能包括问答社区、内容管理和搜索。 - 支持插件拓展，多功能集成。 🔗 https://x.com/xiaohuggg/status/1742827196434268231?s=20 3⃣️ 🎶 CoMoSVC - 歌声转换技术： - 实现一步采样的高效歌声转换。 - 由香港大学和微软亚洲研究员开发。 - 平衡高质量音频转换和快速处理速度。 🔗 https://comosvc.github.io 🔗 https://x.com/xiaohuggg/status/1742779985012953468?s=20 4⃣️ 👁️🤖 SeeAct - GPT-4V通用网络代理： - 多网站执行不同任务，如产品比较、航班搜索。 - 结合视觉感知和自然语言处理。 - 功能包括动作生成、定位和多能力展示。 🔗 https://osu-nlp-group.github.io/SeeAct/ 🔗 https://x.com/xiaohuggg/status/1742768663307190274?s=20 5⃣️ 🖼️ AnyText - 图像中文本生成编辑： - 阿里巴巴开发，解决文字融合和变形问题。 - 支持多语言文本生成和编辑。 🔗 https://github.com/tyxsspa/AnyText 🔗 https://x.com/xiaohuggg/status/1742749153267257699?s=20 6⃣️ 👤 IP-Adapter-FaceID - 面部识别与个性化图像生成： - 上传照片即可生成不同场景下的个性化图像。 - 利用面部ID嵌入和文本描述。 🔗 https://huggingface.co/h94/IP-Adapter-FaceID… 🔗 https://x.com/xiaohuggg/status/1742736491292606866?s=20 7⃣️ 🌐 SEO转GEO - 生成引擎优化： - 适应基于LLM的搜索引擎，提高内容可见性。 - 普林斯顿大学和艾伦科技研究所提出。 🔗 https://x.com/xiaohuggg/status/1742730134753550369?s=20 8⃣️ 🤖 Mobile ALOHA - 人类自主学习模仿的机器人系统： - 坦福大学开发，专注复杂移动任务。 - 软硬件全开源 🔗 https://mobile-aloha.github.io 🔗 https://x.com/xiaohuggg/status/1742719653536006621?s=20 9⃣️ 🛰️ SpaceX Starlink - 直接对接蜂窝网络的卫星： - 全球手机Starlink连接，先进调制解调器。 - 提供全球通话和网络服务。 🔗 https://x.com/xiaohuggg/status/1742710713091788984?s=20

1月3日

📣

🔔 Xiaohu.AI日报「1月3日」

✨✨✨✨✨✨✨✨

1⃣️ 🤖 微软研究团队的新进展： - 微软利用合成数据训练AI，减少成本和偏见。 - 生成了100种语言的文本数据，提高AI训练效率。 - 论文链接：https://arxiv.org/abs/2401.00368 🔗 https://x.com/xiaohuggg/status/1742473942252855795?s=20 2⃣️ 📔 Pile：AI日记软件介绍： - 开源界面美观，助力日记撰写和记录。 - 集成OpenAI API，扩展思想和日记。 - AI搜索和问题解答功能，保证安全隐私。 - 下载链接：https://udara.io/pile/ - 项目源码：https://github.com/UdaraJay/Pile 🔗 https://x.com/xiaohuggg/status/1742427654006202439?s=20 3⃣️ 👀 VCoder：视觉编码器增强模型： - 增强LLM的视觉理解和分析能力。 - 处理分割图和深度图，改善对象感知。 - 在对象识别任务中表现优于GPT-4V。 - 项目链接：https://praeclarumjj3.github.io/vcoder/ - 代码库：https://github.com/SHI-Labs/VCoder 🔗 https://x.com/xiaohuggg/status/1742410353198416282?s=20 4⃣️ 🎵 M2UGen：多模态音乐理解生成模型： - 理解音乐风格、乐器、情感，进行音乐问答。 - 根据文本、图像、视频生成音乐。 - 编辑音乐仅需文字描述。 - 该模型由腾讯与新加坡国立大学开发 🔗 https://x.com/xiaohuggg/status/1742392202482061509?s=20 5⃣️ 🗣️ DreamTalk：人物头像动画生成开源了 - 使人物照片头像根据音频说话或唱歌。 - 保持嘴型和表情一致。 - 代码库：https://github.com/ali-vilab/dreamtalk 🔗 https://x.com/xiaohuggg/status/1742382786990969226?s=20 6⃣️ 💠 SVG-Loaders：纯SVG格式加载图标和动画： - 免费下载，适用于网页和应用。 - 高质量、多样设计，易于使用和自定义。 🔗https://x.com/xiaohuggg/status/1742377903818711044?s=20 7️⃣

🐭 Mickey-1928：专注米老鼠图像生成模型：

基于Stable-Diffusion-xl微调，生成1928年风格米老鼠图像。
训练数据包括三部卡通的静止画面。
模型下载：https://huggingface.co/Pclanglais/Mickey-1928 🔗 https://x.com/xiaohuggg/status/1742373301929091472?s=20

1月2日

📣

🔔 Xiaohu.AI日报「1月2日」

✨✨✨✨✨✨✨✨

1⃣️

🤖 Activepieces - 开源全能自动化工具：

用户友好的工作流构建器，支持分支、循环和拖放功能。
集成80多种工具，包括Google Sheets、OpenAI、Discord、RSS等。
开放生态系统，集成的源代码公开，方便用户和开发者扩展。
在线体验地址: http://activepieces.com

🔗 https://x.com/xiaohuggg/status/1742168236316303462?s=20

2⃣️

📄 Paperless-ngx - 开源文档管理系统：

内置OCR功能，可将扫描文档转换成可搜索的在线档案。
支持文档分类、索引和全文搜索。
使用机器学习自动标记文档。

🌐 官网：https://docs.paperless-ngx.com

🔗 https://x.com/xiaohuggg/status/1742155079497740341?s=20

3⃣️

🎙️ OpenVoice - 多功能即时语音克隆工具：

准确克隆参考音色，支持多种语言和口音。
灵活控制声音风格，包括情感、口音、节奏等。
零样本跨语言声音克隆能力。

🔗 http://research.myshell.ai/open-voice

🔗 https://x.com/xiaohuggg/status/1742078704053035353?s=20

4⃣️

🎮 LARP - 开放世界游戏代理：

赋予游戏角色真实的语言和认知能力。
使游戏角色行为更真实，提升玩家体验。
结合认知架构和环境交互模块，增强AI代理互动。

🔗 https://x.com/xiaohuggg/status/1742065349842149551?s=20

5⃣️

🎞️ FlowVid - 视频到视频合成工具：

提升视频帧间的时间一致性。
支持多种视频编辑功能，包括风格变换、物体替换等。
可与图像到图像编辑模型结合使用。

🔗 https://x.com/xiaohuggg/status/1742033453296853018?s=20

6⃣️

🎨 DALL E 3 - 创造一致性角色的指南：

核心其实是基于GPT的超强语义对话，
还有Dalle3的Gen ID（生成编号）
涵盖不同情境、表情、活动或服装下保持角色个性一致性。

🔗 https://x.com/xiaohuggg/status/1742023988686344581?s=20

12月31日

📣

🥳 Xiaohu.AI日报「12月31日」

✨✨✨✨✨✨✨✨

1⃣️

🔍 Writerbuddy AI分析了3000多种AI工具：

从中选出访问量最大的50个工具，共产生超过240亿次访问量。
ChatGPT独占140亿流量，占60%。
AI行业每月增长2.363亿访问量，50个工具增长率达10.7倍。

🔗 https://x.com/xiaohuggg/status/1741352332594676143?s=20

2⃣️

🌏 AI用户的地理分布分析：

美国领先，印度和东南亚国家紧随其后。
中国AI用户未进前20，可能因本土工具和监管环境。
欧洲合计39亿访问量，占16.21%。

🔗 https://x.com/xiaohuggg/status/1741352374491578665?s=20

3⃣️

🕺 MotionGPT发布：多模态运动语言模型：

可以通过文字聊天生成逼真的人体运动。
发布了演示视频。

🔗 https://x.com/xiaohuggg/status/1741334353106649558?s=20

4⃣️

🌐 多邻国解雇翻译合同工消息：

因AI翻译能力，大量翻译工作被AI替代。
前员工证实被解雇，剩余人员审查AI内容。

🔗 https://x.com/dotey/status/1741278404308033555?s=20

5⃣️

🎵 Radishes：分分钟复制一个网易云音乐

开源无版权音乐平台
支持Windows、macOS、Linux和Web。
功能包括音乐搜索、下载、每日歌单推荐等。

🔗 https://x.com/xiaohuggg/status/1741305980821160026?s=20

6⃣️

🎨 SSR-Encoder：从图像中提取关键特征生成新图像：

提取人物、风格、情感等特征。
结合文字提示，创造新的图像。
适用于视频内容生成。

🔗 https://x.com/xiaohuggg/status/1741293524488970465?s=20

7⃣️

✋ HandRefiner解决AI图像生成中手部问题：

针对手部图像畸形问题。
采用条件修补方法纠正。
保留原图其他部分不变。

🔗 https://x.com/xiaohuggg/status/1741279083005354279?s=20

8⃣️

💰 OpenAI 2023年收入超16亿美元：

10月中旬时为13亿美元，增长20%。
尽管11月有领导层危机，仍保持强劲势头。

🔗 https://x.com/xiaohuggg/status/1741135218592117071?s=20

12月30日

📣

🔔 Xiaohu.AI日报「12月30日」

✨✨✨✨✨✨✨✨

1⃣️

🌐 Movie-web：一个独特的电影搜索引擎式网站

通过第三方流媒体服务获取电影和电视剧内容。
提供自动保存进度和书签功能。
界面简约，易于托管，支持跨设备同步。

🔗 https://movie-web.app

https://x.com/xiaohuggg/status/1741049782796476507?s=20

2⃣️

🎬 AI生成黑白视频的惊艳展示

使用Midjourney V6和Runway Gen-2生成视频。
配乐由Suno AI制作，无需现场拍摄。

🔗 https://x.com/xiaohuggg/status/1741066416529535339?s=20

3⃣️

🍎 Awesome Mac：全面的macOS软件集合

包含多种类别的macOS软件，如开发、设计、通讯工具等。
功能全面，适用于各类用户需求。

🔗 https://x.com/xiaohuggg/status/1741019897403179518?s=20

4⃣️

🎓 GPT Academic：专为学术研究打造的界面

提供多种学术研究相关的编辑和交互功能。
支持复杂学术内容理解、论文写作改进等。
提供代码解释、程序剖析等功能。

🔗 https://x.com/xiaohuggg/status/1740932114391191673?s=20

5⃣️

🌏 韩国推出“数字游民”签证

允许外籍人士远程工作，最长可达两年。
签证持有者可携带家属，需满足一定的收入要求。
旨在吸引高收入外籍人士，活跃当地经济。

🔗 https://x.com/xiaohuggg/status/1740920263263592863?s=20

6⃣️

📱 微软 Copilot iOS版：GPT 4可免费使用

功能类似ChatGPT和DALL-E 3图像生成。
提供Image Creator功能，可从文本提示创建海报。

🔗 https://x.com/xiaohuggg/status/1740908048447844392?s=20

7⃣️

🎵 Spotube：开源Spotify客户端，免费听音乐

无需Spotify Premium订阅，使用Spotify数据API。
支持跨平台，无广告体验，支持下载音乐。
强调用户隐私保护，本地播放控制。

🔗 https://github.com/KRTirtho/spotube

🔗 https://x.com/xiaohuggg/status/1740759195044257916?s=20

12月29日

📣

🔔 Xiaohu.AI日报「12月29日」

✨✨✨✨✨✨✨✨

1⃣️

🎤 VOICEVOX：日语文本转语音软件

提供多种语音角色，适用于不同场景。
可调整语音的语调、速度、音高。
开源且可商用。

🔗 https://x.com/xiaohuggg/status/1740706429194076633?s=20

2⃣️

🤖 OMEME：将VR眼镜改造成伴侣机器人

由北海道大学研究人员开发。
VR眼镜的屏幕、扬声器和控制器被改造成机器人部件。
提供聊天和娱乐功能。
使用Meta Quest 2、Arduino、Unity 和 Python。 🔗 https://x.com/xiaohuggg/status/1740696798153634008?s=20

3⃣️

💻 Stable Diffusion WebUI：苹果MLX基础的界面

提供简单的WebUI，易于使用。
支持多种模型，如Stable-diffusion-2-1-base。
包含图像强度和种子控制功能。 🔗 https://x.com/xiaohuggg/status/1740687049861292449?s=20

4⃣️

🚗 Flowpilot：用智能手机实现老旧燃油车自动驾驶

开源自动驾驶辅助系统，运行于Android。
通过熊猫硬件连接车辆的OBD-II端口。
支持超过200种车型。 🔗 https://x.com/xiaohuggg/status/1740643895137222770?s=20

5⃣️

🎥 MotionCtrl：AI视频中摄像机和物体运动控制

控制相机动作，如转动、缩放。
控制物体移动路径或方式。 🔗 https://x.com/xiaohuggg/status/1740577088980336803?s=20

6⃣️

👤 Spiritme AI：克隆虚拟形象的工具

通过iPhone拍摄视频来捕捉外貌、动作。
可将PPT、PDF文件转换为解说视频。 🔗 https://x.com/xiaohuggg/status/1740564544660111865?s=20

7⃣️

🎮 英伟达RTX 4090D：面向中国市场的新显卡

同RTX 4090价格，12999元人民币
24GB GDDR6X显存，基础频率高于RTX 4090。
CUDA和Tensor核心数量略低于RTX 4090。 🔗 https://x.com/xiaohuggg/status/1740546965753217280?s

12月28日

📣

🔔 Xiaohu.AI日报「12月28日」 ✨✨✨✨✨✨✨✨

1⃣️

📽️ 广告片制作对比AI视频创新：

传统广告片与Pika翻拍AI视频的对比。
预测AI视频领域将出现首部真正的AI电影。

🔗 https://x.com/xiaohuggg/status/1740375887613501770?s=20

2⃣️

🔬 麻省理工科学家发现新型抗生素：

利用AI技术对抗耐药性金黄色葡萄球菌。
首次60年来抗生素研究的重大进展。
通过深度学习模型和数据集评估化合物。

🔗 https://x.com/xiaohuggg/status/1740360789742268498?s=20

3⃣️

🚗 小米电动车新动态：

小米电动车外观设计比保时捷还好看。
据说售价是30以内！低配版可能19.9
CLTC续航里程达800km，5分钟充电实现510km续航

🔗 https://x.com/xiaohuggg/status/1740313720226812162?s=20

4⃣️

🖼️ UniRef++在图片或视频中找到并标记出特定的物体：

文字描述就可以在视频中识别特定物体。
适用于自动图像编辑和视频内容分析。

🔗 https://x.com/xiaohuggg/status/1740309636811755941?s=20

5⃣️

🎬 Assistive Video一个新的AI生成视频的工具：

通过文字提示或图片生成视频内容。
用户可控制视频质量和内容一致性。
体验地址：https://assistive.chat/product/video

🔗 https://x.com/xiaohuggg/status/1740212609549541884?s=20

6⃣️

⚖️ 纽约时报起诉OpenAI侵权案分析：

律师解读纽约时报与OpenAI的版权争议。
该案可能成为AI与版权法的转折点。
纽约时报要求赔偿并销毁相关AI模型。

🔗 https://x.com/xiaohuggg/status/1740185246212239650?s=20

12月27日

📣

🔔 Xiaohu.AI日报「12月27日」 ✨✨✨✨✨✨✨✨

1⃣️

🏛️ 纽约时报与普利策获奖者对微软和OpenAI的版权诉讼：

纽约时报和普利策奖得主指控微软和OpenAI使用其版权内容训练AI。
涉及数百万篇文章和书籍内容。
背景：苹果近期购买新闻版权，可能激发了诉讼行动。

🔗 https://x.com/xiaohuggg/status/1740008017448559006?s=20

2⃣️

🔗 Markdown Convert 工具介绍：

专门用于将各种表格格式转换成Markdown格式。
支持Excel、CSV、JSON、SQL等格式。

🔗 https://x.com/xiaohuggg/status/1739940948178800672?s=20

3⃣️

🌌 Skybox AI 0.9版本更新：

可以从文本提示或草图生成360度3D世界。
使用NeRF技术，增强图像的空间深度和真实感。
提供不同分辨率的3D网格下载。

🔗 https://x.com/xiaohuggg/status/1739926702158225859?s=20

4⃣️

🤖 GPT-Pilot：AI开发者伴侣特点：

全功能AI程序员：编写代码、配置环境、管理任务、调试。
用户仅需监督开发过程。

🔗 https://x.com/xiaohuggg/status/1739911997523992688?s=20

5⃣️

🎾 混合增强现实技术体验：

结合真实和虚拟元素的网球游戏。
展示未来技术的潜力。

🔗 https://x.com/xiaohuggg/status/1739830627858583808?s=20

6⃣️

💃 日本舞蹈生成APP：

仅需一张图片，AI即可生成舞蹈视频。
可能来源于阿里和字节的项目。
视频展示有趣的舞蹈效果。

🔗 https://x.com/xiaohuggg/status/1739657763289195004?s=20

12月26日

📣

🔔 Xiaohu.AI日报「12月26日」 ✨✨✨✨✨✨✨✨

1⃣️

📚 ComfyUI教程知识库：

为学习ComfyUI提供全面资源。
包含丰富的教程和指南。

https://comflowy.com/zh-CN

🔗 https://x.com/xiaohuggg/status/1739571475085193432?s=20

2⃣️

🔍 微软PromptBench工具库：

专为评估大型语言模型设计。
提供创建提示、进行数据集和模型加载、对抗性提示攻击等工具。
支持研究人员全面分析和评估LLMs。

🔗 https://x.com/xiaohuggg/status/1739565076447891784?s=20

3⃣️

🖼️ PASD图像处理工具：

开源，实现图像超分辨率和个性化风格化。
可用于图像修复、风格转换和上色。
适用于旧照片恢复、艺术风格创作等。

🔗 https://github.com/yangxy/PASD

🔗 https://x.com/xiaohuggg/status/1739516745982062732?s=20

4⃣️

🤖 @tsarnick开发的机器人Rob：

结合了GPT-4V，通过镜子测试。
包含Raspberry Pi、电池、伺服电机等。
通过OpenAI API响应问题，并利用摄像头“看”周围世界。

🔗 https://x.com/xiaohuggg/status/1739495657289973823?s=20

5⃣️

💬 Danswer开源企业AI问答系统：

用于从企业文档中提取可靠答案。
支持GPT-4、Mixstral、Llama2等模型。
集成Slack、GitHub等工具，提供跨平台搜索。
自我学习，支持自主部署和多源连接。

🔗 https://danswer.ai

https://x.com/xiaohuggg/status/1739479576596844909?s=20

12月25日

📣

🔔 Xiaohu.AI日报「12月25日」 ✨✨✨✨✨✨✨✨

1⃣️

📱扫描物体生成3D模型：

使用APP扫描物体，完成3D全貌捕获。
创建AR QR码，展示物体于任何地点。
苹果新品官网展示中应用此技术。

🔗 https://x.com/xiaohuggg/status/1739259052448944139?s=20

2⃣️

🌐 Search2AI联网服务：

为ChatGPT第三方客户端提供联网服务。
自动判断用户意图，决定是否联网查询。
支持Google和Bing，计划扩展更多服务和场景。

🔗 https://x.com/xiaohuggg/status/1739223239157776794?s=20

3⃣️

💇♂️HAAR：文本生成3D发型：

通过文字描述生成逼真3D发型。
基于3D发丝，视觉和结构上接近真实发型。

🔗 https://x.com/xiaohuggg/status/1739208666967151076?s=20

4⃣️

🎙️ Clone-Voice：声音克隆工具：

基于Coqui AI TTS模型，变换不同声音。
支持16种语言，包括中英日韩法。
支持在线声音克隆，5-20秒录音时长。

🔗 https://x.com/xiaohuggg/status/1739178877153681846?s=20

5⃣️

🎮 AI开发的AI游戏：

背景：人类与AI的冲突，玩家扮演人类战士。
基于AI-Town平台，角色和对话由GPT4生成。
视觉音效由Dalle-3、Midjourney和Stable Audio生成。

🔗 https://x.com/xiaohuggg/status/1739160631620816904?s=20

6⃣️

🚪 AnyDoor：图像间隔空传送：

将物体或对象从一个图像传送至另一图像。
在线演示已发布。

🔗 https://x.com/xiaohuggg/status/1739129039850492275?s=20

7⃣️

🎬 Fairy：视频编辑自然语言指令：

由Meta GenAI开发，文字指令编辑视频。
风格转换、物体角色变换等编辑功能。
14秒内生成120帧512×384视频（4秒，30 FPS）。

🔗 https://x.com/xiaohuggg/status/1738881963384356883?s=20

圣诞节🎅快乐🎉

12月24日

📣

🎄 Xiaohu.AI日报「12月24日」

✨✨✨✨✨✨✨✨

1⃣️

🧚♀️Fairy：自然语言视频编辑

Meta GenAI开发的Fairy项目，通过文字描述进行视频风格、物体、角色编辑。
转换效果包括梵高、漫画风格等，14秒内生成120帧视频。
项目地址：https://fairy-video2video.github.io

🔗 https://x.com/xiaohuggg/status/1738881963384356883?s=20

2⃣️

📱Beeper/iMessage：Matrix-iMessage桥接

实现Apple iMessage与Matrix协议的桥接，支持跨平台使用。
支持实时聊天，实现Matrix与iMessage之间的无缝通信。

🔗 https://x.com/xiaohuggg/status/1738801598204367007?s=20

3⃣️

🎄Suno AI圣诞特别版

用户可免费生成圣诞风格音乐，仅需描述风格、氛围或心情。
提供通用模式和自定义模式，自主选择歌词曲风。

🔗 https://x.com/xiaohuggg/status/1738757086006386879?s=20

4⃣️

🗨️Talk2arXiv：与论文对话

将arXiv论文链接改为Talk2arXiv链接，与论文进行聊天。
体验测试版，目前只支持对话，无法定位论文具体位置。

🔗 https://x.com/xiaohuggg/status/1738748270153957567?s=20

5⃣️

🍏苹果发布多模态大模型Ferret

Ferret能准确识别图像内容，并定位图像中元素。
拥有7B和13B两版本，使用GRIT数据集增强模型能力。
GitHub地址：https://github.com/apple/ml-ferret

🔗 https://x.com/xiaohuggg/status/1738746944737128452?s=20

6⃣️

🌟奥特曼新年愿望清单

网友列出的愿望包括AGI、GPT-5、更好的语音模式等。
清单暗示除第一条外其他愿望可能实现。

🔗 https://x.com/xiaohuggg/status/1738733784252686781?s=20

🎄平安夜🎅快乐🎉

12月23日

🤖

🔔 Xiaohu.AI日报「12月23日」 ✨✨✨✨✨✨✨✨

1⃣️

🎮ROS-Face 游戏手柄：

日本开发者@handaru20pF创造了能控制面部表情的游戏手柄。
通过电冲击肌肉，实现各种表情。
项目代码和电路图在GitHub公开。

🔗 https://github.com/maHidaka/ros_face/blob/master/README.md

🔗 https://x.com/xiaohuggg/status/1738523813695086783?s=20

2⃣️

🖼️DreamTuner 图像生成工具：

由字节跳动开发，通过单张图片创造主题一致的新图像。
可以将物体置入不同场景或添加元素。
适合创造个性化主题图像。

🔗 https://dreamtuner-diffusion.github.io

🔗 https://x.com/xiaohuggg/status/1738511391093608762?s=20

3⃣️

🔍AI视频搜索引擎：

搜索引擎允许用问题查询视频。
可与视频进行互动对话，自动总结内容。
已索引约17245个YouTube视频，计划扩展到TikTok。

🔗 https://avse.vercel.app

🔗 https://x.com/xiaohuggg/status/1738435580516765958?s=20

4⃣️

🏠ControlRoom3D 3D房间设计：

根据布局和风格描述设计3D房间模型。
自动调整房间深度和物体表面细节。

🔗 https://x.com/xiaohuggg/status/1738407819035206105?s=20

5⃣️

🍏苹果公司AI新闻采集计划：

与多家出版商合作，采集新闻训练AI系统。
计划在iOS 18推出“AppleGPT”聊天机器人。
拟议交易额至少5000万美元。

🔗 https://x.com/xiaohuggg/status/1738394950277144942?s=20

12月22日

📣

🔔 Xiaohu.AI日报「12月22日」 ✨✨✨✨✨✨✨✨

1⃣️

🔥 OpenSaaS - 免费开源的SaaS模板：

提供预配置的功能丰富平台，便于构建应用。
包含用户认证、内置博客、支付系统等。
特别适合小型团队和个人开发者。

🔗 http://opensaas.sh

🔗 https://x.com/xiaohuggg/status/1738129354243383719?s=20

2⃣️

🍲 TasteTime Machine - 味道时光机：

宮下芳明教授开发，模拟不同时间段食物味道。
可使新鲜食物味道变成放置数日的味道，反之亦然。
例：即刻享受放置一晚的咖喱浓郁味道。

🔗 https://x.com/xiaohuggg/status/1738113688794763739?s=20

3⃣️

📱 AppAgent - 人类操作模拟AI：

自主学习模仿人类手势，执行多种手机任务。
由腾讯和德州大学达拉斯分校研究团队开发。

🔗 https://appagent-official.github.io

🔗 https://x.com/xiaohuggg/status/1738083914193965528?s=20

4⃣️

🗣️ DREAM-Talk - 照片说话项目：

字节跳动开发，单张图片生成说话面部动画。
支持多种情感表达和多语言。

🔗 https://magic-research.github.io/dream-talk/

🔗 https://x.com/xiaohuggg/status/1738061130034266560?s=20

5⃣️

🖼️ Osprey - 精确到像素级别的图像理解：

专注于图像特定区域的细致分析。
在医学图像分析中特别有用。
结合像素级掩码和语言指令，提供细粒度视觉理解。

🔗 https://x.com/xiaohuggg/status/1738046153877508458?s=20

6⃣️

🎨 StreamDiffusion - 实时画图开源解决方案：

以超过100fps速度实现实时图像生成。
适用于实时图像生成、文本到图像转换等。
可在极短时间内生成大量图像。

🔗 https://x.com/xiaohuggg/status/1738028693845655835?s=20

7⃣️

🔌 ChatGPT插件将被废弃：

OpenAI引导开发者迁移到GPTs。

🔗 https://x.com/xiaohuggg/status/1738017141704786073?s=20

8⃣️

🎬 Runway新功能 - Gen 2视频合成：

合成多个视频到一个场景，创造丰富内容。
类似Photoshop图层功能，提供自定义运动和风格化。
功能包括视频合成、背景移除和层叠视频。

🔗 https://x.com/xiaohuggg/status/1738003949465321881?s=20

12月21日

📣

🔥 2023 年最受欢迎的 Chrome 浏览器扩展

🚀 Midjourney V6上线

🌍 Text-to-CAD ：通过文本提示生成 CAD 文件

🔬 Coscientist: 4分钟内复现诺奖研究成果！

💻 PowerInfer：让普通电脑也能跑大语言模型

📥 XHS-Downloader：小红书采集器

📜 OpenAI发布新治理框架

https://mp.weixin.qq.com/s/i_yNZRAzxaHGvqRWpPuzXA

12月20日

📣

🔔 Xiaohu.AI日报「12月20日」 ✨✨✨✨✨✨✨✨

1⃣️

🌐OpenAI发布AI大模型风险防范框架文件：

OpenAI董事会有权决定发布新AI模型。
框架文件提出防范AI大模型灾难性风险的路线图。
董事会可推翻领导团队关于AI模型发布的决策。

🔗 https://openai.com/safety/preparedness

3⃣️

🤖Google的VideoPoet视频模型：

根据文本描述生成视频。
多模态学习能力，包括音频和视频处理代码编写。
视频风格化、修复、扩展以及音频生成功能。

🔗 https://x.com/xiaohuggg/status/1737371348467618039?s=20

4⃣️

💧HyFluid项目分析流体运动：

从视频中分析水、烟等流体的移动状态。
能预测流体未来的运动趋势。
适用于复杂、难以捉摸的流体动态。

🔗 https://x.com/xiaohuggg/status/1737321380511891550?s=20

5⃣️

🔊Runway发布文字转语音功能：

用于生成视频的画外音和对话。
支持多种语言的细腻真实人声效果。

🔗 https://x.com/xiaohuggg/status/1737124514969075791?s=20

6⃣️

🎵微软与Suno合作引入AI音乐创作到Copilot：

Suno可以从一句话生成完整的歌曲。
包括歌词、乐器伴奏和歌声。
通过Microsoft Edge体验Suno的音乐创作。

🔗 https://x.com/xiaohuggg/status/1737305135670546861?s=20

7⃣️

🎤Amphion开源工具包：

提供语音、声音和歌唱功能。
支持声音转换、歌声合成、文本到音频等。
HuggingFace上的演示可用。

🔗 https://huggingface.co/amphion

🔗 https://x.com/xiaohuggg/status/1737299090848018565?s=20

12月19日

🤖

🔔 Xiaohu.AI日报「12月19日」 ✨✨✨✨✨✨✨✨

1⃣️

🔊 Runway 文字转语音功能：

正式发布，用于生成视频的画外音和对话。
支持多种语言，提供细腻真实的人声效果。

🔗 https://x.com/xiaohuggg/status/1737124514969075791?s=20

2⃣️

🔬 LK99超导材料研究进展：

中南大学和华南理工研究团队提出超导性证据。
在铜替代铅磷灰石材料中发现不寻常行为，温度约-23°C时微波吸收变化。
可能是LK99型超导体的首次实验支持。

🔗 https://x.com/xiaohuggg/status/1737095765376504197?s=20

3⃣️

🛡️ MIST反AI工具：

旨在保护艺术作品免受AI模仿。
为作品加特殊水印，对抗AI复制风格和内容。
对抗多种AI-for-Art应用，包括LoRA、SDEdit等。

🔗 https://x.com/xiaohuggg/status/1737088730706718817?s=20

4⃣️

🤖 部署Gemini机器人指南：

英文效果良好，中文回答存在问题。
简易3分钟部署流程介绍。
包括使用Vercel部署和Gemini API key申请。

🔗 https://x.com/xiaohuggg/status/1737063505805955226?s=20

5⃣️

🌌 NASA深空激光通信技术：

成功传输高清视频，距离地球3100万公里。
演示飞行激光收发器，最大比特率达267 Mbps。
提供对未来任务的支持，如火星探险。

🔗 https://go.nasa.gov/47XDYom

🔗 https://x.com/xiaohuggg/status/1737040743351603397?s=20

6⃣️

🎭 VOODOO 3D技术：

精确复制人的表情和动作到3D模型。
实时过程，通过摄像头输入同步反应。
3D变脸术，提高虚拟人物模型的真实感。

🔗 https://x.com/xiaohuggg/status/1736958842595082744?s=20

7⃣️

🎥 toolkit视频工具包：

功能包括转换视频/gif为mp4，制作gif，提取音频等。
方便快捷的视频处理工具。

🔗 https://replicate.com/fofr/toolkit

🔗 https://x.com/xiaohuggg/status/1736946514520604958?s=20

8⃣️

💔 Adobe与Figma交易失败：

200亿美金收购交易告吹，需支付10亿美金分手费。
Adobe开发名为“Ligma”的新产品，类似Figma。
设计界避免每年支付400美金给Adobe。

🔗 https://x.com/xiaohuggg/status/1736931976580649467?s=20

12月18日

🤖

🔔 Xiaohu.AI日报「12月18日」 ✨✨✨✨✨✨✨✨

1⃣️

🖼️ ComfyUI Portrait Master 肖像大师简体中文版：

- 肖像大师2.0版本发布，提供详细的参数设置。

- 可视化的滑块操作，方便使用。

-作者ZHO

🔗 https://github.com/ZHO-ZHO-ZHO/comfyui-portrait-master-zh-cn

🔗 https://x.com/xiaohuggg/status/1736710794589675763?s=20

2⃣️

🎥 Gaussian-SLAM 3D场景重建技术：

- 从视频流中重建逼真的3D场景。

- 分析环境布局和物体位置，创建可多角度观察的3D模型。

- 实时渲染过程。

🔗 https://x.com/xiaohuggg/status/1736674788679311709?s=20

3⃣️

🗣️ DreamTalk 头像说话框架：

- 由清华大学、阿里巴巴和华中科大共同开发。

- 根据音频使人物头像说话或唱歌，嘴唇同步，模仿表情。

- 支持多种语言，适用于多种场景。

🔗 https://x.com/xiaohuggg/status/1736627340623692177?s=20

4⃣️

📱 Phone上运行Mistral 7B：

- 在手机上运行Mistral 7B，响应迅速。

- 支持多端部署，兼容多种系统。

- 提供应用下载和多系统支持的部署方案。

🔗iOS版本 https://apps.apple.com/gb/app/mlc-chat/id6448482937

🔗 https://github.com/mlc-ai/mlc-llm

🔗 https://x.com/xiaohuggg/status/1736617372298170477?s=20

5⃣️

🏀 HomeCourt AR篮球训练应用：

- NBA官方合作伙伴，利用AR技术提高篮球技能。

- 实时捕捉运动，智能分析表现和数据。

- 提供互动训练和挑战游戏。

🔗 https://x.com/xiaohuggg/status/1736597467934958027?s=20

6⃣️

🕶️ Meta 雷朋智能眼镜潮流：

- 在TikTok上掀起潮流。

- 第一视角直播，内置AI助手和高性能摄像头。

- 已在多国开售，售价299美金。

🔗 https://x.com/xiaohuggg/status/1736588857087574481?s=20

12月17日

📣

🔔 Xiaohu.AI日报「12月17日」 ✨✨✨✨✨✨✨✨

1⃣️

🌟PixelLLM - Google的新视觉语言模型：

提供对图片内容的详细描述及每个词汇的具体位置。
能识别图片中的物体，并精确指出其位置。
特别适用于图像和文字紧密结合的任务。

🔗 https://jerryxu.net/PixelLLM/

🔗 https://arxiv.org/abs/2312.09237

2⃣️

🤖EmbedAI - 定制你自己的ChatGPT：

支持使用各种数据源训练ChatGPT，包括文件、网站、Notion文档和YouTube。
应用范围广泛，如智能客服、个性化学习助手等。
无代码平台，适合非编程背景用户。

🔗 https://thesamur.ai

🔗 https://x.com/xiaohuggg/status/1736336780876742873?s=20

12月16日

📣

🔔 Xiaohu.AI日报「12月16日」 ✨✨✨✨✨✨✨✨

1⃣️

🎨 DomoAI：将照片和视频动漫化：

可上传照片或视频，选择动漫风格进行转换。
功能包括文字到图片、图片到视频、视频风格转换。
提供了详细的加入和使用指南。

🔗 https://x.com/xiaohuggg/status/1736020885474267317?s=20

2⃣️

🔍 FunSearch：大语言模型驱动的解决方案生成器：

结合大语言模型和评估器，迭代改进解决方案。
在生成解决方案的过程中不断融入新知识。

🔗 https://x.com/xiaohuggg/status/1735957680739823730?s=20

3⃣️

🌌 SceneWiz3D：根据文字合成3D场景：

通过文本描述自动创建高保真3D场景。
支持场景中物体的动态变化，如添加或移除。

🔗 https://x.com/xiaohuggg/status/1735924490704724436?s=20

4⃣️

🚫 字节跳动被OpenAI封杀事件：

字节跳动因违反OpenAI服务条款被封杀。
使用OpenAI数据训练自身竞争模型。
Project Seed项目大量依赖OpenAI API。

🔗 https://x.com/xiaohuggg/status/1735876029552718213?s=20

5⃣️

🤖 NeurIPS 2023：人工智能和机器学习的学术会议：

介绍了NeurIPS这一重要的AI和机器学习年度会议。
今年的会议特色：将论文直接打印挂起作为展位。

🔗 https://x.com/xiaohuggg/status/1735685417528344745?s=20

12月15日

📣

🔔 Xiaohu.AI日报「12月14日」 ✨✨✨✨✨✨✨✨

1⃣️

🎨 实时草图转换成3D模型：

@CSM_ai 推出了实时草图转换成3D模型的功能。
用户可以从简单的涂鸦直接生成3D模型，并导出到3D软件。
免费体验地址：https://3d.csm.ai/canvas

🔗 https://x.com/xiaohuggg/status/1735655175564743148?s=20

2⃣️

💻 M3 Mac 成功安装 dolphin-2.5-mixtral-8x7：

体验速度快，支持中文输入输出，但是不如英文。

🔗 https://x.com/xiaohuggg/status/1735639389697683644?s=20

3⃣️

🌐 Heygen 注册解散国内主体：

反映了出海AI企业的去中国化趋势。

🔗 https://x.com/xiaohuggg/status/1735643417965949248?s=20

4⃣️

👀 Gemini 视觉能力演示：

通过上传酒吧桌子和菜单的照片，计算饮料总账单。
基于Gemini的API，需要API key申请。
体验地址：https://huggingface.co/spaces/Roboflow/Gemini

🔗 https://x.com/xiaohuggg/status/1735614516250255622?s=20

5⃣️

🎵 字节跳动推出音乐生成模型StemGen：

专注于理解并生成基于给定音乐上下文的新音乐。

🔗 https://x.com/xiaohuggg/status/1735608031122235768?s=20

6⃣️

🧠 DeepMind的新技术FunSearch：

结合大语言模型和自动检查程序，解决问题的同时确保答案正确。
展示解决方案及其获取过程。

🔗 https://x.com/xiaohuggg/status/1735553242048958615?s=20

7⃣️

🎶 Google AI音乐生成模型MusicFX：

通过文字提示生成音乐，最长可达70秒。
简单操作，可选择音乐风格、元素、乐器等。

🔗 https://x.com/xiaohuggg/status/1735506583432634544?s=20

8⃣️

🤖 OpenAI超级对齐项目最新研究：

探索使用能力较弱的AI模型指导强大AI模型。
如使用GPT-2辅助训练GPT-4。

🔗 https://x.com/xiaohuggg/status/1735496740584014017?s=20

12月14日

📣

🔔 Xiaohu.AI日报「12月14日」 ✨✨✨✨✨✨✨✨

1⃣️

💼 AI做副业资源整理：

GitHub合集汇总了AI创业或副业的相关资料。
推文链接分享更多相关信息。

🔗 https://github.com/bleedline/aimoneyhunter

🔗 https://x.com/xiaohuggg/status/1735294797362212907?s=20

2⃣️

🤖 OpenAI GPT4.5 泄露：

三个不同版本亮相：GPT-4.5、GPT-4.5-64k、GPT-4.5-audio-and-speech。
重点在于多模态、复杂逻辑和推理。

🔗 https://x.com/xiaohuggg/status/1735278770041561455?s=20

3⃣️

📚 机器学习研究视频资源：

提供了深度分析不同AI领域论文的精读视频。
涵盖了计算机视觉、自然语言处理等众多子领域。

🔗 https://x.com/xiaohuggg/status/1735272664883991012?s=20

4⃣️

🧠 读心术研究亮相：

悉尼科技大学呈现了能将脑电波转化为文字的技术。
技术既无侵入性又配备了先进脑-计算机接口。

🔗 https://x.com/xiaohuggg/status/1735240744057901542?s=20

5⃣️

🖼️ 从文本生成图像技术：Imagen 2：

更提升了真实图像生成、与描述文字的契合度。
新能力还包括图片修改和内容创造。

🔗 https://x.com/xiaohuggg/status/1735149171781533870?s=20

6⃣️

🌐 谷歌实时三维渲染技术：SMERF：

可实时生成精细三维场景。
用途广泛，比如说不同场景下的三维导览体验。
在手机、笔记本上均提供流畅体验。

🔗 https://smerf-3d.github.io

🔗 https://x.com/xiaohuggg/status/1735213721092587685?s=20

7⃣️

🌟 ChatGPT入选Nature年度科学人物：

作为AI非人类，创下榜单先河。
被誉为开创和推动当代人类和AI的协作先河。

🔗 https://x.com/xiaohuggg/status/1735204522061148426?s=20

8⃣️

🎨 GPT 4和Midjourney打破设计壁垒：

利用公式和提示词帮助生成个性化背景图。
操作亲民简便，小白也能轻松掌握。

🔗 https://x.com/xiaohuggg/status/1735184007569330248?s=20

9⃣️

👗 阿里巴巴研发虚拟试衣技术：

“Outfit Anyone”用以实现各种衣着和体型的真实虚拟试穿。
技术创新还能大幅纤体重塑。

🔗 https://x.com/xiaohuggg/status/1735170872774963222?s=20

🔟

🚗 新型视觉-语言驾驶仿真技术：Dolphins：

可了解并处理各种行车环境和反馈。
人工智能和自动驾驶融合之作。

🔗 https://x.com/xiaohuggg/status/1735143546867569089?s=20

1⃣️1⃣️

📸 AI生成个人变脸娱乐应用：

使用实时成图，把人物“变”成任何想象形象。
在个人电脑端也能轻松体验。

🔗 http://fal.ai/camera

🔗 https://x.com/xiaohuggg/status/1735129903937560615?s=20

1⃣️2⃣️

💻 ChatGPT Plus版本重磅归来：

获批大量GPU，性能大幅增强。
显示了目前AI技术面临算力挑战。

🔗 https://x.com/xiaohuggg/status/1735126281552044403?s=20

1⃣️3⃣️

🌐 Google宣布Gemini Pro面向开发者：

提供语言处理、定制化认知技能。
免费使用，拓宽了AI创业大门。

🔗 https://x.com/xiaohuggg/status/1734958068595831011?s=20

12月13日

📣

🔔 Xiaohu.AI日报「12月13日」 ✨✨✨✨✨✨✨✨

1⃣️

🖼️ Krea.AI全面对外开放：

即时生成个性化图片
功能强化图像放大与增强
Logo与AI模式创造功能 🔗 https://x.com/xiaohuggg/status/1734882379439981033?s=20

2⃣️

🤖 CopilotKit关键功能：

适用于基于React的Web应用集成聊天机器人
支持AI创造与编辑文本，自动上下文识别互动 🔗 https://x.com/xiaohuggg/status/1734873428174458986?s=20

3⃣️

🧠 微软Medprompt+策略升级：

提高GPT-4 MMLU测试性能至90.10%
针对语言处理精细调校与性能改进
基于置信度选取更精确回答 🔗 https://x.com/xiaohuggg/status/1734811424348914156?s=20

4⃣️

🎨 Shader App创作功能：

个性化即时AI创造AR图形
无代码直观易用
测试中的AR艺术体验 🔗 https://x.com/xiaohuggg/status/1734805244280995935?s=20

5⃣️

🌟 Mixtral-8x7b 已经成为排名第一的开源模型：

用户打分推动排名
基于实用功能和普遍偏好受到好评 🔗 https://x.com/dotey/status/1734708814983602256?s=20

6⃣️

💡 微软Phi-2亮点：

2.7B参数，紧凑而强大，高效能参数革命
顶级教学材料打造高级智能 🔗 https://x.com/xiaohuggg/status/1734778292157444479?s=20

7⃣️

🤖 特斯拉Optimus Gen2亮点：

功能和灵活度重大迭代
更自然、高效动作，技术突破与实践并存 🔗 https://x.com/xiaohuggg/status/1734769901964066878?s=20

8⃣️

🎬 Upscale-A-Video亮点：

南洋理工S-Lab开创视频清晰度与质感提升
具备还原与智能修饰特性
通过AI导向个性化视频生产 🔗 https://x.com/xiaohuggg/status/1734764757453025539?s=20

9⃣️

🖼️ #Midjourney Alpha更新：

支持生成图片的宽高比例选择了
最近MJ的进度很缓慢啊

🔗 https://x.com/xiaohuggg/status/1734753455510794492?s=20

🔟

📺 Chanel 1全AI电视新闻节目：

全AI打造的创新内容
开创AI技术和新闻界的融合 🔗 https://x.com/xiaohuggg/status/1734746436544413792?s=20

12月12日

🤖

🔔 Xiaohu.AI日报「12月12日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 Lobe Chat 介绍：

开源聊天机器人框架，界面漂亮。
支持TTS、GPT 4V多模态交互和插件系统。
一键部署，快速且无需复杂配置。

🔗 https://chat-preview.lobehub.com/welcome

🔗 https://x.com/xiaohuggg/status/1734562244422504844?s=20

2️⃣

🌐 Alter3 人形机器人：

由东京大学开发，由GPT 4驱动。
可以自主进行各种人类动作，如自拍姿势。
通过口头反馈调整姿势，表达情感，如尴尬和快乐。
程序代码转换：将动作语言描述转为机器人执行代码。

🔗 https://x.com/xiaohuggg/status/1734492844545683636?s=20

3⃣️

📹 创意视频生成：

通过人脸照片和文字描述生成跳舞视频。
同一脸孔，不同场景和服装。

🔗 https://x.com/xiaohuggg/status/1734452696290414674?s=20

4⃣️

👁️ 眼睛“会说话”研究：

杜克大学研究发现眼睛运动时耳朵产生声音。
通过声音判断眼睛观察方向。

🔗 https://x.com/xiaohuggg/status/1734449213168353715?s=20

5️⃣

🌍 Runway的通用世界模型（GWM）：

旨在创建理解和模拟现实世界情况的AI系统。
正在寻找对此研究感兴趣的人才。

🔗 https://research.runwayml.com/introducing-general-world-models

🔗 https://x.com/xiaohuggg/status/1734236818772758689?s=20

6⃣️

🚶♂️ Digital Life Project：

通过AI和动作合成技术模拟自主3D角色。
角色能进行社交互动和身体动作表达。

🔗 https://x.com/xiaohuggg/status/1734425980968861984?s=20

7⃣️

🔍 3DiffTection 3D 物体检测：

单张图片中的3D物体检测和空间理解。
即使物体被遮挡或位置不常见也能识别。
英伟达多伦多人工智能实验室联合开发。

🔗 https://x.com/xiaohuggg/status/1734409880205992322?s=20

8⃣️

💡 GPT-4-turbo 有趣发现：

使用时若系统日期设为十二月，任务执行更快。
网友调侃模型“偷懒”。

🔗 https://x.com/xiaohuggg/status/1734316369863393667?s=20

12月11日

📣

🔔 Xiaohu.AI日报「12月11日」

✨✨✨✨✨✨✨✨

1⃣️

🌌 虚拟场景中的物体移动：

物体按特定轨迹在虚拟场景中移动。

🔗 https://x.com/xiaohuggg/status/1734170307697721740?s=20

2⃣️

🧠 Mixtral AI的MoE 8x7B：

32k上下文，支持5种语言。
性能超越Llama 2系列和GPT3.5。
在代码生成和MT-Bench上表现优异。

🔗 https://x.com/xiaohuggg/status/1734139143259861185?s=20

3⃣️

💃 阿里DreaMoving项目：

生成特定身份在任意场景下跳舞的视频。
基于脸部照片或文字提示。
高质量舞蹈视频生成，基于扩散模型。

🔗 https://x.com/xiaohuggg/status/1734105617982456270?s=20

4⃣️

📓 Google NotebookLM新动态：

开放访问，支持检索增强生成。
支持上传PDF、调用Google Drive文件。
中文问答能力有限。

🔗 https://notebooklm.google.com

https://x.com/xiaohuggg/status/1734063806090002616?s=20

5⃣️

🧠 从大脑活动重建图像：

准确率高达75%。
不仅限于被试者实际看到的图像。
日本国立量子科学研究所的研究。

🔗 https://x.com/xiaohuggg/status/1734050473894916202?s=20

6⃣️

🗨️ AnythingLLM的私人ChatGPT能力：

将各种文档转换成LLM可引用格式。
支持多用户使用，可设权限。
兼容多种LLM和数据库。

🔗 https://x.com/xiaohuggg/status/1734037408239571336?s=20

7⃣️

🌐 3D高斯泼溅技术进展：

自2023年7月以来发展迅速。
汇集了相关工具、资源和研究成果。

🔗 https://x.com/xiaohuggg/status/1734028007323701349?s=20

12月10日

1⃣️

🚗 理想汽车发布Mind GPT多模态大模型：

完美融合汽车与AI，为家庭成员提供最佳体验。
在C-EVAL和CMMLU中文大语言模型评测榜单中双双夺冠。

🔗 https://x.com/xiaohuggg/status/1733830275254415844?s=20

2⃣️

🌍 WonderJourney：斯坦福大学和谷歌合作项目：

根据文本或图片生成3D连续画面。
形成虚拟“奇妙旅程”场景。

🔗 https://x.com/xiaohuggg/status/1733779657722622449?s=20

3⃣️

👀 谷歌瞪眼 SDXL 微调：

为任何物体添加大眼睛效果。

🔗 https://replicate.com/fofr/sdxl-googly-eyes

4⃣️

🌐 Mistral AI发布MoE 8x7B模型：

被称为缩小版GPT-4，由8个70亿参数的“专家”组成。
在线体验入口：https://app.fireworks.ai/models/fireworks/mixtral-8x7b-fw-chat

🔗 https://x.com/xiaohuggg/status/1733694954260901907?s=20

非常开源附种子链接（87GB）

magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce

5⃣️

🗣️ Deepgram Aura：实时语音人工智能客服

超快速文本转语音，人类般的声音调整。
正在等待名单阶段，即将发布。

排队：https://deepgram.com/learn/aura-text-to-speech-api-waitlist

🔗 https://x.com/xiaohuggg/status/1733684125994033558?s=20

6⃣️

🔒 欧盟通过人工智能监管法案：

对AI应用进行风险分类，特别是高风险应用。
限制了企业抓取面部数据，对违规企业严厉处罚。
对开源模型提供广泛豁免。

🔗 https://x.com/xiaohuggg/status/1733678222775321058?s=20

12月9日

📣

🔔 Xiaohu.AI日报「12月9日」 ✨✨✨✨✨✨✨✨

1⃣️

📰 OpenAI即将发布GPT-4.5和GPTs商店：

预计下周或月底前发布GPT-4.5。
由于Google Gemini的竞争压力，OpenAI可能提前发布GPTs商店。
消息源不确定，但可能在圣诞节前。

🔗 https://x.com/xiaohuggg/status/1733505502150381931?s=20

2⃣️

🌈 Material Palette：真实图片转PBR材料工具：

从单张图片提取多种建筑PBR材料（如木头、金属等）。
分析照片中的材料，并提取特性（颜色、光泽、粗糙度）。
对建筑装修和三维场景制作非常有用。

🔗 https://x.com/xiaohuggg/status/1733417404099887532?s=20

3⃣️

🎨 Wigglypaint：具有动感效果的绘画工具：

特色是“多汁”和“摇晃”的绘画效果。
使绘制线条和图形看起来仿佛在屏幕上轻微摇晃。
支持导出为GIF动图，配有动感绘画声音。

🔗 https://x.com/xiaohuggg/status/1733408725522899316?s=20

4⃣️

🚫 《时代》杂志：AI“脱衣”应用迅速流行：

9月访问这类脱衣网站的人数达2400万。
广告链接数量在社交媒体上增加了2400%以上。
这些AI技术易于获取，用于制作非自愿色情内容。

🔗 https://x.com/xiaohuggg/status/1733400042298540202?s=20

5⃣️

🌐 Wikimedia Wikisource 数据集现已发布：

来自Wikimedia Wikisource的最新数据转储。
涵盖73种不同的语言。
数据以Parquet格式提供，可免费使用。
有助于增强语言模型的理解和生成能力。

🔗 https://x.com/xiaohuggg/status/1733349917501141390?s=20

6⃣️

🤖 Google Gemini最新演示分析：

测试Gemini对Emoji Kitchen创建的非常规Emoji图像的理解。
Emoji Kitchen允许组合不同表情符号创建新表情。

🔗 https://x.com/xiaohuggg/status/1733336646509289865?s=20

7⃣️

🔍 DemoFusion：超高分辨率图像生成工具：

提升SDXL图像生成的分辨率至4倍、16倍或更高。
改善图片清晰度和小细节（如纹理和边缘）。
生成更自然和逼真的图像。

🔗 https://x.com/xiaohuggg/status/1733152544208327089?s=20

12月8日

🤖

🔔 Xiaohu.AI日报「12月8日」 ✨✨✨✨✨✨✨✨

1⃣️

📰 Google对Gemini AI演示视频的修饰：

- Google承认剪辑了Gemini演示视频，以增强展示效果。

- AI实际未响应声音或视频，仅使用静态图像帧和文本提示。

- 演示中的AI识别，比如橡皮鸭的材质识别，是基于文本提示而非实时分析。

🔗 https://x.com/xiaohuggg/status/1733130290191905266?s=20

2⃣️

🤖 OpenAI关于GPT-4变懒的声明：

- OpenAI正在积极研究以解决GPT-4变懒得问题。

- 自11月11日以来，GPT-4未有更新，反映出模型行为的不可预测性。

🔗 https://x.com/xiaohuggg/status/1733055007833092357?s=20

3⃣️

🤖 NewsNerd HackerBot，Hacker News的自动化抓取工具：

- 可按关键词筛选新闻，针对特定主题提供定制内容。

- 开源软件，可在本地电脑上运行。

- 未来将包含新闻评论和文章内容分析。

🔗 https://x.com/xiaohuggg/status/1732990584619778077?s=20

4⃣️

🖼️ LooseControl：创新的图像生成框架：

- 考虑物体空间关系，通过描述创建复杂场景。

- 提供语义编辑和场景适应性，如光照变化应对。

- 适用于复杂场景设计和智能图像修改。

🔗 https://x.com/xiaohuggg/status/1732981317560881423?s=20

5⃣️

📸 ReconFusion：用最少3张照片重建3D场景：

- 相比传统技术，大幅减少所需照片数量。

- 生成逼真几何形状和纹理，提升模型真实感。

- 利用扩散先验优化视角合成。

- 显著提升少视角3D重建性能，适用于复杂真实世界场景。

🔗 https://x.com/xiaohuggg/status/1732969487157317909?s=20

6⃣️

🧠 人类与AI的可控性比较：

- 强调人类因情感、个人利益和道德因素而变得不可预测。

- 提出AI相对于人类的可控性优势。

🔗 https://x.com/xiaohuggg/status/1732967294895288347?s=20

12月7日

🤖

🔔 Xiaohu.AI日报「12月7日」

✨✨✨✨✨✨✨✨

1⃣️

🎮 Demeter：混合现实游戏：

将家庭环境转变为游戏场景。
支持攀爬、跳跃、飞行和奔跑等动作。
提供单人游戏模式，兼容多个Meta Quest平台。

🔗 https://x.com/xiaohuggg/status/1732749893641666841?s=20

2⃣️

🐦 Sound ID：鸟叫声识别应用：

能够识别北美458种鸟类的叫声。
可在无网络环境下运行。
提供全球鸟类照片、声音、地图等信息。

🔗 https://x.com/xiaohuggg/status/1732731878946570566?s=20

3⃣️

🤖 Neum AI：RAG解决方案框架：

高效管理和同步向量嵌入。
高吞吐量、并行化优化、实时数据同步。
提供定制化数据预处理和统一的数据管理。

🔗 https://x.com/xiaohuggg/status/1732707212743811420?s=20

5⃣️

🌐 AMD Instinct MI300X & MI300A AI芯片：

内存和带宽优于Nvidia GPU。
在AI推理和HPC工作负载中表现卓越。
显著提高计算性能。

🔗 https://x.com/xiaohuggg/status/1732613061104882087?s=20

6⃣️

👨💻 Pika 1.0案例集锦：

展示了Pika 1.0的强大应用实例。
用户友好，易于上手。
提供了丰富的实用案例。

🔗 https://x.com/xiaohuggg/status/1732593247191798248?s=20

7⃣️

🔥 Gemini AI & Google TPU v5p：

Gemini AI在Google TPU AI加速器上训练。
Cloud TPU v5p提供超强性能和速度。
加速大型语言模型的训练。

🔗 https://x.com/xiaohuggg/status/1732589389329682509?s=20

8⃣️

🌍 Google Gemini AI优化版本：

包括Ultra、Pro和Nano三个版本。
Pro版本已部署在Bard，支持英文。
Nano版本适用于移动设备，如Google Pixel 8 Pro。

🔗 https://x.com/xiaohuggg/status/1732570170105938284?s=20

9️⃣

🧩 Gemini AI能力介绍视频解说：

详细介绍其在逻辑解决、图像分析等方面的能力。
Gemini即将在Google AI Studio公开测试。

🔗 https://x.com/xiaohuggg/status/1732558895556796577?s=20

12月6日

🤖

🔔 Xiaohu.AI日报「12月6日」

✨✨✨✨✨✨✨✨

1⃣️

🤖 Google计划发布AI聊天机器人Gemini：

Gemini被视为GPT 4的强劲竞争者。
据悉，Google将在本周发布。
预计在2024年正式公布。

🔗 https://x.com/xiaohuggg/status/1732342321117839744?s=20

2⃣️

🍎 苹果推出针对Apple芯片的MLX机器学习框架：

API设计与NumPy和PyTorch相似。
易于在苹果电脑上构建和训练机器学习模型。
演示展示了在M2 Ultra上运行的Llama v1 7B模型。

🔗 https://github.com/ml-explore/mlx

🔗 https://x.com/xiaohuggg/status/1732302746886471820?s=20

3⃣️

💃 字节跳动pk阿里动作生成视频项目：

阿里未发布代码和演示，字节随即发布类似项目。
项目包括基于扩散模型的MagicAnimate和Vid2DensePose。
生成的DensePose数据提高了动画质量和一致性。

🔗 https://x.com/xiaohuggg/status/1732278818847777042?s=20

4⃣️

🌌 Generative Powers of Ten展示多尺度图像生成技术：

无限缩放技术，清晰度高。
根据文本描述生成不同尺度的连贯图像。
覆盖从宇宙到细胞级别的景象。

🔗 https://x.com/xiaohuggg/status/1732247057237500130?s=20

5⃣️

🧠 DeepMind开发出可向人类学习的AI：

在3D模拟环境中，AI智能体通过观察模仿人类行为。
研究成果发表在Nature。
无需直接从人类获取数据。

🔗 https://x.com/xiaohuggg/status/1732235284555927967?s=20

6⃣️

🎨 将DALL·E 3集成到草图软件tldraw：

使用主Prompt和链条控制图像生成。
通过输入关键词生成图片。
多链条合并，增强图片一致性。

🔗 https://x.com/xiaohuggg/status/1732224902302945612?s=20

7⃣️

🌐 《人工智能是伟大的平衡器》文章分析了ChatGPT对工作表现的影响

技术变革导致生产资料重新分配，少数人控制大多数资源。
探讨AI统治人类的可能性。

🔗 https://x.com/xiaohuggg/status/1732208782330179981?s=20

12月5日

🤖

🔔 Xiaohu.AI日报「12月5日」

✨✨✨✨✨✨✨✨

1⃣️

🗣️ VividTalk：让照片说话的技术

单张照片和一段音频可生成看似真实的说话视频。
支持多种语言和风格，如真实和卡通风格。
合作开发：南京大学、阿里巴巴、字节跳动和南开大学。

🔗 https://x.com/xiaohuggg/status/1732026172509421697?s=20

2⃣️

👤 HeyGen的Avatar2.0：即时虚拟分身

5分钟内用手机创建个人虚拟分身。
多语言支持和口型同步。
免费提供服务。

🔗 https://x.com/xiaohuggg/status/1732014004950974917?s=20

3⃣️

💃 MagicAnimate：基于扩散模型的动画框架

将静态图片转换为动作视频。
结合文本生成多人动画。
旨在增强动画的时间一致性和真实感。

🔗 https://x.com/xiaohuggg/status/1731868943340707855?s=20

4⃣️

🖥️ ComfyUI + SD + AnimateDiff效果演示

制作方法即将公布。
作者 @DreamStarter_1 预告即将分享细节。

🔗 https://x.com/xiaohuggg/status/1731950309042229688?s=20

5⃣️

🔬 IBM量子计算的新进展

介绍了IBM Quantum System 2和下一代量子处理器。
Condor拥有1121个超导量子位，Heron拥有133个固定频率量子位。
量子位（Qubits）指数级增长存储信息能力。

🔗 https://x.com/xiaohuggg/status/1731943053928341690?s=20

6⃣️

🎥 Pika：视频特定区域修改功能

'Modify Region' 功能演示。

🔗 https://x.com/xiaohuggg/status/1731904722007970150?s=20

7⃣️

👂 通过再生疗法逆转听力损失

MIT衍生公司Frequency Therapeutics研究小分子药物。
治疗耳内微小毛细胞，促进其再生。
临床试验显示部分参与者听力明显改善。

🔗 https://x.com/xiaohuggg/status/1731896401301557749?s=20

8⃣️

🎵 Suno 创作唱歌视频

使用Midjourney+D-ID技术。

🔗 https://x.com/xiaohuggg/status/1731888448582373761?s=20

9⃣️

🎮 GTA 6 预告片泄露事件

泄露导致Rockstar Games提前发布正式版。

🔗 https://x.com/xiaohuggg/status/1731852214304456888?s=20

12月4日

🥇

🔔 Xiaohu.AI日报「12月4日」 ✨✨✨✨✨✨✨✨

1⃣️

🎭 MoMask：3D动画人物动作生成

根据文字描述生成3D动画人物动作。
能生成常见动作和复杂动作，如特定舞蹈。
像搭积木般组合动作小块，形成流畅动作序列。
能智能填补动作序列中的空白部分。

🔗https://x.com/xiaohuggg/status/1731601609933865214?s=46

2⃣️

🔠 GPT-4处理混乱文本能力

东京大学研究：GPT-4能恢复混乱字母顺序的句子。
理解并纠正输入错误，包括拼写和语法错误。
即使输入不完整或含糊，仍能提供合理回答。

🔗 论文：arxiv.org/abs/2311.18805

🔗https://x.com/xiaohuggg/status/1731560293971767673?s=46

3⃣️

🎯 超远距离二维码伪造替换攻击技术

日本东海大学研究：100米远使用激光替换QR码。
实时动态攻击，隐蔽性强。
计划扩展至1公里距离的实验。

🔗https://x.com/xiaohuggg/status/1731536662810026348?s=46

4⃣️

🛒 网络购物新体验

使用Quest 3的Figmin XR应用实现混合现实增强体验。
可在网页搜索物品，物理上抓取，现实中查看。

🔗https://x.com/xiaohuggg/status/1731506874586190053?s=46

5⃣️

🔍 从12米远恢复手机输入内容

芝加哥大学研究：用望远镜头恢复远距离手机输入内容。
无需预训练、键盘知识或本地传感器。

🔗https://x.com/xiaohuggg/status/1731499487326298540?s=46

6⃣️

🚗 Cybertruck：首款48V汽车

Cybertruck是首款采用48V的汽车。
马斯克解决汽车电压提升问题，分享《如何设计48伏特车辆》书籍。

🔗https://x.com/xiaohuggg/status/1731487869477491157?s=46

12月3日

🤖

🔔 Xiaohu.AI日报「12月3日」 ✨✨✨✨✨✨✨✨

1⃣️

📜 我的专业证书成就：

完成了ChatGPT安装工程师、AI伦理执行官等多个证书考试。
包括神经网络导航员和大自然语言模型搬运工等领域。

🔗 https://x.com/xiaohuggg/status/1731317393396478424?s=20

2⃣️

🎨 腾讯AI实验室的Sketch Video Synthesis创新：

从视频到SVG草图的转换。
支持草图视频的再编辑和创意涂鸦。

🔗 https://x.com/xiaohuggg/status/1731298997405720824?s=20

3⃣️

🌌 Voxon的3D体积显示技术：

真三维图像，无需3D眼镜。
超高速数字光引擎，创造流畅的3D体验。

🔗 https://x.com/xiaohuggg/status/1731289863935463905?s=20

4⃣️

📽️ IP-Adapter图像视频生成教程：

作者@InnerRefle11312提供全面指南。
详细介绍节点和设置，分享视频WORKFLOWS。

🔗 https://civitai.com/articles/3194

🔗 https://x.com/xiaohuggg/status/1731270421704773889?s=20

5⃣️

✈️ 创新的单管道推力矢量无人机：

能够向各个方向飞行。

🔗 https://x.com/xiaohuggg/status/1731248386601631909?s=20

6⃣️

🤖 3D可视化展示GPT模型：

@BrendanBycroft创建的网页展示了LLM的内部结构。
以3D形式呈现，揭示单个token推理的工作原理。

🔗 https://bbycroft.net/llm

🔗 https://x.com/xiaohuggg/status/1731211469323448764?s=20

7⃣️

🔮 Visual Anagrams的扩散模型创造光学幻觉：

创造旋转、翻转、颜色反转的视觉效果。
展示不同图案或形状的视觉新奇体验。

🔗 https://x.com/xiaohuggg/status/1731195907071484287?s=20

8⃣️

💎 DeepMind发现数百万种新材料：

利用GNoME工具发现超过220万种新晶体材料。
展示AI在材料科学领域的预测能力和准确性。

🔗 https://x.com/xiaohuggg/status/1731161530392268827?s=20

9⃣️

🤖 Anthrobots：实验室培养的活体机器人：

由塔夫茨大学和哈佛大学团队开发。
可以移动并促进受损神经元的生长。

🔗 https://x.com/xiaohuggg/status/1730820836637245452?s=20

🔟

🎨 Excalidraw开源文本到图表功能：

虚拟白板应用，支持手绘风格图表。
用户可输入文本描述自动转换为图形。

🔗 https://excalidraw.com

🔗 https://x.com/xiaohuggg/status/1731150833293955141?s=20

12月2日

🤖

🔔 Xiaohu.AI日报「12月2日」 ✨✨✨✨✨✨✨✨

1⃣️

🌐 英伟达H100的主要买家：

Meta 和微软各购买 150,000 个。
谷歌、亚马逊、甲骨文、腾讯各购买 50,000 个。
其他包括 CoreWeave、百度、阿里巴巴、字节跳动、Lambda、特斯拉的采购数量 🔗 https://x.com/xiaohuggg/status/1730970224923717964?s=20

2⃣️

🎤 RealtimeTTS 的特色功能：

实时文本到语音转换，流式处理和即时反应。
精准句子分割，适应不同文本长度。
适用于交互式教学、游戏等实时应用场景。 🔗 https://github.com/KoljaB/RealtimeTTS 🔗 https://x.com/xiaohuggg/status/1726880322879635723?s=20

3⃣️

✈️ Roadrunner 自主飞行器的亮点：

亚音速飞行，垂直起降。AI和自动化技术应用。
可用于多种任务，如消防、搜索救援。
Roadrunner-M 变体用于地面空中防御。 🔗 https://x.com/xiaohuggg/status/1730948821012902046?s=20

4⃣️

🎥 IPadapter plus 的新特性：

制作高动态战斗场景动画。
批量展开设置，增强创造力。 🔗 https://x.com/xiaohuggg/status/1730863044518195218?s=20

5⃣️

🚗 Autoware 开源自动驾驶系统的特点：

基于ROS，模块化架构。
持续进化，适用于多种自动驾驶应用场景。 🔗 https://x.com/xiaohuggg/status/1730839121311183264?s=20

6⃣️

🤖 "Anthrobots" 由塔夫茨大学和哈佛大学合作研发：

微小活体机器人，在实验室移动。
促进受损人类神经元生长。
未来医疗技术发展的潜力。 🔗 https://x.com/xiaohuggg/status/1730820836637245452?s=20

7⃣️

📄 Marker 转换文件为 Markdown 格式：

支持多种文件格式。
高速、高准确度，优化处理书籍和论文。
自动去除多余元素，支持多语言。 🔗 https://x.com/xiaohuggg/status/1730795955375739093?s=20

8⃣️

💬 ChatGPT-Web 的主要特性：

开源聊天界面，基于 OpenAI API。
无需复杂设置，支持语音输入、DALL·E图像生成等。
本地存储消息，成本效益高。 🔗 https://x.com/xiaohuggg/status/1730774966701027828?s=20

9⃣️

🎞️ 机器人扫射特斯拉cybertruck视频：

显示影子细节处理。
Wonder Dynamics 支持短视频创作。 🔗 https://x.com/xiaohuggg/status/1730760301061304740?s=20

12月1日

🤖

🔔 Xiaohu.AI日报「12月1日」 ✨✨✨✨✨✨✨✨

1⃣️

🗣️ 微软GAIA项目：合成会说话的头像视频

从语音和单张肖像合成自然会说话的头像视频。
支持文本提示如“悲伤”、“张开嘴”来指导视频生成。
精确控制面部动作，如微笑或惊讶表情。
可接受语音、视频或文字指令。

🔗 https://x.com/xiaohuggg/status/1730547607716643080?s=20

2⃣️

🌐 Meta AI推出Seamless：实时AI语言翻译模型

Seamless模型实时翻译100多种语言，延迟不超过2秒。
保持原说话者的情感和语气，翻译后语音自然真实。

🔗 https://x.com/xiaohuggg/status/1730404081972461921?s=20

3⃣️

🖥️ ChatGPT控制电脑教程

ChatGPT像人类使用鼠标和键盘，自主操作电脑。
利用GPT 4V，AI能看着屏幕自主操作。
结合不同AI模型，如GPT-4v。
正在开发更准确预测鼠标点击位置的AI模型。

🔗 https://x.com/xiaohuggg/status/1730521049576722624?s=20

4⃣️

🎨 Pikaso：实时作画神器

使用Freepik的Pikaso进行实时图像生成。
通过拖拽或上传素材实时生成图像。
可以自由画笔作画，但风格固定。邀请码：HUG

🔗 https://x.com/xiaohuggg/status/1730485302593225108?s=20

🔗 体验地址：https://freepik.com/pikaso

5⃣️

🎵 Stable Audio：音乐生成新功能

内置风格提示库，轻松生成音乐。
支持上传音乐生成。
控制选项丰富，生成高质量音频。
免费版每月20个音轨，付费版更多。

🔗 体验：http://stableaudio.com

🔗 https://x.com/xiaohuggg/status/1730476486820597883?s=20

6⃣️

📹 Ego-Exo4D：视频学习和多模态感知数据集

由Meta AI和15所大学共同开发。
包含戴相机的人视角和环境拍摄的视频。
旨在帮助AI学习特定环境下的人类行为。

🔗 https://x.com/xiaohuggg/status/1730455784092549356?s=20

7⃣️

🖌️ Pikaso：即将推出实时摄像头画画功能

利用摄像头实时生成图像。
技术发展迅速，带来真实炫酷体验。

🔗 https://x.com/xiaohuggg/status/1730427883779404184?s=20

8⃣️

🏟️ 空间计算技术：改变观看体育赛事方式

LIVEPLEX展示沉浸式观看体育赛事。
可改变观看角度，近距离观察运动员。
2024年开始推广应用。

🔗 https://x.com/xiaohuggg/status/1730421265754927482?s=20

9⃣️

🚗 特斯拉Cybertruck交付仪式及配置

后轮驱动版43.5万人民币，续航402公里。
四驱版57万人民币，续航547公里。
野兽版71.4万人民币，续航514公里。
2024年和2025年上市。

🔗 https://x.com/xiaohuggg/status/1730383705108254848?s=20

11月30日

📣

🔔 Xiaohu.AI日报「11月30日」 ✨✨✨✨✨✨✨✨

1⃣️

📉 Stability AI面临出售：（但是CEO进行了辟谣）

投资方Coatue Management对公司财务状况担忧，要求CEO下台。
财务脆弱，高管离职，面临管理挑战。
已与多家买方接触。

🔗 https://x.com/xiaohuggg/status/1730232490277691532?s=20

2⃣️

😂 表情包生成实物图：

开源技术，实时生成。
多种风格：皮克斯、Minecraft、8 bit pixel。
体验地址：https://tryemoji.com

🔗 https://x.com/xiaohuggg/status/1730128950658007186?s=20

3⃣️

🦸 奥特曼承认Q模型*的存在：

Altman评论信息泄露事件，强调技术安全性和益处。
持续关注技术快速进步。

🔗 https://x.com/xiaohuggg/status/1730164257239765120?s=20

4⃣️

🎥 Animate Anyone革新：

静态图像转动态视频技术。
阿里巴巴智能计算研究院开发。
适用于多种角色类型。

🔗 https://x.com/xiaohuggg/status/1730133378501067046?s=20

5⃣️

📈 HeyGen的快速增长：

员工25人，最近融资560万美元。
年度循环收入从100万美元增至1800万美元。
正在与中国血统保持距离，专注西方市场。

🔗 https://x.com/xiaohuggg/status/1730106242461565394?s=20

6⃣️

🚁 MonoNav系统开发：

由普林斯顿大学开发。
适用于微型空中飞行器，仅需单目相机。
能在复杂环境中高速飞行，提高安全性。

🔗 https://x.com/xiaohuggg/status/1730092380005798004?s=20

7⃣️

🔍 大语言模型综合性研究报告：

比较ChatGPT与其他开源大语言模型。
覆盖多项能力：逻辑推理、长文本建模等。
ChatGPT综合能力领先。

🔗 https://x.com/xiaohuggg/status/1730070281535013067?s=20

8⃣️

🖥️ 微软开源ThreadX：

实时操作系统，广泛应用于嵌入式系统。
运行于超过120亿台设备。
资源受限环境下高效运行。

🔗 https://x.com/xiaohuggg/status/1730057451473662380?s=20

9️⃣

🌐 OpenAI领导层变动：

Sam Altman继续担任CEO，Mira Murati为CTO。
Greg Brockman回归担任总裁。
Bret Taylor、Larry Summers和Adam D’Angelo加入董事会。

🔗 https://x.com/xiaohuggg/status/1730039690974330936?s=20 🔟 🧠 提示的力量与GPT-4的专业应用： - 微软研究院显示GPT-4可通过提示变为多领域专家。 - GPT-4在医学基准测试中优于专门模型Med-PaLM 2。 - 提示策略可有效引发特定领域专业知识，无需特定数据微调。 🔗 https://x.com/xiaohuggg/status/1729862138796351499?s=20

11月29日

📣

🔔 Xiaohu.AI日报「11月29日」 ✨✨✨✨✨✨✨✨ 为方便阅读，今日内容已更新到公众号 https://mp.weixin.qq.com/s/jOn-HZH19QQ-Cd8wA5YPow 1⃣️ 🧠 提示的力量与GPT-4的专业应用： - 微软研究院显示GPT-4可通过提示变为多领域专家。 - GPT-4在医学基准测试中优于专门模型Med-PaLM 2。 - 提示策略可有效引发特定领域专业知识，无需特定数据微调。 🔗 https://x.com/xiaohuggg/status/1729862138796351499?s=20

2⃣️ 📸 北京互联网法院AI图片著作权案： - 法院判定AI生成图片作者享有著作权。 - 原告智力投入被认为创作过程的一部分。 🔗 https://x.com/xiaohuggg/status/1729804940531601532?s=20

3⃣️ 🏥 MEDITRON大型医学语言模型： - 针对医学领域设计，能处理医学文献和数据。 - 在多个医学基准测试中表现出色。 🔗 https://x.com/xiaohuggg/status/1729794207089664180?s=20

5⃣️ 🤖 亚马逊推出Amazon Q企业聊天机器人： - 基于生成式AI，可根据业务需求定制。 - 支持超过40种连接器，易于企业系统集成。 🔗 https://x.com/xiaohuggg/status/1729782627669004793?s=20

6⃣️ 🔓DeepMind揭示ChatGPT训练数据泄露风险： - 揭露了ChatGPT训练数据中的"发散攻击"方式。 - 攻击方法可以提取大量训练数据。 - 攻击揭示了经过对齐模型的数据泄露风险。 🔗 https://x.com/xiaohuggg/status/1729750005706264598?s=20

7⃣️ 🤔老板未来或可用嘴指点电脑画图？ - 探讨了未来工作方式的变革可能性。 🔗 https://x.com/xiaohuggg/status/1729747949947584679?s=20

8⃣️ ✨@tldraw 的魔法绘图技巧： - 分享了如何使用 @tldraw 进行实时绘图。 🔗 https://x.com/xiaohuggg/status/1729722112191934575?s=20

9⃣️ 📚在arxiv.org阅读论文的小技巧： - 分享了将PDF论文转换为HTML版本以便阅读的方法。 - 提高了论文阅读的便捷性。 🔗 https://x.com/dotey/status/1729602153805701533?s=20

🔟 💥 Pika发布新AI视频模型： - Pika公司：4人团队，包括两位华裔女创始人。 - 今年成立，已完成三轮融资，共5500万美元。 - 明年计划扩充团队至20人。 🔗https://x.com/xiaohuggg/status/1729693538613629377?s=20

1️⃣1️⃣ 🚀Stability AI推出SDXL Turbo： - 描述了SDXL Turbo的快速图像生成能力。 - 强调了其在图像质量和计算效率上的优势。 🔗 https://x.com/xiaohuggg/status/1729680868560793901?s=20

11月28日

📣

🔔 Xiaohu.AI日报「11月28日」 ✨✨✨✨✨✨✨✨

为方便阅读，今日内容已更新到公众号 https://mp.weixin.qq.com/s/9Ni0TtvlE14A05ZUhDoFPQ

1⃣️

🎨 Drawfast在线体验：

超快速草图到实物图渲染工具。
即时看到草图绘画被转换成真实的实物图像。
GitHub链接提供了更多信息。 🔗 http://drawfast.tldraw.com 🔗 https://github.com/tldraw/draw-fast 🔗 https://x.com/xiaohuggg/status/1729494711076004286?s=20

2⃣️

🤖 RAGs：

允许创建和定制自己的RAG流水线，全部通过自然语言。
可以设置一个“基于自己数据的ChatGPT”，无需编码。
机器人结合了信息检索和文本生成能力。 🔗 https://x.com/xiaohuggg/status/1729462359486582975?s=20

3⃣️

📸 TRASH BABY：

混合任意两张照片生成新照片。
支持添加新照片与之前图像混合，创造独特图像作品。
可选择自己的照片进行混合。 🔗 https://x.com/xiaohuggg/status/1729404520814575674?s=20

4⃣️

🔍 Cleanlab：

自动检测机器学习数据集中的问题，进行清理修复。
识别错误标签、异常值、重复数据等。
支持处理多种数据类型，如图像、文本、音频、表格数据。 🔗 https://x.com/xiaohuggg/status/1729356197906837678?s=20

5⃣️

📹 Real-ESRGAN-Video：

视频清晰度提升至2K 或 4K。
提供不同模型处理模式，包括标准模型、动画专用模型和特殊模型。
用户可根据视频内容选择最适合的模型。 🔗 https://x.com/xiaohuggg/status/1729336570115920325?s=20

6️⃣

🤖 Awesome-Assistants：

收集展示各类AI助手：聊天机器人、语音助手、自动化工具。
易于集成到不同编程语言的应用或系统。 🔗 https://github.com/awesome-assistants/awesome-assistants 🔗 https://x.com/xiaohuggg/status/1729313540887175590?s=20

7️⃣

🎮 和GPT玩井字棋游戏：

结合@tldraw 实现实时画图新玩法。 🔗 https://x.com/xiaohuggg/status/1729288978283827360?s=20

11月27日

📣

🔔 Xiaohu.AI日报「11月27日」 ✨✨✨✨✨✨✨✨

1⃣️

🎭全球首位AI生成的AV女演员木花愛出道：

由日本h.m.p公司推出。
身高165厘米，三围88G/55/85。
首部作品《世界初新人 AI 女優木花あい AV デビュー》12月22日发售。

🔗 https://x.com/xiaohuggg/status/1729099853698093128?s=20

2⃣️

💻DiffusionMat：高质量视频抠图框架：

基于扩散模型，提高抠图质量。
特点：粗糙到精细的过渡，细节保留，透明度处理，专门损失函数。
优势：处理复杂边缘和小细节。

🔗 https://x.com/xiaohuggg/status/1729091603900559731?s=20

3⃣️

🔧Comfy Workflows：工作流分享站：

提供多种ComfyUI工作流程。
支持下载、拖放加载和在线运行。
网站地址：http://ComfyWorkflows.com

🔗 https://x.com/xiaohuggg/status/1729063470124183735?s=20

4⃣️

🧠What Q* could be？强化学习与搜索技术结合：

结合自我对弈、前瞻性规划等技术。
特点：多策略结合，思维树推理，自我比赛，步骤打分，合成数据训练。
由内森·兰伯特深入分析。

🔗 https://x.com/xiaohuggg/status/1729037971578626302?s=20

5⃣️

🤖OpenChat-3.5-7B：超越ChatGPT的语言模型：

使用C-RLFT策略进行微调。
优点：处理混合质量数据，学习类条件策略。
在多个基准测试中表现优异。
网站、GitHub和论文链接提供。

🔗 https://x.com/xiaohuggg/status/1729002211404087412?s=20

6⃣️

📚Andrej Karpathy的大语言模型课程：

内容深入浅出，已被翻译成双语。
分批上传双语视频和字幕文稿。

🔗 https://x.com/dotey/status/1728959646138880026?s=20

7⃣️

🖼️LCM实时图像生成展示：

日本博主展示约40fps的图像生成速度。
演示视频包括OBS屏幕录制和VRoid渲染。

🔗 https://x.com/xiaohuggg/status/1728988899161333970?s=20

8⃣️

📱UIDraw：手机绘制UI草图转HTML代码：

结合GPT-4 Vision和PencilKit/PKCanvasView技术。
用户绘制UI，转换成HTML。
GitHub链接提供。

🔗 https://x.com/xiaohuggg/status/1728968230864351237?s=20

9⃣️

✍️Loom：与AI共创故事或文章的工具：

基于GPT-3，采用树形结构组织文本。
允许用户在不同分支间选择发展故事。

🔗 https://x.com/xiaohuggg/status/1728963473152045089?s=20

11月25日

📣

🔔 Xiaohu.AI日报「11月25日」 ✨✨✨✨✨✨✨✨ 为方便阅读，今日内容已更新到公众号 https://mp.weixin.qq.com/s/mkVOPtZM1PC5bMIoqEc56g

1️⃣️

🎨 draw-fast：草图到实物图渲染工具

实时将草图转换成真实图像。
项目基于 @fal_ai_data 的 LCM 模型。

🔗 https://github.com/tldraw/draw-fast

🔗 https://x.com/xiaohuggg/status/1728402442029834610?s=20

2️⃣️

🏃♂️ Runway 运动笔刷 Motion Brush

展示了动态和创新的运动笔刷效果。

🔗 https://x.com/xiaohuggg/status/1728360764757708852?s=20

3️⃣️

🤔 OpenAI的Q*项目解析

商业内幕文章提供了Q*的深入分析。
描述了Q*与传统大语言模型的区别。

🔗 https://x.com/xiaohuggg/status/1728339407646945593?s=20

4️⃣️

🎵 AI歌手Anna Indiana的首支单曲

全部由AI生成：曲调、节奏、歌词和形象。
首单《Betrayed by this Town》展现AI音乐创造力。

🔗 https://x.com/xiaohuggg/status/1728302528994156841?s=20

5️⃣️

🖌️ LiveSketch：动画化静态素描

通过文本提示将静态素描转换为动画。
为素描添加生动动作的简单方法。

🔗 https://livesketch.github.io

🔗 https://x.com/xiaohuggg/status/1728284751931568512?s=20

6️⃣️

🤖 LEO：3D环境中的多任务智能体

在3D环境中进行感知、定位、推理、规划和行动。
结合大语言模型和机器学习，适用于多个领域。

🔗 https://x.com/xiaohuggg/status/1728255730061582759?s=20

11月24日

📣

🔔 Xiaohu.AI日报「11月24日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 DeepFace：面部识别和分析工具

功能包括面部验证、识别和属性分析。
整合多个先进模型，准确率超越人类。
支持实时视频分析和外部系统调用。

🔗 https://x.com/xiaohuggg/status/1728049969058423029?s=20

2⃣️

🖥️ Comfyui：SVD Image 2 Video优化

优化内存占用至8GB。
提供workflow以供在不同显卡上运行。

🔗 https://github.com/hylarucoder/comfyui-workflow/blob/main/svd/svd-image-to-video.json

🔗 https://x.com/hylarucoder/status/1727997579429126361?s=20

3⃣️

📚 泄露的GPTs提示大集合

汇集了多种GPTs模型的泄露提示。
涵盖多个应用领域，如学术、占卜、医疗咨询等。

🔗 https://github.com/linexjlin/GPTs

🔗 https://x.com/xiaohuggg/status/1727922701317370118?s=20

4⃣️

🎥 PixelDance：高动态视频生成模型

通过文本和图片生成复杂场景视频。
在连贯性和视频质量方面表现卓越。

🔗 https://x.com/xiaohuggg/status/1727911657358442825?s=20

5⃣️

🐭 Q学习：无需先验知识的强化学习算法

适用于复杂环境中的最佳策略学习。
结合了A Star搜索算法。

🔗 https://x.com/xiaohuggg/status/1727691894405398617?s=20

6⃣️

📚 Merse：AI转化个人故事为多种内容

将故事和经历转化为漫画、书籍、电影等。
项目现已开源。

🔗 https://merse.co

🔗 https://github.com/markrachapoom/merse

🔗 https://x.com/xiaohuggg/status/1727881898012336253?s=20

7⃣️

🏥 GPT-4V在美国医学执照考试表现

准确率达到90.7%。
图像问题上超过大多数医学生。
解释能力近似领域专家。

🔗 https://x.com/xiaohuggg/status/1727870864736284878?s=20

8⃣️

🔍 DuckTrack：多模态交互数据收集工具

精确追踪和回放鼠标、键盘和屏幕操作。
支持屏幕录制和私人信息保护。
可在多个操作系统上运行。

🔗 https://x.com/xiaohuggg/status/1727856396820193700?s=20

11月23日

📣

🔔 Xiaohu.AI日报「11月23日」 ✨✨✨✨✨✨✨✨

1⃣️

🖌️ Flowty Realtime LCM Canvas：实时草图转图像：

在MacBook上运行的实时草图转图像开源程序。
M2 Max配置下每次渲染需1.2秒。
可调整模型ID和参数以优化结果。

🔗 https://github.com/flowtyone/flowty-realtime-lcm-canvas

🔗 https://x.com/xiaohuggg/status/1727622388358267384?s=20

2⃣️

🎬 MCVD：通用的视频生成模型：

能创造全新视频、预测未来画面、重建过去画面。
在视频片段之间创造中间画面。

🔗 https://x.com/xiaohuggg/status/1727609231866773878?s=20

3⃣️

💻 #AI开源项目推荐：vscode-ui-sketcher：

VSCode插件，利用GPT-4V多模态能力生成ReactNative UI界面。
需OpenAI的API Key。

🔗 https://x.com/dotey/status/1727468251154620804?s=20

4⃣️

📰 据路透社：Sam Altman被解雇事件：

由于OpenAI内部研究人员的警告信件。
可能是因为Q*模型，是AGI的重大突破。
研究显示其初步成功于数学问题。

🔗 https://x.com/xiaohuggg/status/1727507238896730169?s=20

5⃣️

🌟 更多关于Q*（Q-Star）的信息：

可能具备自主学习、自我改进能力。
可自主决策，或已有轻微自我意识。
GPT-Zero项目解决数据生产问题。

🔗 https://x.com/xiaohuggg/status/1727568964065382411?s=20

6⃣️

🔊 将网站变成播客/有声读物：

利用OpenAI的TTS语音API。
自动识别网页内容语言并朗读。
目前为Demo测试，需OpenAI API。

体验： http://readany.vercel.app

🔗 https://x.com/xiaohuggg/status/1727555325556039898?s=20

7⃣️

📺 Runway推出AI视频频道：

7x24小时直播Gen AI生成视频。
内容丰富，堪称大片。

🔗 http://Runway.TV

🔗 https://x.com/xiaohuggg/status/1727534814784581931?s=20

8⃣️

🤖 Inflection AI宣布Inflection-2模型完成：

在计算能力类别中全球领先。
能力第二强的大语言模型。
将部署于Pi聊天机器人。

🔗 https://x.com/xiaohuggg/status/1727528903433138304?s=20

9⃣️

🗣️ ElevenLabs推出AI语音转换器：Voice-Changer：

转换不同声音或角色。
控制情感和传递方式。

🔗 https://x.com/xiaohuggg/status/1727519973718040838?s=20

11月22日

📣

🔔 Xiaohu.AI日报「11月22日」 ✨✨✨✨✨✨✨✨

1⃣️

🌐 PhysGaussian：物理规律与3D效果的结合

物理动态行为模拟：包括弹性物体、塑性金属、流体和颗粒物质。
真实世界物理行为与3D视觉效果的结合。
多样性展示：应用于不同材料，无需复杂的几何形状处理。

🔗 https://x.com/xiaohuggg/status/1727300596930392124?s=20

2⃣️

😄 Emmett Shear：OpenAI的幽默临时CEO

微软将于12月1日在中国大陆免费提供Copilot功能给企业和教育机构。
Copilot AI模型支持联网获取数据，免费提供，需订阅Microsoft 365。

🔗 https://x.com/xiaohuggg/status/1727243786496229508?s=20

3⃣️

🔄 Sam Altman：回归OpenAI担任CEO

组建新董事会，包括 Bret Taylor、Larry Summers 和 Adam D'Angelo。

🔗 https://x.com/xiaohuggg/status/1727207285389467917?s=20

4⃣️

💃 MagicDance：动作和面部表情转移的人类舞蹈视频

TikTok项目，动作和面部表情转移到另一人身上。
保持身份特征不变，分开处理动作和外观。
适用于上半身、面部特征控制和卡通风格动画制作。

🔗 https://x.com/xiaohuggg/status/1727193858063405162?s=20

5⃣️

⚡ Lookahead decoding：加速大型语言模型推理

解码速度提高1.5到2.3倍，适用于快速回应的应用。
打破传统自回归解码中的顺序依赖性。
同时处理多个部分，提高解码速度。

🔗 https://x.com/xiaohuggg/status/1727183444441174375?s=20

6⃣️

🤖 Grok：向所有 X Premium+用户开放

马斯克宣布，邀请用户体验全新的Grok聊天体验。
未购买 Premium + 订阅者推荐购买，价格每月 16 美元。

🔗 https://x.com/xiaohuggg/status/1727149007074709589?s=20

7⃣️

🎨 Runway Gen-2 Motion Brush教程

精确控制视频中特定区域的运动。
可设定运动方向和速度，独立控制不同方向速度。
运动控制与相机运动独立，支持同时使用。

🔗 https://x.com/xiaohuggg/status/1727148300292530186?s=20

8⃣️

🎥 Stability AI：发布Stable Video Diffusion视频开源模型

支持文本到视频、图像到视频转换。
提供14或25帧，576 x 1024分辨率，支持多视图生成。
帧插值，支持3D场景，通过LoRA控制摄像机。

🔗 https://x.com/xiaohuggg/status/1727123892324774089?s=20

9⃣️

🚀 Claude 2.1版本：重大升级更新

增强处理能力，准确性提升，虚假/幻觉陈述减少。
早期支持企业级功能，连接API、数据库和Web服务。
200,000个tokens的上下文限制适用于Pro用户，价格每月20美元。

🔗 https://x.com/xiaohuggg/status/1727119128581100001?s=20

🔟

🗣️ ChatGPT：语音功能向所有免费用户开放

更新下载客户端即可使用语音功能。

🔗 https://x.com/xiaohuggg/status/1727112003372892187?s=20

1⃣1⃣️

一个沉浸式的翻译工具：ZipZapAI

🌐 高质量多语言翻译：提供沉浸式阅读和写作体验，支持多种语言的高质量翻译。

🔍 智能内容识别：能够智能识别网页上的内容，如Twitter、Discord等，提供鼠标悬停翻译。

🌍 支持主流浏览器：支持Chrome、Edge等主流浏览器，下载插件即可使用。

👍 用户友好：简单易用的用户界面，操作很方便。

💬 随时询问AI：内置了GPT的聊天功能，可以随时提问。

🔗https://twitter.com/xiaohuggg/status/1727267679663477212

11月21日

📣

🔔 Xiaohu.AI日报「11月21日」 ✨✨✨✨✨✨✨✨

1⃣️

💥 Stable to Video 引爆讨论：

看效果相当惊艳。

🔗 https://x.com/xiaohuggg/status/1726966015052169228?s=20

2⃣️

🎤 山姆奥特曼与AI合作唱科技新闻：

使用@suno_ai_ 和 Meta的 Audiocraft制作。
100% AI生成的说唱Rap。 🔗https://x.com/xiaohuggg/status/1726955744866750674?s=20

3⃣️

🌍 GPTs导航站的兴起：

用户可投票筛选高质量GPT。
分类筛选和提交自己的GPT功能。

🔗 http://GPTseek.com

4⃣️

👓 Video-LLaVA：视觉语言模型革新：

图像和视频信息转换为文字格式。
多模态理解能力，适用于自动问答系统等。

🔗 https://x.com/xiaohuggg/status/1726928308288561284?s=20

5⃣️

📈 百度文心一言用户数达7000万：

🔗 https://x.com/xiaohuggg/status/1726891372136013900?s=20

6⃣️

🔊 RealtimeTTS：实时文本转语音技术：

即时反应和流式处理。
与多个语音合成引擎兼容。

🔗 https://github.com/KoljaB/RealtimeTTS

🔗 https://x.com/xiaohuggg/status/1726880322879635723?s=20

7⃣️

🚀 Ilya Sutskever 探讨AGI未来：

演讲聚焦AGI的潜力与风险。
强调通过合作确保AGI的安全发展。

🔗 https://x.com/dotey/status/1726809515448840482?s=20

8⃣️

🔒 Flipper Zero：多功能黑客工具：

与多种无线协议交互。
演示捕获控制BLE设备。

🔗 https://x.com/xiaohuggg/status/1726827491824980043?s=20

9⃣️

🤖 GOAT：机器人智能导航系统：

自主导航至未知环境中特定物体。
可接受图片、语音指令或物体类别输入。

🔗 https://x.com/xiaohuggg/status/1726803125548491168?s=20

🔟

🧠 OpenAI的控制权解析：

OpenAI归属于一个独立的非营利性董事会。
详解OpenAI的官方架构。

🔗 https://x.com/xiaohuggg/status/1726792662332948587?s=20

1⃣1⃣️

🚀 Grok 即将登陆X：

预告单独入口。

🔗 https://x.com/xiaohuggg/status/1726762074833826190?s=20

1⃣2⃣️

🎨 Runway发布新功能更新：

运动笔刷、Gen-2 风格预设、高级摄像机控制。
提高图像生成的保真度、一致性和分辨率。

🔗 http://research.runwayml.com/more-control-fidelity-and-expressibility

🔗 https://x.com/xiaohuggg/status/1726609609723711652?s=20

11月20日

📣

🔔 Xiaohu.AI日报「11月20日」 ✨✨✨✨✨✨✨✨

1⃣️

🔥 OpenAI 员工集体签署信件：

员工要求董事会辞职并重新任命首席执行官奥特曼。
否则可能集体加入微软。 🔗 https://x.com/xiaohuggg/status/1726601113804447765?s=20

2⃣️

😲 奥特曼加入微软引发猜测：

对于一个公司创始人快速加入另一个公司的行为引起质疑。
疑似“地下情”存在。 🔗 https://x.com/xiaohuggg/status/1726591350966239589?s=20

3⃣️

💹 微软市值大涨：

过去60分钟市值增长1150亿美金。 🔗 https://x.com/xiaohuggg/status/1726522839166332956?s=20

4⃣️

🚨 马斯克对OpenAI的看法：

评论OpenAI解雇奥特曼的争议。
强调了解雇决定背后的原因对公众很重要。 🔗 https://x.com/xiaohuggg/status/1726532703347237345?s=20

5⃣️

🤝 OpenAI与微软的新发展：

Sam Altman和Brockman将加入微软。 🔗 https://x.com/xiaohuggg/status/1726510109902397522?s=20

6⃣️

🔄 OpenAI新任首席执行官：

Twitch前CEO Emmett Shear成为新任CEO。 🔗 https://x.com/xiaohuggg/status/1726478584792186916?s=20

7⃣️ 👂 Semantic Hearing 降噪耳机：

华盛顿大学和微软开发新型降噪技术。
能根据需要选择性地听取特定声音。 🔗 https://x.com/xiaohuggg/status/1726553804559315222?s=20

8⃣️

😂 实时生活解说项目：

开发者利用GPT-4V和ElevenLabs技术模仿名人声音解说日常生活。
项目代码已在GitHub公开。 🔗 https://x.com/xiaohuggg/status/1726462766553387285?s=20

9⃣️

🔊 StyleTTS 2：开源文本转语音工具：

提供多样化、自然的语音风格。
高效生成和精确控制语音。 🔗 https://x.com/xiaohuggg/status/1726439252316364814?s=20

🔟

🕷️ GPT-Crawler：知识库自动爬虫工具：

爬取网站内容生成JSON文件。
方便创建自定义GPTs知识库。 🔗 https://github.com/BuilderIO/gpt-crawler 🔗 https://x.com/xiaohuggg/status/1726420705368273215?s=20

11月19日

📣

🔔 Xiaohu.AI日报「11月19日」 ✨✨✨✨✨✨✨✨

1⃣️

🎨 LCM即时绘画，体验所见所得：

LCM LoRA支持即时绘图生成，体验直观。
在线体验地址提供直接访问。
清华大学@SimianLuo开发，加速稳定扩散模型运行。 🔗 https://huggingface.co/spaces/ilumine-AI/LCM-Painter 🔗 https://x.com/xiaohuggg/status/1726214119077085693?s=20

2⃣️

💊 VM Pill：可吞咽装置追踪生命体征：

设备可追踪呼吸和心率等体征。
高精度监测：试验显示准确率高达92.7%。
便捷健康监测：无需医院访问即可监测多种健康状况。 🔗 https://x.com/xiaohuggg/status/1726198779727257956?s=20

3⃣️

📝 WPS就使用用户文档AI训练道歉：

用户隐私问题引发争议。
WPS官方更新隐私政策，确保用户文档安全。
强调遵守用户隐私保护法律和标准。 🔗 https://x.com/xiaohuggg/status/1726172579071922338?s=20

4⃣️

🎙️ Insanely Fast Whisper：极速音频转录工具：

能在98秒内转录300分钟音频。
基于OpenAI的Whisper Large v3模型改进。
支持多版本和不同配置，目前只支持Nvidia GPU。 🔗 https://t.co/qBVm8NoeqF 🔗 https://x.com/xiaohuggg/status/1726132734098276861?s=20

5⃣️

📚 OpenStax：免费提供教科书资源：

提供K12和大学多学科教科书。
资源包括幻灯片、手册、题库等。
通过网络、下载PDF或打印方式访问。 🔗 https://openstax.org 🔗 https://x.com/xiaohuggg/status/1726112197448024114?s=20

6⃣️

🚀 Sam奥特曼与OpenAI的内部动态：

在被解雇前暗示OpenAI有重大技术进展。
董事会可能因信息未共享采取行动。
暗示了模型能力的惊人飞跃。 🔗 https://x.com/xiaohuggg/status/1726076059769335909?s=20

7⃣️

🎶 Mustango：文本提示生成音乐：

类似Midjourney，通过文本提示生成音乐。
理解音乐特定技术语言，提供精确控制。 🔗 https://x.com/xiaohuggg/status/1726053135209382391?s=20

11月18日

📣

🔔 Xiaohu.AI日报「11月18日」 ✨✨✨✨✨✨✨✨

1⃣️

🔮 Meta Quest3展现混合虚拟现实技术：

混合虚拟现实技术预计明年将大幅增长。

预示虚拟与现实界限的日益模糊。

🔗 https://x.com/xiaohuggg/status/1725850463785074731?s=20

2⃣️

🎬 德国电信广告突显隐私风险：

广告展示数据滥用和AI风险。

着重于网上分享儿童信息的危害。

🔗 https://x.com/xiaohuggg/status/1725810572657357210?s=20

3⃣️

🤖 瑞士研究者与Inkbit合作开发新3D打印法：

创新3D打印技术一次性打印多种材料。

可直接打印功能完整的机器人手。

研究成果发表在Nature杂志。

🔗 https://x.com/xiaohuggg/status/1725801030162723086?s=20

4⃣️

👗 三维扫描技术捕捉衣物细节：

技术增强电脑模拟真实衣物的能力。

专注于褶皱和变形衣服的精确模拟。

对电影、游戏及虚拟试衣应用有重大影响。

🔗 https://x.com/xiaohuggg/status/1725787462382084523?s=20

5⃣️

🚪 OpenAI高级研究员集体辞职：

包括研究总监和AI风险团队负责人。

跟随CEO Sam Altman和总裁Greg Brockman的离职。

🔗 https://x.com/xiaohuggg/status/1725772118091334130?s=20

6⃣️

😂 面部追踪系统演示引起关注：

演示视频显示沙雕风格。

11月17日

📣

🔔 Xiaohu.AI日报「11月17日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 DeepMind的Mirasol3B模型：

更有效地理解和分析视频中发生的事情，即使视频很长。
独特的多媒体处理：同步和非同步文本分析。
视听与文本关系理解：提高长视频分析效率。 🔗 https://x.com/xiaohuggg/status/1725514650840903914?s=20

2⃣️

🎥 Meta AI的Emu Video和Emu Edit：

Emu Video：文本到视频的生成，高质量视频制作。
Emu Edit：图像编辑的指令驱动模型，精确像素修改。
技术创新：两个扩散模型生成高分辨率视频。 🔗 https://x.com/xiaohuggg/status/1725470552318718046?s=20

3⃣️

🌐 screenshot-to-code项目：

GPT-4V驱动：将屏幕截图转化为HTML网页。 🔗 https://x.com/dotey/status/1725333564470812773?s=20

4⃣️

👤 微软的Deepfakes Creator：

仅需文本输入就可生成逼真的会说话的真人视频
支持多种语言，还可进行实时问答互动 🔗 https://x.com/xiaohuggg/status/1725363740974236000?s=20

5⃣️

🎶 Deepmind与YouTube的Lyria音乐生成模型：

只要哼唱或者吹口哨就能帮你自动生成交响乐
歌词创作和风格控制：艺术家风格模仿。
特色：生成音频带AI水印。
https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/ 🔗 https://x.com/xiaohuggg/status/1725330887318044830?s=20

6️⃣

🏪 GPTs Store界面曝光：GTPs导航站可能会被取代？

精选GPT：展示本周精选GPTs。
热门GPT：社区中受欢迎的GPTs。
特色和趋势：当前列表为空

https://x.com/xiaohuggg/status/1725521961420472757?s=20

7️⃣

🎨 Meshy-1：3D模型生成AI工具：

多样输入：文本和图像到3D模型转换。
风格多样：现实、动漫、卡通等风格选择。
格式支持：多种文件格式，包括Unity插件。
高清纹理：提供4K分辨率PBR纹理。

🔗 https://meshy.ai 🔗 https://x.com/xiaohuggg/status/1725525234412097774?s=20

11月16日

📣

🔔 Xiaohu.AI日报「11月16日」 ✨✨✨✨✨✨✨✨

1⃣️

💡 Sam·奥特曼的产品观：

强调优秀产品的重要性。
提出用户对产品的热爱是衡量成功的关键指标。
讨论两种用户群体策略：深度且专注 vs. 广泛且浅层。 🔗 https://x.com/xiaohuggg/status/1725131257699537085?s=20

2⃣️

🛠️ AI视频转录与翻译工具推荐：

高效的转录和翻译速度。
支持OpenAI TTS，多种语言翻译模型。
非广告，基于用户实际体验。 🔗 https://x.com/xiaohuggg/status/1725106873593143721?s=20

3⃣️

🤖 ChatGPT新功能：

利用对话进行学习和自我提升。
永久记忆用户信息。 🔗 https://x.com/xiaohuggg/status/1725084220782235871?s=20

4⃣️

🔊 微软Personal Voice新功能：

1分钟语音样本克隆，支持100种语言。
保障隐私安全，水印安全认证。
首先在西欧、美国东部和东南亚上线。 🔗 https://x.com/xiaohuggg/status/1725070328135832041?s=20

5⃣️

📸 Polycam 3D建模工具：

基于图片或视频快速创建3D模型。
支持多种格式导出，兼容流行3D软件。
无人机图像转换3D模型功能。 🔗 https://x.com/xiaohuggg/status/1725030753749315768?s=20

6⃣️

🔊 Distil-Whisper在线体验：

速度是Whisper的6倍。
更小模型大小，接近Whisper的词错误率。
强大抗噪声能力和减少幻听。 🔗 https://x.com/xiaohuggg/status/1725016340745073136?s=20

7⃣️ 🌐 NVIDIA介绍RAG技术：

NVIDIA发布关于RAG（检索增强生成）技术的文章。
RAG技术通过外部信息提升AI模型准确性和可靠性。
NVIDIA为RAG开发了参考架构，简化技术集成。 🔗https://x.com/xiaohuggg/status/1724995873309090071?s=20

8⃣️ 💻 LLaMA-Factory：简化大语言模型微调：

提供易用的Web界面，直接进行模型训练、评估和推理。
预集成多种大型语言模型，如LLaMA、BLOOM等。
降低技术门槛，适合非专业用户。 🔗https://t.co/FubJxjHlJf 🔗https://x.com/xiaohuggg/status/1724980497934409783?s=20

9⃣️ 📚 DeepMind和Raspberry Pi推出AI课程：

为11至14岁学生设计基础人工智能课程。
内容涉及搜索引擎、自动驾驶等多个AI应用。
提供全套教学资源，包括挑战项目。 🔗https://experience-ai.org 🔗https://x.com/xiaohuggg/status/1724969696217399486?s=20

🔟 🚀 中国开发世界最快互联网FITI：

网络速度1.2Tbps，可秒传150部4K电影。
依托自主研发的路由器、交换机和光纤技术。
连接全国多个城市，展现中国技术实力。 🔗https://x.com/xiaohuggg/status/1724961447011328255?s=20

1⃣1⃣️ 💡 ChatGPT Team Plan即将上线：

出现在ChatGPT 3.5页面。
支持2个用户，新的Gizmo UI。
可能针对账号共享，影响OpenAI收入和服务。 🔗https://x.com/xiaohuggg/status/1724955699602771975?s=20

1⃣2⃣️ 🔧 微软推出AI芯片但不出售：

Azure Maia AI芯片和Azure Cobalt CPU。
Maia AI专为云端AI工作，Cobalt CPU支持一般云服务。 🔗https://x.com/xiaohuggg/status/1724950322442035478?s=20

1⃣3⃣️ 📈 腾讯应对芯片禁令：

针对美国芯片领域禁令，腾讯表示库存充足。
现有库存能支持几代大模型更新，云能力不受影响。 🔗https://x.com/xiaohuggg/status/1724804784375607429?s=20

11月15日

👍

🔔 Xiaohu.AI日报「11月15日」 ✨✨✨✨✨✨✨✨

1⃣️

🍏 Apple Vision Pro 用户教学视频：

展示了Apple VisionOS beta 6的新手入门视频。
通过眼睛注视和手指轻捏操作，简化用户体验。 🔗 https://x.com/xiaohuggg/status/1724712023009984763?s=20

2⃣️

🤖 Story-to-Motion 动画生成：

由商汤科技研究院开发，将文本故事转换成连续动画。
能生成无限长的角色动画，实现连续的动作和行为表现。 🔗 https://x.com/xiaohuggg/status/1724706784332664998?s=20

3⃣️

🌐 Spline 支持高斯泼溅技术：

允许用户从手机上捕捉3D物体，导入Spline进行处理。
3D高斯溅射技术突出了易用性、快速渲染和高质量3D图像生成。 🔗 https://x.com/xiaohuggg/status/1724685982996500786?s=20

4⃣️

☁️ DeepMind的GraphCast天气预报模型：

能在不到一分钟完成10天的天气预报，准确性超过欧洲中期天气预报中心标准。
已开源，能预测极端天气事件如飓风、洪水。 🔗 https://x.com/xiaohuggg/status/1724643055532413310?s=20

5⃣️

🔒 ChatGPT Plus会员注册暂停：

奥特曼宣布由于服务压力，暂停ChatGPT Plus会员注册。
持续时间尚未确定。 🔗 https://x.com/xiaohuggg/status/1724631012259557686?s=20

6⃣️

🎭 ChatAnything视频聊天：

字节跳动开发，通过文本描述生成独特虚拟角色。
角色拥有独特外观、声音和个性，可进行语音和视频聊天。 🔗 https://x.com/xiaohuggg/status/1724597996225232906?s=20

7⃣️

🔍 Endless Zoom 无限放大图像：

利用潜在一致性模型实现图像无限扩充。
可以不断放大或缩小图像，内容持续生成，无重复或结束。 🔗 https://x.com/xiaohuggg/status/1724591088961507622?s=20 🌐 在线体验：https://endless-zoom.vercel.app

8⃣️

🔊 不可描述声音网站：

收录用户上传的100%真实声音。
网站提供了丰富的声音资源，用户也可上传分享。 🔗 https://x.com/xiaohuggg/status/1724441907273597151?s=20 👂 听听看：https://orgasmsoundlibrary.com

11月14日

👍

🔔 Xiaohu.AI日报「11月14日」 ✨✨✨✨✨✨✨✨

1⃣️

🎶 Music ControlNet：

可精确控制音乐元素如旋律、音量和节奏。
允许细致调整音乐的每个细节。
结合全局属性和时间变化属性的高级音乐生成。 🔗 https://x.com/xiaohuggg/status/1724430161574027280?s=20

2⃣️

📚 学习GPTs调用外部API：

提供了如何在GPTs中利用外部API的指南。 🔗 https://x.com/xiaohuggg/status/1724317866013704384?s=20

3⃣️

📱 MM-Navigator：

基于GPT-4V，能与智能手机界面交互并执行动作。
在iOS和Android屏幕数据集上展示高准确性。
动作描述准确率达91%，执行指令准确率75%。 🔗 https://x.com/xiaohuggg/status/1724278540269682737?s=20

4⃣️

🗣️ AI VoiceOver：

结合GPT 4V API和TTS，识别视频内容并添加语音解说。
支持最大100M视频，自动分析和配音。 🔗 https://gptv-app.vercel.app 🔗 https://x.com/xiaohuggg/status/1724248442669879806?s=20

5⃣️

🧠 大语言模型幻觉排行榜：

GPT 4和Google Palm比较，GPT 4幻觉率最低。
GPT-4准确率97.0%，幻觉率3.0%，Google Palm幻觉率高达27.2%。 🔗 https://x.com/xiaohuggg/status/1724244607092064767?s=20

6⃣️

💻 英伟达最新AI芯片H200：

推理速度是前代H100的两倍。
使用HBM3e内存，显存带宽提升至4.8TB
🔗https://x.com/xiaohuggg/status/1724239489302974768?s=20

7️⃣

🎪 分享一个好玩的线下活动：

AI+X World Tour 首站在大理举办
活动包括Demo展示、Free Talk环节、项目体验。
去中心化方式进行，苍山洱海间参与者随时可以自主发起圆桌讨论
同时有黑客松、论文讨论、大牛分享等环节

🔗 https://waytoagi.feishu.cn/wiki/RYrJwrvSXi4qSMkgCrQc2MFGnAd?table=ldxQVBfWNYzzTh9z

11月13日

👍

🔔 Xiaohu.AI日报「11月13日」 ✨✨✨✨✨✨✨✨

1⃣️

🤖 OpenAI CEO Sam Altman 计划揭秘：

OpenAI 寻求微软更多资金支持建设 AGI。
GPT-5 信息及公司AGI愿景披露。
强调 AI 模型需要创造新知识能力。 🔗 https://x.com/xiaohuggg/status/1724025206187217049?s=20

2⃣️ 💼 POPai：一个不错的AI工作助手：

高效处理文档和PPT创作。
GPT-4V图像API支持，识别多种文档格式并提取PDF结构与内容。
联网搜索功能，可直接解析arxiv论文链接
多功能支持：流程图创建、SEO、博客、社交媒体管理等。
提示词生成器辅助写作。 🚪传送门：https://bit.ly/3MFvNEL 🔗 https://x.com/xiaohuggg/status/1723994341709160750?s=20

3⃣️

👾 ARVIS-1 AI 代理开发进展：

多模态记忆功能，处理视觉与文字信息。
在 Minecraft 中完成200多任务展现卓越性能。 🔗 https://x.com/xiaohuggg/status/1723936044406734876?s=20

4⃣️

🔍 Mozilla 推出 Fakespot Chat 功能亮点：

AI 驱动识别虚假评论。
AI 聊天机器人提供产品咨询。
自动生成产品优缺点。 🔗 https://fakespot.com/analyzer 🔗 https://x.com/xiaohuggg/status/1723915546218094816?s=20

5⃣️

🔎 最简单搜索GPTs方式：

直接在谷歌使用 site:http://chat.openai.com/g 进行搜索。 🔗 https://x.com/dotey/status/1723840471103869267?s=20

6⃣️ ✍️ D-POINT 开源数字手写笔：

使用摄像头跟踪和惯性测量来实现输入。
精确地追踪笔在空间中的位置和方向。
无需特定硬件，可在任意平面使用，兼容消费级网络摄像头。
🔗 https://github.com/Jcparkyn/dpoint 🔗 https://twitter.com/xiaohuggg/status/1724075967948492986

11月12日

🤖

🔔 Xiaohu.AI日报「11月12日」 ✨✨✨✨✨✨✨✨

1⃣️ 🌍 WebPilot 联网API介绍：

介绍了WebPilot作为一个高速准确的联网API。
建议替换默认的Bing联网方式。
提供了将WebPilot添加到GPTs的具体步骤。 🔗https://x.com/xiaohuggg/status/1723695389357015486?s=20

2⃣️ 🔗 FABLE系统帮助“恢复”404页面：

微软和南加州大学研发的FABLE系统。
当网页链接失效时，能够提供新的URL恢复内容。 🔗https://x.com/xiaohuggg/status/1723688885665055080?s=20

3⃣️ 🧐 解释DeepMind视频：

用户分享了对DeepMind视频内容的困惑。
GPT对视频中的复杂结构给出了解释。 🔗https://x.com/xiaohuggg/status/1723686683458318340?s=20

4⃣️ 🤖 Motif AI模型的创新：

Meta AI与麦吉尔大学共同开发的Motif AI模型。
Motif利用LLM知识帮助AI代理快速学习。 🔗https://x.com/xiaohuggg/status/1723660141961339098?s=20

5⃣️ 🤔 人类对AI依赖性的反思：

讨论了人们对AI的依赖及其影响。
描述了AI不可用时的无助感。 🔗https://x.com/xiaohuggg/status/1723565874660196793?s=20

6⃣️ 🛍️ 《剁手GPT》购物助手GPTs：

一款能自动识别物品并比价的AI电商bot。

🔗https://chat.openai.com/g/g-cGx5me4XG-duo-shou-gpt 🔗https://x.com/xiaohuggg/status/1723554847147057501?s=20

7⃣️ 📝 比尔·盖茨对AI代理未来的见解：原文：https://gatesnotes.com/AI-agents 🔗https://x.com/xiaohuggg/status/1723547104134803596?s=20

8⃣️ ✏️ Draw-a-UI与DesignerGPT网页设计工具：

Draw-a-UI工具可将手绘草图转化为网页。
DesignerGPT是一个快速创建和托管网站的自定义GPT机器人。 🔗https://chat.openai.com/g/g-2Eo3NxuS7-designergpt 🔗https://x.com/xiaohuggg/status/1723537400461430794?s=20

11月11日

👍

🔔 Xiaohu.AI日报「11月11日」

✨✨✨✨✨✨✨✨

1️⃣

🤖 贾维斯Jarvis项目：

实现了语音操控图像的技术，包括搜索、选择和图像修复。
不依赖外部API或OpenAI技术，所有处理在本地完成。
项目Open-NLLB计划开源，并等待更强大的GPU支持研究。

🔗https://github.com/gordicaleksa/Open-NLLB

🔗https://x.com/xiaohuggg/status/1723337481142297039?s=20

2️⃣

📘 《Hello 算法》教程：

提供动画图解和一键运行功能的开源数据结构与算法教程。
支持多种编程语言，适合初学者学习和理解算法原理。

🔗https://hello-algo.com

🔗https://x.com/xiaohuggg/status/1723308139750285583?s=20

3️⃣

🎶 MusicGen Stereo立体声模型：

Meta AI发布的升级版MusicGen模型，可以将单声道音乐转化为立体声。

🔗https://x.com/xiaohuggg/status/1723252133796147569?s=20

4️⃣

🎥 ZeroNVS 360度视频合成：

从单张照片合成360度视角视频的技术。
适用于复杂环境，利用先进算法理解深度和空间。

🔗https://x.com/xiaohuggg/status/1723242598952042507?s=20

5️⃣

🌤️ 做了个GPTs 3D立体天气海报：

改进了3D立体天气海报的画风和天气融合度。

🔗https://chat.openai.com/g/g-aTdwKcgsE-cityweatherart

🔗https://x.com/xiaohuggg/status/1723211106125324399?s=20

6️⃣

🖌️ Runway Motion Brush功能预告：

即将推出的功能，能让画面中的物体和人物随手势动起来。

🔗https://x.com/xiaohuggg/status/1723153054646849951?s=20

7️⃣

🔮 GPT-5 型号：Gizmo内测：

传说中的GPT-5型号正在进行灰度测试阶段。

🔗https://x.com/xiaohuggg/status/1723007637329981614?s=20

11月10日

🤖

🔔小互的推特 11月10日更新

✨✨✨✨✨✨✨✨

1️⃣

🎙️ EmotiVoice情感TTS引擎：

网易有道开发的TTS引擎，支持2000种语音，中英双语。
特色在于情感合成，可表达快乐、兴奋、悲伤等多种情绪。
提供易用网络界面和批量生成脚本接口。

🔗 http://github.com/netease-youdao/ 🔗 https://x.com/xiaohuggg/status/1722953419630252077?s=20

2️⃣

🖥️ 与GPT-4共享屏幕：

通过脚本共享电脑屏幕，让GPT-4实时提供指导和建议。
类似虚拟助手，助力工作学习，如在Blender中的模型变换指导。

🔗 https://x.com/xiaohuggg/status/1722937627790528791?s=20

3️⃣

🤲 HotGestures虚拟现实手势控制：

剑桥大学研究人员开发的虚拟现实技术，通过手势控制3D建模工具。
无需菜单交互，提供直观的“超人”式操作体验。

🔗 https://x.com/xiaohuggg/status/1722898664409186568?s=20

4️⃣

🌐 3D城市立体天气预报：

通过简单输入城市名称，获取立体天气预报海报。
正在改进中，希望测试并提供反馈。

🔗 https://chat.openai.com/g/g-aTdwKcgsE-postercraft 🔗 https://x.com/xiaohuggg/status/1722888249025442094?s=20

5️⃣

💻 Public APIs集合：

收集全球免费API集合的GitHub列表，涵盖多个领域。
对于构建GPTs等AI应用非常有用。
可以利用LLMs链接并使用这些API。

🔗 https://github.com/public-apis/public-apis 🔗 https://x.com/xiaohuggg/status/1722884574349570295?s=20

6️⃣

🎥 文本转3D动画视频：

@pika_labs 即将发布支持生成高清视频的Text to Video 1.0版本。
AI视频制作领域的竞争进入白热化阶段。

🔗 https://x.com/xiaohuggg/status/1722835648959373607?s=20

7️⃣

📌 AI pin发布会视频：

由前苹果团队开发的可穿戴AI智能硬件，获得知名企业投资。
无需唤醒词，通过语音控制，内置投影仪和深度传感器投影交互界面。
功能类似智能手机，完全由AI驱动。

🔗 https://hu.ma.ne/aipin 🔗 https://x.com/xiaohuggg/status/1722787102415622380?s=20

8️⃣

🌄 @runwayml自然风光视频：

生成的自然风光视频质量高，以假乱真。

🔗 https://x.com/xiaohuggg/status/1722803484674961671?s=20

9️⃣

🚀 NASA+流媒体服务：

NASA推出的流媒体服务，无需订阅，无广告。
提供丰富的科普视频和纪录片，如《Other Worlds》和《Space Out》。
通过多平台可访问，包括英文和西班牙语内容，还有儿童动画节目。

🔗 https://x.com/xiaohuggg/status/1722620148778258513?s=20

历史项目记录：http://xiaohu.ai/

11月9日

🤖

🔔小互的推特 11月9日更新

✨✨✨✨✨✨✨✨

今日AI新闻简报

🍏 苹果新专利：CGR技术生成虚拟形象，展示穿戴效果

🧠 微软AI专利：充当治疗师，疏导心理问题

📊 阿里CEO吴泳铭：将开源国内最大720亿参数模型

🚫 李彦宏：反对重复造大模型，浪费社会资源

🗣 苹果改造Siri：明年或用大语言模型

🔒 谷歌Open Se Cura：为Pixel带来低功耗AI

💻 微软计划：AI助手Copilot将进入Windows 10

🛒 亚马逊：成立AI训练团队，投资数百万美金

🛍 京东CEO：正测试AI自动生成营销内容

⚙️ ChatGPT持续宕机，CEO道歉 https://x.com/xiaohuggg/status/1722608037406609834?s=20

1️⃣

🎉 GitHub Universe 2023新功能：

新的Copilot聊天功能，Copilot支持手机应用，GitHub Copilot Workspace，产问题查询
GitHub Copilot企业版：每月39美元的高级服务。
GitHub Copilot合作伙伴计划，GitHub高级安全功能

🔗 https://t.co/a0TCE37zID

文本：https://x.com/xiaohuggg/status/1722539994404020336?s=20

2️⃣ 🚀 GitHub Copilot Chat全新升级： - 由GPT-4驱动，支持代码生成和自然语言编程 - 在代码环境中直接进行AI驱动的讨论。 - 斜杠命令简化复杂编程任务等

🔗 https://x.com/xiaohuggg/status/1722540507786813601?s=20

3️⃣

📊 YouTube AI功能测试：

评论摘要：自动总结评论区热门话题。
帮助创作者和观众互动，影响内容创作方向。
控制总结主题：删除特定评论功能。

🔗 https://x.com/xiaohuggg/status/1722523660630843403?s=20

4️⃣

🎓 吴恩达AI课程推介：

8集中英双语视频课程，涵盖生成式AI的基础和应用。
课程目的：教育和启发，理解AI的能力与局限。

🔗 B站播放列表：https://space.bilibili.com/589397373/channel/collectiondetail?sid=1844068

🔗https://x.com/xiaohuggg/status/1722476562032087474?s=20

5️⃣

💡 Context CLI工具和数据集：

涵盖1218个顶级Python库的400万个嵌入表示。
命令行搜索学习库，提高开发效率。
目标：让开发者像使用ChatGPT一样方便地获取Python库信息。

🔗 https://fleet.so/context

🔗https://x.com/xiaohuggg/status/1722460283409736084?s=20

6️⃣

🔍 AI分析Reddit帖子揭露隐私：

AI通过写作风格识别个人信息：年龄、位置、性别、收入。
高准确率：GPT-4以85%准确识别。
隐私关注：LLMs使用可能泄露个人信息。

🔗https://x.com/xiaohuggg/status/1722433237480538151?s=20

7️⃣

🏃 YOLO-NAS Pose：实时人体姿态估计模型：

识别人体关节，创建姿态骨架图。
适用于多种场景和设备。

🔗 https://x.com/xiaohuggg/status/1722414815854174682?s=20

8️⃣

🧠 Google Deepmind论文解读：

《Levels of AGI》：AGI发展六个阶段。
GPT-4当前处于Level 1“涌现”阶段。

🔗 https://x.com/xiaohuggg/status/1722403240229400946?s=20

历史项目记录：http://xiaohu.ai/

11月8日

🤖

🔔小互的推特 11月8日更新

✨✨✨✨✨✨✨✨

1️⃣

📢 服务中断更新：

ChatGPT和API等服务在部分地区和用户中出现中断。
官方正积极修复中。

🔗 https://x.com/xiaohuggg/status/1722252105405403569?s=20

2️⃣

🎮 3D角色动作创新：

简单文字描述即可生成3D角色动作。
潜在的革命性产品，提供多样动作与姿态。

🔗 https://x.com/xiaohuggg/status/1722246131294601658?s=20

3️⃣

🔍 Moogle数学定理搜索工具：

快速精准地在mathlib4库中找到数学定理。
由@Morph_labs开发，已有超过1200名用户试用。
数学家陶哲轩（Terence Tao）也在使用者之列。

🔗 https://x.com/xiaohuggg/status/1722236524430082141?s=20

4️⃣

🔊 OpenAI TTS文字转语音新体验：

网页版服务，五种男声和两种女声选择。
简便、免费，支持中文绕口令。

🔗 https://x.com/finedtune/status/1721760389581709778?s=20

5️⃣

🧠 NOIR脑机接口系统：

斯坦福大学开发，用脑电波操作机器人执行任务。
在20项家务活动中展现了成功应用。
项目意义重大，未来可能帮助残疾人提升生活质量。

🔗 https://x.com/xiaohuggg/status/1722183435140395051?s=20

6️⃣

🤔 数据共享与AI未来展望：

OpenAI鼓励用户贡献私有数据来创建GPTs，可能是数据获取的策略。
用户的数据源成为AI智力来源，或许预示着与AI的融合未来。

🔗 https://x.com/xiaohuggg/status/1722129966719181020?s=20

7️⃣

🔧 浏览器插件应用创新：

结合GPT-4V和TTS API，创建辅助解释网页内容的工具。
功能多样，从解释表格到学习视觉科目。

🔗 https://x.com/xiaohuggg/status/1722118158994321758?s=20

8️⃣

🎥 Dollars VIVA动作捕捉工具：

低成本、高质量的全身动作捕捉方案。
支持SteamVR兼容硬件，易于设置。

🔗 https://x.com/xiaohuggg/status/1722085422833299784?s=20

9️⃣

🤖 Lang2LTL人机交互系统：

基于大语言模型，简化人机交流。
让机器人理解常规语言指令，易于部署和使用。

🔗 https://x.com/xiaohuggg/status/1722062175215436015?s=20

🔟

🎮 游戏解说新体验：

使用GPT 4V视觉API + TTS解说《英雄联盟》。

🔗 https://x.com/xiaohuggg/status/1722041586044084587?s=20

历史项目记录：http://xiaohu.ai/

11月7日

🤖

🔔小互的推特 11月7日更新番外

✨✨✨✨✨✨✨✨

9️⃣ 今天被OpenAI刷屏了帮你们总结下今天别的AI新闻

🚀 马斯克 xAI 公司宣布推出 PromptIDE开发工具

🛑 阿里云 A100 服务器业务暂停出租算力价格飞涨

🎙️ 微软发布 7 款针对对话优化的AI语音，更加逼真自然

🔍 谷歌正测试 2项AI功能，以改善YouTube观看体验

🎮 微软将AI引入Xbox，可生成 AI 角色、故事剧情等

🏫 英国一学校启用人工智能担任校长，帮助教师解学生

🤖 百度虚拟数字人「度晓晓」携文心一言入驻淘宝

👥 美团推出 AI 产品 Wow 定位 AI 朋友社区

🔗https://x.com/xiaohuggg/status/1721876724798136544?s=20

🤖

🔔小互的推特 11月7日更新

✨✨✨✨✨✨✨✨

0️⃣

OpenAI开发者大会后收集了一些有趣的案例

⚡️ GPT-4-Turbo速度演示

🌟 GPTs示范

🎙️ 创建AI体育解说员

🤖 创建一个NPC交互

👁️ 利用GPT-4 视觉 API 实时地识别正在发生的事情

https://x.com/xiaohuggg/status/1721781696474083436?s=20

1⃣️ 🛠️ OpenAI开源工具：

发布了Consistency Decoder工具改进AI图像生成
针对稳定扩散VAE模型，提升图像清晰度和连贯性
对需高质量图像生成者有大用 🔗 https://github.com/openai/consistencydecoder 🔗 https://x.com/xiaohuggg/status/1721745108838834264?s=20

2⃣️ 🌟 AI时代见证：

描述了身处AI技术飞速发展的时代的感受
OpenAI科学家表达了对GPT发展速度的无法预测
提醒大家抓紧科技飞跃的十字路口 🔗 https://x.com/xiaohuggg/status/1721726020125102342?s=20

3⃣️ 🖥️ ChatGPT界面更新：

ChatGPT新版界面已经更新
ALL Tools内置，Plus用户专享
提供链接以便用户更新至新界面 🔗 http://chatgpt.com/create 🔗 https://x.com/xiaohuggg/status/1721691406832685070?s=20

4⃣️ 🤖 GPTs商店新机器人：

【GPTs商店】上架了16个OpenAI官方开发的机器人
提供了机器人的详细介绍 🔗 https://x.com/xiaohuggg/status/1721702855642603713?s=20

5⃣️ 🎥 OpenAI开发者大会视频：

提供了45分钟的中英双语全程视频
呼吁收藏点赞转发 🔗 https://x.com/xiaohuggg/status/1721699533485375638?s=20

6⃣️ 🌐 Gsplat.js 开源库：

介绍了高斯渲染库Gsplat.js的特点
高效处理大规模点云数据
与three.js兼容，支持实时渲染 🔗 https://x.com/xiaohuggg/status/1721855088602533890?s=20

7⃣️ 👁️ GPT-4V 视觉能力教程：

介绍了如何使用GPT-4V的视觉能力和TTS功能
提供了创建讲述视频的详细步骤
提供了OpenAI官方的详细介绍和GitHub示范链接 🔗 https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding 🔗 https://twitter.com/geepytee/status/1721705524176257296

8⃣️ 📹 MM-Vid 视频理解系统：

Microsoft Azure AI开发的集成视频理解系统
结合GPT-4V能力，理解长视频内容并进行问答
自动识别视频中的元素，转录多模态信息成文本脚本 🔗 https://x.com/xiaohuggg/status/1721756130622444010?s=20

历史项目记录：http://xiaohu.ai/

11月6日

🤖

🔔小互的推特 11月6日更新

✨✨✨✨✨✨✨✨

1⃣️ 🎥 新版ChatGPT界面和功能：

展示了更新后的操作界面和增强功能
操作演示视频已公布 🔗 https://x.com/xiaohuggg/status/1721468276621152724?s=20

2⃣️ 💡 OpenAI 开发者大会新泄露信息：

引入了128k上下文的GPT-4 turbo API
新的GPT-4 视觉API和代码解释器API
包含DALLE-3 API、TTS API以及价格信息 🔗 https://x.com/xiaohuggg/status/1721458421659226507?s=20

3⃣️ 🎭 E4S：一个精细化的面部交换技术：

换脸更自然，处理细节如痣、皱纹
光照和阴影的精准呈现 🔗 https://x.com/xiaohuggg/status/1721446344521633955?s=20

4⃣️ 👥 黄家人对人工智能进程的影响：

Nvidia的首席执行官和AMD的首席执行官竟是亲戚 🔗 https://x.com/xiaohuggg/status/1721425305448116298?s=20

5⃣️ 🤖 RoboGen：自动生成机器人学习系统：

自我引导的提出-生成-学习循环
自动学习执行多样化任务 🔗 https://x.com/xiaohuggg/status/1721402636627492973?s=20

6⃣️ 🏭 李开复AI公司零一万物估值破亿：

发布Yi系列大模型
Yi-34B领先多语言榜单，Yi-6B擅长长文本处理 🔗 https://x.com/xiaohuggg/status/1721387032793301461?s=20

7⃣️ 🔊 ElevenLabs推出TurboV2版本：

高质量文本到语音技术，低延迟
响应时间低至400毫秒
提供便捷集成API 🔗 https://x.com/xiaohuggg/status/1721371235773501646?s=20

8⃣️ 🖥️ GPT-4V-Act：多模态AI助手：

模拟人类通过鼠标和键盘网页浏览
视觉理解技术辨认网页元素 🔗 https://x.com/xiaohuggg/status/1721364758581195147?s=20

9️⃣ 📚Anna的档案馆获取读秀图书数据库：

获得了750万本中文非小说类图书，总计359TB数据
超过Library Genesis的收藏量
大模型公司能给他们提供OCR和文本提取服务，将会获得Anna的档案馆一年的独家访问权 🔗 https://annas-blog.org/duxiu-exclusive-chinese.html 🔗 https://x.com/xiaohuggg/status/1721532104998105264?s=20

历史项目记录：http://xiaohu.ai/

11月5日

🤖

🔔小互的推特 11月5日更新

✨✨✨✨✨✨✨✨

1️⃣

🚀 马斯克推出的全新AI模型 Grōk：

超长提示：可处理长达25,000字符的查询
X平台实时搜索，速度近乎屏幕刷新率
根据用户喜好调整AI回应风格
庞大知识库：使用“The Pile”数据集和X平台的Exabytes数据微调
提供API接口，支持语音交互、图像生成与识别、音频识别
特斯拉汽车本地版本

🔗 https://x.com/xiaohuggg/status/1720836000170250589?s=20

2️⃣ 🌐 Grok系统UI全揭秘:

多任务处理，对话分支查看回复
可以在VS代码编辑器中打开代码片段
Markdown编辑器内查看和保存Grok回复
含彩蛋的幽默模式切换 🔗 https://x.com/op7418/status/1721067624954843542?s=20

3⃣️ 📚 http://X.ai 揭示Grok信息:

灵感来源于《银河系漫游指南》
旨在回答几乎所有问题，设计带有幽默感
技术上每周更新，高效训练大型语言模型 🔗 https://x.com/xiaohuggg/status/1721034863938285687?s=20

4⃣️

💃Mootion：3D人体动作生成:

通过文本描述生成3D角色动作
支持多种3D建模软件，如Blender、3Ds Max、Maya
动作可以下载为视频和FBX格式 🔗 https://x.com/xiaohuggg/status/1721135012773531802?s=20

5⃣️ 🌟 Induced AI：AI原生浏览器RPA平台:

OpenAI CEO个人投资
模拟人类浏览网页行为，自动化信息搜集和处理
两位18和19岁的年轻创始人
内置反机器人检测能力，230万美元首轮融资 🔗 https://x.com/xiaohuggg/status/1721072339943833685?s=20

6⃣️ 🔨 CSM ai发布图转3D模型 Cube v1.2-turbo涡龙增版:

预览速度快，3分钟出3D草图
更精确控制Image-to-3D功能，风格一致性提升 🔗 https://x.com/xiaohuggg/status/1721125416566693986?s=20

7⃣️ 🤖 ChatGPT新功能和开发者大会细节:

即将推出机器人商店，类似AppStore
提供沙盒环境，自定义操作，知识文件
包含工具、分析、草稿、发布和分享功能 🔗 https://x.com/xiaohuggg/status/1720992954947715293?s=20

8️⃣ 🎬 1stAI：AI驱动视频编辑设备:

根据故事板图片自动创建视频
支持黑白动画草图转换，附带特定风格和音乐
目标是让任何人都能与AI交互制作电影

🔗 https://vimeo.com/875098371/451941d753

🔗https://x.com/xiaohuggg/status/1720985383075512782?s=20

历史项目记录：http://xiaohu.ai/

11月4日

🤖

🔔小互的推特 11月4日更新

✨✨✨✨✨✨✨✨

1️⃣

🏙️ Dall-E 3创造城市3D立体天气海报：

GPT-4 ALL Tools的操作案例。
将城市标志性建筑与天气信息结合。
提示词见ALT工具内。

https://x.com/xiaohuggg/status/1720792193848484000?s=20

2️⃣ 🧠 GPT-4 ALL Tools测试：

多次测试全能型任务执行，发现优化仍需完善。
突破性尝试：无插件旅游规划，查询细节直接访问网站。
AI Agent初露端倪，尽管存在问题和语言回复偏好英语。
https://x.com/xiaohuggg/status/1720762709040566635?s=20

3️⃣ 🔧 3.5版本灰度测试ALL Tools：

多用户反映3.5版本大量灰度ALL Tools。
https://x.com/xiaohuggg/status/1720636420862460241?s=20

4️⃣ 👨🔬 RT-Trajectory项目：

Google DeepMind、加州大学、斯坦福大学和Intrinsic联合研发。
通过轨迹草图教会机器人完成复杂任务。
增强机器人对新任务的适应学习能力。
https://x.com/xiaohuggg/status/1720660789181436396?s=20

5️⃣ 🤗 Dot：AI生活伴侣：

OpenAI基金投资，苹果前设计师打造。
记忆互动，深入理解用户生活主题、想法、习惯。
预测需求，主动帮助，提前建议解决方案。
视觉上采用卡片式设计，提升信息检索与交互体验。
https://x.com/xiaohuggg/status/1720715589281587361?s=20

6️⃣ 🗣️ Distil-Whisper语音识别：

Hugging Face团队开发，Whisper模型的高效版本。
体积减半，速度提升六倍，WER不超过1%。
辅助Whisper模型，推测性解码速度提升。
https://x.com/xiaohuggg/status/1720623532223103420?s=20

7️⃣ 📷 Umi-OCR离线图片文字识别：

开源免费OCR软件，支持多语言识别。
排除水印区域，提取干净文本。
忽略特定区域文字识别，命令行调用，软件联动能力。
粘贴图片即可自动识别。
https://x.com/xiaohuggg/status/1720612672817824020?s=20

历史项目记录：http://xiaohu.ai/

11月3日

🤖

🔔小互的推特 11月3日更新

✨✨✨✨✨✨✨✨

1⃣️

💻 ChatGPT新版本界面和功能曝光：

✨ Magic Maker功能

💬 指定内容回复

⚙️ 高级自定义功能

🔗 对接私有数据和API接口

🔄 自定义动作执行能力（AI Agent）

🏢 ChatGPT Team计划

https://x.com/xiaohuggg/status/1720358300859211827?s=20

2⃣️

🎵 MusicGen Remixer音乐改编工具：

上传歌曲，描述风格，AI即创造新混音。
可按要求调整歌曲风格，如更快乐或加摇滚元素。

https://x.com/xiaohuggg/status/1720421140416614607?s=20

3⃣️

🛠️animatediff视频大火

一个女孩的一生短片作者Mae制作
工具：SD模型，用ComfyUI跑animatediff工作流

https://x.com/xiaohuggg/status/1720397839472411034?s=20

4⃣️

🚀 马斯克预告@xAI首个AI产品发布：

明天对选定群体开放。
宣称在某些方面是市场最佳。

https://x.com/xiaohuggg/status/1720391068162904204?s=20

5⃣️

🔍 Instagram的“AI friend”项目泄露：

允许用户定制AI“朋友”并进行交谈。
可提问、讨论挑战或头脑风暴想法。

https://x.com/xiaohuggg/status/1720436822374006850?s=20

6⃣️

🧠 物理神经网络最新研究突破：

由悉尼大学和加州大学研究。
实现实时学习和记忆，图像识别准确率高达93.4%。
在Nature杂志上发表。

https://x.com/xiaohuggg/status/1720336909795537170?s=20

7⃣️

🎥 Runway文本到视频模型Gen-2升级：

AI视频制作质量提升，接近商用级别。
视频作者：@maxescu 效果惊艳

https://x.com/xiaohuggg/status/1720285614069981312?s=20

8⃣️

🖼️ Rodin Gen-1根据文字描述创建3D模型：

由@DeemosTech，一家中国公司开发。
生成质量高，可处理复杂形状。

https://x.com/xiaohuggg/status/1720275052573466863?s=20

9⃣️

🛒 Google推出商品图像工具Product Studio：

基于生成性AI，帮助创建商品广告图。
商家可利用文本到图像AI功能免费创建产品图像。

https://x.com/xiaohuggg/status/1720263144663396404?s=20

历史项目记录：http://xiaohu.ai/

11月2日

🤖

🔔小互的推特 11月2日更新

✨✨✨✨✨✨✨✨

1️⃣

🎬 Runway升级：

Gen-2模型升级，提高了视频生成的质量。
确保视频内容与输入（无论是文本还是图像）更加匹配和一致。

🔗 https://x.com/xiaohuggg/status/1720069510324244986?s=20

2️⃣

📘 微软发布的AI课程：

为初学者设计的12课时的生成式AI课程。
学员不仅学习理论，还会实操，模拟创建一个使用生成式AI技术的创业公司。

🔗 https://x.com/xiaohuggg/status/1720045400420401385?s=20

3️⃣

⛈ MetNet-3天气预测：

由Google 和 DeepMind共同开发的AI模型。
能准确预测未来24小时的核心天气变量，准确性超越当前先进的物理天气预测模型。

🔗 https://x.com/xiaohuggg/status/1720029553299701846?s=20

4️⃣

🎨 Luma AI的3D模型工具：

Genie可以根据文本描述在10秒内快速生成3D模型。
提供了在他们的Discord频道中的体验。

🔗 https://x.com/xiaohuggg/status/1720016479960301631?s=20

5️⃣

🩺 AI诊断2型糖尿病：

通过声音在10秒内诊断，准确率高达89%。
识别2型糖尿病患者与非糖尿病患者之间的声音差异。

🔗 https://x.com/xiaohuggg/status/1719977678236012670?s=20

6️⃣

📸 CustomNet图片技术：

由清华大学、腾讯PCG和东京大学联合开发。
可以更好地将指定图片中的物品融合到新生成的图片中。
可以用不同的视角和位置来展示这个物品

🔗 https://x.com/xiaohuggg/status/1719906604056006801?s=20

7️⃣

🧬 AlphaFold蛋白质预测：

由DeepMind和Isomorphic Labs合作开发的蛋白质三维结构预测模型。
该模型不仅提高了蛋白质结构的预测能力，还扩展到了其他生物分子。

🔗 https://x.com/xiaohuggg/status/1719894087472677284?s=20

8️⃣

🌌 Stability AI图像增强：

Sky Replacer：一个允许用户更改他们原始照片中天空颜色和美学的工具。
Stable 3D：用户可以通过选择一个图像或插图，或者编写一个文本提示来生成3D图像。

🔗 https://x.com/xiaohuggg/status/1719755727458406705?s=20

历史项目记录：http://xiaohu.ai/

11月1日

🤖

🔔小互的推特 11月1日更新

✨✨✨✨✨✨✨✨

1⃣️ 🛠️ Hayo工具介绍:

覆盖多种聊天模型和场景
针对普通用户设计的AI换脸和视频换脸工具。
丰富的命令库和场景库，支持多语言。 🔗 https://hayo.com 🔗 https://x.com/xiaohuggg/status/1719653666351898848?s=20

2⃣️ 📸 Blackmagic Camera:

专为iPhone设计的摄影APP，提供专业级的控制选项。
一键调整多种拍摄参数，支持高达4K分辨率的录制。
昨日苹果发布会视频即是此APP拍摄。 🔗 https://x.com/xiaohuggg/status/1719644440917324219?s=20

3⃣️ 📚 使用GPT-4+DALL-E 3进行历史模拟教学:

文本和图像结合的交互式历史教学模式。
模拟各种历史环境和角色，提高教学沉浸度。 🔗 https://x.com/xiaohuggg/status/1719603184791101500?s=20

4⃣️ 🎥 VideoCrafter1:

腾讯AI实验室开发的高质量视频生成模型。
提供文本到视频和图像到视频两种模式。 🔗 https://ailab-cvc.github.io/videocrafter/ 🔗 https://x.com/xiaohuggg/status/1719592977180549501?s=20

5⃣️ 👂 基因治疗恢复失聪儿童听力:

世界首例通过基因治疗成功恢复自然听力通路。
成功改善了参与儿童的听力，医学领域的重要突破。 🔗 https://x.com/xiaohuggg/status/1719582434189267222?s=20

6⃣️ 🎮 “愤怒的南瓜”游戏:

GPT-4和DALL•E 3合作完成的游戏。
全部代码和图形都是由AI生成。 🔗 https://bestaiprompts.art/angry-pumpkins/index.html 🔗 https://x.com/dotey/status/1719460404521222247?s=20

7⃣️ 📱 Vivo大模型:

Vivo推出五个大型自研模型。
宣称在中文能力方面达到行业第一。 🔗 https://x.com/xiaohuggg/status/1719543731005911066?s=20

8⃣️ 💼 百度文心一言专业版:

上线专业版，定价明确59.9/月。
基础版依然免费开放。 🔗 https://x.com/xiaohuggg/status/1719549419757212119?s=20

历史项目记录：http://xiaohu.ai/

10月31日

🤖

🔔小互的推特 10月31日更新

✨✨✨✨✨✨✨✨

1⃣️ 👁️ Cutie：在视频帧中识别并持续跟踪特定对象

自动识别和追踪视频里的特定物体（如人或车）。
可以从复杂的背景中准确地分离出目标物体。 🔗 https://x.com/xiaohuggg/status/1719307748247290204?s=20

2⃣️ 🔍 Min-K% Prob：用于检测文本是否被用于训练大模型的方法

不需要对预训练语料库有任何了解。
通过计算异常标记的平均概率来确定文本。 🔗 https://x.com/xiaohuggg/status/1719284134844170747?s=20

3⃣️ 🎨 DreamCraft3D：利用一张2D图像，生成高质量、连贯的3D模型

解决了3D模型在不同视角下可能不一致的问题。
使用视图依赖的扩散模型来生成3D结构。 🔗 https://x.com/xiaohuggg/status/1719278085470830603?s=20

4⃣️ 😂 Misgif：一款可以将你的脸放入你喜欢的GIF 表情包中的应用

换脸程序，但具有娱乐性。 🔗 http://misgif.app 🔗 https://x.com/xiaohuggg/status/1719186332319416388?s=20

5⃣️ 👃 Odours：赋予机器嗅觉科学绘制气味图的探索

利用图神经网络来基于分子结构绘制和预测气味。
创建了一种多维的“气味空间”。 🔗 https://x.com/xiaohuggg/status/1719176399523864978?s=20

6⃣️ 🗣️ Spectron：第一个端到端训练的口语语言模型

Google开发，直接用声音的“频率图像”进行学习和预测。
能更准确地捕捉声音的各种细节。 🔗 https://x.com/xiaohuggg/status/1719170975567421523?s=20

7⃣️ 💻 苹果发布3nm制程的M3系列芯片

M3系列比M1系列快50%，M3 Max比M1 Max快80%。
新款 M3 24 英寸 iMac，相同的颜色、相同的 4.5K Retina 显示屏。 🔗 https://x.com/xiaohuggg/status/1719151167203414195?s=20

8⃣️ ⬇️ Motrix：免费和开源的全功能下载管理器

支持 HTTP、FTP、BitTorrent、Magnet 等多种下载方式。
界面简洁明了，支持多种语言。 🔗 https://github.com/agalwood/Motrix 🔗 https://x.com/xiaohuggg/status/1719015286706459025?s=20

历史项目记录：http://xiaohu.ai/

10月30日

🤖

🔔小互的推特 10月30日更新

✨✨✨✨✨✨✨✨

1️⃣ 🤖 Baichuan2-192K大模型发布：

全球最长的上下文窗口，长度高达192K，可处理约35万个汉字。
在长文本生成质量、长上下文理解以及长文本问答、摘要等方面全面领先Claude2。
已落地法律、媒体等真实场景，开启内测。 🔗 详细：https://mp.weixin.qq.com/s/lAJh6qGG27u_qCl0kI-0lA 🔗 https://x.com/xiaohuggg/status/1718879783055188418?s=20

2️⃣ 🎙️ 使用GPT-4在浏览器中进行实时语音对话：

通过OpenAI API和@elevenlabsio API，实现与GPT-4的实时语音对话。
视频演示了作者和GPT-4玩对话猜物品的游戏。 🔗 体验入口：http://speakdual.com 🔗 https://x.com/xiaohuggg/status/1718852190901792896?s=20

3️⃣ 🧠 GATE：解决用户不会LLMs提示词的问题：

麻省理工学院研究人员开发，GATE框架通过开放式对话了解用户需求。
自动生成适当的Prompt，提高LLMs生成答案的准确性。 🔗 GitHub：https://github.com/alextamkin/generative-elicitation 🔗 论文：https://arxiv.org/abs/2310.11589 🔗 https://x.com/xiaohuggg/status/1718828569487675679?s=20

4️⃣ 🛒 具有 3D 预览功能的购物APP程序演示：

使用Reanimated和ThreeJS，提供3D预览功能。
让用户更直观地查看商店中的商品。 🔗 GitHub：https://github.com/alexandrius/react-native_3d_store 🔗 https://x.com/xiaohuggg/status/1718820276673359944?s=20

5️⃣ 💳 MagCode：让所有智能手机都能享受NFC支付体验：

香港理工大学研究，即使不支持NFC的手机也能完成支付。 🔗 https://x.com/xiaohuggg/status/1718806105739215283?s=20

6️⃣ 🤖 这个小哥哥的人形机器人更新：

行走方式非常接近人类。
大半年的折腾终于有了成果。 🔗 https://x.com/xiaohuggg/status/1718634389494755599?s=20

历史项目记录：http://xiaohu.ai/

10月29日

🤖

🔔小互的推特 10月29日更新

✨✨✨✨✨✨✨✨

1️⃣ 🎤 赵本山伦敦腔接受采访：

毫无违和感，展示了赵本山的多才多艺。 🔗 https://x.com/xiaohuggg/status/1718617719019610504?s=20

2️⃣ 🤖 Quadruped_bai_tiny：可控扭矩的无刷四足机器人：

低成本、8自由度（8DOF）。
包括硬件CAD设计、电子驱动器等多个方面。 🔗 GitHub: https://github.com/psrobotics/quadruped_bai_tiny 🔗 https://x.com/xiaohuggg/status/1718605283898130442?s=20

3️⃣ 📚 Nature上的AI语言泛化突破：

创建了具有人类般泛化能力的AI神经网络。
在系统性泛化测试中表现优于ChatGPT。 🔗 https://x.com/xiaohuggg/status/1718592191034241138?s=20

4️⃣ 🎮 混合现实演示：

使用Quest3的空间识别来玩漂亮的女孩娃娃。 🔗 https://x.com/xiaohuggg/status/1718548941585948773?s=20

5️⃣ 🛠️ GPT新更新的All tools多模式集合工具：

集中模式集合后功能大增，有无限想象空间。
还支持上传文件，如PDF或数据文件。
把一些套壳和插件商直接拍死了 🔗 https://x.com/xiaohuggg/status/1718501384105197773?s=20

6️⃣ 🎥 Pegasus-1：一个真正能读懂视频的大模型：

具有约800亿参数，可处理从10秒到数小时的视频内容。
不仅识别视频中的人物、物体、场景，还能理解背景音乐、对话等。
提供一系列API来满足不同的视频到文本转换需求。 🔗 https://x.com/xiaohuggg/status/1718456086150435074?s=20

历史项目记录：http://xiaohu.ai/

10月28日

🤖

🔔小互的推特 10月28日更新

✨✨✨✨✨✨✨✨

1⃣️ 🎥 VideoReTalking 口型同步工具

提供了一个在线演示链接。
面向对口型视频同步感兴趣的人。
可在Huggingface平台上查看。 🔗 https://huggingface.co/spaces/fffiloni/VideoRetalking 🐦 https://x.com/xiaohuggg/status/1718274708062552436?s=20

2⃣️ 📚 Meta AI 发布 Llama 模型入门指南

提供了关于Llama的全面信息。
包括访问、托管、操作、微调等多方面内容。是个集成指南。 🔗 https://ai.meta.com/llama/get-started/ 🐦 https://x.com/xiaohuggg/status/1718255011166315004?s=20

3⃣️ 💰 Google 向 Claude 母公司 @AnthropicAI 追加投资15亿

投资额增至20亿美金。
此前，亚马逊也承诺向该公司投资 40 亿美元 🔗 https://x.com/xiaohuggg/status/1718238384991420612?s=20

4⃣️ 🎭 郭德纲讲英语相声正面视频

嘴型完美，效果炸裂 🔗 https://x.com/xiaohuggg/status/1718227302474231822?s=20

5⃣️ 🌐 Wooorld：Meta Quest 混合现实社交平台

提供3D世界地图。
有AI驱动的有声导览。
提供多种游戏功能。 🔗 https://x.com/xiaohuggg/status/1718182304802299907?s=20

6⃣️ 🎧 APG：无线耳机心脏监测技术

无需购买额外设备。
在跑步、工作或休闲时可用。高准确度。 🔗 https://x.com/xiaohuggg/status/1718146525426290751?s=20

7⃣️ 🎮 Scenario：AI助力游戏开发

快速生成游戏素材。
提供工具和API，大大缩短开发时间。 🔗 https://x.com/xiaohuggg/status/1718096073821216768?s=20

8⃣️ 📸 Shutterstock照片库的AI功能

超过7亿张库存图像。
提供多种创意AI工具，包括魔法画笔、AI图像生成器等。 🔗 https://x.com/xiaohuggg/status/1718089977572274416?s=20

历史项目记录：http://xiaohu.ai/

10月27日

🤖

🔔小互的推特 10月27日更新

✨✨✨✨✨✨✨✨

1⃣️ 🤖升级后的Spot机器狗：

接入了ChatGPT，具有自主思考和导游功能。
运行速度高达19英里/小时，可实时与观众互动。
使用视觉问题回答（VQA）和大型语言模型（LLM）来进行详细描述。 🔗 bostondynamics.com/blog/robots-that-can-chat 🔗 x.com/xiaohuggg/status/1717898108384997618?s=20

2⃣️ 📉QMoE模型压缩新技术：

高压缩效率：将1.6万亿参数的模型压缩到不到160GB。
运行效率：可以在普通硬件上运行，开销小于5%。
无需重新训练，压缩过程更高效。 🔗 arxiv.org/abs/2310.16795 🔗 x.com/xiaohuggg/status/1717831198679200056?s=20

3⃣️ 🗺️谷歌地图AI更新：

新增「沉浸式视图」和地图中的「镜头功能」。
提供更详细的地图导航和电动车充电信息。
基于社群分享的照片进行搜索。 🔗 x.com/xiaohuggg/status/1717819852923297958?s=20

4⃣️ 🔧Woodpecker：纠正多模态大语言模型“幻觉”的方法：

不依赖于重新训练或特定数据集。
在POPE基准测试中，准确度显著提高。 🔗 x.com/xiaohuggg/status/1717734840383197617?s=20

5⃣️ 🎭郭德纲英语相声：

请您享受，嘴形调的也很不错。 🔗 x.com/xiaohuggg/status/1717568433381081487?s=20

6⃣️ 🎨教程：如何在Mac上快速生成图像：

使用LCMs模型，在M1或M2 Mac上以每秒一张的速度生成高质量图像。
只需要4到8步即可完成。 🔗 replicate.com/blog/run-latent-consistency-model-on-mac 🔗 x.com/xiaohuggg/status/1717562806822981835?s=20

历史项目记录：http://xiaohu.ai/

10月26日

🎃

🔔小互的推特 10月26日更新

✨✨✨✨✨✨✨✨

1⃣️ 🎉手机拥抱大模型时代：

小米新系统发布。
下周vivo发布自己的大模型。 🔗 https://x.com/xiaohuggg/status/1717493171167658147?s=20

2⃣️ 🚀雷军的小米战略升级🚀：

从「手机 X AIoT」升级到「人车家全生态」。
重点：以人为中心，打造智能家居和智能出行。 🔗 https://x.com/xiaohuggg/status/1717499481904848938?s=20

3⃣️ 🚗Openpilot：开源汽车驾驶辅助系统🚗：

支持250多种车型，功能丰富如ACC、ALC、FCW、LDW等。
在PC上运行，绘制日志、重播驾驶记录、观看摄像头流。
驾驶员监控功能，警告分心和疲劳驾驶员。 🔗 https://x.com/xiaohuggg/status/1717374629944402201?s=20

4⃣️ 🔊NVAS3D：3D环境中的声音合成🔊：

通过模拟合成，听到房间不同位置的声音。
用2到4个麦克风录音，3D扫描技术获取房间信息。
模拟在房间任何地方的声音，应用于虚拟现实游戏、电影制作等。 🔗 https://x.com/xiaohuggg/status/1717444811656171550?s=20 GitHub：https://github.com/apple/ml-nvas3d

5⃣️ 🌐腾讯混元大模型升级🌐：

中文能力超过GPT3.5，代码能力提升20%。
“文生图”功能技术亮点：语义理解、内容合理性、画面质感。
180+腾讯内部业务已接入，如腾讯会议、腾讯文档等。 🔗 https://x.com/xiaohuggg/status/1717457024349507684?s=20

6⃣️ 📆ChatGPT知识截止日期更新📆：

海外用户发现GPT知识截止日期为2023年4月或2023年9月。 🔗 https://x.com/xiaohuggg/status/1717362915844723185?s=20

7⃣️ 🐜CodeFuse：蚂蚁集团的代码大模型🐜：

蚂蚁集团研发的产品，提高软件开发者的研发体验。
现正进行CodeFuse有奖征文活动，欢迎大家参与！ 🔗 https://mp.weixin.qq.com/s/PD_8-bWB8BCdlwLhmt8eZw

历史项目记录：http://xiaohu.ai/

10月25日

🎃

🔔小互的推特 10月25日更新

✨✨✨✨✨✨✨✨

1⃣️

🌐 TTime：一款开源简洁高效的输入、截图、划词翻译软件

主要功能：输入翻译、截图翻译、划词翻译等。
集成多种翻译源：包括 DeepL、谷歌、OpenAI。
高级OCR功能：截图OCR、静默截图OCR、剪贴板监听翻译。

🔗 https://t.co/4vOYJYAaFf

🔗 https://x.com/xiaohuggg/status/1717138678995394984?s=20

2⃣️

🎨 Zero123++：从单一图片生成多角度图像

多角度图像：如，正面的苹果图片转为侧面、上面、下面视图。
用户控制：可细致地控制生成图片的形状、大小等。
高度真实和协调：生成的多角度图片非常真实。

🔗 https://x.com/xiaohuggg/status/1717132922124398607?s=20

3⃣️

🖼️ LCMs：新型高分辨率图像生成模型

高分辨率：能快速生成768 x 768分辨率的高质量图像。
高效推理：在潜在空间中高度优化，只需2~4步或一步。
灵活和高效：从任何预训练的Stable Diffusion（SD）模型中提炼。

🔗 https://x.com/xiaohuggg/status/1711250631737163986?s=20

4⃣️

🛡️ Nightshade：针对文本到图像生成模型的数据投毒攻击

防不胜防：对上传图像进行微妙的像素改变。
隐蔽手段：导致模型训练后生成图像出现错误。
反击目的：目的是反击未经许可使用他人作品训练模型的公司。

🔗 https://x.com/xiaohuggg/status/1717042542775275703?s=20

5⃣️

🔥 高通新处理器：骁龙 8 Gen 3 和骁龙 X Elite

竞争目标：与苹果和Intel竞争。
强大AI能力：能运行具有超过130亿参数的大型AI模型。

🔗 https://x.com/xiaohuggg/status/1717017401278271947?s=20

6⃣️

💰 IVP投资Perplexity：估值飙升到5亿美元

估值飙升：从1.5亿美元增长到5亿美元。
付费用户：达到了1.5万人。
高级AI模型：如Claude和GPT-4。

🔗 https://x.com/xiaohuggg/status/1716987181200499046?s=20

7⃣️

🗣️ Google Search 新功能：英语口语练习

真实生活提示：提供与日常生活、工作等相关的提示。
交互式练习：3-5分钟的交互式口语练习。
个性化反馈：包括语义分析、适应口音的语法反馈等。
上下文翻译：点击不懂的单词可查看上下文翻译。

🔗 https://t.co/bMxJraVksd

🔗 https://x.com/xiaohuggg/status/1716983990257963222?s=20

8️⃣ 🔍 Google 多模态模型曝光：

Gemini 是 PaLM 2 的进阶版，具备多模态能力，能够分析数据和识别图像中的文本。
Stubbs 未曝光的 Google 工具，允许从 Makersuite 构建并启动 AI 生成的应用。 🔗 https://x.com/xiaohuggg/status/1717010079294357622?s=20

历史项目记录：http://xiaohu.ai/

10月24日

📣

🔔小互的推特 10月24日更新

✨✨✨✨✨✨✨✨

1⃣️

📨 一体化消息应用 @TextsHQ 被收购：

由WordPress母公司Automattic以5000万美元收购。
应用合并多平台消息到一个加密收件箱。
提供AI辅助功能如自动聊天摘要和翻译。

🔗 https://x.com/xiaohuggg/status/1716812529064952210?s=20

2⃣️

🎶 Loop Copilot：AI音乐生成：

自然语言驱动的音乐生成与编辑。
支持多轮对话进行音乐编辑。
用户能够通过自然语言描述音乐需求。

🔗 https://x.com/xiaohuggg/status/1716798144833614250?s=20

3⃣️

📚 大语言模型的阿谀奉承问题：

研究指出AI助手可能阿谀奉承用户。
揭露了GPT、Claude、LLaMa等AI助手的偏见反馈。
讨论了可能的原因和未来改进方向。

📄 论文：https://arxiv.org/abs/2310.13548

🔗 https://x.com/xiaohuggg/status/1716746258025734210?s=20

4⃣️

💪 GPT作为健身教练：

提供Meal Planner和Workout Generator插件。
根据个人信息生成完整的健身和营养计划含有演示视频。

🔗 https://x.com/xiaohuggg/status/1716683011914420291?s=20

5⃣️

🔬 美国区域科技中心计划：

白宫宣布设立31个科技中心。
重点领域包括AI、芯片、量子计算等。
私营企业、教育机构和政府等多方参与。

🔗 https://x.com/xiaohuggg/status/1716669677118865857?s=20

6⃣️

🎵 Voyager：Spotify的音乐推荐数据库：

开源矢量数据库用于音乐推荐。
通过最近邻搜索技术匹配用户和音乐。
🛠️ GitHub：https://github.com/spotify/voyager

🔗 https://x.com/xiaohuggg/status/1716661563321688254?s=20

7⃣️

🏗️ 3D-GPT：3D模型生成：

利用大语言模型进行3D建模。
多代理系统架构，可生成大型场景和单个对象。
📄 论文：https://arxiv.org/abs/2310.12945

🔗 https://x.com/xiaohuggg/status/1716628576290873370?s=20

8⃣️

💡 #Midjourney 新网站上线：

加速网站性能。
新灯光模式和灯箱。
个人搜索功能。
🌐 访问：https://beta.midjourney.com

🔗 https://x.com/xiaohuggg/status/1716623214921802212?s=20

历史项目记录：http://xiaohu.ai/

10月23日

🔥

🔔小互的推特 10月23日更新

✨✨✨✨✨✨✨✨

1⃣️

👂SALMONN：赋予LLMs 耳朵和认知听觉能力

清华大学和字节跳动共同研发的语言模型，具备处理音频输入能力。
多语种语音识别、翻译以及音频-语音联合推理功能。
准确识别音频信息并解答相关问题。

🔗 https://x.com/xiaohuggg/status/1716389917339840551?s=20

2⃣️

🎨一个可以突破版权限制，让DALL·E 3画出日本动画片水准的方法！

提供动画片的目标受众和特点来生成动画情节。
示例：指定少年动画特征，如《火影忍者》、《龙珠》、《海贼王》。
实例描述：一只狗和一个男人的冒险故事。
小互的作品欣赏：10月23日-群友的DALL·E图片精选

🔗 https://x.com/xiaohuggg/status/1716353451989536897?s=20

3⃣️

🧮LLEMMA：超越所有已知开源模型的数学专家

由多所大学和Eleuther AI公司研发。
解读、生成数学表达式，解决数学问题，并与计算工具交互。
LLEMMA 34B和LLEMMA 7B两种模型版本。

🔗 https://x.com/xiaohuggg/status/1716322071536652415?s=20

4⃣️

🚁乌克兰部署AI驱动的自主攻击无人机

人类首次在战场上使用自主攻击武器。
Saker Scout无人机：自主攻击、智能目标识别、抗干扰、多功能。
实时战场分析、与情报系统集成、战术灵活性。

🔗 https://x.com/xiaohuggg/status/1716270966219878513?s=20

5⃣️

🚦Green Light：Google的交通信号灯优化AI

分析Google地图驾驶数据，为城市提供交通信号灯时序优化。
减少了30%的停车次数和10%的排放量。
已在4大洲12个城市实施。

🔗 https://x.com/xiaohuggg/status/1716264027389841602?s=20

6⃣️

🤖发现了一个超酷的机器人：Alexa Tron

利用拆卸的黑白CRT电视和Echo Dot创建。
与人自然交流，并附有制作教程及材料链接。
提示：接入GPT会有更好的互动体验。

🔗 https://x.com/xiaohuggg/status/1716114177209803093?s=20

历史项目记录：http://xiaohu.ai/

10月22日

🔥

🔔小互的推特 10月22日更新

✨✨✨✨✨✨✨✨

1️⃣

🤖GRID：结合LLMs的通用机器人智能开发平台

通过集成多模态基础模型和大语言模型，使机器人能够在现实环境中执行任务。
简单来说就是它可以让机器人看、听、思考并自主做出决策，类似于特斯拉的自动驾驶视觉系统。

🔗 https://x.com/xiaohuggg/status/1716084604237717728?s=20

2️⃣

📚Anna’s 档案馆：全球最大的开源、开放数据图书馆

镜像了其他各种图书馆，如Sci-Hub、Library Genesis、Z-Library等。
收藏了超过1亿个文件，提供高速访问、OCR、去重和文本提取等服务。

🔗 https://annas-archive.org/llm

🔗 https://x.com/xiaohuggg/status/1715975178797375994?s=20

3️⃣

🌆Cesium：将Google Map的Photorealistic 3D Tiles集成到虚幻引擎

视频演示了将蒙特利尔的Habitat 67放置在圣地亚哥。
Cesium for Unreal v2.0 即将推出，更多功能将发布。

🔗 https://x.com/xiaohuggg/status/1715942026863333702?s=20

4️⃣

🤹‍♂️Eureka：通过GPT 4指导机械手玩转笔超越人类

结合GPT-4与可学习的神经网络，模拟非常复杂的动作。
能接受人类用自然语言提供的反馈。

🔗 https://x.com/xiaohuggg/status/1715928896628269313?s=20

5️⃣

🎨DALL-E 3技巧：让DALL-E 3生成的图像保持一致性的方法

通过编号的方法跟踪和引用之前生成的图像。

🔗 https://x.com/xiaohuggg/status/1715920774010372133?s=20

6️⃣

🎤AI开源项目推荐：voice-changer

实时语音转换客户端，支持Windows和Mac。
可实时变声成其他人或者虚拟角色的音色。

🔗 https://x.com/dotey/status/1715841201339855025?s=20

7️⃣

🤖一个超酷的机器人

博主通过使用一台拆卸下来的黑白CRT电视机，利用亚马逊的Echo Dot创造了名为Alexa Tron的机器人，它能和人自然交流。
博主发布了详细的制作教程和材料购买https://hackaday.io/project/189041-a-workbench-companion-from-an-amazon-echo-dot …
视频介绍：https://youtube.com/watch?v=bO-DWWFolPw …

历史项目记录：http://xiaohu.ai/

10月21日

🔥

🔔小互的推特 10月21日更新

✨✨✨✨✨✨✨✨

1⃣️

🛸Dronut X1 Pro：

无人机专为室内及GPS失效环境设计。
配备AI、3D LiDAR与高清流媒体，优化环境感知。
紧凑设计，近距离飞行提高效率与安全性。

🔗 https://cleorobotics.com

🔗 https://x.com/xiaohuggg/status/1715728217854890375?s=20

2⃣️

⌨️FunKey：

Mac应用，模拟机械键盘声音体验。

🔗 https://x.com/xiaohuggg/status/1715685724266319968?s=20

3⃣️

🤖Habitat 3.0：

Meta AI的家庭环境机器人模拟器。
其中包括各类家具、物品和人类角色
真实家居场景，多样化角色与人机交互。

🔗 https://x.com/xiaohuggg/status/1715651187314499699?s=20

4⃣️

🔊Meta-Speaker：

一种仅在空气中的一个点发出声音的扬声器
清华与上海交大的空气音响技术。
使用超音波在特定空气点产生声音

🔗 https://x.com/xiaohuggg/status/1715630200627843397?s=20

5⃣️

🚧HuggingFace：

开源AI模型库HuggingFace在中国访问受限。
超365,000个模型，估值45亿美元。
“中国的人工智能社区非常出色，我们希望他们能更好地访问 HF，但目前我们对于政府的法规无能为力。”

🔗 https://x.com/xiaohuggg/status/1715594854632472919?s=20

6⃣️

🔍Fuyu-8B：

多模态AI模型，支持数字代理。
专注图像与文本互动理解。

🔗 https://x.com/xiaohuggg/status/1715569954819600470?s=20

7⃣️

🎥4K4D：

4K分辨率下的实时4D视图合成。
RTX 4090 GPU，渲染速度超80 FPS。

🔗 https://x.com/xiaohuggg/status/1715567283555479750?s=20

8⃣️

🎮游戏：

游戏代码由GPT4生成，资源由DALLE-3制作。

🔗 https://x.com/xiaohuggg/status/1715401876475363547?s=20

历史项目记录：http://xiaohu.ai/

10月20日

🐶

🔔小互的推特 10月20日更新

✨✨✨✨✨✨✨✨

1⃣️

👩Heygen 即时配音 + 口型同步

目前最成熟的方案，就是费钱

🔗 https://x.com/xiaohuggg/status/1715263831004631396?s=20

2⃣️

🧠 IBM发布名为NorthPole的新AI芯片，设计灵感来自人脑：

该芯片模仿了人脑的白质连接，这些白质连接，连接了大脑皮层的不同部分。
IBM 表示，NorthPole 比市场上任何其他芯片更节能、更节省空间，并且延迟更低，其速度比其前身 TrueNorth 快约4000 倍。
以 ResNet-50 模型为基准，NorthPole 的能效比领先的 12 纳米 GPU 和 14 纳米 CPU 高出 25 倍，延迟也低得多。
NorthPole 芯片是由 IBM 在加利福尼亚州的圣何塞研究所开发的，该架构在能效、速度和可扩展性方面具有重大突破。NorthPole芯片紧密集成了处理单元和内存，从而极大地提高了数据的移动效率。

🔗 https://x.com/xiaohuggg/status/1715355308980305931?s=20

3⃣️

🎨 DALL·E 3 瓶子里的世界：

很惊艳...
可以通过聊天即可更换任意瓶子里的内容
想放什么放什么
你们玩一玩，记得返图，嘿嘿

🔗 https://x.com/xiaohuggg/status/1715341576116068363?s=20

4⃣️

🗣️ SadTalker：通过单张面部图像和一段语音来生成逼真的说话头像视频：

它能够准确地模拟面部表情和头部运动，从而创建出与输入音频同步的逼真视频。
支持不同的语言交谈、唱歌，可控眨眼、支持不同的风格变换。

🔗 https://x.com/xiaohuggg/status/1715295658633204112?s=20

5⃣️

🎥 今天这个视频很火，早上在群里看到的：

有人问我是咋实现的
我猜测大概率是heygen实现的，如果是手动比较麻烦一点，涉及到语音翻译，声音克隆和嘴型同步。
但是手动也有很多方案，下面就总结一下我发过的一些能实现这种效果的产品和开源模型。
AI视频口型语音同步工具大全

🔗 https://x.com/xiaohuggg/status/1715263811358437620?s=20

6⃣️

👗 AquaAI：使用AI训练生成自己风格的时尚画册：

独立设计师、时尚品牌或时设计类学生一般会创建画册作为他们的作品集，以展示他们的设计能力和审美观点。
现在只需上传 5 张图片，即可轻松训练自己独特的品牌风格，并使用 AI 模型来创建自己的时尚画册（Fashion Lookbook）

🔗 https://x.com/xiaohuggg/status/1715243028745695559?s=20

7⃣️

🤖 MuJoCo（Multi-Joint dynamics with Contact）是一个用于模拟多体动力学和接触的物理引擎。可以让机器人模拟现实世界的复杂运动。

近两年来，DeepMind接管了MuJoCo的开发，并使其免费可用。现在，MuJoCo团队发布了MuJoCo 3，这是一个重大的新版本，具有以下几个主要特点：

🔗 https://x.com/xiaohuggg/status/1715210238473990495?s=20

8⃣️

🔧 OpenAI API部分宕机：

今早开始部分开发者反应OpenAI API无法使用，OpenAI称API认证堆栈的上游部分出现了问题。
他们正在开发备份系统，避免类似问题发生。

🔗 https://status.openai.com/incidents/fk0tcbydtybr

🔗 https://x.com/xiaohuggg/status/1715200077659263474?s=20

9⃣️

🎬 DynVideo-E：像编辑3D模型一样编辑视频，可直接编辑视频中的人物或背景：

- DynVideo-E利用动态 NeRF 在 3D 空间中编辑视频，并将更改传播到整个视频。

- 比如你拍了一个舞蹈视频，但觉得某个动作或背景不够完美。这个工具，你可以直接调整人物舞蹈动作或者更换编辑跳舞的背景。

🔗 https://x.com/xiaohuggg/status/1715183326305321406?s=20

🔟

💻 Localpilot：一键在MacBook上本地运行GitHub Copilot：

- 用户只需要进行简单的设置和安装步骤，就可以在本地（即自己的Macbook上）运行GitHub Copilot，并且可以在没有网络连接的情况下使用。

- 这对于在飞机上或者在网络不稳定的环境中工作特别有用。

🔗 https://x.com/xiaohuggg/status/1715167810052309297?s=20

1️⃣1️⃣

🧠 MEG：实现大脑活动图像的实时解码重构：

- Meta AI最近发布了一项重要的研究，该研究使用一种名为MEG的非侵入性神经成像技术。

- 这项研究展示了一个AI系统，该系统能够以前所未有的时间分辨率解码大脑中视觉表示的展开。能实时重构大脑活动中每一瞬间感知和处理的图像。

🔗 https://x.com/xiaohuggg/status/1715158977754157486?s=20

历史项目记录：http://xiaohu.ai/

10月19日

⏳

🔔小互的推特 10月19日更新

✨✨✨✨✨✨✨✨

1⃣️

👩⚕️ 女性荷尔蒙监测指环传感器：

美国加州理工学院研究出的指环型汗液传感器可监测女性体内的雌二醇。
数据无线传输到智能手机，方便实时查看。
自动且非侵入性，日常佩戴也不会妨碍。

🔗 https://x.com/xiaohuggg/status/1714995612511502601?s=20

2⃣️

🎨 DALL·E 3 创意提示：

可生成高达零件图。
规避版权问题。

🔗 https://x.com/xiaohuggg/status/1714915932097912964?s=20

3⃣️

🔖 SoM-GPT4V - 视觉标记系统：

将图像划分为语义上有意义的区域，并添加各种类型的标记。
提高GPT-4V对视觉内容的理解和交互能力。

🔗 https://x.com/xiaohuggg/status/1714873493886849420?s=20

4⃣️

🔍 Midjourney 图像放大功能：

可将生成的图像放大4倍。
连续放大效果出色。

🔗 https://x.com/op7418/status/1714847087555453256?s=20

5⃣️

🔮 真正的算命和占卜模型 - Mistral Trismegistus 7B：

专为玄学、神秘学、超自然和灵异爱好者设计。
专门处理与神秘学等相关的问题和任务。

🔗 https://x.com/xiaohuggg/status/1714846126371926086?s=20

6⃣️

📹 BlurOn - 视频自动马赛克添加：

使用 NTT Data 的 AI 技术识别并自动添加马赛克。
精度高达 99.7%。

🔗 https://x.com/xiaohuggg/status/1714829239080607878?s=20

7⃣️

🧠 SEED 项目代码发布：

SEED和SEED-LLaMA官方实现。
赋予大语言模型视觉和绘图能力。

🔗 GitHub: https://github.com/AILab-CVC/SEED

🔗 https://x.com/xiaohuggg/status/1714820902746304747?s=20

8⃣️

🤖 机器人初创公司Figure - 首款产品 Figure 01：

拥有高度灵巧的双手和动态双足行走。
设计目标是日常活动的高效执行。

🔗 https://x.com/xiaohuggg/status/1714817294889812003?s=20

9⃣️

🔊 PlayHT 发布 PlayHT 2.0 Turbo：

超快速的AI文字转语音模型，延迟小于 300 毫秒。
可克隆任何声音和口音。

🔗 体验链接: https://play.ht/playground/

🔗 https://x.com/xiaohuggg/status/1714655920368886021?s=20

历史项目记录：http://xiaohu.ai/

10月18日

☕

🔔小互的推特 10月18日更新

✨✨✨✨✨✨✨✨

1⃣️

🍏 Apple Vision Pro 新专利:

提供沉浸式 VR 体验在自动驾驶车场景。
体验内容：河流上漂流、悬挂式滑翔机、汽车追逐、后世界末日荒地等。
功能：虚拟会议、VR 游戏、读书、与家人交谈。
教育与交互体验：伦敦街道、虚构城市、地标历史等。

🔗 https://x.com/xiaohuggg/status/1714617160763650118?s=20

2⃣️

🔄 Face Swapper：AI换脸工具:

一次替换多张脸。
支持JPG、PNG、WEBP格式，最大1024px分辨率。
应用场景：时尚、美容、电影、媒体、人力资源。
传送门：https://icons8.com/swapper

🔗 https://x.com/xiaohuggg/status/1714612613357932800?s=20

3⃣️

👓 Visor：便携式XR虚拟现实设备:

4K microOLED显示器、手部和眼部追踪、6DoF摄像头。
可同时打开5个屏幕。

🔗 https://x.com/xiaohuggg/status/1714606940456964597?s=20

4⃣️

🎨 RealFill：图像补全的生成模型:

填充缺失或不完整的图像。
使用参考图像进行补全。

🔗 https://x.com/xiaohuggg/status/1714603987733971241?s=20

5⃣️

🚀 TensorRT：加速Stable Diffusion模型:

NVIDIA开发的库。
优化模型以获得更快的推理速度。

🔗 https://x.com/xiaohuggg/status/1714537143614468132?s=20

6⃣️

⚡ 生物电子微流体加速伤口愈合:

利用电场使皮肤伤口快速愈合
即使是最严重的伤口，3倍速度愈合

🔗 https://x.com/xiaohuggg/status/1714477700537270753?s=20

7⃣️

📱 PyTorch与合作伙伴推出ExecuTorc框架:

端到端解决方案，实现设备端推理。
适用设备：手机、可穿戴设备。
解决AI生态系统碎片化问题。

🔗 https://x.com/xiaohuggg/status/1714473512755409107?s=20

8⃣️ 🎵 Riffusion：AI音乐生成应用:

输入歌词或文本提示生成音乐。
https://riffusion.com

🔗 https://x.com/xiaohuggg/status/1714309720851583097?s=20

历史项目记录：http://xiaohu.ai/

10月17日

☕

🔔小互的推特 10月17日更新

✨✨✨✨✨✨✨✨

1⃣️ 🌟 OpenAI的企业价值观:

OpenAI明确了其打造“通用人工智能”的愿景。
提出了公司的五大核心价值观。

🔗 https://x.com/xiaohuggg/status/1714131884161286353?s=20

2⃣️ 🧠 MemGPT - 永久记忆的聊天机器人:

MemGPT具有短期、中期和长期三层记忆。
能够记录并回忆之前的对话内容。

🔗 https://memgpt.ai

🔗 https://x.com/xiaohuggg/status/1714239000343675372?s=20

3⃣️ 🖼️ MiniGPT-V2 - 视觉与语言多任务解决方案:

MiniGPT-V2是一个视觉-语言多任务模型。
专注于图像标注、对象解析和问答等任务。

🔗 https://minigpt-v2.github.io

🔗 https://x.com/xiaohuggg/status/1714172747012850063?s=20

4⃣️ 🌐 Pi - AI现在可以联网: 🔗 Instagram:http://pi.ai/ig

🔗 Messenger:http://pi.ai/msgr

🔗 Web:http://pi.ai

🔗 iOS:http://pi.ai/ios

🔗 Text or WhatsApp: +1 (314)-333-1111

🔗 https://x.com/xiaohuggg/status/1714139977976885398?s=20

5⃣️

🖥️ Deep Chat - AI聊天机器人的集成工具:

Deep Chat允许在任何网站中嵌入AI聊天机器人。
提供丰富的定制选项和多媒体交互功能。

🔗 https://x.com/xiaohuggg/status/1713922172559970541?s=20

6⃣️ 📣 百度大模型文心一言4.0发布:

李彦宏宣布百度的新模型发布。
该模型与GPT-4的能力相当。

🔗 https://x.com/xiaohuggg/status/1714101101572796664?s=20

7⃣️ 💰 百川智能完成3亿美金A1轮融资:

得到阿里、腾讯、小米等科技巨头的投资。

🔗 https://x.com/xiaohuggg/status/1714098922128540119?s=20

8⃣️ 📞 ChatGPT Voice的提示词:

ChatGPT的语音交互的基本规则和指导。

🔗 https://x.com/xiaohuggg/status/1714070642184888398?s=20

9⃣️ 🕶️ 使用Quest 3进行多任务:

可以同时完成家务和观看剧集。

🔗 https://x.com/xiaohuggg/status/1714060002724344144?s=20

历史项目记录：http://xiaohu.ai/

10月16日

🍙

🔔小互的推特 10月16日更新

✨✨✨✨✨✨✨✨

1⃣️

🤖 Deep Chat:

AI 聊天组件嵌入到任何网站。
支持文件传输、音频、摄像头捕捉。
高度可定制界面和功能。

🔗https://x.com/xiaohuggg/status/1713922172559970541?s=20

2⃣️

🎓 UniSim:

通用模拟器, 由 UC Berkeley、DeepMind、MIT, 阿尔伯塔大学合作。
模拟人类和机器人互动。
模拟环境中的RL代理和长期规划训练。

🔗https://x.com/xiaohuggg/status/1713850715700146322?s=20

3⃣️

🔢 自动计数工具:

利用 #supervision 开发的自动计数工具。
https://github.com/vrizawahyu22/juggling_counting

🔗 https://x.com/xiaohuggg/status/1713842578322546767?s=20

4⃣️

📢 博主实名制:

100万粉丝以上的博主需前台实名。
包括微博、抖音、B站、小红书等平台。
后续会扩展到10万粉丝以上。

🔗https://x.com/xiaohuggg/status/1713824178967838835?s=20

5⃣️

💼 赚钱创意:

使用Dall-E 3 创建个性体恤设计。
然后使用GPT建立销售网站。

🔗https://x.com/xiaohuggg/status/1713790438686310612?s=20

6⃣️

🎨 Dall·E 3开始step by step的解析你输入的要求了

生成的图更符合预期了

🔗https://x.com/xiaohuggg/status/1713767074936635883?s=20

7⃣️

📱 iPhone无线更新:

为未拆封的iPhone新机更新iOS系统，无需开箱。
苹果开发的特殊垫子，无线下载并安装最新iOS

🔗https://x.com/xiaohuggg/status/1713758779718996453?s=20

8⃣️

💻 CodePlan:

微软开发的LLM自动编辑代码库框架。
计划性地自动编辑整个代码库。

https://arxiv.org/abs/2309.12499

🔗 https://x.com/xiaohuggg/status/1713754847831564713?s=20

9⃣️

📹 VideoReTalking:

输入视频和音频，输出嘴型和声音同步的视频。
根据声音调整视频中的表情。

🔗https://x.com/xiaohuggg/status/1713737733301326044?s=20

🔟

🚫 马斯克打击不当内容:

X平台上的露骨内容将被自动标记并隐藏。
甚至蓝V和订阅会员也会受到影响。

🔗https://x.com/xiaohuggg/status/1713730951937937650?s=20

历史项目记录：http://xiaohu.ai/

10月15日

❤️

🔔小互的推特 10月15日更新

✨✨✨✨✨✨✨✨

1⃣️

🎨 Niji·journey App：

主打日系漫画风格图像生成。
免费20次生成机会。
UI化的图片生成。
选择 #midjourney V5模型。

🔗 https://x.com/xiaohuggg/status/1713413211868008710?s=20

2⃣️

🎥 Deforum-Kandinsky：

从文本到图像的生成，再模拟相机飞越生成动画视频。
创造3D错觉的动画帧。
图像到图像的方法进行图像优化。

🔗 https://x.com/xiaohuggg/status/1713484290380697782?s=20

3⃣️

🌡️ airBP：

使用毫米波进行非接触式血压测量。
北京邮电大学开发。
准确测量收缩期和舒张期的血压。

🔗 https://x.com/xiaohuggg/status/1713428987010228523?s=20

4⃣️

🎬 伊藤園《Oi Ocha》广告：

首次使用AI生成人物。
广告质量等同于真人。
AI模特的优点：外观定制、无丑闻风险、成本低、角色多样性。

🔗 https://x.com/xiaohuggg/status/1713393420642001004?s=20

5⃣️

🎞️ Morph Studio：

文本转视频新模型，1080p，3-7秒视频。
人脸效果不如moonvall，可生成【成人内容】。

🔗 https://x.com/xiaohuggg/status/1713382237838905722?s=20

历史项目记录：http://xiaohu.ai/

10月14日

🔥

🔔小互的推特 10月14日更新

✨✨✨✨✨✨✨✨

1⃣️

🔍Flash-Decoding：一种加速大型语言模型推理速度的方法，特定场景最高可提速60倍。

主要原理是在解码过程中提高注意力机制的效率。与现有方法相比，Flash-Decoding能够实现长序列生成速度提升高达8倍，特定场景最高可提速60倍，同时保持准确性。
这种优化对于需要长上下文推理的大语言模型（如文档摘要或代码自动完成）特别有益。

🔗 https://x.com/xiaohuggg/status/1713198491374367079?s=20

2⃣️

👤HyperHuman：超现实人像图像生成模型，能生成逼真的人像图像。

该模型生成的人体图像不仅逼真，而且具有高度的三维结构感，它能理解图像背后的三维结构。就像你不仅看到一个人，还能感知他站立的方式、面部的轮廓等。
HyperHuman在一个包含了3.4亿张图像和全面的注释，如人体姿势、深度和表面法线的数据集上进行训练。

🔗 https://x.com/xiaohuggg/status/1713112079002206321?s=20

3⃣️

🍏基于 Google 3D 图块的立体模型模式，在 Apple Vision Pro 中引入并构建基于位置的 AR 体验 …

🔗 https://x.com/xiaohuggg/status/1713104603297067010?s=20

4⃣️

🐙Octopus：一种多模态AI代理，能够理解和解释多模态信息，并生成可执行代码来自动完成任务。

多模态理解与解释：Octopus能够理解视觉和文本信息，并将这两种信息融合在一起，以更全面地理解和解释环境和任务。
任务自动化与代码生成：它还能自己编程来完成你交给它的任务，通过生成可执行的代码，Octopus能够自动完成各种任务，从简单的数据分类到复杂的决策制定。

🔗 https://x.com/xiaohuggg/status/1713068244129702227?s=20

5⃣️

💡同志们，我发现一个GPT的重大BUG

GPT一次可以同时执行四个不同的任务
以前一个对话框进行对话的时候你再开新的，就会提示上一个没执行完，无法进行。
我刚突然发现其实GPT的Dall·E、代码解释器、插件模式和视图模式是独立运行的，我就测试了一下，这几个模式在四个对话框下面是可以同时运行的...

🔗 https://x.com/xiaohuggg/status/1713045150585495852?s=20

6⃣️

🎨Meta Emu：一个先进的图像生成模型，专门设计用于生成高度美观的图像。

Emu是Meta AI新的图像生成模型，可以快速免费生成高质量逼真图像。该模型首先使用11 亿的图像-文本对进行预训练，然后使用了一组精选的高质量图像进行微调，来进一步提升生成图像的视觉吸引力。

🔗 https://x.com/xiaohuggg/status/1713026237655118208?s=20

7⃣️

🗺️LLM 技术图谱（LLM Tech Map）：帮助技术人快速了解 LLM 的核心技术和关键方向。

LLM 技术图谱（LLM Tech Map）从基础设施、大模型、Agent、AI 编程、工具和平台，以及算力几个方面，为开发者整理了当前 LLM 中最为热门和硬核的技术领域以及相关的软件产品和开源项目。

🔗 https://x.com/xiaohuggg/status/1713016105214833103?s=20

8⃣️

📜开源大语言模型完整列表：

对国内外公司、科研机构等的开源LLM进行全面整理。

详细🔗: https://gitee.com/oschina/awesome-llm

🔗https://x.com/xiaohuggg/status/1713016678098088412?s=20

9⃣️

🎵AudioSep：可以使用自然语言进行声音提取分离的模型

AudioSep可以从任何混合的音频信号中提取出特定的声音成分并分离出来。与传统的声音分离模型不同，AudioSep允许用户通过自然语言描述来指定他们想要分离的声音。例如，用户可以简单地输入“分离出钢琴声”或“去除背景噪音”等指令。

🔗 https://x.com/xiaohuggg/status/1712790552989897047?s=20

历史项目记录：http://xiaohu.ai/

10月13日

🔥

🔔小互的推特 10月13日更新

✨✨✨✨✨✨✨✨

1⃣️

🎨Vizcom.ai：将草图转化为概念图的设计平台。

提供内置的草图工具和图层，导入3D模型。
在加密的云环境中操作，确保数据安全。
节省设计时间高达80%。

🔗 https://x.com/xiaohuggg/status/1712652905134928291?s=20

2⃣️

🎨使用Dall·E 3生成和小姐姐隔屏握手图附prompt和案例：

🔗 https://x.com/xiaohuggg/status/1712847326652625286?s=20

3⃣️

🎵AudioSep：使用自然语言进行声音提取分离的模型。

AudioSep可以提取并分离特定声音。
与传统模型不同，用户可以用自然语言描述声音。
在音频事件、乐器和语音增强方面表现优秀。

🔗 https://x.com/xiaohuggg/status/1712790552989897047?s=20

4⃣️

🌍当地震发生时，人们可能会本能地做错事。

葡萄牙大学的虚拟现实游戏模拟地震场景。
重复体验，学习正确的应对策略。

🔗 https://x.com/xiaohuggg/status/1712764635349442938?s=20

5⃣️

🤖Disney展示的机器人，酷似BD-1：

🔗 https://x.com/xiaohuggg/status/1712736447084773841?s=20

6⃣️

🦠EVEscape：预测SARS-CoV-2、HIV等病毒新变种的AI工具。

由哈佛和牛津联合研发。
结合进化生物学和病毒结构信息。
适用于多种病毒，有广泛应用前景。

🔗 https://x.com/xiaohuggg/status/1712707266292617559?s=20

7⃣️

🎨DA-CLIP：图像修复视觉-语言模型。

支持图像退化、遮蔽、去雾、去雨水、图像损坏等修复。

🔗 https://x.com/xiaohuggg/status/1712677779890946058?s=20

8⃣️

📜维苏威挑战：解读赫库兰尼姆古卷轴比赛。

21岁学生Luke使用机器学习看到完整单词。
使用3D CT扫描和粒子加速器查看卷轴内部。

🔗 https://x.com/xiaohuggg/status/1712665563561103433?s=20

历史项目记录：http://xiaohu.ai/

10月12日

💀

🔔小互的推特 10月12日更新

✨✨✨✨✨✨✨✨✨

1⃣️

🚀 OpenAI：首次开发者大会11月6日旧金山举办

视觉功能API即将发布
推出节省成本的内存存储与前沿的视觉功能
鼓励企业使用其技术构建AI应用
理论上可以为应用开发者节省高达20倍的成本

🔗 https://x.com/xiaohuggg/status/1712400630004998528?s=20

2⃣️

📈 OpenAI的市场优势:

OpenAI 将成为一家通用人工智能平台，吸引大量开发者和用户，并在各领域取得领先地位，最终形成一家独大的局面。
GPT-4 即将超越拐点并在其能力上实现显著跳跃
OpenAI武器库里其实还有很多东西没有放出来

🔗 https://x.com/xiaohuggg/status/1712447807909658868?s=20

3⃣️

🤖 DeepMotion Animate 3D 5.0：

浏览器内的AI动作巨擘
单视频内捕捉8人动作、移动端无缝捕捉

https://x.com/xiaohuggg/status/1712464731561476260?s=20

4⃣️

🔐 Google Passkey:

新登录方式，无密码。
通过生物识别或屏幕锁进行身份验证。

🔗 https://x.com/xiaohuggg/status/1712427916305527227?s=20

5⃣️

🌟 Meta AI名人AI化:

名人转为AI角色在Instagram、Facebook展示。
AI生成视频和照片，费用高达500万美元。

🔗 https://x.com/xiaohuggg/status/1712421201765888481?s=20

6⃣️

🤖 𝗥𝗧-𝗫 机器人模型:

适用于多种机器人体系结构。
可查看RT-X数据集指令与对应视频。

🔗 https://x.com/xiaohuggg/status/1712414033998168229?s=20

7⃣️

🌐 Memex 浏览器扩展:

保存、标记网页、做笔记，具有AI功能。
全文搜索书签、高亮注释、隐私安全。

🔗 https://x.com/xiaohuggg/status/1712362380892791131?s=20

8⃣️

🎮 智能手表上的GTA:

GTA San Andreas在智能手表上运行。

🔗 https://x.com/xiaohuggg/status/1712379474497728640?s=20

9⃣️

🔕 MicFrozen声音技术:

反向声音削弱，防窃听。

🔗 https://x.com/xiaohuggg/status/1712326894895743387?s=20

🔟

👂 用 AirPods 监测大脑信号:

监测老年痴呆、帕金森。
记录脑电波、乳酸数据，神经退行性疾病早期诊断。

🔗 https://x.com/xiaohuggg/status/1712294608842215549?s=20

历史项目记录：http://xiaohu.ai/

10月11日

📣

🔔小互的推特 10月11日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🤖 网易开发的虚拟练习口语的AI机器人：是个小程序，叫hi echo。

可以选择不同场景，旅游、职场、考试… 完了还能评分，不过看起来怪怪的。 🔗 https://x.com/xiaohuggg/status/1712114448096481427?s=20

2⃣️ 🎮 虚拟现实拼图游戏：新一代的休闲游戏体验。

感受不一样的虚拟现实世界。 🔗 https://x.com/xiaohuggg/status/1712096911849832505?s=20

3⃣️ 🚀 马斯克把 X的首页图标由鸟窝换成了火箭 🔗 https://x.com/xiaohuggg/status/1712088847319024018?s=20

4⃣️ 🖼️ Frameright：智能图像处理的新时代。

图像智能适应，保持最佳视觉效果。
节省时间，提高工作效率。 🔗 http://frameright.io 🔗 https://x.com/xiaohuggg/status/1712087666941218828?s=20

5⃣️

🎥 Typeframes：

专为产品介绍视频设计的工具。
音乐响起，文字持续出现。
只需输入文案、选择背景和音乐，它会帮你完成整个制作。
🔗 https://typeframes.com 🔗 https://x.com/xiaohuggg/status/1712050856730976564?s=20

6⃣️ 🧪 Rice大学新型材料

这种材料可重新连接断裂的神经
设计的自整流磁电材料能远程精确刺激神经元
且在大鼠模型中成功重新连接断裂的坐骨神经
🔗 https://x.com/xiaohuggg/status/1712039842929049702?s=20

7⃣️

🌍 Public APIs：GitHub上的免费API集合

覆盖各种领域如动画、软件、设计、游戏、健康、金融等
🔗 https://github.com/public-apis/public-apis 🔗 https://x.com/xiaohuggg/status/1711991024137183651?s=20

8⃣️ 📚 Kosmos-2 by 微软

这是一个多模态大语言模型，能处理文本、图像等数据。
其能理解并生成与图像相关的描述，并可进行对象识别、视觉问答等功能。

🔗 https://x.com/xiaohuggg/status/1711978012793876513?s=20

9⃣️ 🎨 Adobe的Firefly模型：设计从此变得更简单。

三个强大的工具：Firefly Image 2、Firefly Vector和 Firefly Design。
满足你所有的设计需求。 🔗 https://x.com/xiaohuggg/status/1711932482768244944?s=20

🔟 📱 抓紧更新ChatGPT客户端

可以直接获得Voice和DALL·E 3功能。 🔗 https://x.com/xiaohuggg/status/1711934048447406282?s=20

历史项目记录：http://xiaohu.ai/

10月10日

☕

🔔小互的推特 10月10日更新

✨✨✨✨✨✨✨✨✨ 1⃣️ 🎧 ElevenLabs AI配音与语音翻译： - 支持29种主要语言。 - 识别多人说话，确保声音差异。 - 考虑目标语言文化的本土化翻译。 - 快速、准确的翻译与配音服务。 🔗 http://elevenlabs.io/dubbing 🔗 https://x.com/xiaohuggg/status/1711756696882987208?s=20 2⃣️ 🖼️ Stable Signature：Facebook的AI水印工具。 - 为AI生成的图像打上对肉眼不可见的水印。 - 能够抵抗各种图像操作，确保来源追溯。 🔗 https://ai.meta.com/blog/stable-signature-watermarking-generative-ai 🔗 https://x.com/xiaohuggg/status/1711744630566613414?s=20 3⃣️ 🤖 GenSim：使用GPT-4为机器人进行策略模拟训练。 - 利用GPT-4自动生成模拟环境和专家演示。 - 提高机器人对新任务的适应性。 🔗 https://liruiw.github.io/gensim/

4⃣️

📢 OpenAI科学家 @hwchung2 演讲：

模型足够大，某些能力才会显现
GPT-4 即将超越拐点并在其能力上实现显着跳跃

🔗演讲内容 https://t.co/lhatHcODHJ

🔗 https://x.com/xiaohuggg/status/1711714757802369456?s=20

5⃣️

🎨 GPT与创意：

GPT提供了非特定创意人士的风格相似图像。
令人惊讶的效果展示。

🔗 https://x.com/xiaohuggg/status/1711676800282358150?s=20

6⃣️

📝 DocsGPT：

开源GPT模型文档助手。
支持自然语言查询，代码示例生成。

🔗 https://github.com/arc53/DocsGPT

🔗 https://x.com/xiaohuggg/status/1711657836252688443?s=20

7⃣️

💨 GPT Dall-E 3 申请通道：

快速申请，亲测有效。

🔗 https://t.co/BzboqdxjdC

🔗 https://x.com/xiaohuggg/status/1711587708089602170?s=20

8⃣️

🩺 Google Cloud's Vertex AI Search：

- 面向医疗保健领域的AI工具。

- 提供高度定制的搜索、数据整合和先进的自然语言处理。

🔗 https://x.com/xiaohuggg/status/1711574737108041776?s=20

9⃣️

🖥️ BG Remover：

AI背景去除工具，最多一次处理500张图。
支持多种格式，精准去除背景。

🔗 https://icons8.com/bgremover

🔗 https://x.com/xiaohuggg/status/1711566021591777544?s=20

🔟

📊 #开源项目推荐：posthog：

开源产品分析平台。
用户行为数据收集，A/B测试。

🔗 https://github.com/PostHog/posthog

🔗 https://x.com/dotey/status/1711237004078272681?s=20

1⃣️1⃣️

🤖 𝗖𝗵𝗮𝘁𝗚𝗣𝗧 𝗣𝗹𝘂𝘀 𝗗𝗔𝗟𝗟·𝗘³：

聊天式的需求沟通和修改。
与设计师的沟通相似，但更为精准。
提示：设计师可能面临的挑战。

🔗 https://x.com/xiaohuggg/status/1711410789586968997?s=20

历史项目记录：http://xiaohu.ai/

10月9日

☕

🔔小互的推特 10月9日更新

✨✨✨✨✨✨✨✨✨

1⃣️

🖼️ SEED：一个先进的图像标记器，可赋予大语言模型视觉和绘图能力。

由腾讯AILab-CVC团队开发，将图像转换为离散的视觉代码，SEED-LLaMA在多模态任务上表现出色。

🔗 https://github.com/AILab-CVC/SEED

🔗 https://x.com/xiaohuggg/status/1711362123761422687?s=20

2⃣️

🎙️ Copilot Voice：用嘴来写代码，哈哈哈哈！

通过语音编写代码，直接用嘴指示，无需鼠标，支持代码导航和Visual Studio Code的控制。

🔗 https://x.com/xiaohuggg/status/1711342498503889239?s=20

3⃣️

🤖 情趣机器人已经提上日程，还要接入GPT。

华中科技大学-交互机器人项目。

🔗PPT下载 https://t.co/jOW2BayBah

🔗 https://x.com/xiaohuggg/status/1711331388371439955?s=20

4⃣️

🎨 SD WebUI AnimateDiff （v1.9.0）更新功能。

Prompt Travel功能，驱动文本生成与变换图像。
图像内容的动态变换
ControlNet 集成

🔗 https://github.com/continue-revolution/sd-webui-animatediff…

🔗 https://x.com/xiaohuggg/status/1711311620687937886?s=20

5⃣️

🤝 AutoGen：微软开发，通过代理通信实现复杂工作流。

协调代理工作，多代理协作在一个工作流中。

🔗 https://x.com/xiaohuggg/status/1711285267876008389?s=20

6⃣️

🎨 LCMs：新型图像生成模型，生成高分辨率图像。

快速推理，生成高质量图像，2~4步生成768 x 768图像。
LCMs可以从任何预训练的Stable Diffusion（SD）模型中提炼出来

🔗 https://latent-consistency-models.github.io

🔗 https://x.com/xiaohuggg/status/1711250631737163986?s=20

7⃣️

🎵 Sonoteller：音乐AI分析引擎，能“听懂”音乐。

提供歌曲的内容和意境、音乐属性等信息。

🔗 http://sonoteller.ai

🔗 https://x.com/xiaohuggg/status/1711227279261704580?s=20

8⃣️

👥 Text2Human：通过文本描述生成人体图像。

生成具有特定属性的人体图像，灵活、个性化生成。
还贡献了一个具有丰富多模态注释的大规模高质量数据集。

🔗 https://x.com/xiaohuggg/status/1711208875968610379?s=20

9⃣️

📝 Vditor：免费开源的Markdown编辑器。

支持三种编辑模式：所见即所得、即时渲染、分屏预览

🔗 https://x.com/xiaohuggg/status/1711199599531381148?s=20

历史项目记录：http://xiaohu.ai/

10月8日

🍙

🔔小互的推特 10月8日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🧠Zero2Story：一个互动故事生成器，从零开始创建一键创建互动故事，包括插画和背景音乐。

用户可以自定义故事的类型、背景、地点、情感氛围，以及角色的各种属性。然后，系统会根据这些设置生成故事。
同时允许用户在故事生成过程中做出选择，以影响故事的走向。
它还可以生成与故事相关的背景图像和音乐。这一切都是通过与 PaLM API、Stable Diffusion 和 MusicGen 的集成来实现的。 🔗https://github.com/coding-pot/Zero2Story 🔗https://x.com/xiaohuggg/status/1711016688333070646?s=20

2⃣️ 📸DA-CLIP：一种通用的图像修复视觉-语言模型。

传统图像修复方法通常专门针对一种或几种特定类型的图像损坏进行优化，如模糊、噪声或压缩损坏。而DA-CLIP能够更灵活地适应各种类型的图像恢复任务。
除了传统的图像修复，它还支持如图像退化、图像遮蔽、去除雾气、去除玻璃雨水、图像损坏等的修复。 🔗https://algolzw.github.io/daclip-uir/index.html 🔗https://x.com/xiaohuggg/status/1710980249125793993?s=20

3⃣️ 🌌Moonvalley：一个新型的文本到视频生成模型，生成质量非常高。

该模型仅靠文本提示即可生成高清的、16:9电影质量的视频。 🔗https://moonvalley.ai/ 🔗https://discord.gg/moonvalley 🔗https://x.com/xiaohuggg/status/1710947745660645514?s=20

4⃣️ 🎨PIXART-α：是一个基于 Transformer 的文本到图像生成模型。

其图像生成质量与当前最先进的图像生成器（如 Imagen、SDXL 和 Midjourney）相媲美。 🔗https://pixart-alpha.github.io/ 🔗https://x.com/xiaohuggg/status/1710938853526376466?s=20

5⃣️ 🎥Webcam Motion Capture：通过你的电脑或智能手机的摄像头即可完全控制和制作你专属的3D虚拟形象。 🔗https://x.com/xiaohuggg/status/1674402628288266240?s=20

6⃣️ 📚http://Shortbread.ai：一键漫画生成平台。

- 根据文字描述快速转化为完整漫画页面。

- 提供高度控制面板，可调整场景、角色姿态、表情等。 🔗https://x.com/xiaohuggg/status/1710889078059909325?s=20

7⃣️ 💽Llama 2 Everywhere：一个可在各种设备上运行的、独立的、二进制可携带、可引导的 AI 操作系统。

可在各种设备上运行，从二手Chromebook到企业级硬件。
在联网和离线的情况下都可运行。
通过多样化的文本来源进行训练，如教科书和开放图书。

🔗https://github.com/trholding/llama2.c 🔗https://x.com/xiaohuggg/status/1710864796227396028?s=20

8⃣️

👧美少女OPInterpreter：基于Open Interpreter驱动的VTuber AI美少女。

观众可通过YouTube Live与其实时聊天。
使用WebSocket进行实时通信，提供即时的用户反馈。
适用于创建VTuber场景，提供实时的交互体验。
观众发送消息后，WebSocket实时接收并通过Open Interpreter处理，再实时传回观众。

🔗https://x.com/xiaohuggg/status/1710853151069511971?s=20

历史项目记录：http://xiaohu.ai/

10月7日

🎉

🔔小互的推特 10月7日更新

✨✨✨✨✨✨✨✨✨

1⃣️

🎤 Elsa Speak: 革命性的AI英语口语教练!

- 与Elsa Speak对话，它如同你的私人英语教练，找出你的每一个小错误。

- 从商务到日常，涵盖了各种实用话题，感觉像是在与全球英语母语者闲聊。

- 还在死记硬背? Elsa帮你实战练习。

🔗 https://elsaspeak.onelink.me/rEuf/tqkeqwml

🔗 https://x.com/xiaohuggg/status/1710613957466304792?s=20

2⃣️

🧠 LLaVA：当大型语言模型遇上视觉！

- 能看，能懂，能聊，LLaVA为你解读图像与文本，为AI界翻开新篇章。

🔗 https://llava-vl.github.io

🔗 https://x.com/xiaohuggg/status/1710487220300497168?s=20

3⃣️

🔢 MathCoder：数学+编码，一次搞定!

- 一种让大型语言模型在数学上胜过GPT-4的方法。数学从未如此有趣！

🔗 https://x.com/xiaohuggg/status/1710582896355102954?s=20

4⃣️

❓ GPT的两面性？

- 惊喜! GPT不仅会给答案，现在还会给选项！

🔗 https://x.com/xiaohuggg/status/1710573340505903344?s=20

5⃣️

👁️ DREAM: 你的大脑是个艺术家！

- 基于大脑活动重塑你所见之景，带你进入梦境之中。

🔗 https://weihaox.github.io/DREAM/

🔗 https://x.com/xiaohuggg/status/1710524502717890695?s=20

6⃣️

✨ AnimateDiff：创意爆棚的动态设计!

- 为你的设计注入生命，快来体验这种艺术吧!

🔗 https://x.com/xiaohuggg/status/1710509589995868197?s=20

7⃣️

👶 CryAnalyzer - 婴儿哭声分析器：

识别超过20000种婴儿哭闹声音，5秒内给出原因。

🔗 https://x.com/xiaohuggg/status/1710500470203330595?s=20

8⃣️

🧘‍♀️ Thinking for Doing”（T4D）

- LLMs如今不仅能读懂你的心，还会为你采取行动。

🔗 https://arxiv.org/abs/2310.03051

🔗 https://x.com/xiaohuggg/status/1710480036166574231?s=20

9⃣️

🔍 Rerun: 是一个用于处理和可视化多模态数据流的通用框架

- 可以将（如图像、文本、声音等）等多模态的数据流可视化

🔗 https://x.com/xiaohuggg/status/1710475092579475704?s=20

🔟

🔧 OpenAI UI：微调，从未如此简单。

- 无需编码，直接在UI中创建任务，AI微调变得触手可及。

🔗 https://x.com/xiaohuggg/status/1710452987590852908?s=20

历史项目记录：http://xiaohu.ai/

10月6日

🎉

🔔小互的推特 10月6日更新

✨✨✨✨✨✨✨✨✨

1⃣️

📖 Manga-Image-Translator：一个开源的漫画图片翻译器

能够自动翻译漫画图像中的文本，当然普通的图片也可以。翻译完成后在图像在原位置替换译文。干净简洁，速度很快。
主要支持日语，汉语、英文和韩语。

🔗 http://cotrans.touhou.ai

🔗 https://x.com/xiaohuggg/status/1710264008140619781?s=20

2⃣️

🧠 BrainMagick：通过分析脑电活动来推断一个人正在想什么，并将其转化为语音。

由Facebook Research 研究的项目。
该研究使用非侵入性的电子脑图（EEG）和磁脑图（MEG）技术。

🔗 https://x.com/xiaohuggg/status/1710257128412438717?s=20

3⃣️

🤖 RH20T ：一个由上海交通大学研发的机器人数据集

数据集包括了超过 110000 个与机器人操作相关的序列。
旨在解决机器人在开放领域如何获取多样化和泛化技能的问题。

🔗 https://rh20t.github.io

🔗 https://x.com/xiaohuggg/status/1710225613444042856?s=20

4⃣️

📸 Screenshot Contacts：只需要截图，即可帮你链接社交账户，一个神器的思路...

Screenshot Contacts主要用于组织和管理社交媒体上的联系人信息。
还可以按社交平台、名称或日期对联系人进行排序和筛选。

🔗 https://x.com/xiaohuggg/status/1710203781378621617?s=20

5⃣️

🎨 Instruct-NeRF2NeRF：通过文本指令来编辑NeRF生成的3D场景。

该技术使用一个名为 InstructPix2Pix 的图像条件扩散模型。

🔗 https://instruct-nerf2nerf.github.io

🔗 https://x.com/xiaohuggg/status/1710186106514502059?s=20

6⃣️

🤖 @DisneyResearch 在 #IROS2023 上展示了他们经过Reinforcement Learning（强化学习）的机器人。

机器人的行走在一台PC上仅用了几个小时就完成了模拟训练。

🔗 https://x.com/xiaohuggg/status/1710176990383452275?s=20

7⃣️

📱 Google Pixel 8内置的AI功能介绍：

相机相册、音频编辑、视频处理、语音交互、智能呼叫、内容摘要、智能键盘等。

🔗 https://x.com/xiaohuggg/status/1710166450110087508?s=20

8⃣️

🌌 之前介绍的Instaverse 推出了Hugging Face的体验环境！

Instaverse可以将任何 2D 图像转换为一个完整的 3D 世界。

🔗 https://huggingface.co/spaces/ilumine-AI/Retro-to-3D

🔗 https://x.com/xiaohuggg/status/1710134986236723276?s=20

9⃣️

🛠 Spline发布了一个名为“Variables”的新功能（目前处于Beta测试阶段）。

这个功能为用户提供了一种全新的方式来创建3D交互式体验。

🔗 http://spline.design

🔗 https://x.com/xiaohuggg/status/170992892219

历史项目记录：http://xiaohu.ai/

10月5日

🎉

🔔小互的推特 10月5日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 📸Google Photos 新 AI 功能：

Best Take功能：自动选择合照中的最佳表情。
Zoom Enhance：放大照片时，AI智能填充像素之间的间隙。
Audio Magic Eraser：视频中的声音清除功能，提供清晰的声音质量。
Magic Eraser：智能消除照片中的干扰因素。 🔗 https://x.com/xiaohuggg/status/1709870566629576842?s=20

2⃣️ 😃http://emoji.is 表情生成工具：

提供更细腻的表情生成，输出的表情有更高的质量。 🔗 https://x.com/xiaohuggg/status/1709858929805824232?s=20

3⃣️ 🖥️Perplexity推出pplx-api：

提供开发者快速访问开源大型语言模型的接口。
提供易于使用、高速推理和稳定可靠的API。 🔗 https://blog.perplexity.ai/blog/introducing-pplx-api 🔗 https://x.com/xiaohuggg/status/1709822674992873591?s=20

4⃣️ 🧠麻省理工大学研究大型语言模型：

揭示LLMs不仅仅是记忆数据，它们还能理解数据的组织和逻辑。
LLMs拥有一种全面、一致的“世界模型”。 🔗 https://x.com/xiaohuggg/status/1709809427459825712?s=20

5⃣️ ⌚Google Pixel Watch 2 发布：

高度集成的智能手表，具有健康监测功能。
内置Google助手，支持语音控制。 🔗 http://goo.gle/48HhjgL 🔗 https://x.com/xiaohuggg/status/1709604531460546987?s=20

6⃣️ 🚘 #Cybertruck 拖着一个Rocket Engine

图2顶部是不是STARLINK 🔗 https://x.com/xiaohuggg/status/1709894407649124788?s=20

历史项目记录：http://xiaohu.ai/

10月4日

🎉

🔔小互的推特 10月4日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🗣️孙正义的AI预测:

软银集团的孙正义预测，到2030年，通用人工智能的能力将超过全人类。
认为像ChatGPT这样的AI正迅速发展，且通用AI将在所有领域超越人类。 🔗 https://x.com/xiaohuggg/status/1709548927308251610?s=20

2⃣️ 🎭RoleLLM - 专业角色扮演的AI:

提供评估、引出和增强角色扮演能力的方法。
项目涵盖了100个不同的角色，这些角色来自多个领域和背景
成功地提升了开源模型在角色扮演方面的性能 🔗 https://arxiv.org/abs/2310.00746 🔗 https://x.com/xiaohuggg/status/1709528855801950252?s=20

3⃣️ 🤖𝗥𝗧-𝗫 - 通用AI机器人模型:

RT-X是一款多功能、多平台的通用机器人模型。
改变了现有的机器人训练方法，提高了模型的灵活性和适应性。 🔗 https://x.com/xiaohuggg/status/1709486996832608575?s=20

4⃣️ 🌍Luma AI的交互式场景:

Luma AI推出了一款能够快速、高效地进行3D场景渲染的工具。
支持使用高斯喷射（Gaussian Splatting）技术来构建交互式场景
该技术在Luma iOS应用、Luma网站以及Luma API中均可使用。 🔗 http://lumalabs.ai/interactive-scenes 🔗 https://x.com/xiaohuggg/status/1709472469726425415?s=20

5⃣️ 🔇Acoustic Robot Swarm - 声学机器人:

小型移动“声群机器人”能够在房间内创建“静音区”或“语音区”。
能够隔离特定的声音，为用户提供了一个全新的沉浸式听觉体验。 🔗 https://www.nature.com/articles/s41467-023-40869-8 🔗 https://x.com/xiaohuggg/status/1709381267991785656?s=20

6⃣️ 🌐Arc浏览器与AI的融合:

Arc浏览器发布了其AI能力，允许与Chat GPT交谈和自动总结页面内容。
这个功能完全免费，可能会改变AI浏览器插件的未来。 🔗 https://x.com/op7418/status/1709263401292361776?s=20

7⃣️ 🌍Framer - Localization with AI：

自动翻译和调整网站的设计，以满足不同地区和语言的需求。
内置深度优化的AI翻译功能。 🔗 https://framer.com/updates/localization 🔗 https://x.com/xiaohuggg/status/1709241831115088107?s=20

8⃣️ 📿Rewind Pendant - AI可穿戴设备：

捕捉用户在现实世界中的对话，并将其加密存储在手机上。
预售价格为59美元。 🔗 https://rewind.ai/pendant 🔗 https://x.com/xiaohuggg/status/1709232725180428480?s=20

9⃣️

⌚️每24小时可以免费申请GPT api的

ChatGPT API 水龙头 http://faucet.openkey.cloud/
注意：用不常用的邮箱

历史项目记录：http://xiaohu.ai/

10月3日

📌

🔔小互的推特 10月3日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🎥SMPLer-X - 视频人体动作提取:

SMPLer-X模型使用大规模数据集学习人体姿态和形状的多样性。
能够从视频中识别人体、手和脸部的动作，及理解手势和面部表情。
微调后可以转化为特定领域的专家模型。 🔗 https://caizhongang.github.io/projects/SMPLer-X/ 🔗 https://x.com/xiaohuggg/status/1709203997528306043?s=20

2⃣️ 🚀Streaming-Llm - 大型语言模型升级:

解决了LLMs处理长输入的问题，提升了效率和性能。
该框架可以处理无限长度的序列。
与滑动窗口重计算基线相比，速度提高了22.2倍。 🔗 https://github.com/mit-han-lab/streaming-llm 🔗 https://x.com/xiaohuggg/status/1709182215530361004?s=20

3⃣️ 🔍LMM的黎明 - GPT-4V(ision)探索:

微软发布了关于GPT-4V的166页报告。
报告详细探讨了GPT-4V的功能、用法和未来方向。原文： http://arxiv.org/abs/2309.17421

翻译：https://weibo.com/ttarticle/p/show?id=2309404952763347108084 🔗 https://x.com/xiaohuggg/status/1708881320645103920?s=20

4⃣️ 🎬CCEdit - 视频编辑框架:

CCEdit是一个多功能的视频编辑框架，允许用户灵活编辑视频的各个方面。
用户可以在关键帧上应用各种编辑操作。 🔗 https://arxiv.org/abs/2309.16496 🔗 https://x.com/xiaohuggg/status/1709116111911096550?s=20

5⃣️ 📱Stable LM 3B - 笔记本与手机的语言模型:

Stability AI推出的新型语言模型，具有30亿个参数。
主要特点包括高性能、低功耗和多平台兼容。 🔗 https://t.co/QAgz4kZhXJ 🔗 https://x.com/xiaohuggg/status/1709008041918792112?s=20

6⃣️ 🗣️Imitator - 3D面部动画重建:

使用语音作为输入，从短视频中学习并根据音频重新生成3D面部动画。
专为生成与目标演员高度匹配的面部动画而设计。 🔗 https://balamuruganthambiraja.github.io/Imitator/ 🔗 https://x.com/xiaohuggg/status/1708868816196022711?s=20

历史项目记录：http://xiaohu.ai/

10月2日

📌

🔔小互的推特 10月2日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🌐拉斯维加斯的大圆球:

受到大量流量的关注。
具有很高的可玩性。 🔗 https://x.com/xiaohuggg/status/1708798726775714289?s=20

2⃣️ 📊Gossip - 在线PPT创建工具:

高效的用户界面解决了传统PPT的问题，如拖动幻灯片的麻烦。
通过大纲直接生成PPT。界面包括“想法”、“大纲”、“元素”和“样式和变量”。 🔗 在线体验：https://gossip.ink/

🔗 https://x.com/xiaohuggg/status/1708766583785656421?s=20

3⃣️ 🎥教程：使用 Animatediff-Cli-Prompt-Travel 创建动画。

通过简单的垫图和prompt效果来创建动画。 🔗 https://x.com/xiaohuggg/status/1708756160269140179?s=20

4⃣️ 🔬Dario Amodei 离开 OpenAI 并创建 Anthropic：

与 OpenAI 的理念存在差异。
两个核心信仰：无限进步理念和模型对齐与安全性。 🔗 https://x.com/xiaohuggg/status/1708716532912832620?s=20

5⃣️ 🌍小互在瑞丽

准备到缅甸创业。
描述了瑞丽的现状。 🔗 https://x.com/xiaohuggg/status/1708711368864772361?s=20

6⃣️ 🔧EasyFill 插件：

使Prompt菜单化并内置到鼠标左键。
提高ChatGPT使用效率。
详情南瓜博士：用GPT写的油猴脚本 🔗 https://x.com/xiaohuggg/status/1708656118690701393?s=20

7⃣️ 🎨DreamGaussian：

利用3D Gaussian Splatting技术快速生成3D模型。
只需2分钟，可以从文本或2D图像生成。 🔗 https://x.com/xiaohuggg/status/1708650092176228844?s=20

8⃣️ 🎬#周末影院爱有来生：

描述了一部关于前世情仇的影片。
人鬼殊途，充满了悲情。 🔗 https://x.com/xiaohuggg/status/1708494996117266456?s=20

历史项目记录：http://xiaohu.ai/

10月1日

📌

🔔小互的推特 10月1日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🎨 Colorpik AI Pen：

一支智能笔，可以绘制超过1600万种颜色。
不仅可以在数字屏幕上工作，还可以在纸上绘图或书写。
内置颜色传感器可以根据RGB传感器捕获的数据准确地混合墨水。
可以扫描任何颜色并立即开始在纸上绘图或书写。 🔗 http://colorpik.ai 🔗 https://x.com/xiaohuggg/status/1708482259651809670

2⃣️ 🧠 RenderMe-360：

超全面的4D人头数据集，旨在推动头部头像算法在不同场景中的进展。
数据集特点和内容描述。
解决了当前公共数据集的局限性。 🔗 https://renderme-360.github.io/index.html 🔗 https://x.com/xiaohuggg/status/1708467267221209381?s=20

3⃣️ 🎨 Bing 上线 DALL-E 3：

每周有100个免费快速生成额度。
看来确实还可以。 🔗 http://bing.com/images/create/ 🔗 https://x.com/xiaohuggg/status/1708350913243754569?s=20

4⃣️ 🤖 AiNex：

一款具备AI视觉能力的仿人教育机器人。
特点、功能和技术细节描述。
售价：799美金。 🔗 https://x.com/xiaohuggg/status/1708290117822284103?s=20

5⃣️ 💻 现在用ChatGPT的过程中：

通过自动化工具可以轻松输入长文，并进行自动翻译和合并。
一个POC验证了这种自动化的可能性。 🔗 https://x.com/dotey/status/1708185220929802369?s=20

6⃣️ 🖼️ RealFill：

描述了使用其他几张“参考图像”来帮助生成更真实、更准确的补全内容时的方法和效果。
参考图像的不同应用场景。 🔗 https://x.com/xiaohuggg/status/1708126125757726733?s=20

历史项目记录：http://xiaohu.ai/

9月30日

📌

🔔小互的推特 9 月 30日更新

✨✨✨✨✨✨✨✨✨ 1⃣️ 🖼️RealFill: 图像补全的生成模型：

RealFill提供了一个全新的图像补全方法，使用少量的参考图像进行补全。
生成的内容不仅视觉上引人注目，还忠实于原始场景。 🔗 https://realfill.github.io 🔗 https://x.com/xiaohuggg/status/1708112841243504793?s=20

2⃣️ 📡AppListener: 通过Wi-Fi监视应用活动：

利用Wi-Fi信号的无线电频率（RF）能量识别连接到Wi-Fi的设备的活动。
可以精确地识别用户正在使用的应用及其内部的操作。 🔗 https://x.com/xiaohuggg/status/1708074311188381920?s=20

3⃣️ ⚡隔空无线充电与Nikola Tesla：

研究人员讨论了特斯拉的理念，即“通过空气为每个设备供电”。
提到了无线电频率（RF）能量收集技术的未来潜力。 🔗 https://x.com/xiaohuggg/status/1708074450552594524?s=20

4⃣️ 🤖华盛顿大学的光与无线电波驱动的机器人：

名为MilliMobile的机器人可以携带相机、传感器或蓝牙设备，并长距离传输数据。
机器人体积与重量相当于一分钱和葡萄干。 🔗 https://x.com/xiaohuggg/status/1707990910188106127?s=20

5⃣️ 🎨Poe上线的SDXL机器人：

用户可以直接输入文字生成图片。
Poe还提供了不同的SDXL机器人风格，如梵高风格和赛博风。 🔗 https://x.com/xiaohuggg/status/1707820342629249071?s=20

6⃣️ 📚提升ChatGPT翻译质量的prompt：

宝玉介绍了如何通过ChatGPT翻译两次来提高翻译质量。
此方法可以减少“机翻”痕迹，使翻译结果更自然。 🔗 https://x.com/xiaohuggg/status/1707798400450843120?s=20

历史项目记录：http://xiaohu.ai/

9月29日

📌

🔔小互的推特 9 月 29日更新

✨✨✨✨✨✨✨✨✨

1⃣️

📄 PDFTriage：PDF分诊技术

由斯坦福大学和Adobe研究团队共同开发，解决了ChatGPT处理长篇、结构复杂文档时的问题。
PDFTriage先了解文档结构，然后找到与用户问题相关的部分，最后用语言模型生成答案。
LLM在处理长篇、结构复杂文档时存在的问题：上下文窗口限制、文档结构忽略、查询不准确、信息获取不全面。
用户反馈显示，PDFTriage在多页任务中效果更好。
🔗 (https://arxiv.org/abs/2309.08872)
🔗 (https://x.com/xiaohuggg/status/1707663867307065584?s=20)

2⃣️

🎨 3D Gaussian Splatting技术

博主Alexandre Devaux使用此技术，仅用25张照片渲染出一个高清的3D人像。
3D高斯渲染在处理头发和睫毛方面表现出色。
🔗 (https://x.com/xiaohuggg/status/1707660990698127586?s=20)

3⃣️

🎥 教程：使用 ComfyUI AnimateDiff 生成动画视频

你将学会如何使用简笔画和线条画生成动画视频，使用Tile功能和Vid2Vid视频转换等。
🔗 [详细教程](https://t.co/GbKidsBiNB)
🔗 (https://x.com/xiaohuggg/status/1707616431712665630?s=20)

4⃣️

🎁 ChatGPT Plus用户福利

用户现在可以邀请朋友免费试用Plus功能。
每人有三个名额，免费试用时间不同，最高90天。
🔗 (https://x.com/xiaohuggg/status/1707601369534976425?s=20)

5⃣️

🕸️ 前端的噩梦：GPT-4V人工智能代理

该代理能自主设计网页应用，自己编写代码，并查看生成的网站，对照设计改进代码。
🔗 (https://x.com/xiaohuggg/status/1707578061254992162?s=20)

6⃣️

🤖 Hugging Face教程：创建AI聊天机器人

介绍了如何使用Hugging Face的LLaMA 2基础模型和工具来创建AI聊天机器人。
🔗(https://huggingface.co/blog/Llama2-for-non-engineers)
🔗 (https://x.com/xiaohuggg/status/1707570490636964164?s=20)

7⃣️

🖼️ Shopify的SDXL背景替换工具

上传任意照片，输入提示即可替换和增加图片背景。
🔗 (https://huggingface.co/spaces/Shopify/background-replacement)
🔗https://x.com/xiaohuggg/status/1707564728279834979?s=20

8⃣️

🔬 ChatGPT细胞结构教学

网友使用ChatGPT学习细胞结构，模型能列出所有标签并提供准确解释。
🔗 (https://x.com/dotey/status/1707506204035994066?s=20)

9⃣️

📱 苹果CoreML版SDXL

可在离线的情况下在iPhone上运行，经过权重压缩，兼容iOS17。
🔗 (https://x.com/xiaohuggg/status/1707427456209256753?s=20)

🔟

🌐 Claude2镜像站

🔗 http://finechat.ai/

🔗 (https://x.com/Cydiar404/status/1706821587130032553?s=20)

1⃣1⃣️

💪 Rex.fit：AI健身和营养教练平台

使用摄像头捕捉锻炼，AI技术跟踪用户的锻炼数据。
提供营养聊天机器人，估计食物的营养成分。
🔗 (https://x.com/xiaohuggg/status/1707396741119742011?s=20)

历史项目记录：http://xiaohu.ai/

9月28日

📌

🔔小互的推特 9 月 28日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🖼️NeuRBF：

高级计算方法，增强图像和3D模型的表现力。
为图像提供“高级照相机滤镜”，凸显更多细节和质感。
适用于图像处理、三维建模和虚拟现实。 🔗详细：https://oppo-us-research.github.io/NeuRBF-website/ 🔗https://x.com/xiaohuggg/status/1707347899968086118?s=20

2⃣️ 🖼️Gigapixel Image：

展示十亿像素图像的细节。 🔗https://x.com/xiaohuggg/status/1707348020193619988?s=20

3⃣️ 🎮LEGO Bricktales：

AR乐高游戏，Meta Connect 2023 展示。
在真实空间中使用虚拟乐高建造。
与Quest 3、Quest 2和Quest Pro兼容。 🔗https://x.com/xiaohuggg/status/1707332864818421798?s=20

4⃣️ 🎥Jurassic Park Anime Edition：

Video2Video技术将1993年的Jurassic Park预告片转换成动漫版本。
无需其他视觉效果工具进行后期处理。 🔗原帖：https://reddit.com/r/aivideo/comments/16t8nbc/jurassic_park_anime_edition_video2video/ 🔗https://x.com/xiaohuggg/status/1707313497594540346?s=20

5⃣️ 📡Wiffract：

使用WiFi信号进行穿墙成像和阅读。
穿透墙壁进行阅读，捕捉物体的形状和位置。 🔗https://x.com/xiaohuggg/status/1707302517951074572?s=20

6⃣️ 🤖ChatBots：

两个GPT模型自主对话。 🔗https://x.com/xiaohuggg/status/1707282829640692171?s=20

7⃣️ 🕶️Ray-Ban Meta AI Glasses：

雷朋与Meta合作的AI眼镜演示视频。 🔗https://x.com/xiaohuggg/status/1707262391963271297?s=20

8⃣️ 😀EmojiGen：

世界上最大的表情符号库。
利用文本提示生成表情，用户可下载并添加到Slack。 🔗在线体验：https://emoji.fly.dev 🔗GitHub：https://github.com/cbh123/emoji

9⃣️ 🌐Llama Ecosystem by Meta：

基于Llama模型的LLM生态系统的进展。
Llama模型在Hugging Face上被大量下载和使用。
Llama可能成为下一个人工智能时代的安卓。 🔗详细：https://x.com/op7418/status/1707237601625952419?s=20

🔟 🎨Photoshop Online with Firefly AI：

Adobe推出的Photoshop网页版，支持Firefly AI生成功能。
提供Generative Fill和Generative Expand功能。
工具栏按工作流程进行分组，提高导航便利性。 🔗访问Photoshop网页版：https://photoshop.adobe.com/discover 🔗https://x.com/xiaohuggg/status/1707236381528105447?s=20

1⃣1⃣️ 🤖Meta AI Chatbot：

Meta推出的AI聊天机器人。
拥有28个名人角色，多语言交互。
提供创意工具、实时信息与图像生成等功能。 🔗详细信息：https://ai.meta.com/genai/ 🔗https://x.com/xiaohuggg/status/1707227157741830408?s=20

1⃣2⃣️ 🕶️Meta's AI Glasses：

售价299美元的Meta AI眼镜。
集成摄像头、麦克风、社交媒体直播功能等。
通过语音控制实现各种功能。 🔗https://meta.com/smart-glasses/ 🔗https://x.com/xiaohuggg/status/1707218687944708350?s=20

1⃣3⃣️ 🤖GPT-4 Online Functionality：

GPT-4的联网功能重新上线。 🔗https://x.com/xiaohuggg/status/1707212525190938869?s=20

1⃣4⃣️ 🎙️Heygen：

使用Heygen进行即时配音和口型同步。
提供8种语言的翻译。
数字人+多语种配音+口型同步将带来内容产业的革命。 🔗https://x.com/xiaohuggg/status/1707054258447917521?s=20

历史项目记录：http://xiaohu.ai/

9月27日

📌

🔔小互的推特 9 月 27日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 📡Radio2Tex：

利用毫米波实时自动语音识别技术，可用于窃听。
由香港大学和清华大学联合开发。
能够在各种复杂环境下工作，包括在有噪音或防音措施的情况下。 🔗https://x.com/xiaohuggg/status/1707031572933677180?s=20

2⃣️ 🎨Repainting 3D Assets：

为3D模型生成新的外观或"皮肤"。
使用文本到图像扩散模型和3D神经辐射场实现。
让旧的3D模型焕然一新。 🔗在线体验：https://t.co/cPEzFwHnE4 🔗https://x.com/xiaohuggg/status/1707014705523659256?s=20

3⃣️ 📱AskPDF：

推出iOS应用。
允许用户在手机上与PDF进行对话。
是ChatGPT插件商店的一个功能。 🔗https://x.com/xiaohuggg/status/1706930110769811769?s=20

4⃣️ 🖼️VQGAN：

用于生成高分辨率图像的模型。
使用向量量化，高效处理数据。
可进行条件生成，生成特定类型的图像。 🔗项目及演示：https://t.co/eyNz0A8snj 🔗https://x.com/xiaohuggg/status/1706922178489508225?s=20

5⃣️ 🌐GPT-4V 图像能力：

为网页截图重新编写代码。
可复制现有的网站。 🔗GPT编写的网页：https://dashbaord-test.skirano.repl.co 🔗https://x.com/xiaohuggg/status/1706845044937036066?s=20

6⃣️ 📺教程：ComfyUI AnimateDiff

使用ComfyUI AnimateDiff进行vid2vid视频转换。
使用ControlNet的Openpose和Depth功能转换视频风格。
作者：@bk_sakurai 🔗详细步骤：https://note.com/bakushu/n/n502fca61423b 🔗https://x.com/xiaohuggg/status/1706859510953037899?s=20

7⃣️ 🔌换了C口到iPhone：

现在的iPhone具有更多功能。 🔗https://x.com/xiaohuggg/status/1706834215562789210?s=20

8⃣️

⌚WHOOP Coach：

- WHOOP推出基于GPT 4的首款可穿戴设备。

- 可实时用50多种不同的语言回应用户的健康和健身问题。

- 根据用户数据提供有关睡眠、恢复和锻炼强度的见解和建议。

🔗https://x.com/xiaohuggg/status/1707035724489662492?s=20

历史项目记录：http://xiaohu.ai/

9月26日

📗

🔔小互的推特 9 月 26日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🎮人生重开模拟器游戏-作者陈财猫：

完全由 GPT4 的Advanced Data Analysis驱动的文字模拟游戏。
所有内容均由ChatGPT动态随机自动生成，故事剧情包罗万象。
体验prompt：陈财猫: 由GPT驱动的人生重开模拟器游戏，体验无穷变化的多重人生(已开源) 🔗：https://x.com/xiaohuggg/status/1706640899189665975?s=20

2⃣️ 📲Bezel：

插入数据线即可将iPhone投射到Mac上。
提供超逼真的设备框架，用于演示和录制。 🔗：https://x.com/xiaohuggg/status/1706625133249720361?s=20

3⃣️ 🌍PanoGen：

根据文本描述生成无限多种多样的全景环境。
模型可以根据文本描述生成相应的全景环境。 🔗：https://pano-gen.github.io 🔗https://x.com/xiaohuggg/status/1706561194906280361?s=20

4⃣️ 🚶UnitedHuman：

使用多源数据，生成高分辨率的人体图像。
模型使用了多个不同来源和不同分辨率的数据集来训练。 🔗：https://unitedhuman.github.io 🔗https://x.com/xiaohuggg/status/1706548711453770059?s=20

5⃣️ 🐦宝玉的推文：

宝玉发言表示对ChatGPT的语音对话功能非常满意，并提到中文的支持很好。
小互表示羡慕 🔗：https://x.com/xiaohuggg/status/1706544628290527611?s=20

6⃣️ 🎨BLIP-Diffusion：

一个新型的主题驱动图像生成模型。
可以根据文本提示或给定的“主题”图像生成图像。 🔗：https://t.co/YAEJNsZBQx 🔗https://arxiv.org/abs/2305.14720 🔗https://x.com/xiaohuggg/status/1706530502101123337?s=20

7⃣️ 👁️GPT-4V 视觉能力：

描述了GPT-4V的视觉识别能力和局限性。
擅长：物体检测、文本识别、人脸识别，验证码，地理定位
局限：空间关系，重叠对象，上下文推理，遮挡，小细节 🔗：https://twitter.com/xiaohuggg/status/1706482486329614830

8⃣️ 🎧Spotify 新功能：

推出“Voice Translation for podcasts”的AI工具。
可以将播客翻译成其他语言，并保持原始发言人的声音风格。 🔗：https://x.com/xiaohuggg/status/1706454208264987002?s=20

9⃣️ 🔥李彦宏的评论：

当初李彦宏说三个月就能赶上，但现在OpenAI的进展已经非常快速。 🔗：https://x.com/xiaohuggg/status/1706329518334792097?s=20

历史项目记录：http://xiaohu.ai/

📗

解释

7⃣️ 👁️GPT-4V 视觉能力：

- 描述了GPT-4V的视觉识别能力和局限性。

- 擅长：物体检测、文本识别、人脸识别，验证码，地理定位

- 局限：空间关系，重叠对象，上下文推理，遮挡，小细节 🔗：https://twitter.com/xiaohuggg/status/1706482486329614830

1⃣️ 🔍GPT-4V 视觉识别能力：

物体检测：能够识别如汽车、动物、家居用品等常见物体。
文本识别：具备光学字符识别 (OCR) 功能，能够转录图像中的文本为机器可读文本。
人脸识别：能够定位并识别图像中的人脸，还能根据面部特征分析性别、年龄和种族属性。
验证码解决：具备解决基于文本和图像的验证码的能力。
地理定位：能够识别风景图像中的城市或地理位置。
复杂图像：在复杂图表、医学扫描或多重叠加文本的图像中可能遇到难题。

2⃣️ ⚠️GPT-4V 视觉推理局限性：

空间关系：可能难以理解图像中对象的空间布局和位置。
重叠对象：可能难以区分重叠的对象。
背景/前景：可能难以正确区分图像的前景和背景对象。
遮挡：可能难以识别被遮挡的对象。
小细节：可能会错过或误解图像中的小物体或复杂细节。
上下文推理：可能难以深入分析图像的上下文和描述对象之间的关系。
置信度：可能会错误地描述对象关系，即使没有图像支持。

9月25日

💡

🔔小互的推特 9 月 25日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 📊GPT-4V(ision) Update：

今天OpenAI发布的模型其实叫GPT-4V(ision)。
OpenAI放出了19页的GPT-4V(ision)报告。
GPT-4V可以为其500,000名盲人和低视力用户提供前所未有的工具。
OpenAI还研究了模型的基于地理位置的能力，以及模型破解CAPTCHA的能力。 🔗：https://cdn.openai.com/papers/GPTV_System_Card.pdf 🔗https://x.com/xiaohuggg/status/1706304076126785833?s=20

2⃣️ 🎉ChatGPT Voice & Image Update：

OpenAI发布重大更新，宣布开始为ChatGPT推出新的语音和图像功能。
为用户提供了一种更直观的界面，允许与ChatGPT进行语音对话或展示内容。 🔗：https://x.com/xiaohuggg/status/1706285235548405869?s=20

3⃣️ 🔍Prompt Recommendation：

测试了@jesselaunz老师分享的Prompt。
可用来研究和解释各种知识，还能生成思维导图和解释流程图。 🔗：https://x.com/xiaohuggg/status/1706251624187146270?s=20

4⃣️ 🤖LEAP Hand：

低成本、高效、开源的仿生机器手。
LEAP Hand在性能上有显著的优势，成本只有其他产品的1/8。 🔗：http://leaphand.com 🔗https://arxiv.org/abs/2309.06440 🔗https://x.com/xiaohuggg/status/1706231147406201021?s=20

5⃣️ 🚀丰田研究院新技术：

开发了一种新的方法，使机器人能够从人类示范中获得新的灵巧行为。
机器人可以在一个下午内学习新的操纵能力。 🔗：https://x.com/xiaohuggg/status/1706220151698608613?s=20

6⃣️ 💼亚马逊 & Claude 母公司Anthropic 投资：

亚马逊宣布将向Claude母公司Anthropic投资40亿美元。
Anthropic将使用AWS的Trainium和Inferentia芯片进行模型训练和部署。 🔗：https://anthropic.com/index/anthropic-amazon 🔗https://x.com/xiaohuggg/status/1706207629209673741?s=20

7⃣️ 📈百川模型：

开放了API接口Baichuan 53B 价格： 00:00 ~ 8:00 点 0.01元/千tokens 8:00 ~ 24:00 点 0.02元/千tokens 🔗：https://platform.baichuan-ai.com/docs/api 🔗https://x.com/xiaohuggg/status/1706192163196047810?s=20

8⃣️ 🎞️AnimateDiff 更新：

AnimateDiff 更新运动模块Motion Modules。
新增了相机运动控制。 🔗：https://civitai.com/models/108836/animatediff-motion-modules 🔗https://x.com/xiaohuggg/status/1706167815450112071?s=20

9⃣️ 🖼️DREAMLLM：

可实现多模态交互创作。
DREAMLLM能清晰的理解文本和图像之间的关系。
项目基于Vicuna模型，它是一个因果解码器仅语言模型。 🔗：https://dreamllm.github.io 🔗https://x.com/xiaohuggg/status/1706163736992756082?s=20

🔟 🎬Pika labs 新功能：

可以将文本内容和图像加密到视频中。 🔗：https://x.com/xiaohuggg/status/1706146326910791912?s=20

小互的新域名：http://xiaohu.ai/

9月24日

💡

🔔小互的推特 9 月 24日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🐁MouseGoggles：

专为研究鼠类神经科学和行为设计的沉浸式虚拟现实头盔。
更深入地研究小鼠的大脑功能和行为反应。 🔗：https://researchsquare.com/article/rs-3301474/v1 🔗https://x.com/xiaohuggg/status/1705958268185755663?s=20

2⃣️ 📱手机语音笔记AI整理：

用Apple Watch或iPhone里的just press record APP快速录音转写为文本。
AI整理后自动保存到剪贴板。
效果：敲手机背面2下，调起语音输入转文本，结束后ChatGPT处理，写入备忘录。 🔗：https://t.co/eowzXfaJZx 🔗https://x.com/vista8/status/1705866177246031914?s=20

3⃣️ 📖Linkwarden：

一个开源的、可自托管的协作式书签管理器。
可以按类别和标签组织这些链接，用户可以轻松找到他们需要的信息。
将网页保存为存档可以确保永久记录。 🔗：https://github.com/linkwarden/linkwarden 🔗https://x.com/xiaohuggg/status/1705871928203092205?s=20

4⃣️ 🌐Webrecorder：

一个网络归档工具，可以“捕获”或“记录”网站在某个特定时间点的完整内容和功能。
Wayback Machine：互联网历史档案馆保存了超过 8280亿个网页。
可以让你浏览和搜索过去的任何网页版本，即使该网站已被删除。 🔗：https://webrecorder.net 🔗https://x.com/xiaohuggg/status/1705856163835945471?s=20

5⃣️ 🎨AI 图像修复工具、模型大全：

收集了一些图像修复工具，整理成一个主题帖，方便大家收藏查找。
包括工具+模型，可以说非常全面。 🔗：https://x.com/xiaohuggg/status/1698981381022581104?s=20

6⃣️ 🤖CoDi：

一个新颖的生成模型，能够从任何组合的输入模态生成任何组合的输出模态。
无论您提供的是文字描述、图片或其他形式的输入，CoDi都可以根据这些输入生成相应的输出。
CoDi为AI生成技术提供了一个全新的视角。 🔗：https://codi-gen.github.io 🔗http://arxiv.org/abs/2305.11846 🔗https://x.com/xiaohuggg/status/1705791847896093174?s=20

7⃣️ 🤖特斯拉的 Optimus 机器人：

现在可以自主地对物体进行分类和排序。
它是基于端到端神经网络训练的。
视频中，机器人成功地将蓝色和绿色的积木块分别放入蓝色和黄色的托盘中。 🔗：https://x.com/xiaohuggg/status/1705770215945199785?s=20

8⃣️ 🚀Pieter Levels @levelsio 的成功故事：

创建了 PhotoAI、InteriorAI、NomadList 和 RemoteOK。
这 4 个 SaaS 每月的收入约为 200,000 美元。
一共推出了 70 多个 SaaS, 但只有这 4 个产生了收入。
他的故事告诉我们：毅力、智慧、韧性都是成功的关键。 🔗：https://x.com/xiaohuggg/status/1705612146720325867?s=20

历史记录：http://waytoagi.com/xiaohu

9月23日

💡

🔔小互的推特 9 月 23日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🎮教程：使用Hugging Face Transformers 和 Unity Sentis轻松创建游戏AI NPC：

本文介绍了教你如何在游戏中创建一个基于AI模型的NPC。
为玩家提供与NPC的实时对话、文本或语音控制角色等沉浸式体验。
该NPC可以理解玩家的指令并执行它们。 🔗：https://t.co/PkYaAOSsd8 🔗https://x.com/xiaohuggg/status/1705589367740440606?s=20

2⃣️ 🖼️将任意两张图像合成新的图像：

挺有意思的，可以试试 🔗：https://t.co/kdfCJ8JfPw 🔗https://x.com/xiaohuggg/status/1705520131340943521?s=20

3⃣️ 🎬#周末影院：

本周继续推荐一部老电影，由李小璐的妈妈张伟欣主演。
讲述了对传统婚姻家庭观念反思的电影，看完让人陷入沉思！ 🔗：https://x.com/xiaohuggg/status/1705460091854713065?s=20

4⃣️ 🎨SVGCustomization：

能够使用文本提示生成和编辑矢量图像，同时保留矢量图像的属性和图层信息。
该项目的目标是简化矢量图形的创建和编辑过程。
允许用户通过简单的文本提示来定制矢量图形。 🔗：https://intchous.github.io/SVGCustomization/ 🔗https://x.com/xiaohuggg/status/1705426308430491693?s=20

5⃣️ 📈FreeU：

一种在不增加任何成本的情况下显著提高扩散模型输出质量的方法。
无需训练，不增加额外的参数，也不增加内存或采样时间。
FreeU框架可以与现有的扩散模型无缝集成。 🔗：https://chenyangsi.top/FreeU/ 🔗https://x.com/xiaohuggg/status/1705418820796723387?s=20

6⃣️ 🔊支持100多种TTS语音的免费文本转语音工具：

经过测试效果还不错。
虽然声称是免费的，但免费的只是普通声音，好一点的声音需要会员。
支持包括中文在内的30种语言、100多种语音风格。 🔗：https://speechify.com/text-to-speech-online 🔗https://x.com/xiaohuggg/status/1705414394161897647?s=20
历史项目记录：http://waytoagi.com/xiaohu

9月22日

💡

🔔小互的推特 9 月 22日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🎬 StoriaBoard：

几秒钟内将你的故事剧本可视化数百个故事版
功能：上传剧本、选择视觉风格、自动生成上下文提示，一键可视化，快速浏览
适用场景：心情板、故事板、提案 🔗：https://app.storia.ai 🔗https://x.com/xiaohuggg/status/1705245943598321844?s=20

2⃣️ 🤖 数字主播：

7x24小时不间断直播卖货
特点：中国AI技术展现 🔗：https://t.co/oqki3uVLTG 🔗https://x.com/xiaohuggg/status/1705196378962751933?s=20

3⃣️ 📜 LongLLaMA：

主打长上下文处理
功能：支持高达256k 的上下文长度，基于LLaMA并使用Focused Transformer进行微调 🔗：https://huggingface.co/syzymon/long_llama_code_7b 🔗https://x.com/xiaohuggg/status/1705191335094009971?s=20

4⃣️ 📱 WeChat-AIChatbot：

将多种AI聊天机器人接入微信或企业微信个人号
功能：分配知识库、支持微信客户端、发送接收消息、语音功能、插件集成等 🔗：https://github.com/chazzjimel/WeChat-AIChatbot-WinOnly 🔗https://x.com/xiaohuggg/status/1705128174168985929?s=20

5⃣️ 📊 Dr. Jim Fan：

讨论DALLE 3和MidJourney的比较
优点：多轮对话、算法效率、生态系统、用户基础 🔗：https://x.com/xiaohuggg/status/1705115388948922826?s=20

6⃣️ 🖼️ OpenAI DALL-E 3：

联合ChatGPT展示推理能力
特点：简单提示、高效出图、大想象空间、傻瓜式操作 🔗：https://x.com/xiaohuggg/status/1705102597592608963?s=20

7⃣️ 🎥 Genmo Replay v0.1：

文字到视频生成模型
功能：简单描述、高分辨率视频合成、自然语言理解、不同宽高比支持、免费使用 🔗：https://x.com/xiaohuggg/status/1705083713007301099?s=20

8⃣️ 🎙️ 新版Alexa语音助手：

由生成式AI驱动
特点：人性化声音、更自然的对话、无需唤醒词、消息代写和发送 🔗：https://x.com/xiaohuggg/status/1705066697525465479?s=20
历史记录：http://waytoagi.com/xiaohu

------------------------------------------------------

📰凌晨大更新

最近这些海外大厂有点杀疯了，轮番AI轰炸😂

昨晚就有微软365和YouTube的新产品发布会

1⃣️

💻微软365AI落地新功能看了超心动

🔥 copilot加入全家桶9月26日起海外可以正式使用

https://x.com/xiaohuggg/status/1704886721912221960?s=20

2⃣️

🎬 YouTube AI工具新介绍：

🪄 AI Video with Dream Screen：键入提示，轻松更换背景。适用于Shorts。

📱 Free Editing App YouTube Create：免费移动应用，简单编辑高质量视频。

💡 Personalized AI Insights：在YouTube Studio根据频道和趋势获得视频建议，帮助激发创意。

🌍 Auto-Dubbing with Aloud：使用AI轻松将视频翻译并配音成其他语言。

🎶 Assistive Music Search：描述视频内容，快速找到匹配的免费背景音乐。

https://x.com/xiaohuggg/status/1704903159054000348?s=20

9月21日

💡

🔔小互的推特 9 月 21日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 📊 Flourish：

轻松地将你的数据转化为令人惊叹的可视化效果的工具
功能：创建数据图形和动画故事、无需编码或安装、无缝嵌入、品牌定制 🔗 ：http://flourish.studio 🔗 https://x.com/xiaohuggg/status/1704860235817697384?s=20

2⃣️ 💻 Intel新芯片：

可在笔记本上运行生成式AI聊天机器人、无需连接云数据中心
Intel展示断网情况下的功能
微软的"Copilot" AI助手也将支持 🔗 ：https://x.com/xiaohuggg/status/1704843412560855182?s=20

3⃣️ 📚 MAmmoTH：

为解决通用数学问题而定制的开源大语言模型
结合了CoT和PoT两种思维方式
在多个数学数据集上表现突出 🔗 项目：https://tiger-ai-lab.github.io/MAmmoTH/ 🔗 https://x.com/xiaohuggg/status/1704827922320920674?s=20

4⃣️ 🚴 自行车安全气囊：

当自行车倾翻、碰撞时可保护头部 🔗 ：https://x.com/xiaohuggg/status/1704803744284877100?s=20

5⃣️ 📑 红杉资本报告：

生成式AI的发展趋势、市场表现及预测总结 🔗 完整报告：https://www.sequoiacap.com/article/generative-ai-act-two/ 🔗 https://x.com/xiaohuggg/status/1704750970847309993?s=20

6⃣️ 📞 ChatGPT 驱动的AI电话呼叫API：

允许用户与AI进行电话语音交互
网友推测的工作原理 🔗 ：http://bland.ai 🔗 原帖：https://reddit.com/r/ChatGPT/ 🔗 https://x.com/xiaohuggg/status/1704738814722453560?s=20

7⃣️ 🎨 OpenAI DALL-E 3：

最新版本的文本到图像生成模型
直接与ChatGPT集成、高准确性、安全性等特点 🔗 ：http://openai.com/dall-e-3 🔗 https://x.com/xiaohuggg/status/1704659820111085759?s=20

8⃣️ 💬 GitHub Copilot Chat：

AI助手，为程序员提供实时建议
功能：实时指导、代码分析、修复安全问题等
🔗https://x.com/xiaohuggg/status/1704545418988896579?s=20

历史项目记录：http://waytoagi.com/xiaohu

9月20日

💡

🔔小互的推特 9 月 20日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🎨 Expressive Text-to-Image：

使用富文本来生成富有表现力的图像
探索使用丰富文本中的多种格式信息进行文本到图像的生成。
框架实现直观的局部样式控制、精确颜色生成及长提示补充描述 🔗 项目及演示：https://rich-text-to-image.github.io 🔗 论文：https://arxiv.org/abs/2304.06720 🔗 动态：https://x.com/xiaohuggg/status/1704512428912877753?s=20

2⃣️ 🔧 LightDiffusionFlow：

腾讯开发的StableDiffusion 插件
自动搜索模型，一键保存所有工作流数据
基于 StableDiffusion WebUI开发 🔗 演示说明：https://fvkij7wuqx9.feishu.cn/docx/HgZndihraotmmzxFni7cFZISnvb 🔗 GitHub：https://github.com/Tencent/LightDiffusionFlow/tree/master 🔗 动态：https://x.com/xiaohuggg/status/1704447044663038002?s=20

3⃣️ 📹 TikTok AI标签更新：

TikTok全面启动平台AIGC内容的监管
要求AI生成的帖子进行标记
未标记内容可能会被删除 🔗 ：https://newsroom.tiktok.com/en-ca/new-labels-for-disclosing-ai-generated-content-ca 🔗 动态：https://x.com/xiaohuggg/status/1704415715464507810?s=20

4⃣️ 🧠 Neuralink人体临床试验：

由马斯克的脑机接口公司Neuralink主导
开始招募首次人体临床试验
初始目标：使人们仅通过思考控制计算机的光标或键盘 🔗 患者注册：https://t.co/xMBHehclNU 🔗 ：https://t.co/0JqER5ShdF 🔗 Neuralink手册：https://neuralink.com/pdfs/PRIME-Study-Brochure.pdf 🔗 动态：https://x.com/xiaohuggg/status/1704379248965030190?s=20

5⃣️ 🧠Q-Transformer:

DeepMind开发的强化学习方法
目的：从大数据中学习多任务完成方式
适用领域：机器人控制、游戏策略优化、金融决策等 🔗项目及演示：https://q-transformer.github.io 🔗https://x.com/xiaohuggg/status/1704357750237782299?s=20

6⃣️ 🎙️ElevenLabs "Projects" 功能:

用于生成和编辑长篇音频
功能：一键全文转换、发言者分配、重新生成音频片段、插入暂停等
允许导入多种文件格式 🔗官方介绍：https://elevenlabs.io/projects 🔗https://x.com/xiaohuggg/status/1704330887683604991?s=20

7⃣️ 🎨使用Stable Diffusion XL创建颠倒画:

博主Alex Carlier研究成果
颠倒看是两种不同的图像
提供在线体验和源代码 🔗在线体验：https://t.co/X9G8td3KR8 🔗https://x.com/xiaohuggg/status/1704308937171095667?s=20

8⃣️ 🧬AlphaMissense:

DeepMind推出，基于AlphaFold模型
用于预测遗传突变引起的蛋白质结构变化
助力罕见疾病遗传学研究 🔗https://x.com/xiaohuggg/status/1704305228303204615?s=20

9⃣️ 🔬AI增强现实显微镜(ARM):

美国国防部与Google合作成果
快速识别不同类型的癌症
显示癌症区域的增强现实技术
价格：约90,000到100,000美元 🔗https://x.com/xiaohuggg/status/1704292137012265096?s=20

9月19日

💡

🔔小互的推特 9 月 19日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🌐 Google Bard Extension：

集成Google全家桶的Bard扩展
功能：从Gmail、Docs、Drive、Google地图、YouTube、Google航班和酒店中找到并向您展示相关信息 🔗：https://x.com/xiaohuggg/status/1704111709471096856?s=20

2⃣️ 🔄 Google Bard 更新：

Bard发布了一个新的AI模型并与其他Google服务集成
新功能：“Google it”功能的优化与扩展，支持40种语言 🔗：https://x.com/xiaohuggg/status/1704103089203249350?s=20

3⃣️ 🎨 3D 免费超高清头部模型：

的皮肤纹理和位移图，适用于3D渲染和动画制作
可以旋转、放大、缩小观看 🔗下载：https://tinyurl.com/3dscanstore 🔗：https://x.com/xiaohuggg/status/1704098364865011808?s=20

4⃣️ 🤖 Ascento：

AI安防机器人，能跑能走
自动充电、超过4小时续航、热成像、RGB和红外摄像头等 🔗：https://x.com/xiaohuggg/status/1704089331269562803?s=20

5⃣️ 📚 BookStash：

从顶级书籍中快速获取核心思想的免费图书馆
名人如比尔盖茨、巴菲特、马斯克等的书籍推荐 🔗传送门：https://bookstash.io 🔗：https://x.com/xiaohuggg/status/1704008799949037973?s=20

6⃣️ 🎬 《24个比利》：

关于一个人拥有24种多重人格的离奇故事 🔗：https://x.com/xiaohuggg/status/1704072394720342166?s=20

7⃣️ 💬 微信新功能：

支持多语言翻译，文字就会被翻译为所选语言
钱包新增「经营账户」 🔗：https://x.com/xiaohuggg/status/1703981682075029816?s=20

8⃣️ 💡 OpenAI GPT-3.5-Turbo-Instruct：

强大的指令遵循大模型，准确理解和执行用户指令
价格：输入每1,000个标记0.0015美元，输出每1,000个标记0.002美元 🔗：https://x.com/xiaohuggg/status/1703963125064913232?s=20

9⃣️ 🚶♂️ LAMA：

使用人类运动捕捉数据合成真实的3D人体动作
项目及演示与论文链接提供 🔗项目及演示：https://jiyewise.github.io/projects/LAMA/ 🔗论文：https://arxiv.org/abs/2301.02667 🔗：https://x.com/xiaohuggg/status/1703959090341515529?s=20

🔟 🖥️ mnml.ai：

AI渲染工具平台，专为建筑和室内设计
覆盖室内室外设计、草图转设计图、景观设计、概念设计等 🔗：https://x.com/xiaohuggg/status/1703946085356695705?s=20

1⃣1⃣️ 🧠 Google Gemini：

Google的大语言模型
集成到Google Cloud Vertex AI，可能与OpenAI的ChatGPT竞争 🔗：https://x.com/xiaohuggg/status/1703792981063663987?s=20

历史记录：http://waytoagi.com/xiaohu

9月18日

☕

🔔小互的推特 9 月 18日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🖼️DeePoint：

自动识别及预测图像或视频中的指向动作
能估计指向的3D方向
基于Transformer，训练数据集：DP
🔗[项目及演示]https://vision.ist.i.kyoto-u.ac.jp/research/deepoint/
🔗https://x.com/xiaohuggg/status/1703759648254464055?s=20

2⃣️ 🤟手语翻译算法：

由印度计算机科学学生开发
即时手语翻译
🔗https://x.com/xiaohuggg/status/1703583290115187185?s=20

3⃣️ 🎨Midlibrary：

高级Midjourney AI风格库
包含3943种风格，跨多种艺术类别
🔗：http://midlibrary.io/
🔗https://x.com/xiaohuggg/status/1703687870874288284?s=20

4⃣️ 📚Linear Book Scanner：

低成本翻页式书籍扫描仪
开源设计, 生成可搜索PDF
🔗：https://linearbookscanner.org/
🔗https://x.com/xiaohuggg/status/1703659003040219166?s=20

5⃣️ 🎥ProPainter：

一键移除视频内物体或水印
基于E2FGVI实现
和前几天发的这个OmnimatteRF,Track-Anything也有点类似，
项目：https://t.co/psub7dIymc Github：https://github.com/sczhou/ProPainter Track-Anything：https://github.com/gaomingqi/Track-Anything E2FGVI：https://github.com/MCG-NKU/E2FGVI
OmnimatteRF https://omnimatte-rf.github.io
🔗https://x.com/xiaohuggg/status/1703626100365279688?s=20

6⃣️ 📖古登堡有声书开放项目：

合作创建的免费有声书项目
利用新的神经文本转语音技术
🔗：[项目网站]https://aka.ms/audiobook
🔗[论文]https://arxiv.org/abs/2309.03926
🔗https://x.com/xiaohuggg/status/1703609403554025969?s=20

7⃣️ 😀Google搜索“emoji kitchen”：

创作自己的表情组合
🔗https://x.com/xiaohuggg/status/1703588941985939959?s=20

8⃣️ 🌀中世纪村庄螺旋：

使用Stable Diffusion与ControlNet生成的效果
🔗：[在线体验]https://huggingface.co/spaces/AP123/IllusionDiffusion
🔗https://x.com/xiaohuggg/status/1703728264400015406?s=20

历史记录合集：http://waytoagi.com/xiaohu

9月17日

☕

🔔小互的推特 9 月 17日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 💻AirCode：

在线编程工具，支持实时Node.js函数编写
内置数据库和文件存储功能
无需本地安装或配置，直接在浏览器编程
主要功能：云同步编码、TypeScript支持、在线调试、一键发布
示例应用包括ChatGPT集成的AI流式响应、Shopify数据同步至Google表格等 🔗：http://aircode.io 🔗https://x.com/xiaohuggg/status/1703404942365729224?s=20

2⃣️ 🎮Nvidia Code Llama：

- Nvidia推出Code Llama体验地址。 - 根据自然语言提示生成代码

- 可生成Python、C++、Java等语言

- 对中文的输入有听力理解，但以英文回复

- 输出速度快，比GPT速度至少快3倍 🔗：http://nvda.ws/3sUDkIR 🔗https://x.com/xiaohuggg/status/1703363336921088000?s=20

3⃣️ 📚省流：

50万字浓缩版
一分钟阅读时间的“马斯克传” 🔗：https://x.com/xiaohuggg/status/1703314330840908268?s=20

4⃣️ 🎓Class Central：

超全的在线课程聚合平台
聚合了1200所全球大学和1000多家顶级机构的课程
覆盖各种学科主题，学习必备神器 🔗：http://classcentral.com 🔗https://x.com/xiaohuggg/status/1703284610552271053?s=20

5⃣️ 🤖IncarnaMind：

可通过大语言模型与多个文档同时交互
支持多种大语言模型，如OpenAI GPT和Anthropic Claude
主要特色：自适应分块、混合搜索方法、检索增强生成等
针对长文档的优化，即将推出的功能包括前端UI界面、OCR支持等 🔗GitHub：https://t.co/5PZDAIqo4E 🔗https://x.com/xiaohuggg/status/1703276787621642518?s=20

6⃣️ 🎭木偶应用程序：

通过摄像头将人转变为木偶的应用 🔗：https://x.com/xiaohuggg/status/1703239654890430730?s=20

历史记录合集：http://waytoagi.com/xiaohu

9月16日

☕

🔔小互的推特 9 月 16日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🎬Sync. labs 视频同步：

《角斗士》中的角色无缝转换为印地语、中文、西班牙语和日语
利用同步器 API 唇形与任何语言的音频同步
beta 测试每分钟1美元 🔗：https://x.com/xiaohuggg/status/1703060902155874603?s=20

2⃣️ 🎥Flowjam 产品视频库：

提供各种产品宣传视频，为小公司和独立开发者提供灵感
价格合理，支持无限次修改的定制开发服务 🔗：https://x.com/xiaohuggg/status/1702973829956657288?s=20

3⃣️ 🖼️OmnimatteRF 视频抠图方法：

将视频分离为多个层，支持层的替换或单独处理
结合2D前景层和3D背景模型，能够更准确地重建真实世界中的场景 🔗项目及演示：https://omnimatte-rf.github.io 🔗论文：https://arxiv.org/abs/2309.07749 🔗：https://x.com/xiaohuggg/status/1702953896338235872?s=20

4⃣️ 🔍芯片的旅程：

一个芯片的制造涉及至少7个国家、39家公司的协同合作 🔗：https://x.com/xiaohuggg/status/1702921777297731644?s=20

5⃣️ 🎞️M3DDM 视频外部绘制模型：

用于视频外部绘制，例如视频边缘部分的扩充补全
阿里巴巴和中国科学院计算技术研究所共同研究的项目 🔗项目及演示：https://fanfanda.github.io/M3DDM 🔗论文：https://arxiv.org/abs/2309.02119 🔗GitHub：https://github.com/fanfanda/M3DDM/ 🔗：https://x.com/xiaohuggg/status/1702889862599475426?s=20

6⃣️ 📸Idify 证件照转换工具：

基于浏览器的应用程序，可将人像照转换为证件照
所有处理均在本地完成，不上传数据，保障用户隐私 🔗GitHub：https://github.com/zhbhun/idify 🔗在线体验：https://idify.netlify.app 🔗：https://x.com/xiaohuggg/status/1702874156982051291?s=20

7⃣️ 💼马斯克的运营算法：

特斯拉和SpaceX的CEO马斯克的五大经营戒律
包括质疑每项要求、简化流程、优化、加快周转时间和自动化等原则 🔗：https://x.com/xiaohuggg/status/1702694395538239942?s=20
历史记录：http://waytoagi.com/xiaohu

9月15日

☕

🔔小互的推特 9 月 15日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🔊音频剪辑克隆声音：

仅需3秒音频即可模仿声音并转换为不同语言
潜在的应用和隐私问题 🔗：https://x.com/xiaohuggg/status/1702518068503797969?s=20

2⃣️ 👨ChatGPT医学诊断：

一名男孩因慢性疼痛 3 年内看了 17 名医生，都无法找到原因，最终ChatGPT 帮他诊断出了结果 🔗：https://x.com/xiaohuggg/status/1702651685137690691?s=20

3⃣️ 🎬ReliTalk：

从2D视频中提取并重新生成视频
可调整光照和背景、换脸技术 🔗项目及演示：https://t.co/pCgOaNqWT4 🔗论文：https://arxiv.org/abs/2309.02434 🔗GitHub：https://t.co/FGMK5ePfHe

4⃣️ 🔍NoteAI.com搜索总结工具：

输入问题后为用户提供精简和准确的答案
不明AI技术来源 🔗：https://x.com/xiaohuggg/status/1702601738925351310?s=20

5⃣️ 🦁生活格言：

你要像狮子一样，看到猎物一跃而起，而不要牛一样，从早到晚劳作
劝诫人们应当果断、勇敢地追求目标 🔗：https://x.com/xiaohuggg/status/1702593703607705649?s=20

6⃣️ 📸MagiCapture：

使用少量自拍照生成高分辨率的风格人像
高质量的风格化人像生成 🔗论文：https://arxiv.org/abs/2309.06895

7⃣️ 🍃Generative Image Dynamics：

使AI生成的图片能摆动
让图像更加自然真实 🔗项目及演示：https://generative-dynamics.github.io/#demo 🔗论文：https://arxiv.org/abs/2309.07906

8⃣️ 💻v0.dev UI界面工具：

由@vercel推出
文本到UI的转换，方便设计和开发 🔗：https://x.com/xiaohuggg/status/1702499925597225259?s=20

9⃣️ 🚫面试作弊插件：

通过GPT实时回应面试问题
有道德和合法性问题 🔗：https://x.com/dotey/status/1702446262044221578?s=20

历史记录：http://waytoagi.com/xiaohu

9月14日

🌰

🔔小互的推特 9 月 14日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🚀马斯克与Twitter：

马斯克童年经历的霸凌和家庭困境
对父亲的复杂感情和父亲对他的影响 🔗：https://x.com/xiaohuggg/status/1702318369037517096?s=20

2⃣️ 🚗自动驾驶解说员：LINGO-1 by Wayve：

LINGO-1 提供自动驾驶行为的实时解说
能够结合视觉、语言和行动进行解释
提高人们对驾驶模型的理解 🔗：https://t.co/DkOlrcblJH

3⃣️ 👗Multimodal Garment Designer：

多模态服装设计师
结合文本、人体姿势和草图生成时尚图像
新技术在时尚设计中的应用 🔗GitHub：https://t.co/SJDdxFDOOO 🔗论文：arxiv.org/abs/2304.02051

4⃣️ 📊a16z的GenAI网络产品分析：

2023年6月的前50名GenAI网络产品月访问量排名
主要发现与产品趋势
ChatGPT依然遥遥领先 🔗：https://t.co/LaGB5sm2oI

5⃣️ 🛠️Replit推出ModelFarm工具：

一个在线的集成开发环境平台
允许快速构建Gen AI应用程序
提供流式传输，更加流畅的用户体验 🔗：https://blog.replit.com/modelfarm

6⃣️ 🖼️Adobe Firefly上线：

无版权，可供商业使用
付费版提供更多图像生成和其他功能
网站已上线供用户访问 🔗访问：firefly.adobe.com

🔗https://x.com/xiaohuggg/status/1702186170405584999?s=20

7⃣️ 🎥AnimateDiff：动画生成器：

将文本到图像（T2I）模型扩展为动画生成器
用户无需复杂调整，即可生成真实连贯的动画
与CivitAI或Huggingface的T2I模型无缝集成 🎦项目及演示：animatediff.github.io 🔖论文：arxiv.org/abs/2307.04725 🔗：https://x.com/xiaohuggg/status/1702160559603683741?s=20

8⃣️ 🛠️AI开源项目推荐：Prompt flow：

微软发布，开源的LLM开发工具集
简化基于LLM应用的工作流开发
对于简单工作流非常实用 🌐网站：microsoft.github.io/promptflow 🔗：https://x.com/dotey/status/1702063192233414797?s=20

9⃣️ 🤖人工智能大佬齐聚：

AI监管问题的探讨
幽默预测：机器人可能会拿此聚会的画面进行嘲笑 🔗：https://x.com/xiaohuggg/status/1702146032128434657?s=20

🔟 💼Supademo：快速创建产品交互演示：

无需编码，创建交互演示和指南
AI功能：自动生成文字说明与语音讲解
免费计划：5个演示，无限步骤，全面AI功能 🌐官网：http://supademo.com 🔗：https://x.com/xiaohuggg/status/1702141989687566496?s=20

历史记录：http://waytoagi.com/xiaohu

9月13日

🏆

🔔小互的推特 9 月 13日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 📖推荐文章：

标题：一个历史老师用ChatGPT给学生讲课，通过模拟历史游戏进行教学
亮点1：使用GPT生成"沉浸式"历史片段游戏，让学生扮演角色"设身处地"的做决策
亮点2：学生需找出GPT在游戏中可能犯的幻觉错误 🔗：https://t.co/2op2gI1BiP 🔗https://x.com/xiaohuggg/status/1701986931608039510?s=20

2⃣️ ⌚Apple Watch的Double Tap功能宣传视频：

用户反馈：拍得不错，多应用场景，开始以为功能鸡肋 🔗视频https://x.com/xiaohuggg/status/1701952333217730622?s=20

3⃣️ 🔢MathGLM：

描述：清华大学发布的专为提高数学推理能力的模型
工作原理：步骤策略、模型微调、模型结构和训练策略 🔗论文：https://arxiv.org/abs/2309.03241 🔗GitHub：https://github.com/THUDM/MathGLM 🔗相关推文：https://x.com/xiaohuggg/status/1701913061018509593?s=20

4⃣️ 👾墨西哥众议院听证会直接开箱外星人尸体：

描述：尸体在秘鲁的一个硅藻矿中被发现，C14测定表明尸体已有1000多年历史 🔗相关https://x.com/xiaohuggg/status/1701903878911132074?s=20

5⃣️ 🤖Robot Parkour Learning：

描述：教机器人学习跑酷技能，使用神经网络驱动
特点：仅使用机载计算设备、深度摄像头和电源 🔗项目及演示：https://robot-parkour.github.io 🔗论文：https://arxiv.org/abs/2309.05665 🔗推文https://x.com/xiaohuggg/status/1701894032300167498?s=20

6⃣️ 🎶Stability AI推出AI生成音乐平台：Stable Audio：

描述：输入描述性文本提示和音频长度生成音乐和音效
特点：免费版生成20秒音乐，Pro版可生成90秒 🔗网站http://stableaudio.com 🔗推文https://x.com/xiaohuggg/status/1701884386910871953?s=20

7⃣️ 📷PhotoVerse：

描述：使用文本到图像扩散模型直接生成想要的图像
特点：无需任何额外的微调或调整，只需一张面部照片 🔗项目https://photoverse2d.github.io 🔗推文https://x.com/xiaohuggg/status/1701841747398291865?s=20

历史项目记录：http://waytoagi.com/xiaohu

9月12日

🌟

🔔小互的推特 9 月 12日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🎮 Roblox AI 工具: Roblox Assistant

在线游戏设计开发平台 @Roblox 新发布的人工智能生成式工具。
功能：通过文本提示帮助创作者构建虚拟世界。将来还会有自我学习和游戏编码能力。
预计上线时间：2023 年底/2024 年初。 🔗 https://x.com/xiaohuggg/status/1701611368733155651?s=20

2⃣️ 🎬 Runway 导演模式

Runway 推出的新功能，可以对镜头深度、多角度进行实时调整。 🔗 https://x.com/xiaohuggg/status/1701604505786445852?s=20

3⃣️ 🎥 图片变视频工具 @pika_labs 更新

新的相机效果，包含放大、缩小、左右、上下平移等。
需要先输入指令，再添加图片去生成。
示例指令：Zoom with（变焦）、-camera zoom in/out、Pan using（平移）、-camera pan up/down/left/right。 🔗 https://x.com/MooenyChu/status/1701413078251045238?s=20

4⃣️ 🖼️ AniPortraitGAN

从 2D 图像集合生成可动画的 3D 肖像。
相比其他3D-aware GANs，AniPortraitGAN 更专注于生成有表情、姿势和动作的肖像。
仅需无结构的 2D 图像集合即可训练。 🔗 https://yuewuhkust.github.io/AniPortraitGAN/ 🔗 https://x.com/xiaohuggg/status/1701474562062619085?s=20

5⃣️ 🎨 C站新功能：Civitai 图像生成器

可以使用站内的数百种模型和 LoRA 来生成图片。
无需配置昂贵的电脑，但注意：可以生成成人内容。 🔗 https://civitai.com 🔗 https://x.com/xiaohuggg/status/1701429345997455471?s=20

6⃣️ 📚 Alexandria：Tenet

嵌入了所有人类宗教信仰的项目。
可以与众多历史上的伟大先知进行对话，例如孔子、摩西等。 🔗 https://x.com/xiaohuggg/status/1701424836810297451?s=20

7⃣️ 🖼️ Trickle

由 GPT 4 驱动的截图管理工具，能转化截图为视觉备忘录。
支持多种截图、图片类型的识别，如图表、财报、网页UX原型、邮件截图等。 🔗 https://trickle.so 🔗 https://x.com/xiaohuggg/status/1701414926626284024?s=20

8⃣️ 💻 CodeFuse：蚂蚁推出的代码大模型

根据开发者输入提供智能建议和实时支持，如自动生成代码、添加注释、生成测试用例以及修复和优化代码。
在代码补全评测中得分 74.4%，超过了 GPT-4 和 WizardCoder-34B。 🔗 https://t.co/MAolhTVa4b 🔗 https://x.com/xiaohuggg/status/1701405725120208902?s=20

历史项目记录：http://waytoagi.com/xiaohu

9月11日

☕

🔔小互的推特 9 月 11日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🤖 AI开源项目推荐: AgentVerse

由清华大学、北邮等高校研究团队发布的AI多智能体协作模拟框架
模拟多种社会实验场景，如NLP课堂、囚徒困境、软件设计等 🔗：github.com/OpenBMB/AgentVerse 🔗Tweet：twitter.com/xiaohuggg/status/1701234611806691810?s=20

2⃣️ 🎨 T2I-Adapter-SDXL-Sketch 模型

腾讯针对草图进行的优化模型
快速体验: 打开应用 ➡️ 画两个圈圈 ➡️ 输入Prompt：“A horse” ➡️ 选择“电影”风格 ➡️ 点击运行 🔗Tweet：twitter.com/xiaohuggg/status/1701219182568960168?s=20

3⃣️ 📱 Procreate Dreams

iPad上的全新动画设计应用
功能丰富：关键帧、触摸操作流程、逐帧编辑、音频和视频支持等
价格：$19.99，将于11月22日发布 🔗：procreate.com/cn/dreams 🔗Tweet：twitter.com/xiaohuggg/status/1701210639002435832?s=20

4⃣️ 🔧 Meshy.ai

用于3D创意的AI生成工具箱
功能：2D转3D纹理、文本提示生成3D纹理、AI3D纹理工具等
使3D工作流程更加高效 🔗：Meshy.ai 🔗Tweet：twitter.com/xiaohuggg/status/1701194691973386443?s=20

9月10日

☕

🔔小互的推特 9 月 10日更新

✨✨✨✨✨✨✨✨✨

1⃣️

🤖 AnimateDiff & IP Adapter:

真人转换动漫技术

🔗 详情：https://twitter.com/xiaohuggg/status/1700764969154089276?s=20

2⃣️

⚖️ X（Twitter）诉加州：

针对社交媒体内容审核法的诉讼
理由：该法律侵犯言论自由，强制公司披露打击虚假信息、骚扰、仇恨言论和极端主义的政策

🔗 详情：https://twitter.com/xiaohuggg/status/1700727529227825281?s=20

3⃣️

🦜 鹦鹉视频网站:

创意点子，有市场潜力

🔗 详情：https://twitter.com/xiaohuggg/status/1700711316233810159?s=20

4⃣️

📸 EasyPhoto：类似妙鸭相机的开源产品

基于SD Webui UI插件
功能：通过上传5-20张个人半身照，学习面部特征并生成AI人像分身
多人生成、多种预测模型支持、用户友好界面
使用环境：Windows 10和Linux
磁盘需求：大约60GB
操作简单：上传照片进行模型训练，选择用户ID和模板生成人像
技术细节：基于稳定扩散模型，使用少量用户图像训练数字二重身

🔗 详情：https://twitter.com/xiaohuggg/status/1700188771210441059?s=20

9月9日

☕

🔔小互的推特 9 月 9日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🍎iOS 17 Object Capture功能：

利用iPhone或iPad从多个角度拍摄物体即可自动生成高质量的3D模型。
该功能首次在WWDC 21的macOS上推出，现在已支持iOS 17。 🔗：https://t.co/TP87kQ6S0p 🔗https://twitter.com/xiaohuggg/status/1700489380866199968?s=20

2⃣️

🌐Hiber3D - 使用自然语言创建3D世界：

开发者工具包（HDK）可创建交互式3D世界，支持网页发布及在多种设备上运行。 🔗https://hiber3d.com/genai 🔗https://twitter.com/xiaohuggg/status/1700471537844031515?s=20

3⃣️

🤖Sequential Dexterity - 机器人乐高构建：

目标：使机器人能根据手册搭建乐高积木。
涉及多重技能连接：如乐高抓取、定位和重新定向。
技术：前向平滑和后向平滑。
应用：除乐高外，还适用于手术机器人、自动化生产线等多步骤、精细操作任务。 🔗http://sequential-dexterity.github.io 🔗https://twitter.com/xiaohuggg/status/1700363629852553273?s=20

4⃣️

🎥Pika Labs AI视频生成工具：

在某些场景中，Pika的性能超越了RunwayML。
与Runway不同，Pika和Midjourney在Discord中使用，且没有的新手教程。
手把手教程 🔗https://twitter.com/op7418/status/1699928035427000786?s=20

5⃣️

🎥 Runway 镜头控制更新 Gen2：现支持视频镜头的平移、旋转和缩放功能，且能够控制镜头的移动方向速度。 🔗 详情：https://twitter.com/xiaohuggg/status/1700503744205799554?s=20

9月8日

☕

🔔小互的推特 9 月 8日更新

✨✨✨✨✨✨✨✨✨

1⃣️

🔬微软 & Paige AI：

合作构建最大的癌症检测AI模型
功能：Paige基于大量病理切片训练，帮助病理学家检测多种癌症
与Microsoft结合，利用其超级计算基础设施进行大规模模型训练

🔗：https://t.co/rY53eG7eIh

🔗https://twitter.com/xiaohuggg/status/1700157221160566893?s=20

2⃣️

🎵Suno音乐生成：

文字生成音乐AI模型Suno发布重大更新：Chirp v1
功能：支持50多种语言、增强音频质量、选择音乐风格、标签控制歌曲结构、更快生成速度

🔗https://twitter.com/xiaohuggg/status/1700133814096498922?s=20

3⃣️

💰蚂蚁集团金融大模型：

基于自研大模型深度定制金融服务
功能：提供理财、保险领域的行情分析、资产规划、持仓诊断等

🔗https://twitter.com/xiaohuggg/status/1700076677588820103?s=20

4⃣️

📹HeyGen视频翻译：

一键将视频语音翻译为其他语言，保持唇型与发音同步，语音克隆功能
功能：支持多种输入语言，但中文仅为输入不支持输出

🔗体验：http://labs.heygen.com/video-translate

🔗https://twitter.com/xiaohuggg/status/1700020505141788924?s=20

5⃣️

🏆AI生成格莱美奖歌曲：

歌曲“Heart on My Sleeve”由AI生成，提交格莱美奖评选
功能：模仿Drake和The Weeknd风格

🔗https://twitter.com/xiaohuggg/status/1700056620359880711?s=20

6⃣️

💡Imbue融资与目标：

AI公司Imbue完成2亿美元B轮融资
功能：专为推理而定制的大型模型，目标创建实用AI代理

🔗https://twitter.com/xiaohuggg/status/1700029790022185324?s=20

7⃣️

👁️眼动分类：

介绍四种基本眼动类型
功能：描述眼睛的构造和运动状态

🔗https://twitter.com/xiaohuggg/status/1700011115714101391?s=20

8⃣️

🕶️Apple Vision Pro体验：

用户分享对Apple Vision Pro的感受
功能：提供先进的视觉体验

🔗https://twitter.com/xiaohuggg/status/1699977890216165739?s=20

9⃣️

💸Claude收费公告：

Claude开始收费，价格为一个月20美金

🔗https://twitter.com/xiaohuggg/status/1699794713447108786?s=20

历史记录：http://waytoagi.com/xiaohu

9月7日

📣

🔔小互的推特 9 月 7日更新

✨✨✨✨✨✨✨✨✨

1⃣️ 🎥《埃隆·马斯克传》2023 年 9 月 12 日全球同步出版：

作者：Walter Isaacson
马斯克首次公开双胞胎子女照片，孩子母亲为Shivon Zilis
马斯克现有孩子情况：与第一任妻子5个、与Grimes 2个、与Zilis 2个
书中描述：马斯克希望在AI摧毁地球文明前在火星建立殖民地 🔗：https://twitter.com/xiaohuggg/status/1699728696595402990?s=20

2⃣️ 🚫GPT使用提醒：

国内产品不要随意接入GPT
使用需谨慎，以免受到约谈 🔗：https://twitter.com/xiaohuggg/status/1699712747154690444?s=20

3⃣️ 📱FaceFusion：

开源面部交换和面部增强软件
特点：实时换脸、面部改造
最新版本：1.1.0 🔗：https://twitter.com/xiaohuggg/status/1699700109775397186?s=20

4⃣️ 💼AI开源项目推荐：photoshot：

开源AI头像生成器Web应用
特点：完整网站、API调用、支付功能、风格提示 🔗：https://twitter.com/xiaohuggg/status/1699691337828925562?s=20

5⃣️ 🎮Rokoko Vision：

动作捕捉解决方案，包括全身、手指和面部
特点：双摄像头技术、兼容多平台如Blender、Unreal Engine等
价格：双摄像头功能每月20美元 🔗：https://rokoko.com 🔗来源：https://twitter.com/xiaohuggg/status/1699649763388649843?s=20

6⃣️ 🖼️SMPLitex：

从单张照片生成3D人体外观
特点：可由部分照片生成完整3D模型 🔗：https://twitter.com/xiaohuggg/status/1699637609537180113?s=20

7⃣️ 💻腾讯混元大模型：

腾讯发布的大型AI模型
开始接受用户排队 🔗https://hunyuan.tencent.com 🔗来源：https://twitter.com/xiaohuggg/status/1699607920546312580?s=20

8⃣️ 🌍上海外滩大会：

主题：人工智能
提及：明天蚂蚁将发布大语言模型 🔗https://twitter.com/xiaohuggg/status/1699604958969258223?s=20

9⃣️ 🛠️插件推荐：

功能：移除YouTube、Instagram、Amazon主页推荐内容
特点：简化页面，仅保留搜索框 🔗下载：https://t.co/aH6CEpZVJd
🔗https://twitter.com/xiaohuggg/status/1699579824107659713?s=20

9月6日

📣

🔔小互的推特 9 月 6日更新

✨✨✨✨✨✨✨✨✨

1️⃣

🤖群聊总结机器人升级:

版本：从文字输出升级到语音版
特点：自动总结群聊信息
开发者：@aoao_eth
开源工具，可自行体验

🔗GitHub：https://t.co/2M6zrXu2Bk

🔗https://twitter.com/xiaohuggg/status/1699427097947595142?s=20

2️⃣

📷Artisse：

AI照片生成应用
上传15张照片训练AI
使用文本或图像提示生成新照片

🔗https://twitter.com/xiaohuggg/status/1699321593254863302?s=20

3️⃣

🧠Falcon 180B：

性能逼近GPT4
1800亿参数，3.5万亿标记训练
在Hugging Face排名首位
性能超越LLaMA 2

🔗官网：https://falconllm.tii.ae

🔗https://twitter.com/xiaohuggg/status/1699440217000681643?s=20

4️⃣

🎮Reverie：

虚幻引擎AI工具
提取图片中的照明、视觉效果和音景
应用于UE4和UE5的3D环境

🔗https://twitter.com/xiaohuggg/status/1699406477214278078?s=20

5️⃣

📊SEC Insights：

分析SEC的10-K和10-Q文档
解读公司财务和业绩

🔗https://twitter.com/xiaohuggg/status/1699381743441354764?s=20

6️⃣

🛒Amazon One：

掌纹身份认证和支付系统
使用红外光识别手掌信息

🔗https://twitter.com/xiaohuggg/status/1699360207774920959?s=20

7️⃣

🚴‍♂️Reevo：

无轴电动自行车，2199刀
GPS定位，指纹解锁，算法定制的辅助助力
独特功能和特点详述

🔗https://twitter.com/xiaohuggg/status/1699328793780043942?s=20

8️⃣

🤖RoboTAP：

Google DeepMind开发的机器人操作系统
通过示范快速学习视觉运动任务

🔗项目及演示：https://robotap.github.io

🔗https://twitter.com/xiaohuggg/status/1699288578986266952?s=20

9️⃣

🤖腾讯AI聊天机器人：

明日发布混元大模型
2023年度新品发布会

🔗https://twitter.com/xiaohuggg/status/1699274780225225084?s=20

🔟

🎥Zoom AI Companion：

Zoom会议AI助手工具
功能：编写聊天回应、会议摘要、智能录音等
数据隐私保障

🔗https://zm.me/ZoomAI

🔗https://twitter.com/xiaohuggg/status/1699094868877046264?s=20

历史记录：http://waytoagi.com/xiaohu

9月5日

🐱

🔔小互的推特 9 月 5日更新

✨✨✨✨✨✨✨✨✨

1️⃣

📱超级App:

功能：一应用，15种聊天软件管理
特色：实现iMessage与Android短信互通

🔗 https://twitter.com/xiaohuggg/status/1699061780864196674?s=20

2️⃣

📚MNBVC：

描述：超大规模中文语料数据集
数据类型：新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等

🔗 https://twitter.com/xiaohuggg/status/1699038891251315082?s=20

3️⃣

🎵StockMusic：

类型：人工智能音乐生成工具
特点：支持50多种流派，最长生成120秒的歌曲

🔗 https://twitter.com/xiaohuggg/status/1699021507304030581?s=20

4️⃣

🖼️AI 图像修复大全：

描述：整合了一系列图像修复工具和模型
适用人群：对图像修复感兴趣的用户

🔗 https://twitter.com/xiaohuggg/status/1698981381022581104?s=20

5️⃣

🎓哈佛大学发布AI指南：

指南内容：如何在教学中安全、合法、合规地使用生成式AI工具
提醒：不得将学生作业输入到AI系统内

🔗 https://twitter.com/xiaohuggg/status/1698938035482865773?s=20

6️⃣

👃AI识别气味：

研究内容：仅凭分子结构预测气味特性
发表平台：《Science》杂志

🔗 https://twitter.com/xiaohuggg/status/1698932238136783288?s=20

7️⃣

🔌吴恩达关于AI：

观点：AI是一种通用技术，应用广泛，就如同电力一样

🔗 https://twitter.com/dotey/status/1698918912467865981?s=20

8️⃣

🎬TokenFlow：

功能：文本到图像扩散模型进行文本驱动的视频编辑
特点：根据文本提示生成新视频，可以替换背景或人物

🔗 https://twitter.com/xiaohuggg/status/1682345025806667776?s=20

9️⃣

📈科技进步观察：

观点：人类科技进入突飞猛进的200年，AI和量子计算可能引领新的科技飞跃

🔗 https://twitter.com/xiaohuggg/status/1698889816530972791?s=20

🔟

🏥PMC-LLaMA：

描述：开源医学领域语言模型
特点：基于大约480万篇生物医学学术论文微调

🔗 https://twitter.com/xiaohuggg/status/1698879026470031714?s=20

全部项目：http://waytoagi.com/xiaohu

9月4日

📣

🔔小互的推特 9 月 4日更新

✨✨✨✨✨✨✨✨✨

1️⃣ 🚗 一场看似无厘头的挑战赛开启人类自动驾驶汽车的序幕来源：得到听书《自动驾驶之争》

🔗https://twitter.com/xiaohuggg/status/1698708986378502240?s=20

2️⃣ 🏙️ CityDreamer：工具能学习 Google Earth 和 OpenStreetMap 的图像数据，生成逼真的3D城市，包括建筑、道路、公园等，使得整个城市显得生动真实。 🔗https://twitter.com/xiaohuggg/status/1698687058091630983?s=20

3️⃣ 📞 Baresip：一个模块化的 SIP 用户代理，支持音视频通话、自动接听、呼叫保持、录音等多种功能，同时具备多重安全机制，可在各个平台上运行。 🔗https://twitter.com/xiaohuggg/status/1698679047692370197?s=20

4️⃣ 📹 Zoom“Notes”功能：新功能允许用户在视频通话中创建、共享和编辑文档，拥有丰富的格式化选项，无需频繁切换屏幕。 🔗https://twitter.com/xiaohuggg/status/1698660100041589145?s=20

5️⃣ 🎵 迷你打碟机：一个让人向往的小型音乐创作工具。 🔗https://twitter.com/xiaohuggg/status/1698597497260941546?s=20

6️⃣ 📼 DrLambda.ai：工具可以从YouTube视频中提取内容并转换成PDF、PPT、音视频脚本等格式，同时也支持其他文件转换为学习材料。 🔗https://twitter.com/xiaohuggg/status/1698559011107602603?s=20

7️⃣ 🤖 V7 Labs：AI训练数据平台，能够快速自动化地标注视频和图像数据，专为医疗影像应用而设计，符合多种安全标准。 🔗https://twitter.com/xiaohuggg/status/1698528079369617529?s=20

8️⃣ 🎒 微软的AI智能背包：背包内集成了摄像头、麦克风等设备，可以感知和互动环境，与其他设备交互，从云端获取信息。 🔗https://twitter.com/xiaohuggg/status/1698516284772594133?s=20

9️⃣ 😆 Laughing Matters：这是一个能够将人的静态照片和笑声合成为笑脸视频的工具，使用了U-Net架构和多种优化方法以适应笑声生成需求。 🔗https://github.com/antonibigata/Laughing-Matters 🔗https://twitter.com/xiaohuggg/status/1698507610045944070?s=20

历史记录：http://waytoagi.com/xiaohu

9月3日

📣

🔔小互的推特 9 月 3日更新

✨✨✨✨✨✨✨✨✨

1️⃣

🎵华纳音乐与虚拟形象Noonoouri签约并发行首张单曲Dominoes。该单曲由德国DJ和音乐制作人Alle Farben参与。此曲采用了人工智能技术创作，根据真实歌手的声音进行修改，使之具有独特性。在MV中，Noonoouri身穿金·卡戴珊的塑身内衣品牌Skims。

🔗https://twitter.com/xiaohuggg/status/1698344224952070348?s=20

2️⃣

💻Open Interpreter：允许在本地运行OpenAI的代码解释器，具有完全的互联网访问权限，安全隐私，支持多种编程语言，如Python、JavaScript等。开源，MIT许可。

🔗https://git-scm.com/downloads

🔗https://twitter.com/xiaohuggg/status/1698329145439404093?s=20

3️⃣

📸AWPortrait 1.2：高度专业的人像模型，新版本升级了光源模拟和面容修正。配合t2i直出和ADetailer插件，可得到接近真实照片的效果。

🔗https://twitter.com/xiaohuggg/status/1698316653258514846?s=20

4️⃣

🔍Consensus Search：集成了ChatGPT的科研论文搜索工具，能查询超过2亿篇科学研究论文，直接在聊天界面内搜索。

🔗https://twitter.com/xiaohuggg/status/1698285495669977290?s=20

5️⃣

🎨Civitai举办的SDXL训练和图像比赛放榜。角色lora、Style、Base Model、Image绘画四个榜单，第一名奖品：RTX 4090 GPU。

🔗https://twitter.com/xiaohuggg/status/1698254832740778224?s=20

6️⃣

📈15家估值超过10亿美元的生成式AI独角兽：深入分析估值和增长。

🔗https://twitter.com/GPTDAOCN/status/1698053638768529425?s=20

7️⃣

🖼Facechain：在Colab上部署，上传3张正面照片即可生成靓照。

🔗https://t.co/rQWAJjWEbP

🔗https://twitter.com/xiaohuggg/status/1698161031204442488?s=20

8️⃣

🛠Fooocus：由ControlNet的创建者开发的Stable Diffusion应用，从下载到生成第一张图像，鼠标点击不超过3次。

🔗https://twitter.com/xiaohuggg/status/1698154080777154900?s=20

9月2日

🐱

🔔小互的推特 9 月 2日更新

✨✨✨✨✨✨✨✨✨

1⃣️🚁 人工智能无人机

🌍 由德国苏黎世大学和Intel研发的“Swift”人工智能系统
🏆 在多场比赛中击败了三名世界级的无人机赛冠军并创最快记录
💡 首次AI在物理运动中击败人类 https://twitter.com/xiaohuggg/status/1697528089629339882?s=20

2⃣️🔍 光刻机的诞生

📅 1958年9月，美国物理学家莱思罗普研制芯片尺寸问题 https://twitter.com/xiaohuggg/status/1697979791440507301?s=20

3⃣️🤳 Total Selfie

📷 为你生成在任何地点的全身自拍照
🌐 旅游时，拍摄素材合成自拍 https://twitter.com/xiaohuggg/status/1697953491405488555?s=20

4⃣️🤖 像人类一样行走的机器人

🇯🇵 日本网友@WatakoLab所创，步态已经非常像真人 https://twitter.com/xiaohuggg/status/1697885531013886334?s=20

5⃣️🎮 CALM（Conditional Adversarial Latent Models）

🤖 NVIDIA研究项目，让虚拟角色更真实
🕺 学习人的动作，流畅的动作生成 https://twitter.com/xiaohuggg/status/1697854669522096424?s=20

6⃣️🎬 #周末影院

🌧 巴山夜雨，符合当下氛围 https://twitter.com/xiaohuggg/status/1697806420778066289?s=20

7⃣️📑 Least-to-Most Prompting

🎯 使用LLMs解决超难问题
🔍 逐步解决问题，降低计算资源和时间论文：https://arxiv.org/abs/2205.10625

https://twitter.com/xiaohuggg/status/1697798850910753072?s=20

8⃣️📢 Twitter更新

📜 允许其使用你的推文进行AI训练

https://twitter.com/xiaohuggg/status/1697791551437738064?s=20

9⃣️🎥 Pika Labs新功能

🎬 引入“-fps N”参数，自定义帧率
📸 新命令：/animate，图像上传生成视频https://twitter.com/xiaohuggg/status/1697788037114327098?s=20

1⃣️0⃣️📚 数学老师张旭另辟蹊径做自媒体

📹 P站上教微积分，超170万浏览，25万美元年收入 https://twitter.com/xiaohuggg/status/1697777098772107671?s=20

1⃣️1⃣️📖 Meta AI 数据集：Belebele

🌐 覆盖122种语言，测试NLP模型多语言能力 https://twitter.com/xiaohuggg/status/1697652230231572539?s=20

1⃣️2⃣️🔮 魔法展示

🌐 Marketsy.ai，几秒钟建电商网站 https://twitter.com/xiaohuggg/status/1697630390926655904?s=20

9月1日

📗

🔔小互的推特 9 月 1日更新

✨✨✨✨✨✨✨✨✨

1️⃣ MVDream：多视角扩散模型 📌 MVDream模型如同智能相机，基于文本描述生成多视角图像。这些图像在几何结构上保持一致性，确保无论从哪个角度观看，都保持真实。 🔗 https://twitter.com/xiaohuggg/status/1697615713517851116?s=20

2️⃣ Sky News 专访：Ameca Desktop人工智能 🎙️ Jonathan Lea采访了名为Ameca Desktop的人工智能。她具有观点，能和主持人流利交谈。其背后的技术与ChaGPT相似，但详细信息未透露。 🔗 https://twitter.com/xiaohuggg/status/1697554521973772483?s=20

3️⃣ http://Recipe-p.com：AI图像平台 🖼️ 专为AI生成人像设计，提供的图像是免费、可编辑的，确保用户在使用中无需担心版权问题。 🔗 https://twitter.com/xiaohuggg/status/1697581606901530705?s=20

4️⃣ 人工智能无人机的胜利 🚁 Swift人工智能系统，由德国苏黎世大学和Intel研发，击败了三名世界级的无人机赛冠军，创下了最快的比赛时间记录。 🔗 https://twitter.com/xiaohuggg/status/1697528089629339882?s=20

5️⃣ 你们还记得这个网站吗？ 🌐 "The Million Dollar Homepage"，由Alex Tew于2005年创建，提供像素广告空间，每像素售价1美元，总计1,000,000像素。 🔗 https://twitter.com/xiaohuggg/status/1697535292302119355?s=20

6️⃣ Move AI：动作捕捉公司 🕺 无需任何捕捉套装或标记，仅需手机或摄像头，即可捕捉动作，转化为电脑动画或游戏动作。 🔗 https://twitter.com/xiaohuggg/status/1697452236736233696?s=20

历史记录：http://waytoagi.com/xiaohu

8月31日

📗

🔔小互的推特 8 月 31日更新

✨✨✨✨✨✨✨✨✨

1️⃣ ChatGPT问题

ChatGPT又宕机了
他们还专门公布了一个网址，可以看到每天ChatGPT运行情况: http://status.openai.com 🔗 https://twitter.com/xiaohuggg/status/1697256464979730730?s=20

2️⃣ AI短片制作

目前为止质量最高的一部AI短片由@JeffSynthesized 制作
花费了大约10天时间，高清画质，情节完整
📹 https://youtu.be/oyiALFG_0iU?si=rS-wVgafy7pVDNnt 🔗 https://twitter.com/xiaohuggg/status/1697239128537190775?s=20

3️⃣ LIDA工具介绍

LIDA：由微软研究院开发的工具
功能: 数据可视化和生成信息图表
详细介绍及工作原理:https://microsoft.github.io/lida/ 🔗 https://twitter.com/xiaohuggg/status/1697228737472012486?s=20

4️⃣ a16z开源AI资助计划

a16z推出了名为“a16z Open Source AI Grant”的项目开发者无需签订债务协议或者出让任何股权
目的: 通过直接拨款支持小开发者，减轻财务压力
详细信息: https://a16z.com/2023/08/30/supporting-the-open-source-ai-community/ 🔗 https://twitter.com/xiaohuggg/status/1697220307634061627?s=20

5️⃣ SWIM: 机器人学习方法

SWIM：让机器人通过观看人类视频来学习技能
特点: 只需30分钟即可学会并执行任务 🔗 https://twitter.com/xiaohuggg/status/1697122159112671248?s=20

6️⃣ 头发模拟技术

一种基于 AI 和现代GPU 的头发模拟技术
性能出色，可实时模拟
详细介绍:https://t.co/xlWiga9gpd
论文: https://t.co/yZT94rjG6F 🔗 https://twitter.com/xiaohuggg/status/1697092350441636013?s=20

7️⃣ Muse AI 图片编辑器

Muse AI：一款强大的 AI 图片编辑器
特点: 用户只需输入文字，无需其他操作，像聊天一样即可编辑图片
内测地址:https://creatosaurus.io/apps/muse 🔗 https://twitter.com/xiaohuggg/status/1697067037141701046?s=20

8月30日

❓

🔔小互的推特 8 月 30日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🌐 Background Changer：背景更换达人

- 🔍 电商宣传神器，数秒间为商品换上各类逼真背景

- 🛍️ 商品宣传无忧

🔗 https://twitter.com/xiaohuggg/status/1696880097129550333?s=20

2️⃣

🎙️ Youtube Dubbing：YouTube翻译神器

- 🌍 字幕识别，转译再转语音

- 🚹🚺 多种声音角色，如实发音

🔗 https://twitter.com/xiaohuggg/status/1696851994412220494?s=20

3️⃣

💬 ChatHaruhi：与动漫人物对话

- 🎤 语音转换技术，保留原角色语气

- 📺 与您最爱的角色互动

🔗 https://twitter.com/xiaohuggg/status/1696825501376274809?s=20

4️⃣

🏷️ BrightMarker：麻省理工科技

- 🔎 物体内部嵌入"隐形标签"，荧光丝3D打印

🔗 https://twitter.com/xiaohuggg/status/1696753714110087349?s=20

5️⃣

📹 MagicEdit：文本引导的视频编辑魔法师

- ✂️ 轻松改变风格、替换元素

- 🎩 把兔子变成像兔子的老虎? 一切皆有可能

🔗 https://twitter.com/xiaohuggg/status/1696730076396826639?s=20

6️⃣

📖 动态漫画杂志：新概念杂志

- 🖼️ 宅男腐女的新宠

🔗 https://twitter.com/xiaohuggg/status/1696723104184320414?s=20

7️⃣

🌑 HADAR：黑暗中的“超级视力”

- 🌌 普渡大学研发，夜视如白昼

- 📸 看“鬼影”？不，是清晰画质

🔗 https://twitter.com/xiaohuggg/status/1696712363041583488?s=20

8️⃣

💻 特斯拉超级计算机：前所未有的算力

- 🚗 为自动驾驶技术助力

- 💲 价值超3亿美元，性能惊人

🔗 https://twitter.com/xiaohuggg/status/1696692124287373725?s=20

9️⃣

💰 Twitter X：数字货币支付

- 🐕 未来或许用狗狗币支付

🔗 https://twitter.com/xiaohuggg/status/1696552297592156215?s=20

8月29日

📣

🔔小互的推特 8 月 29日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🌐 Google Deepmind的𝗦𝘆𝗻𝘁𝗵𝗜𝗗：AI图像水印前沿工具，专为AI图像设计，水印隐于像素，即使裁剪、滤镜后仍可检测。

🔗 https://twitter.com/xiaohuggg/status/1696523293065609313?s=20

2️⃣

🎙️ VALL-EX：开源多语文本-语音模型，零样本语音克隆，仅需数秒录音便可模仿声音，支持情感、口音控制，微软技术基础，复现更加优化。

🔗 https://twitter.com/xiaohuggg/status/1696513710637097199?s=20

3️⃣

🎵 Text-to-Sing：不仅转换文本为歌声，还提供多种旋律风格选择，体验简单直观。

🔗 https://twitter.com/xiaohuggg/status/1696513487370060188?s=20

4️⃣

🎥 MagicAvatar by 字节跳动：多模态生成技术，文本、视频、音频引导下创建或激活虚拟形象。例如，“火山里的舞蹈宇航员”成为视觉现实。

🔗 https://twitter.com/xiaohuggg/status/1696463831931687249?s=20

5️⃣

🖼️ 3D Gaussian Splatting：仅需照片或视频，即可制作出高质量3D模型。独特的“3D高斯函数”技术让渲染更快速。

🔗 https://twitter.com/xiaohuggg/status/1696433188158222603?s=20

6️⃣

🌀 有趣的动画过渡：新颖独特，颠覆传统动画设计。

🔗 https://twitter.com/xiaohuggg/status/1696420072645173430?s=20

7️⃣

📷 Clipdrop：增强现实与机器学习融合，将真实物体复制粘贴至电脑软件，革新性设计思路。

🔗 https://twitter.com/xiaohuggg/status/1696351233915949183?s=20

8️⃣

🎓 Anthropic提示工程师：揭秘Claude的写作神技，如XML标签、思考标签等高级技巧分享。

🔗 https://twitter.com/op7418/status/1696216819860930699?s=20

9️⃣

💬 OpenAI ChatGPT企业版：双倍速GPT-4访问，超长上下文支持，为企业级需求量身打造，数据分析更加高级。

🔗 https://twitter.com/xiaohuggg/status/1696278901868413395?s=20

8月28日

📣

🔔小互的推特 8 月 28日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🛍 Pebblely：专为电商设计的AI产品创意图生成工具。一键生成针对产品的场景图，适用于各大电商和社交平台。免费40生成张图/月，自带20种主题，同时支持文本提示控制，具备场景图大小调整、多媒体创意素材转换等高级功能。

🔗 https://pebblely.com/zh/

🔗 https://twitter.com/xiaohuggg/status/1696170895318917492?s=20

2️⃣

🧠 Qwen-VL：阿里云通义千问的多模态大语言模型。支持多图输入、图片问答、多图文学创作。不仅处理文本，也能理解图像中对象的位置与属性，适用于多种语言。

🔗 https://arxiv.org/abs/2308.12966

🔗 https://github.com/QwenLM/Qwen-VL

🔗 https://twitter.com/xiaohuggg/status/1696054519824814503?s=20

3️⃣

⌚ 仅通过智能手表进行动作捕捉并控制机器人/界面。基于姿态估计的机器学习算法，结合语音识别系统。提供多功能的机器人控制界面，并降低了40%的预测误差。

🔗 https://arxiv.org/abs/2306.13192

🔗 https://twitter.com/xiaohuggg/status/1696040741624242454?s=20

4️⃣

🔄 实时打字翻译软件：实时翻译对照，支持发音，界面在光标处不打断思路。

🔗 https://t.co/hz02YQUju0

🔗 https://twitter.com/xiaohuggg/status/1695818219385397594?s=20

5️⃣

💰 如何用<2000美元建立一个每月收入1000美元的网站。Reddit用户分享了使用Ahrefs Content Explorer工具并优化流程建立的高收入网站的故事。结合ChatGPT等手段可进一步优化。

🔗 https://twitter.com/xiaohuggg/status/1695959369610100801?s=20

8月27日

📣

🔔小互的推特 8 月 27日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🚀 人类为什么无法实现超光速通信？

因为信息是无法超越光速的，违背了因果性！量子纠缠只能加密信息，不能实现即时通信。

🔗https://twitter.com/xiaohuggg/status/1695808051813748857?s=20

2️⃣

📚 在数据科学和机器学习领域，数学是基石。分享关于机器学习的顶级免费数学资源：线性代数、多元微积分、概率/统计数据、应用贝叶斯建模、概率机器学习。

🔗https://twitter.com/xiaohuggg/status/1695784152274981321?s=20

3️⃣

🔧 英文资源翻译工具推荐：

沉浸式翻译

🔗https://t.co/rLUzRASv5m

OpenAI Translator

🔗https://t.co/e6O16nJahb

Felo：ChatGPT跨语言翻译

🔗https://t.co/U8DJw5LPlo

Language Reactor：双语言字幕、弹出式词典等功能

🔗https://t.co/ehEJkoCdOm

🔗https://twitter.com/xiaohuggg/status/1695785225610236047?s=20

4️⃣

🖥️ WizardLM推出基于Code Llama微调的WizardCoder 34B。WizardLM宣称WizardCoder-34B在HumanEval上表现超越GPT-4、ChatGPT-3.5。

🔗https://twitter.com/xiaohuggg/status/1695775906919485869?s=20

5️⃣

🎥 DragNUWA：通过文本指令控制视频中的动作，例如让清明上河图动起来。

🔗https://twitter.com/xiaohuggg/status/1695765452482621479?s=20

6️⃣

🌐 怎么把Apple Notes变成个人网站？有最简单的建立个人网站方法 - 你在iPhone备忘录里随便写，它立刻发布成网页。

🔗https://twitter.com/xiaohuggg/status/1695705818480726234?s=20

7️⃣

📸 changeface.ai：把你的脸换到名人名场面的照片上，免费生成8张，适合周末娱乐。

🔗https://twitter.com/xiaohuggg/status/1695655870829674692?s=20

8️⃣

🤖 Text2Listen：聊天机器人根据你说的话做出相应的面部表情和动作，让对话更真实。

🔗https://twitter.com/xiaohuggg/status/1695637675641090195?s=20

8月26日

📣

🔔小互的推特 8 月 26日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🌐 InsightFace ：一个开源的面部分析库。支持2D 和 3D 面部识别、检测和对齐。不仅适用于研究，也适用于商业应用。

🔗https://github.com/deepinsight/insightface

🌍https://insightface.ai

🎥https://insightface.ai/demos

🐦https://twitter.com/xiaohuggg/status/1695399480936579443?s=20

2️⃣

🍿 周末轻松下，分享个电影：《麦克法兰》。强烈推荐！

🐦https://twitter.com/xiaohuggg/status/1695333566220255365?s=20

3️⃣

🎨 Scenimefy：将复杂的真实世界图像自动渲染成高质量的动漫场景。自动生成的图像风格与动漫相近。

🐦https://twitter.com/xiaohuggg/status/1695281972153913565?s=20

4️⃣

🔩 无需开孔的隐形螺丝工具。外观干净，无螺丝或钉子可见。

🐦https://twitter.com/xiaohuggg/status/1695277138965119305?s=20

5️⃣

📊 Phind微调了CodeLlama-34B和CodeLlama-34B-Python模型。在HumanEval测试中，两模型均超过了GPT-4。

🔗他们在Huggingface上发布这两个模型。

🐦https://twitter.com/xiaohuggg/status/1695246631581696033?s=20

6️⃣

⚙️ Perplexity使用微调的@OpenAI GPT-3.5 API，使Copilot搜索助理性能提升。速度快，成本低，性能高。

🐦https://twitter.com/xiaohuggg/status/1695132807830589780?s=20

7️⃣

🖼️ 国内首例AI生成图片侵权案。李某某使用Stable Diffusion生成的图片被刘某某未授权使用。

🐦https://twitter.com/xiaohuggg/status/1695104528163692577?s=20

8月25日

💡

🔔小互的推特 8 月 25日更新 ✨✨✨✨✨✨✨✨✨

1⃣️ WavJourney 更新

WavJourney更新了Huggingface体验地址：查看链接
功能：根据文本指令生成音频内容，如语音、音乐和音效。给定场景描述，生成音频讲故事的脚本，音乐和音效，并自动配音。
适用场景：科幻、教育、广播剧等。

2⃣️ Graph of Thoughts GoT

简介：增强大型语言模型解决复杂问题的方法。
特点：组合、提炼思想网络，并使用反馈循环增强。
结果：GoT在任务上性能提升，62%的排序质量改善，31%的成本降低。
论文：查看链接
推文：查看链接

3⃣️ 教大语言模型如何推算

发布：Google Research
主题：大语言模型（LLMs）如GPT和PaLM的算法推理能力。
推文：查看链接

4⃣️ 从3岁到100岁

项目：使用Midjourney和Runway展现一个人的一生。
推文：查看链接

5⃣️ Hugging Face融资消息

融资：D轮，2.35亿美元
总融资：3.952亿美元
估值：45亿美元
投资方：Google、Amazon、Nvidia、Salesforce、IBM
推文：查看链接

6⃣️ StableVideo 项目

介绍：文本驱动的视频编辑工具。
特点：描述你想编辑的内容，系统自动完成。
项目官网：查看链接
论文：查看链接
推文：查看链接

7⃣️ NVIDIA研究

功能：多人同时讲话时，分离并识别特定讲话者的音频。
推文：查看链接

8⃣️ CSF和UC Berkeley的研究

成果：将大脑信号转化为语言和面部表情的AI驱动设备。
实例：中风患者Ann借助技术通过虚拟形象交流。
发表：《自然》杂志
推文：查看链接

9⃣️ 微软和中国科学院的研究

模型：WizardMath，增强数学推理能力。
成果：性能超过GPT3.5, PaLM-2等。
模型GitHub & Hugging Face
论文：查看链接

🔟 日本东京都政府AI文本生成器

目的：提高职员工作效率。
内容：AI文本生成器使用指南。
推文：查看链接

1⃣1⃣ OpenAI & Scale 合作

目标：为企业微调模型提供支持。
推文：查看链接

1⃣2⃣ Meta AI发布Code Llama

功能：生成代码、解释代码功能。
推文：查看链接

8月24日

💡

🔔小互的推特 8 月 24日更新 ✨✨✨✨✨✨✨✨✨

1⃣️

🚣 机器人3D打印皮划艇：

利用可回收材料进行3D打印制作了一个皮划艇。

🔗https://twitter.com/xiaohuggg/status/1694663540811137238?s=20

2⃣️

🎬 Simulon: iOS VFX视频制作应用：

轻松制作逼真VFX视频
创始人 @diveshnaidoo 表示无需摄像机、HDRI捕获或手动合成设置
实时预览拍摄过程、自动曝光匹配
意味着电影、视觉特效和虚拟制作的变革
目前处于内测阶段

🔗https://twitter.com/xiaohuggg/status/1694548592214884547?s=20

3⃣️

📊 英伟达最新财报：

第二财季营收：135.07亿美元，年增长101%，季增长88%
净利润：61.88亿美元，年增长843%，季增长203%
创下公司历史纪录

🔗https://twitter.com/xiaohuggg/status/1694499693106176257?s=20

8月23日

🎉

🔔小互的推特 8 月 23日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🔌 英伟达H100 AI处理器爆卖：

据英国《金融时报》报道，英伟达H100 AI 处理器2024 年的所有产量都已经卖光了。英伟达将H100 的2024产量增加了两到三倍，达到 150 万至 200 万个，比今年预期的 50 万个大幅跃升。尽管计划增加产量，但市场对这些处理器的需求仍然超过了供应

🔗https://twitter.com/xiaohuggg/status/1694330961482440935?s=20

2️⃣

🎨 MidJourney Inpainting：局部重绘功能示范。

🔗https://twitter.com/xiaohuggg/status/1694325341610025378?s=20

3️⃣

🔍 Metaphor搜索引擎：

Metaphor：一种基于大语言模型的搜索引擎允许用户使用完整的句子和自然语言搜索，还可以模拟人们在互联网上分享和谈论链接的方式进行查询内容。Metaphor同时还能与LLMs结合使用，允许LLMs连接互联网，查询自己知识库外部的内容

🔗https://twitter.com/xiaohuggg/status/1694278158818906282?s=20

4️⃣

📹 VisionOS X视频：

带来身临其境的体验。

🔗https://twitter.com/xiaohuggg/status/1694276462478815260?s=20

5️⃣

🎥 Simulon：iOS应用制作逼真VFX视频。

无需摄像机、HDRI捕获或手动合成。实时预览，自动曝光匹配。目前内测中！

Simulon：一款新的 iOS 应用程序，可以轻松制作看起来非常逼真的VFX视频。创始人@diveshnaidoo称该方法无需摄像机解决方案，没有 HDRI 捕获，也不需要手动合成设置。拍摄过程可实时预览，自动曝光匹配！这将改变电影制作、视觉特效和虚拟制作的游戏规则！

🔗https://twitter.com/xiaohuggg/status/1694189530767888642?s=20

6️⃣

😂 形势严峻：哈哈哈。

🔗https://twitter.com/xiaohuggg/status/1694169254701253041?s=20

7️⃣

🧠 知识体系与棋：

知识体系的构建与下棋有相似之处，都要理解背后的逻辑。

知识体系的构建就像下棋。假设你随意摆放棋子在棋盘上，然后让一位棋手来记住棋面布局，他们可能做不到。棋手能够记忆棋局棋谱，是因为他们理解每一步棋背后的逻辑。

🔗https://twitter.com/xiaohuggg/status/1694166886773407854?s=20

8️⃣

⌚ Apple Watch新专利：根据服装和表带更换表盘颜色。

苹果公司获得了一项关于 Apple Watch 的新专利，其中亮点是配备了颜色采样传感器，可以根据表带、服装等外部物体的颜色自动变换 jax 颜色和主题。在颜色采样期间，佩戴者需要将 Apple Watch 正面朝向采样对象，发射出红光、绿色和蓝光的序列，内置的光传感器会检测上述三种光线的反射，通过算法判断出颜色。Apple Watch 内部会配有相应的控制电路，在收到颜色采样器提供的颜色信息之后，可以相应地调整表盘颜色和主题。

🔗https://twitter.com/xiaohuggg/status/1694158465881755931?s=20

9️⃣

📖 GPT-3.5 Turbo新功能：OpenAI推出微调功能，让GPT-3.5 Turbo在特定任务上与GPT-4匹敌或超越。

🔗https://twitter.com/xiaohuggg/status/1694142417312911724?s=20

🔟

🎤 Eleven Multilingual v2：ElevenLabs新的多语言语音模型，支持28种“情感丰富”的语言，包括中文。

ElevenLabs推出一款新的多语言语音生成模型：Eleven Multilingual v2 能够准确地生成28种语言中的“情感丰富”的AI音频，包括中文！无论使用合成声音还是克隆声音，说话者的独特声音特征都会在所有语言中保持不变。这意味着同一种声音可以用于在28种不同的语言中呈现内容。

🔗https://twitter.com/xiaohuggg/status/1694130472278970452?s=20

8月22日

📌

🔔小互的推特 8 月 22日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🌍 Meta 发布 SeamlessM4T AI 模型

支持近100种语言的自动语音识别、语音到文本翻译等。其目标是创建一个类似《银河系漫游指南》中的虚构的巴别鱼的通用语言翻译器。

🔗 https://twitter.com/xiaohuggg/status/1694003893863391607?s=20

2️⃣

🎮 StoryGames AI：快速创建交互视觉小说游戏

仅需输入关于主角和故事走向描述，即可生成十章视觉小说游戏。

🔗 https://twitter.com/xiaohuggg/status/1693968030202777979?s=20

3️⃣

🚄 日本东京火车站AI实时“翻译墙”

能实时将售票员与游客的对话翻译成多种语言并展示。

🔗 https://twitter.com/xiaohuggg/status/1693950433931530749?s=20

4️⃣

📷 IP-Adapter：腾讯AI实验室的文本兼容图像提示适配器

允许模型根据图像提示生成图像，参数只有22M，性能出色。

🔗 https://twitter.com/xiaohuggg/status/1693929403221442765?s=20

5️⃣

📹 AlfredCamera：将旧设备变为监控摄像头的应用

下载应用并配对即可。

🔗 https://twitter.com/xiaohuggg/status/1693911953989890235?s=20

6️⃣

🎨 AUTOMATIC1111 Stable Diffusion GUI扩展

增强图像生成和编辑的工具大全。

🔗 https://stable-diffusion-art.com/automatic1111-extensions/

7️⃣

✒️ 朱雀仿宋：首款开源仿宋字体

灵感来自“南宋”，允许免费商用。

🔗 https://twitter.com/xiaohuggg/status/1693872582809018588?s=20

8️⃣

📺 ChatHaruhi：模仿动漫角色的技术框架

如大语言模型扮演凉宫春日回复用户。

🔗 https://twitter.com/xiaohuggg/status/1693870449921544631?s=20

9️⃣

🎨 MidJourney发布 InPainting功能

用于图像内容修改。

🔗 https://twitter.com/xiaohuggg/status/1693806007414296623?s=20

🔟

🎒 北京世界机器人大会的智能背包

具有6个机械臂。

🔗 https://twitter.com/xiaohuggg/status/1693826282252034215?s=20

1️⃣1️⃣

🤖 Dot：AI助理概念产品

能理解对话背景、帮助记住细节、安排日程。

🔗 https://twitter.com/xiaohuggg/status/1693817891215622219?s=20

1️⃣2️⃣

📸 #AI开源项目推荐：GFPGAN

腾讯开源的模型，能恢复老照片。

🔗 https://twitter.com/dotey/status/1693664599298523475?s=20

8月21日

📌

🔔小互的推特 8 月 21日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🛰 中国公司发射“WonderJourney”人工智能卫星

这款卫星能实时处理数据，用户可以与其对话。它能短时内分析10,000平方公里区域，而传统卫星需180天。

🔗 https://twitter.com/xiaohuggg/status/1693637082126639277?s=20

2️⃣

🖼 ReVersion：图像框架

它识别图像中的特定关系并在新场景复制，如拥抱的动作。

🔗 https://arxiv.org/abs/2303.13495

🔗 https://twitter.com/xiaohuggg/status/1693603725175316847?s=20

3️⃣

🗣 KwaiYii 快意：快手大语言模型

官方称其在CMMLU中文排名首位，与ChatGPT3.5效果相当。

🔗 https://twitter.com/xiaohuggg/status/1693591161901089094?s=20

4️⃣

💰 全球“女性”富豪榜

有人要求Midjourney创造女性版的亿万富翁。

🔗 https://twitter.com/xiaohuggg/status/1693587547283505629?s=20

5️⃣

🖱 Clip Mouse：虚拟鼠标

夹于指间，感应手部动作模拟鼠标移动。

🔗 https://twitter.com/xiaohuggg/status/1693536677569155092?s=20

6️⃣

🎥 Grounding Predicates through Actions

自动标记方案，使机器像人理解视频并与人互动。

🔗 https://twitter.com/xiaohuggg/status/1693505021495926819?s=20

7️⃣

🏞 交互式AR沙盘

扫描沙盆并在沙子上投影地形。

🔗 https://twitter.com/xiaohuggg/status/1693465868599169398?s=20

8️⃣

🎨 GigaGAN：大规模GAN

规模是StyleGAN的36倍，快速生成高清图像。

🔗 https://mingukkang.github.io/GigaGAN/

🔗 https://twitter.com/xiaohuggg/status/1693455348215214390?s=20

9️⃣

📱 每天刷 X 的你

🔗 https://twitter.com/xiaohuggg/status/1693442261592490470?s=20

🔟

🎆 果然是烟花

🔗 https://twitter.com/xiaohuggg/status/1693301916422517030?s=20

8月20日

📣

🔔小互的推特 8 月 20日更新 ✨✨✨✨✨✨✨✨✨ 1️⃣

🖥 Adobe Express 大更新

Adobe Express集成了Adobe Firefly生成式AI，提供了丰富的功能。

🔗 https://twitter.com/xiaohuggg/status/1693089301867941897?s=20

2️⃣

📱 BeFake：新的社交媒体应用

由前Machine Zone首席执行官创建，用户可以使用AI将自己置入任意场景。

🔗 https://twitter.com/xiaohuggg/status/1693093605010014360?s=20

3⃣️

🎥 如何渲染视频的特定部分？

分享了一个具体的视频渲染方法，包括使用Alpha通道和Warpfusion技术。

🔗 https://twitter.com/xiaohuggg/status/1693129008136024223?s=20

4⃣️

💻 推荐计算机专业课程

分享了MIT、哈佛和斯坦福等名校的计算机相关课程链接，并推荐了Edx.org公开课平台。

🔗 https://twitter.com/xiaohuggg/status/1693173776362713312?s=20

5️⃣

🎬 关于RunwayML的高清视频制作方法

@Salmaaboukarr 分享了如何绕过RunwayML的视频质量问题，通过Midjourney和tensorpix ai，进行图片处理和视频设置，最终实现高质量视频制作。

🔗 https://twitter.com/xiaohuggg/status/1693273874467864709?s=20

6️⃣

🧪 3D Gaussian Splatting 项目

尽管此项目对许多人来说难以理解，但多个测试视频显示其效果出色。其相关论文大小高达115M。

项目地址：https://huggingface.co/papers/2308.04079

🔗 https://twitter.com/xiaohuggg/status/1693265777380708420?s=20

7️⃣

🎮 Mantella：为《上古卷轴V：天际》开发的Mod

该Mod允许玩家使用先进的AI技术与游戏内的NPC进行自然对话。

🔗 https://twitter.com/xiaohuggg/status/1693261182264906165?s=20

8️⃣

🤖 北京Surgerii科技公司的模块化内窥镜手术机器人

该机器人能在3D显示器引导下执行微创手术。

🔗 https://twitter.com/xiaohuggg/status/1693220928354955736?s=20

9️⃣

🚗 特斯拉App的Siri控制更新

用户现在可以使用Siri快捷指令来控制特斯拉车辆的各种设置和功能。

🔗 https://twitter.com/xiaohuggg/status/1693199839319015617?s=20

🔟

🏃 MASK-M：人体运动合成技术

该模型能预测和合成连续的人体动作。

🔗 https://twitter.com/xiaohuggg/status/1693181050783142249?s=20

8月19日

🌰

🔔小互的推特 8 月 19日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🔍 StabilityAI 发布Control-LoRA 模型

通过低秩优化，原始的 4.7GB ControlNet 模型被减小到约 738MB 的 Control-LoRA 模型，使得模型能在消费级的 GPU 上运行，提高了其可访问性与适用性。

🔗 https://huggingface.co/stabilityai/control-lora

🔗 https://x.com/xiaohuggg/status/1692936481457975425?s=46&t=F6BXooLyAyfvHbvr7Vw2-g

2️⃣

📺 WALDO beta v2.5 预览视频！

这是一款似天眼功能的工具，但其确切功能难以寻找。从视频判断，它似乎使用了深度网络和计算机视觉对摄像头内的元素进行识别和标记。

🔗 https://x.com/xiaohuggg/status/1692852912693923884?s=46&t=F6BXooLyAyfvHbvr7Vw2-g

3️⃣

👥 人体腹部3D透视图

人与机器人之间的相似之处在于都有“电线”血管和神经网络。

🔗 https://x.com/xiaohuggg/status/1692762973767655735?s=46&t=F6BXooLyAyfvHbvr7Vw2-g

4️⃣

📸 使用Photoshop Generative AI功能修复破损老照片

🛠️ 主要工具包括：Remove tool, Clone brush, Generative fill 以及 Neural filters。

🔗 https://x.com/xiaohuggg/status/1692751080973828468?s=46&t=F6BXooLyAyfvHbvr7Vw2-g

历史项目记录：http://waytoagi.com/xiaohu

8月18日

📣

🔔小互的推特 8 月 17 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🖼️ Generated Photos 新工具: Human Generator：

实时创建逼真全身人物照片
多种种族、年龄、体型
将真实面孔与生成的身体结合
无版权问题

模特的工作机会或许会减少！

🔗https://twitter.com/xiaohuggg/status/1692545825937990089?s=20

2️⃣

🔬 打击艾滋病的新方法：

坦普尔大学利用CRISPR基因编辑技术从非人灵长类动物中去除了SIV。此突破为治疗人类HIV感染带来了希望。

🔗https://twitter.com/xiaohuggg/status/1692456524902474003?s=20

3️⃣

🎥 Luma AI发布新功能: Flythroughs：

使用iPhone创建3D立体飞跃效果视频，无需无人机、专业3D摄像机等高端设备。

🔗https://twitter.com/xiaohuggg/status/1692411594435969186?s=20

4️⃣

💻 Roboflow Supervision 工具库更新：

视频跟踪器：追踪视频中的物体移动
区域工具：选择视频中的特定区域进行分析
注释器：在视频上添加标签、信息等

🔗https://twitter.com/xiaohuggg/status/1692376727937507344?s=20

5️⃣

🤖 Meta AI推出: RoboAgent：

一款智能机器人，能掌握如拾取、推动、物体操纵等12个复杂技能。

🔗https://twitter.com/xiaohuggg/status/1692359735528546805?s=20

6️⃣

🗣️ 开源项目推荐: SillyTavern：

本地部署的虚拟角色聊天软件，支持多种LLM、TTS功能，以及NSFW（文爱功能）。

🔗https://twitter.com/dotey/status/1692216399836426242?s=20

8月17日

📣

🔔小互的推特 8 月 17 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🤖 字节跳动大模型：

抖音登录直接体验，优点：回答能力较好缺点：逻辑问题处理不佳、过度的安全屏蔽

🔗http://doubao.com

https://twitter.com/xiaohuggg/status/1692181399045071152?s=20

2️⃣

🎮 增强现实保龄球游戏：

利用 GoogleARVR 的地理空间API实现，结合物理学和 Google 的视觉定位系统。

🔗https://twitter.com/xiaohuggg/status/1692174089451155459?s=20

3️⃣

🎬 AI 短电影预告片：

由 Runway、Midjourney、Stable Diffusion、HeyGen 和 Pika Labs 制作，展现了完整的故事情节。

🔗https://twitter.com/xiaohuggg/status/1692112470641660077?s=20

4️⃣

🎥 RIGID 视频编辑框架：

使用深度学习技术对视频中的人脸进行编辑，能实现多种脸部效果。

🔗https://twitter.com/xiaohuggg/status/1692089025606377572?s=20

5️⃣

📱 GlassOuse 设备：

专为身体残障人士设计，可通过头部运动控制各种电子设备。

🔗https://twitter.com/xiaohuggg/status/1692077111975256453?s=20

6️⃣

📸 AI 生成图像数量：

一年内 AI 生产的图像超过了 150 年间人类拍摄的所有照片数量。

🔗https://twitter.com/xiaohuggg/status/1692045409978568800?s=20

7️⃣

📊 OpenAI API 使用情况可视化分析：

http://llm.report 提供 API 数据统计、详细日志和用户花费统计。

🔗https://twitter.com/Gorden_Sun/status/1691997190460207204?s=20

8️⃣

🎬 CoDeF 视频处理方法：

为视频处理提供了新的视角和工具，项目由蚂蚁集团、香港科技大学和浙江大学团队共同创建。

🔗https://twitter.com/xiaohuggg/status/1692028146001088906?s=20

9️⃣

💬 流式传输聊天响应：

"Streaming responses for chat & completions"的效果展示。

🔗https://twitter.com/xiaohuggg/status/1692013599169143169?s=20

🔟

✉️ Google “Poem Postcard” 工具：

使用 AI 生成诗歌来创建个性化明信片。

🔗https://twitter.com/xiaohuggg/status/1692010403193315515?s=20

1️⃣1️⃣

🎮 OpenAI 收购 Global Illumination公司：

该公司主要研发了开源沙盒MMORPG游戏：Biomes，是开源版的 Minecraft。

🔗http://ill.inc | [推文来源]https://twitter.com/xiaohuggg/status/1692004419485974798?s=20

8月16日

📌

🔔小互的推特 8 月 16 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🤖 KAIST 开发驾驶飞机的人形机器人 "Pibot"：

无需对驾驶舱进行修改，Pibot 可以像人类飞行员一样操作飞机。即使在飞机中遇到严重振动也能准确操作。

🔗https://twitter.com/xiaohuggg/status/1691831076271055164?s=20

2️⃣

🖼️ Bing Chat 图像转小说：

上传照片，Bing Chat 会为您写出一篇原创短篇小说。

🔗[完整故事]https://www.aidemos.info/image-to-short-story-with-bing-chat/ https://twitter.com/xiaohuggg/status/1691784201941692421?s=20

3️⃣

🔍 MediSearch.io：权威的医疗搜索引擎：

为用户提供来自权威信源的医学信息答案，所有答案都附带引用来源。

🔗https://twitter.com/xiaohuggg/status/1691771235066364237?s=20

4️⃣

☁️ 腾讯云 TI 平台正式上架：

支持行业最新的 Llama 2 等开源模型直接部署调用。

🔗https://twitter.com/xiaohuggg/status/1691704312932786383?s=20

5️⃣

🌆 国内创业环境观察：

探索国内的创业氛围。

🔗https://twitter.com/xiaohuggg/status/1691661356527923691?s=20

6️⃣

🎨 Opendream：图像生成与操作的开源工具：

为 Stable Diffusion 提供简单易用的图形界面。

🔗https://twitter.com/xiaohuggg/status/1691656096057115084?s=20

7️⃣

🔊 MuAViC：模拟人类共同使用视觉和听觉理解语言：

由 Meta AI 开发，结合声音和视觉信息以准确理解和翻译语言。

🔗https://twitter.com/xiaohuggg/status/1691647905202082285?s=20

8️⃣

🔗 短链接被限流问题：

包括 Instagram、Facebook、Threads、Substack 等的短链接点击后会有 5 秒延迟再加载。

🔗https://twitter.com/xiaohuggg/status/1691626486464442749?s=20

9️⃣

🎙️ 比尔·盖茨与可汗学院创始人萨尔曼·可汗的对话：

在播客《Unconfuse Me》中，两位名人探讨了人工智能的话题。

🔗https://twitter.com/dotey/status/1691600956297797740?s=20

8 月 15 日

🌰

🔔小互的推特 8 月 15 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣ 🤖现在可以直接在浏览器中体验 NVIDIA 多模态视觉语言模型：NeVA 你只需上传一张图片就可以询问与该图像有关的问题。https://nvda.ws/459gTxw

https://twitter.com/xiaohuggg/status/1691421722065670144?s=20

2️⃣ 🖼️ Inst-Inpaint：是一种图像修复替换技术，可以通过文字描述轻松的移除或者替换图像中的指定对象。与传统的图像修复方法不同，传统方法通常需要用户定义要删除的像素的二进制掩码，这可能既耗时又容易出错。Inst-Inpaint 则可以根据文本提示来自动识别并删除图像中的对象。当然，以下是所需的论文：https://arxiv.org/abs/2304.03246 GitHub：https://github.com/abyildirim/inst-inpaint 官方网站：http://instinpaint.abyildirim.com 演示：https://huggingface.co/spaces/abyildirim/inst-inpaint-inpaint

https://twitter.com/xiaohuggg/status/1691400737727856640?s=20

3️⃣ 🚶英国一位 65 岁的中风患者，正在尝试一种名为”NeuroSkin”的智能裤子，帮助她重新学会走路。这套装备包括一条有线裤子和一双带电极的鞋子，可以刺激腿部的肌肉。该“智能裤子”里有一些特殊的电极，可以通过人工智能控制，给她的瘫痪的腿部发出刺激，就像大脑正常控制腿部一样

https://twitter.com/xiaohuggg/status/1691394196341751808?s=20

4️⃣ 🤖 iPlanner：由瑞士苏黎世联邦理工学院的 Legged Robotics 团队开发的一种创新的机器人路径规划方法。这个方法可以让机器人从开始到结束自己负责整个路径规划过程，不需要人工干预。

https://twitter.com/xiaohuggg/status/1691363188431056896?s=20

5️⃣ 🤖Abacus AI ：一套整套解决方案，允许用户只需提供文档和评估数据集，就能自动创建出效果最佳的 AI 聊天机器人。他们采用了 AutoML（自动机器学习）技术，通过自动化的过程选择最佳的模型、参数和训练策略，从而简化了传统的机器学习流程

https://twitter.com/xiaohuggg/status/1691249944307589120?s=20

6️⃣ 🔍little-rat ：一款 Chrome 扩展程序它可以监控其他扩展程序的网络调用

https://twitter.com/xiaohuggg/status/1691245105930473472?s=20

7️⃣ 🚗 斯坦福大学的一个工程师团队将一辆 1981 年款的 DeLorean 改装成了一辆全电动自动驾驶汽车并教它“像专业人士一样漂移”

https://twitter.com/xiaohuggg/status/1691241208021233670?s=20

8️⃣ 🔥2023 年 7 月是有自 1880 年有记录以来最热的月份！ https://go.nasa.gov/3OTWMh7

https://twitter.com/xiaohuggg/status/1691125378084155393?s=20

9️⃣ 📱雷军今天在 2023 年度演讲中对小米 AI 布局的主要内容总结： 1、AI 赋能软硬件：小米计划通过 AI 技术增强其软件和硬件的能力，雷军认为 AI 在小米的技术研发中起着关键作用。 2.、持续布局：自 2016 年 7 月建立 AI 视觉团队以来，小米一直在 AI 领域有计划地扩展，今年 4 月还建立了大模型团队，目前ＡI 团队超过 3000 人。 3.、全面拥抱大模型：雷军特别提到，小米将全面投入大模型的研发，小爱同学将是第一个使用大模型的产品，并已开始邀请测试。 4.、主要突破方向：小米大模型技术的主要突破方向是轻量化和本地部署，解决如何在手机上使用大模型的关键问题。 5.、根据官方数据，小米在主流中文大模型测试中取得了百亿内参数大模型的第一名，并已实现了 13 亿参数大模型在手机上的运行，部分场景的效果可与 60 亿参数模型的云端运算相媲美。 6.、雷军表示，小米将全力投入大模型赛道，展示了公司对 AI 和大模型技术的长期承诺和信心。

https://twitter.com/xiaohuggg/status/1691117320301875200?s=20

8 月 14 日

🦄

🔔小互的推特 8 月 14 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🌐 Mapbox 地图大更新：

动态光照能力
地标 3D 建筑
象征美学

为用户提供了既高性能又优雅的 3D 地图体验，增强了导航和定位的真实性。

🔗https://twitter.com/xiaohuggg/status/1691109625121423360?s=20

2️⃣

🤖 Anthropic 获 SK 电讯 1 亿美元投资：

美国 AI 公司 Anthropic 和韩国最大电信运营商 SK 电讯合作，联合开发大语言模型并建立人工智能平台。

🔗https://twitter.com/xiaohuggg/status/1691032566432997376?s=20

3️⃣

📱 SwiftUI 视差滚动轮播效果教程：

教你如何实现酷炫的视差滚动效果。

🔗[教程链接]（https://t.co/xRFz5OdEd3 | （https://twitter.com/xiaohuggg/status/1691022551076810752?s=20

4️⃣

📖 沃顿商学院教授 Ethan Mollick 对 AI 创造力的观点：

“GPT-4 击败 91% 的人类于替代用途测试，99% 的人类于托伦斯创造性思维测试。”

🔗https://twitter.com/xiaohuggg/status/1691013894784143360?s=20

5️⃣

⚽ 微型仿人机器人足球：

由 DeepMind、牛津大学和 Google 合作研发，使用深度强化学习策略踢球。

🔗https://twitter.com/xiaohuggg/status/1691005634777694210?s=20

6️⃣

🏘️ 小镇模拟过程回放：

体验一个模拟的小镇生活。

🔗[体验链接]（https://reverie.herokuapp.com/arXiv_Demo/# | （https://twitter.com/xiaohuggg/status/1690993995059728384?s=20

7️⃣

📚 斯坦福大学机器学习课程-CS229 （2022 年春季）：

帮助学生成功入门机器学习领域的经典课程。

🔗https://twitter.com/GPTDAOCN/status/1690772068525342720?s=20

8 月 13 日

🌰

🔔小互的推特 8 月 13 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣ 🎵 全球最大的音乐流媒体平台：Spotify 推出 AI 驱动的“DJ”功能。用户可以收听人工智能生成的 DJ“播放列表”和歌曲评论，并结合用户过去的习惯，提供“量身定制”的体验。该功能由 OpenAI 提供支持，提供精选的音乐以及 AI 生成的有关曲目和艺术家的评论。当用户使用 DJ 功能时，他们将收到个性化的歌曲流，包括新曲目和旧曲目，并附有评论。 🔗https://twitter.com/xiaohuggg/status/1690662411853012992?s=20

2️⃣ 🐵 一只名为 Kanzi 的猿被训练玩 Minecraft 游戏。通过使用情境强化学习、人类反馈、模仿学习、课程学习和强大的视觉系统，Kanzi 能够迅速适应游戏的纹理和物理特性，并成功导航复杂的环境。 🔗https://twitter.com/xiaohuggg/status/1690651659788230657?s=20

3️⃣ 🧠 Meta GPT 深度解析 🔗https://twitter.com/xiaohuggg/status/1690639871252348928?s=20

4️⃣ 💳 X 获得支付牌照，看来不用注册 Stripe 了 🔗https://twitter.com/xiaohuggg/status/1690561929864204288?s=20

5️⃣ 🩺 DoctorGPT 模型：为每个人提供一个私人医生。通过训练和优化，该模型能够理解和回答医学问题，甚至可以与专业医生的知识相媲美。• 通过了美国医学执照考试• 可离线使用 • 支持 iOS 和 Android 平台 • 开源 🔗https://twitter.com/xiaohuggg/status/1690560761112977408?s=20

6️⃣ 🎨 Pixcap：结合了 3D 和 AI 技术图形设计工具 Pixcap 不需要 3D 设计技能或复杂的硬件，只需简单拖动 3D 模型进行混合自由搭配，然后使用文本描述，AI 即可生成 3D 风格的设计图。该工具完全基于浏览器，不用额外的下载和更新模型库，不管是初学者还是设计师都能轻松上手。

网站：https://pixcap.com 模型库：https://pixcap.com/explore 🔗https://twitter.com/xiaohuggg/status/1690550641972969472?s=20

8 月 12 日

✏️

🔔小互的推特 8 月 12 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣ ❤️ 心脏是如何工作的这个 3D 剖面模型可以让你很直观的看到心脏的工作原理和内部构造！ 🔗https://twitter.com/xiaohuggg/status/1690382806013329408?s=20

2️⃣ 📱 iOS17 Beta 版的 iPhone 用户可以使用手机克隆自己的声音，并通过手机朗读文本。测试了下只支持英文 🔗https://twitter.com/xiaohuggg/status/1690366683830165504?s=20

3️⃣ 🤖 手机合规检测系统，这么牛 P 吗？感觉不好实现吧，除非有超级接口 🔗https://twitter.com/xiaohuggg/status/1690262844170997760?s=20

4️⃣ 📚 原帖为“30 ChatGPT 提示让您赚到 100 万美元”永远不会再做出错误的商业决定 🔗https://twitter.com/jesselaunz/status/1690136977864294404?s=20

5️⃣ 🎥 封神 2 预告片 #midjounery 生图 1000 来张 #Gen2 转 200 个视频镜头，制作：抖音用户朋克周 🔗https://twitter.com/xiaohuggg/status/1690212563437699072?s=20

6️⃣ 🌟 推荐个宝藏博主 @Salmaaboukarr 专门分享 #Midjourney 的商业应用案例，分享使用提示词来制作各种商品宣传效果图的方法！很实用！ 🔗https://twitter.com/xiaohuggg/status/1690192051395284992?s=20

7️⃣ 👤 你们敢相信，这些都是不是真人，全是 AI 数字人，现在真是以假乱真，这个效果真的很好，几乎看不出是假人，嘴型都很完美！国内一家公司做的，但是好像不是简单上传视频能实现的，需要提交资料然后去他们公司量身定制！ 🔗https://twitter.com/xiaohuggg/status/1690184793349345280?s=20

8️⃣ 🎬 Captions ：实现视频制作各个方面的自动化，通过结合 AI 技术和多种创意工具，可以帮你极大地简化了视频制作流程：包括人工智能驱动的字幕、编辑、AI 自动配音、脚本创建、音乐集成等。 🔗https://twitter.com/xiaohuggg/status/1690180824883458048?s=20 ‘‘‘

8 月 11 日

👍

🔔小互的推特 8 月 11 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🎥如何使用 #runway 的 Gen-2 生成长达 18 秒的视频

🔗https://twitter.com/xiaohuggg/status/1690018575954644992?s=20

2️⃣

🎮Inworld 与 ElevenLabs 合作为《侠盗猎车手 V》增添 AI NPC 和 AI 声音：30+个新 NPC，全部由 AI 生成对话和声音。

🔗https://twitter.com/xiaohuggg/status/1690014158383644672?s=20

3️⃣

💰"如果这个项目睡觉、旅行时赚不到钱，就不要开始"：被动收入指南

总结输出：作者分享了他在自动化收入方面的经验和思考。他强调了自动化收入的概念，即通过一次设置后源源不断地获得收入。他提出了三个原则：收入不能仅依赖工作时间，项目要具有普适性和长期性，并且要独立于其他因素。他分享了自己在国内和国外的自动化收入项目，如软件销售、电子书代理和商业房产租赁。他还提到了网站广告收入和半自动化外汇交易作为自动化收入的其他可能途径。最后，他强调了虚心和灵活学习的重要性，以及实现经济自由和内心自在的目标。

🔗https://twitter.com/xiaohuggg/status/1689946719814037504?s=20

4️⃣

🔐PassGAN：1 分钟破解 51%密码，6 分钟破解 7 字符密码（包含符号）。

卧槽，牛皮。这个工具可以在 1 分钟内破解 51%的密码。 PassGAN 是一种生成对抗网络（GAN），可以从实际密码泄漏中自主学习真实密码的分布。它可以在 6 分钟内破解任何类型的 7 个字符密码，即使它包含符号。

🔗https://twitter.com/op7418/status/1689883302730342400?s=20

5️⃣

🎵➡️🖼Music-To-Image：从音乐到图像的深度学习模型。

🔗https://twitter.com/xiaohuggg/status/1689882772952006656?s=20

6️⃣

🤖GPT-LLM-Trainer：将想法迅速转变为训练有素的模型，无需手动数据整理。只需要描述你想要的模型内容。然后这个 AI 工具将为你自动创建数据集并训练模型，无需手动收集和整理。还可以对模型进行自动微调

🔗https://twitter.com/xiaohuggg/status/1689838232765358080?s=20

7️⃣

🎙PlayHT：跨语言生成逼真人类语音对话工具，<800ms 生成真实人类对话，支持 142 语言/口音。

PlayHT 适用于视频配音、音频出版、对话 AI、自定义语音创建等广泛用途，提供 800 多种自然声音，支持 142 种语言和口音。

官网：http://play.ht

🔗https://twitter.com/xiaohuggg/status/1689831786287972352?s=20

8️⃣

💵X 分钱门槛下调：3 个月从 1500 万阅读量降至 500 万，满 10 美金即可打款。

🔗https://twitter.com/xiaohuggg/status/1689798310566273024?s=20

9️⃣

🚀Midjourney：GPU 服务集群升级，Pro/Mega 用户生成速度提升 1.5 倍，渲染成本降低 1.5 倍。

🔗https://twitter.com/xiaohuggg/status/1689795110857560064?s=20

🔟推荐点开项目地址感受

🎧AudioSep：使用自然语言指令从混音中分离特定声音，无需声音样本。

项目：https://audio-agi.github.io/Separate-Anything-You-Describe/

论文：https://arxiv.org/abs/2308.05037

🔗https://twitter.com/xiaohuggg/status/1689676152347267072?s=20

1️⃣0️⃣

👩FaceChain：上传自己的照片生成你的数字孪生（Digital-Twin），和妙鸭相机功能类似。可以通过一张或多张照片捕捉个人的外貌特征，并将其转化为数字孪生，并在不同的环境中创建个人照片（例如工作照片）。 FaceChain 使用了多个模型，包括面部检测模型、图像旋转模型、人体解析模型、肤色修饰模型等。

https://twitter.com/xiaohuggg/status/1690007034593185792?s=20

8 月 10 日

❤️

🔔小互的推特 8 月 10 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🎥Gen-2 更新：现在可以生成长达 18 秒的视频。

🔗https://twitter.com/xiaohuggg/status/1689645188489326592?s=20

2️⃣

🏘斯坦福大学开发的超人前传虚拟小镇"Smallville"：25 个由 AI 控制的虚拟人进行日常活动。这是一个开源项目，提供了代码和论文，显示 AI 的新可能性和如何让多个 AI 代理一起工作。

🔗https://twitter.com/xiaohuggg/status/1689444329742352385?s=20

3️⃣

🚀#Claude 发布最新版 Claude Instant 1.2：通过 API 使用，提供更快速度、合理价格和强大功能。处理对话、分析、摘要等任务，并在数学、编码等领域有显著进步。

🔗https://twitter.com/xiaohuggg/status/1689311077644062720?s=20

历史记录：http://waytoagi.com/xiaohu

8 月 9 日

❤️

🔔小互的推特 8 月 9 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

📱微信公众平台：9 月 1 日起微信小程序须完成备案后才可上架逾期未备案的将被清退微信公众平台宣布从 9 月 1 日起，要求微信小程序完成备案后才能上架。如果微信小程序未上架，则需要在 2023 年 9 月 1 日后完成备案才能上架。

https://twitter.com/xiaohuggg/status/1689288052592553984?s=20

2️⃣

🤨还有人开发这玩意？？？ http://avscms.com：一个成人视频内容管理系统，可以轻松创建和管理成人视频网站。而且功能超级强大，叹为观止！用户可以使用 AVSCMS 创建视频、照片和博客的网站或社区。这些内容可以是成人或非成人内容（看你心情）

https://twitter.com/xiaohuggg/status/1689274652231618562?s=20

3️⃣

💻Google 推出了一个名为 Project IDX 的实验性新项目，可以将整个全栈、多平台应用开发工作流程带到云端。Project IDX 允许你在任何地方、任何设备上开发，具有本地开发的全部功能。可以理解为它是一个基于 AI 的浏览器开发环境，它集成了 AI 技术，支持全栈编程语言，提供了跨平台真机预览，并允许一键部署

https://twitter.com/xiaohuggg/status/1689267933191512064?s=20

4️⃣

👥Heygen 创始人展示了其最新的数字人克隆技术。该技术可以完美的克隆自己的形象和声音，同时可以有一定的手势，唇型也很完美！就是眨眼有点厉害！该功能不久将会上线…

https://twitter.com/xiaohuggg/status/1689259886310535174?s=20

5️⃣

🤖百川大语言模型聊天机器人，开启内测 http://chat.baichuan-ai.com

https://twitter.com/xiaohuggg/status/1689161181959790592?s=20

6️⃣

🎥NVIDIA 在 #SIGGRAPH2023 技术展会上展示了 Live 3D Portrait 的应用成果和场景。它可以创建一个能够使用消费级计算资源和最小的捕获设备，来重建并自动以立体形式展示真实头部大小的 3D 视频会议系统。

https://twitter.com/xiaohuggg/status/1688827418889605120?s=20

7️⃣

🔊英伟达在世界顶级计算机图形学会议 #SIGGRAPH2023 上宣布一系列重磅更新，包括下一代 GH200 超级芯片平台、AI Workbench、OpenUSD 等。这些创新将人工智能、虚拟世界、加速、模拟、协作等融合到一起。

https://twitter.com/xiaohuggg/status/1689089166733418496?s=20

8️⃣

🎨http://Kaiber.ai 宣布结束内测，开放注册了，现在可以直接体验了！ Kaiber AI 是一种 AI 生成引擎，它可以帮助你生成各种艺术风格的美学动画

https://twitter.com/xiaohuggg/status/1689079686528446465?s=20

9️⃣

☁️NVIDIA 和@huggingface

宣布了一项合作， #NVIDIADGX Cloud 将集成到 Hugging Face 平台中，为数百万开发者提供用于大型语言模型和先进 AI 应用的生成性 AI 超级计算能力

https://twitter.com/xiaohuggg/status/1689074520819458048?s=20

8 月 8 日

📗

🔔小互的推特 8 月 8 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣ 🔎 Zoom 更新条款引发关注 Zoom 更新服务条款，允许使用用户数据训练 AI，且不提供退出选项。条款授予广泛许可权如修改、分发客户内容，并声称数据将用于 AI 训练。 🔗https://twitter.com/xiaohuggg/status/1688923957091880962?s=20

2️⃣ 🌐 OpenAI 发布 GPTBot OpenAI 推出网络爬虫 GPTBot，从互联网上抓取数据以训练未来 AI。提醒：若不希望 GPTBot 访问网站，可加入 robots.txt。 🔗https://platform.openai.com/docs/gptbot

3️⃣ 📱 工业和信息化部发布通知 2023 年 9 月至 2024 年 3 月，已开展业务的 APP 需履行备案手续。 🔗http://t.cn/A60Rz41C

4️⃣ 🖥 NVIDIA 展示 3D 技术在#SIGGRAPH2023 上，NVIDIA 展示了 Live 3D Portrait 应用，能重建立体形式的 3D 视频会议系统。具有 3D 自拍、实时 3D 肖像和 3D 视频会议功能。 🔗https://twitter.com/xiaohuggg/status/1688827418889605120?s=20

5️⃣ 🎨 扩散模型解读模型如 Midjourney 从随机噪声生成图像，先加入噪声使图像模糊，再反转清晰。 🔗https://twitter.com/xiaohuggg/status/1688806721257644032?s=20

6️⃣ 🎵 Midnatt 利用深度学习唱歌流行歌星 Midnatt 利用 NANSY 系统，用 6 种语言录制歌曲。NANSY 处理发音、音色、音高和音量。由首尔的初创公司 Supertone 开发的神经语音处理器，这种方法可以帮助全世界的歌手接触到可能更喜欢听熟悉语言的歌曲的听众。 🔗https://twitter.com/xiaohuggg/status/1688759137369489408?s=20

7️⃣ 🔊 AudioLDM 技术 AudioLDM 使用潜在扩散模型从文本描述生成音频和音乐，不需标注数据或大量计算资源。 🔗https://twitter.com/xiaohuggg/status/1688749814891294720?s=20

8️⃣ 🎧 AudioLDM 实例展示从文本提示到音频的生成，包括各种音频样本的控制。 🔗https://audioldm.github.io

9️⃣ 🎥 Bing 发布概念视频 Bing 发布概念视频，提高品牌曝光。 🔗https://twitter.com/xiaohuggg/status/1688734792190509056?s=20

1️⃣0️⃣ 🔉 ElevenLabs 推出实时输入流功能允许文本块流式传输到音频中，适用于实时翻译或语音助手。 🔗https://twitter.com/xiaohuggg/status/1688715928870268929?s=20

8 月 7 日

💡

🔔小互的推特 8 月 7 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣ 🔒利用深度学习模型通过监听键盘按键声音来盗取用户数据研究人员训练了一个深度学习模型，它可以通过使用麦克风记录键盘敲击声来窃取数据，准确率高达 95%。使用 Zoom 被用于训练声音分类算法时，预测准确率 93%。

研究人员利用 MacBook Pro 上的 36 个键，各敲击 25 次并记录每次按键产生的声音来收集训练数据。

然后，他们从录音中生成了波形和频谱图，这些图像可视化了每个键的可识别差异，并进行了特定的数据处理步骤，以增强可以用于识别敲击键的信号。

这些频谱图图像被用来训练一个名为"CoAtNet"的图像分类器，而这个过程需要对 epoch、学习率和数据分割参数进行一些实验，直到能够获得最佳的预测准确性结果。

对于过于担心声学侧信道攻击的用户，建议他们可以尝试改变打字风格或使用随机密码。其他可能的防御措施包括使用软件来重现敲击键的声音、白噪声或基于软件的敲击键音频过滤器。最后，使用生物识别认证（如果可行），并使用密码管理器来避免手动输入敏感信息，也是缓解因素。

https://twitter.com/xiaohuggg/status/1688547868175679490?s=20

2️⃣ 🚫 马一龙又抢走一个用户的账号 @music

https://twitter.com/xiaohuggg/status/1688509646997536770?s=20

3️⃣ 📄PDF Tools ：完全免费且无广告的 PDF 工具工具包括：合并 PDF、分割 PDF、PDF 转 PNG、PDF 转 JPEG、PNG 转 PDF、JPEG 转 PDF、PDF 转 HTML、OCR PDF、压缩 PDF 和旋转 PDF。另外 http://PDF.AI 还支持和 PDF 文件对话功能。上传文件或者安装他们的 Chrome 扩展即可和文件对话。完全免费，很方便

100% 免费，无需注册。所有工具都在您的浏览器中运行，以确保完全隐私

https://twitter.com/xiaohuggg/status/1688469307263782912?s=20

4️⃣ 🎨 A 当我们在电脑上制作一个动画角色时，我们通常会给它添加一些基本的动作，比如走路、跑步或跳跃。但在真实生活中，当我们移动时，我们的衣物、头发或其他部分也会随之产生一些自然的、次要的动作。由 Adobe 研究中心研究的项目：Fast Complementary Dynamics via Skinning Eigenmodes（通过皮肤特征模式实现的快速互补动态）目的就是为电脑上的动画角色添加这种自然的次要动作。为了实现这一目标，研究者们开发了一种新的技术，称为“线性混合皮肤的子空间”。这种技术可以帮助我们更准确地模拟角色的自然动作，特别是旋转动作。例如，当一个动画角色转身时，我们不仅要确保它的身体正确地转动，还要确保它的衣物、头发等也跟着自然地转动。这就是这项研究所要解决的问题。这项研究为动画制作者提供了一个工具，使他们能够更加真实地模拟动画角色的动作，使其看起来更加自然和真实。

https://twitter.com/xiaohuggg/status/1688398681912078336?s=20

5️⃣ 🔧MetaGPT：一个多代理框架，主要针对软件项目开发工作。你只需要给它一句话的文本需求，它就能给你输出用户故事、竞品分析、需求、数据结构、APIs、文件等一个软件开发的全过程和标准操作流程（SOP）。例如，输入 "写个类似今日头条的推荐系统"，MetaGPT 会输出数据结构与 API 设计等内容。

MetaGPT 项目旨在自动化软件开发的各个阶段，从需求分析到设计和实现。

该框架的多智能体设计意味着可以为 GPT 分配不同的角色，如产品经理、架构师、项目经理和工程师，使其更好地协同工作。

通过 MetaGPT，开发者可以更加轻松地将他们的创意转化为实际的软件项目，而无需进行繁琐的手工编码。此外，它还支持文本生成图片等功能。该项目的目标是将不同的角色分配给 GPT，形成一个用于复杂任务的协作软件实体。通过使用 MetaGPT，开发者可以自动化软件开发的许多前期工作，从而更加高效地将他们的创意转化为实际的软件项目。

官方介绍：生成一个包含分析和设计的示例大约需要 0.2 美元（GPT-4 api 的成本），整个项目大约需要 2.0 美元。

看起来很便宜

论文：https://arxiv.org/abs/2308.00352 GitHub：https://github.com/geekan/MetaGPT

https://twitter.com/xiaohuggg/status/1688374030825615360?s=20

6️⃣ 📺YouTube 上 Graphics in 5 Minutes 这个频道 https://youtube.com/@g5min 有很多系列视频做的相当不错，比如这个《Large Language Models from scratch》从常见的自动完成开始解释了 ChatGPT 和 Palm 等语言模型是如何工作的，以及 Transformer 和 LLM 背后技术。

https://twitter.com/dotey/status/1688218021653827584?s=20

8 月 6 日

🎉

🔔小互的推特 8 月 6 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🔫 世界首款智能手枪在美上市。这款枪具备指纹和面部识别功能，只有经过验证的用户才能开枪。市场售价为 1,499 美元，与普通手枪相比价格较高，但有望减少枪支暴力。

🔗https://twitter.com/xiaohuggg/status/1688198239663894528?s=20

2️⃣

🤖 4 张图表展示 AI 进展迅速。时代周刊报道，AI 在众多任务上超过人类，其进步速度不断加快。未来几年内，AI 可能会掌握今日的专家都难以达到的知识，但也带来滥用的风险。

🔗https://twitter.com/xiaohuggg/status/1688189173839306752?s=20

3️⃣

🌊 当虚拟现实遇到水滑梯，VRSlide®为游客带来沉浸式体验。Ballast VR 开发的这一系统，为水上乐园带来全新视觉体验，已在多家乐园成功应用。

🔗https://twitter.com/xiaohuggg/status/1688182302730559488?s=20

4️⃣

🚀 喷气背包大赛盛大举行！

🔗https://twitter.com/xiaohuggg/status/1688122464201756672?s=20

5️⃣

🎥 Lalamu Studio 推出 Demo：利用 AI 实现口型与声音的同步。该工具支持视频上传、文本转语音等功能，初期仅支持德、英两种语言。

🔗https://twitter.com/xiaohuggg/status/1688058582527574017?s=20

6️⃣

🎨 新的 Figma 插件登场：单击即可将矢量图形转为 3D 视觉。

🔗https://twitter.com/xiaohuggg/status/1688011561322045440?s=20

7️⃣

http://videocelebs.net 一个专门收集电影被删减片段的网站，你们懂得

https://twitter.com/xiaohuggg/status/1688204258158788608?s=20

8 月 5 日

🐙

🔔小互的推特 8 月 5 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🤖Sweep: AI 初级开发者，可以查看、理解你的代码，并自动编写和提交代码更改，节省开发时间。不同于只在编写代码时提供帮助的工具，Sweep 能处理整个流程，从分析问题到提交解决方案。

🔗https://twitter.com/xiaohuggg/status/1687827402091884544?s=20

2️⃣

🔬Dynalang: 加州大学伯克利分校的研究项目，理解人类语言指令并构建一个能预测未来情况或事件的多模态世界模型，实现自主任务执行和对未来可能遇到的新情境的理解。

🔗https://twitter.com/xiaohuggg/status/1687744241743904768?s=20

3️⃣

📚Read Something Wonderful: 一个提供深度、有价值、经得起时间考验的文章的网站，帮助我们跳出短视的信息流。

🔗https://twitter.com/xiaohuggg/status/1687668853973958656?s=20

4️⃣

🚽Poopfiction: 提供不同长度英文故事的网站，方便在闲暇无聊或者拉便便的时候阅读。

🔗https://twitter.com/xiaohuggg/status/1687650280136142848?s=20

5️⃣

🎭Cyan Puppets: 广州的一家公司，利用 AI 图像算法技术实现 2D 视频生成 3D 动作数据，主要为腾讯游戏、bilibil、完美世界、清华大学、北大等客户提供技术。

🔗https://twitter.com/xiaohuggg/status/1687641863699017729?s=20

6️⃣

🎨Mandala 3D: 一个能够创造出好看的 Mandala 3D 图案的在线工具，可用于消解压力和放松心情。

🔗https://twitter.com/xiaohuggg/status/1687630030514597890?s=20

7️⃣

💰CoreWeave: 专业云服务提供商，成功筹集到了 23 亿美元的债务融资，用于扩大公司规模以满足不断增长的 AI 工作负载。资金由 Magnetar Capital 和 Blackstone 领投。

🔗https://twitter.com/xiaohuggg/status/1687504563992244224?s=20

8️⃣

🇯🇵SoftBank: 成功开发日本版「GPT」，计划在明年推出成品产品。软银还将成立全资子公司 SB Intuitions，与微软合作为日本企业提供可信的服务。

🔗https://twitter.com/xiaohuggg/status/1687491461963821056?s=20

8 月 4 日

🤖

🔔小互的推特 8 月 4 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🤖️ PrettyPolly 是一个免费的 AI 机器人，可陪你学习和练习 27 种语言，提供模拟真人对话体验，还可保存对话并评价流利度，推荐程度：☆☆☆☆☆。

🔗https://twitter.com/xiaohuggg/status/1687387647130693632?s=20

2️⃣

🚗 清华大学 MARS 实验室的 NMP Autonomous Driving 项目，通过神经网络预学习地图信息进行智能驾驶辅助，提高自动驾驶的局部地图推理性能。

🔗https://twitter.com/xiaohuggg/status/1687467271458013184?s=20

3️⃣

📊 Aditi Khinvasara 在 LinkedIn 上分享了关于理解数据平台、治理和运营的重要性的帖子，带有很棒的图表。

🔗https://twitter.com/xiaohuggg/status/1687373981664555009?s=20

4️⃣

📝 小互发布了一则调查问卷，想要了解大家的浏览习惯，喜欢阅读文章还是主题帖。

🔗https://twitter.com/xiaohuggg/status/1687326052681748480?s=20

5️⃣

🎓 MIT 的深度学习入门课程，适用于对机器人等领域感兴趣的人。

🔗https://twitter.com/dotey/status/1687284120173297664?s=20

6️⃣

🎨 Alpaca 是一款可以嵌入到 Photoshop 中的 AI 工具套件，可以将草图、缩略图或简单的涂鸦渲染成精美的图像。

🔗https://twitter.com/xiaohuggg/status/1687281609605853184?s=20

7️⃣

🎧 苹果 Siri 新专利：通过 AirPods 运动传感器和语言模型训练“读取”唇语，以提高语音识别的准确度。

🔗https://twitter.com/xiaohuggg/status/1687263373669601280?s=20

8️⃣

🔄 已经获得了 Chat GPT 的 Suggested replies 功能的灰度测试，同时 Chat GPT 将进行一系列更新。但是小互觉得没用

🔗https://twitter.com/xiaohuggg/status/1687256616389976064?s=20

9️⃣

🔐 Azure ChatGPT 支持 GPT-4，提供私有数据保证和 OpenAI 服务操作隔离，为用户提供私密且安全的 ChatGPT 服务。

🔗https://twitter.com/xiaohuggg/status/1687137990840393728?s=20

8 月 3 日

🤖

🔔小互的推特 8 月 3 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🔵 Azure 发布支持 GPT-4 的 ChatGPT，它提供了私有数据保证并与 OpenAI 进行了服务操作隔离。它允许用户将网络流量完全隔离到他们自己的网络，这为企业用户提供了一个私有且安全的 ChatGPT 服务。

🔗 http://dub.sh/agpt

🔗 https://twitter.com/xiaohuggg/status/1687136810928062464?s=20

2️⃣

📚《LangChain：构建与数据对话的聊天机器人》

课程地址：https://t.co/Cwsv7tvKL6

B 站播放列表：https://www.bilibili.com/video/BV1ZP411e76c

3️⃣

🚀 NASA 和 DARPA 宣布将在 2025 年发射世界上第一枚核动力火箭 DRACO，可将宇航员送上火星的时间从 7 个月缩短至 45 天。该火箭是基于核裂变反应提供动力的新型推进系统，将用于演示新技术。

🔗 https://twitter.com/xiaohuggg/status/1687122943325970432?s=20

4️⃣

🖼️ 英伟达发布一种新的文本到图像个性化模型：Perfusion。它只需要一个 100KB 的模型大小，训练大约 4 分钟，就可以创造性地描绘个性化的对象。

🔗 https://twitter.com/xiaohuggg/status/1687116597385990144?s=20

5️⃣

🎥 《The Frost》：这部电影短片的每一帧都是由 AI 生成的，制作团队是 Waymark 公司。他们使用了 OpenAI 的图像生成模型 DALL-E 2 来生成每一帧，然后使用 D-ID 为这些帧添加动画，使眼睛能够眨动，嘴唇能够移动。

🔗 https://twitter.com/xiaohuggg/status/1687062061908709382?s=20

6️⃣

🎮 Inworld AI 是一家专注于游戏和人工智能的初创公司，他们开发了一种名为 Inworld 的 AI 角色引擎，它可以将游戏的 NPC 进行 AI 化，并可以集成到游戏当中。

🔗 https://twitter.com/xiaohuggg/status/1687047341969440768?s=20

7️⃣

🕸️ Wayback Machine 是互联网历史档案馆，保存了 8280 亿个网页。它可以让用户浏览和搜索过去的任何网页版本，即使网站已被删除。

🔗 https://twitter.com/xiaohuggg/status/1687038273540276224?s=20

8️⃣

🔊 Meta AI 发布从文本生成高质量、逼真的音频和音乐的模型 AudioCraft。AudioCraft 由三个模型组成：MusicGen、AudioGen 和 EnCodec。

🔗 https://twitter.com/xiaohuggg/status/1686982046206611456?s=20

8 月 2 日

🤖

🔔小互的推特 8 月 2 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

💻 AI.com 已经跳转到了 http://X.ai，意味着马斯克购买了该域名，据说花了 1000 万美金！此域名原本在奥特曼手里，此前 OpenAI 原本计划通过 http://AI.com 将 ChatGPT 打造成人工智能的代名词！根据 Whois 记录，http://AI.com 原本是由 Google 拥有的。该域名在 1993 年注册，后来被 OpenAI 以多百万美元的价格购买。

🔗https://twitter.com/xiaohuggg/status/1686755987103830016?s=20

2️⃣

🦩 Med-Flamingo：一种多模态的只需少量样本即可训练的医学模型。他的一个重要特性是它可以实时的从少量实例中学习，这在医学领域非常重要，因为医学数据通常是稀缺的。Med-Flamingo 在配对和交错的医学图像-文本数据（数据来自出版物和教科书）上进行预训练。该项目基于的是 Llama-7B 模型！

🔗https://twitter.com/xiaohuggg/status/1686731720521895936?s=20

3️⃣

🌊 怪不得要跳海。你们看看这 AI 效果。

🔗https://twitter.com/xiaohuggg/status/1686721953292492800?s=20

4️⃣

🎨 Recraft AI：是一个生成式 AI 工具，它可以帮助设计师、营销人员和艺术爱好者创建高质量的矢量艺术和插图。你只需要输入文字提示它就可以生成矢量艺术、图标、3D 图像和插图，同时还可以在线编辑。更重要的是这些都只需要在浏览器当中即可完成，不需要任何下载。

🔗https://twitter.com/xiaohuggg/status/1686687267702865920?s=20

5️⃣

🧠 费恩斯坦医学研究所的科学家们利用 AI 成功地为一名四肢瘫痪患者重新建立了大脑、身体和脊髓之间的连接。他们在患者的大脑内安装了一个植入物。这个植入物包含五个微芯片，并使用一个 AI 程序将患者的思想转化为行动。大脑植入物让患者能够感觉到触感，并移动他的一些身体部位。

🔗https://twitter.com/xiaohuggg/status/1686655443429728256?s=20

6️⃣

🧠 清华大学的研究人员提出了一种非侵入性的接口，可以通过一种放入内耳的微型设备将人脑与电脑连接起来。这个接口被称为 "SpiralE"，是一种螺旋形状的设备，可以在不需要任何附件的情况下，且不影响装备者的听觉，轻松地滑入和取出。

🔗https://twitter.com/xiaohuggg/status/1686584859333107712?s=20

7️⃣

🤖 Meta AI 的 CM3leon 的新型多模态生成模型，它可以同时进行文本到图像和图像到文本的生成。Meta 称尽管其训练计算量比以前基于 Transformer 的方法少五倍，但它仍实现了文本到图像生成的最先进性能。CM3leon 在各种视觉语言任务中表现良好，包括视觉问题回答和为图像生成详细的描述中。

🔗https://twitter.com/xiaohuggg/status/1686576625436303360?s=20

8️⃣

🍎 苹果公司的 #AppleVisionPro 头显获得了一项技术专利，可模拟生成花香等多种气味。该专利名称为："非可见现象的可视化"，这项专利旨在弥补增强现实、虚拟现实和物理环境之间的差异，通过计算机生成来增强内容，让佩戴者感知无线电等不可见特征。

🔗https://twitter.com/xiaohuggg/status/1686565613282680832?s=20

9️⃣

💇‍♂️ CT2Hair：全自动的 3D 头发建模框架。它使用真实的假发作为输入，然后能够为各种头发样式重建头发丝。CT2Hair 使用计算机断层扫描（CT）技术来创建头发区域的密度体积。这种技术使得我们能够看穿头发，而不像基于图像的方法那样只能重建可见的表面。它可以更准确地捕捉到头发的内部结构。

🔗https://twitter.com/xiaohuggg/status/1686561092808605696?s=20

1️⃣0️⃣

👩‍⚕️ 可穿戴超声波扫描仪：帮助女性更早发现乳腺癌。麻省理工大学的研究人员设计了一种可穿戴的超声波设该人工智能程序可以预测 COVID-19 病人可能需要机械通气的时间

MIT 的研究人员开发了一个人工智能程序，它可以根据病人的医疗记录和生物标志物的变化预测病人可能需要机械通气的时间。这个程序可以帮助医生更好地管理呼吸机资源，并在需要的时候立即采取行动。

https://twitter.com/xiaohuggg/status/1686392140723830784?s=20

8 月 1 日

🤖

🔔小互的推特 8 月 1 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🎬MovieChat：一个理解长视频的系统，能理解视频内容并回答关于视频的问题，MovieChat 整合了视觉模型和大型语言模型，以克服特定预定义视觉任务的限制。该模型将记忆分为短期记忆和长期记忆两种类型。短期记忆负责最新事件的记忆，长期记忆存储的是视频中的关键信息，这些信息在长时间内保持不变。

🔗http://rese1f.github.io/MovieChat

📜http://arxiv.org/abs/2307.16449

🔗https://twitter.com/xiaohuggg/status/1686333119882985473?s=20

2️⃣

🔌超导能给人类生活带来什么样的改变？看看推油@justin_hart 用 AI 做的视频展示。视频演示了 LK-99 的应用场景和对未来的展望。

🔗https://twitter.com/xiaohuggg/status/1686321953114914816?s=20

3️⃣

💡劳伦斯伯克利国家实验室（LBNL）的模拟计算结果支持 LK-99 作为室温常压超导体。通过模拟和计算研究发现，当铜原子在晶体中的特定位置上时，这种材料可能会显示出超导性。然而，这些结果是基于理论模型和计算的，而不是实验测量。这为进一步的实验研究提供了理论基础！

🔗http://t.cn/A60NRqy7

🔗https://twitter.com/xiaohuggg/status/1686255122488471552?s=20

4️⃣

🔖OpenAI 7 月 18 日向美国专利商标局（USPTO）提交了“GPT-5”的商标申请！根据美国专利商标局展示的信息，GPT-5 提供的功能包括自然语言处理、文本生成、理解、语音转录、翻译、预测和分析等。

🔗https://twitter.com/xiaohuggg/status/1686234435140919296?s=20

5️⃣

🚨日本两艺术系女生欲跳崖称“她们的人生被 AI 毁掉了”。日本福井新聞报道了两起与人工智能（AI）相关的自杀企图事件。这两起事件都发生在日本福井县坂井市的東尋坊，这是一个知名的观光地，也是一个悬崖峭壁。

🔗https://twitter.com/xiaohuggg/status/1686219838015082498?s=20

6️⃣

🔬北京航空航天大学材料科学与工程学院和印度 CSIR-国家物理实验室分别发表了论文表示，韩国的 LK-99 室温超导并没有复现，结果并未确认在室温下存在大量的超导性。两家都表示：需要进一步的研究来确定 LK-99 是否存在室温超导性。

🔗https://twitter.com/xiaohuggg/status/1686202408354062337?s=20

7️⃣

📸麻省理工学院（MIT）的研究团队开发了一种名为 PhotoGuard 图像保护面具的新技术，可以防止 AI 系统未经授权地操纵图像。MIT 的科学家们创建了一种实质上是保护性的面具，能够防止这些模型操纵图像。这些面具对人眼是不可见的，当与生成性 AI 图像模型交互时，会使输出看起来扭曲。

🔗https://twitter.com/xiaohuggg/status/1686191519576084480?s=20

8️⃣

⛅欧洲中期天气预报中心（ECMWF）已经开始探索使用机器学习模型来改进其地球天气系统模型。他们已经上线了一个人工智能天气预测系统，使用的是华为的 Pangu-Weather 天气大模型。

🔗https://twitter.com/xiaohuggg/status/1686196923852865536?s=20

9️⃣

🎨http://Pixellab.ai 这个 AI 生成像素画的看着不错，让草图、线稿都可以轻松变成像素插画。很多功能都是为像素游戏量身定制的。

🔗https://twitter.com/dotey/status/1685992295814877184?s=20

7 月 31 日

🤖

🔔小互的推特 7 月 31 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

💡由于 #Claude 只能在美国和英国访问，X 友搭建了一个 #Claude2 镜像站：http://claudeai.ai，这个镜像站可以在所有地方使用，不限 IP，目前完全免费。

🔗https://twitter.com/xiaohuggg/status/1686013848740823041?s=20

2️⃣

🔍FacTool：生成式 AI 事实检测工具。它主要用于检测大型语言模型（如 GPT-4）生成的文本回答的事实准确性。FacTool 可以对四种任务进行事实错误检测：基于知识的问题回答、代码生成、数学问题解决、科学文献审查。它会使用各种工具收集关于生成内容的事实性证据，以检验回答的准确性。

🔗https://twitter.com/xiaohuggg/status/1685999388559372299?s=20

3️⃣

📹http://Metaphysic.ai 展示了一种新技术，使用生成 AI 模拟人类语音和唇部动作，创建非常真实的语音和视频内容。该技术可以将语音内容翻译成多种语言格式，并保持唇形一致，这个过程是自动的，不需要人工参与。他们将一段英语歌曲转化为法语、西班牙语、中文等语言的视频引起了大家的关注。

🔗https://twitter.com/xiaohuggg/status/1685988718161842177?s=20

4️⃣

🛠️尽管 GPT 的热度有所下降，但它仍对个人用户的编程工作提供了巨大的帮助。只需与 GPT 进行几轮对话，就可以快速地开发出一些自用的小工具，如自动下载 YouTube 字幕，用 Claude 非官方 API 进行总结概括等。教程和源代码可以在下面的链接中找到。GPT4写Python脚本分享

🔗https://twitter.com/vista8/status/1685681348080771072?s=20

5️⃣

🎶http://Banger.show 是一个帮助音乐创作者为他们的歌曲创建可视化的视觉效果的工具，以吸引观众。这些视频会随着音乐的节奏和旋律变化，为观众提供一种视觉体验。例如，如果你是一位音乐制作人，你可以使用这个工具为你的未发布歌曲制作一段视觉效果酷炫的视频，这有助于你在社交媒体上获得更多的关注。

🔗https://twitter.com/xiaohuggg/status/1685896199138922496?s=20

6️⃣

🖥️Gorilla：一种能连接海量 API 的大型语言模型，也是一个面向 LLMs 的 API 应用商店，它被训练来理解和生成 API 调用。Gorilla 的主要目标是为大型语言模型（LLMs）提供一个 API 商店，它能够准确地调用超过 1600 个（并且数量还在增加）的 API。

项目：https://gorilla.cs.berkeley.edu

论文：https://arxiv.org/abs/2305.15334

🔗https://twitter.com/xiaohuggg/status/1685889647912902656?s=20

7️⃣

🤔LiarLiar AI：一款人工智能测谎仪，可以在视频通话或视频中分析一个人是否在撒谎。它通过分析微动作、心率和身体语言中的微妙线索来检测欺骗行为。LiarLiar 可以与 Zoom、Google Meet、Skype 等流行的视频通话软件兼容，可用于任何视频源，包括 YouTube 或您自己的本地视频，随时分析任何对话。

🔗https://twitter.com/xiaohuggg/status/1685854457064751104?s=20

8️⃣

🏥Google Deepmind 发布了 Med-PaLM M，一种全能型生物医学 AI 系统，能够解读并整合医学领域的多种数据模态。Med-PaLM M 是一种大型多模态生成模型，可以灵活地

编码和解释涵盖临床语言、医学成像、基因组学等领域的生物医学数据，从而更好地完成各种任务。

🔗https://twitter.com/xiaohuggg/status/1685844930311368704?s=20

7 月 30 日

🤖

🔔小互的推特 7 月 30 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

📚《Transformer 神经网络架构全面指南》深入解析了 2017 年著名的“attention is all you need”论文，包括 Transformer 神经网络架构、应用、影响、挑战以及未来发展方向。本文还详细剖析了 Transformer 模型的核心，包括编码器、解码器、注意力机制、多头注意力、MLPs、嵌入和位置编码层等各个关键组件。

🔗https://twitter.com/xiaohuggg/status/1685639115122135040?s=20

2️⃣

🎓Skill-It 是一种新的理解和训练大型语言模型的方法。这个思想是基于人类在学习新技能时的特定顺序，认为语言模型在学习不同任务时也可能有一种自然的顺序。论文通过合成数据和真实数据证明了这种有序技能集的存在，并提出了一种新的框架来更好地理解语言模型并进行数据高效训练。

🔗https://twitter.com/xiaohuggg/status/1685578104725753856?s=20

3️⃣

💻英伟达 H100 GPU 现已对亚马逊 AWS 云服务用户开放，该服务允许用户通过浏览器轻松扩展生成式 AI、高性能计算（HPC）和其他应用。H100 GPU 具有对 Transformer 的优化，提供超级计算级性能，包括第四代 Tensor Cores、新 Transformer 引擎和最新的 NVLink 技术。

🔗https://twitter.com/xiaohuggg/status/1685522197753040896?s=20

4️⃣

🛠️倪爽老师分享的将长文件自动拆分成多个小块让 GPT 自动执行任务的插件测试结果十分满意。该插件不仅支持全面的文件类型，包括压缩文件，还允许分别自定义各部分 Prompt，还可以设置一个总的 Prompt，处理完毕后进行自动整合整理。

🔗https://twitter.com/xiaohuggg/status/1685493135881994240?s=20

5️⃣

🔬http://Smart-Biology.com 是一款专注于生物学教育的在线平台，提供了基于高度可视化的互动教学方式来理解生物学。网站提供了各种科学精确的 3D 互动生物学课程，包括高质量精确的动画、3D 互动结构、图表等，学生可以看到、听到原子、基因、细胞、进化等并与之互动。

🔗https://twitter.com/xiaohuggg/status/1685483880105771008?s=20

7 月 29 日

🤖

🔔小互的推特 7 月 29 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

📹 【牛逼，必看】Runway Gen 2 的图转视频功能再升级升级绝对是到了 AI 视频的拐点。最近看了很多利用 Gen 2 制作的短片都很惊艳，虽然这些短片在现阶段来看还是有一点粗糙，我想用不了多久 AI 短视频将会出现质的飞跃。做了个合集！希望能大家带来一些灵感和启发

🔗https://twitter.com/xiaohuggg/status/1685294518038614016?s=20

2️⃣

🍎 Ml-Stable-Diffusion 更新，现在你可以在 Mac 上运行 SDXL 了！更新内容：

Apple 的转换和推理包现在支持 SDXL，2。演示应用程序现在支持 SDXL，3.Core ML 的新混合位量化，使模型变得更小、更快。4.提供了可以直接使用的 Core ML 模型。

🔗https://twitter.com/xiaohuggg/status/1685260011407372288?s=20

3️⃣

🏢 X 总部大楼 logo 更换完毕，还带闪烁，哈哈哈

🔗https://twitter.com/xiaohuggg/status/1685239710040616961?s=20

4️⃣

🔇 AlterEgo：无需张嘴发声，即可和电子设备或者他人进行无声交流。AlterEgo 是一个非侵入性的可穿戴设备，只需要贴在下巴部位即可。它的工作原理是通过检测用户在内心中表达词语时的肌肉信号来重建声音，从而允许用户与计算设备、AI 助手、应用程序或其他人进行无声、隐蔽且无缝的交流。

🔗https://twitter.com/xiaohuggg/status/1685213611395010560?s=20

5️⃣

🤖 Googl DeepMind 发布了一种新的机器人控制模型 Robotic Transformer 2（RT-2）能够处理和理解视觉输入，如从摄像头捕获的图像，理解人类的命令或者生成描述其行为的语句。然后生成能够控制机器人的动作。同时它能从网络和机器人数据中学习，并将这些知识转化为通用指令

🔗https://twitter.com/xiaohuggg/status/1685126183376289792?s=20

6️⃣

📁 微软 7 月 27 日突然宣布，将与其生成 AI 业务相关的所有数据中心运营全部迁至日本国内。

将与企业相关的生成 AI 数据中心运营全部迁至日本
扩充东日本的数据中心，并在国内提供生成 AI 功能
将数据的流通和管理限定在国内，加强信息管理

🔗https://twitter.com/xiaohuggg/status/1685180167520710657?s=20

7️⃣

📺 分享一个有意思的网站 http://My90sTV.com 模拟 90 年代的电视体验，让你可以回顾那个时代的原始广告、音乐视频、电影预告、电视节目等内容。网站的设计让你感觉就像是在操作一台老式电视，网站上有多个频道供你选择，同时还有其他年代的电视机供你选择！

🔗https://twitter.com/xiaohuggg/status/1685159805173022720?s=20

8️⃣

🦙 Meta AI 在一篇新论文中公布了有关 Llama 2 的架构、训练计算、微调方法等更多细节。

🔗https://twitter.com/dotey/status/1684962106653777921?s=20

9️⃣

🎭 这个挺好玩的，好像是用 Unity Face Capture 制作的，进行真人面部捕捉然后生成了卡通造型。

🔗https://twitter.com/xiaohuggg/status/1685130623294541824?s=20

7 月 28 日

🤖

🔔小互的推特 7 月 28 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣ 🐦 Restore Birdie：一款能让小蓝鸟复活的插件😄。对马斯克的𝕏不满？使用此插件，让小蓝鸟重返视线！包括：Twitter 主标志 / 网站 icon 图标 / 加载屏幕上的徽标

https://twitter.com/xiaohuggg/status/1684892936805425153?s=20

2️⃣ 📹 WhatsApp Video Messages：你现在可以发送最长 60 秒的视频消息给你的朋友，收件人看的时候，默认静音播放🔇。WhatsApp 说，视频消息已经支持端对端加密🔒。不过，有人指责它抄袭 telegram🤔

https://twitter.com/xiaohuggg/status/1684889755732078592?s=20

3️⃣ 👾 新型越狱方式：一种针对 LLM 的新型越狱方式出现，它可以自动构建对 LLM 的攻击，选择一些字符序列附加到用户查询，即使会产生有害内容，也会让系统顺从用户命令🎯。据说这个攻击方式对 ChatGPT 是有效的

https://twitter.com/dotey/status/1684820067010158592?s=20

4️⃣ 🎥 突破 Gen 2 的 4 秒限制：有人开发了一款工具，可以无限生成视频🔄！就是利用 Gen 2 生成视频的最后一帧作为新的起点，然后继续投喂给 Gen2，如此往复，将原本只有 4 秒的 AI 视频延长到任意长度⏱️

https://twitter.com/xiaohuggg/status/1684788562909417472?s=20

5️⃣ 🕶️ @TranscribeGlass：斯坦福大学的一个学生开发了一款能为听障人士实时转录语音的眼镜🔍，将对话人的语音转为文字，在眼镜上以实时字幕的形式显示！

https://twitter.com/xiaohuggg/status/1684773444691648512?s=20

6️⃣ 🧪 人工智能加速催化剂发现：Meta AI 公布了 Open Catalyst Project 的演示，旨在利用机器学习加速寻找催化剂的项目🔬。Open Catalyst 支持 11,427 种催化剂材料和 86 种吸附剂，模拟过程只需几分钟！

https://twitter.com/xiaohuggg/status/1684760749472960512?s=20

7️⃣ 📷 csm.ai 的图片生成 3D 图像：csm.ai 的图片生成 3D 图像似乎又升级了，效果惊人👏

https://twitter.com/xiaohuggg/status/1684738098482278400?s=20

8️⃣ 🎞️ Photoshop 中的生成扩展功能：Photoshop 的生成扩展功能现在也支持视频画面扩展！

https://twitter.com/xiaohuggg/status/1684736286366810112?s=20

9️⃣ 🎤 ElevenLabs 更新了默认语音库：ElevenLabs 扩展了语音服务的范围，包括多种口音和大量的使用场景，从卡通、视频游戏、有声读物甚至 ASMR 都有！

https://twitter.com/xiaohuggg/status/1684594071187386368?s=20

🔟 🧑‍🎨 Live 3D Portrait：一种实时的 3D 人像视图合成系统，能从单张图片中推断并渲染出逼真的 3D 人像🖼️。使用了图像编码器技术，通过体积渲染技术来生成 3D 视图，可以在普通的电脑上以 24 帧/秒的速度运行🚀。

https://twitter.com/xiaohuggg/status/1684574976303857665?s=20

7 月 27 日

🤖

🔔小互的推特 7 月 27 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

👥 Live 3D Portrait：这是一个实时的 3D 人像视图合成系统，能从单张图片中推断并渲染出逼真的 3D 人像。它使用图像编码器技术预测神经辐射场的三平面表示，通过体积渲染技术来生成 3D 视图，可以在普通电脑上以 24 帧/秒的速度运行。 🔗https://twitter.com/xiaohuggg/status/1684574976303857665?s=20

2️⃣

🐦 马斯克的 Twitter 更新：马斯克宣布，Twitter 将只有暗黑模式，不再提供其他选择。 🔗https://twitter.com/xiaohuggg/status/1684535718423699457?s=20

3️⃣

🚀 亚马逊云推出 Amazon Bedrock AI 代理功能：该功能可以协调基础模型、数据源、软件应用程序和用户之间的交互，并自动执行 API。开发人员可以轻松地集成这些代理，加速生成性 AI 应用程序的交付，节省数周的开发工作。 🔗https://twitter.com/xiaohuggg/status/1684490042990034947?s=20

4️⃣

📖 得到听书入眠体验：作者分享了他听的一本书《认知操纵》中提到的观点，觉得这正是 GPT3.5 和 4.0 的功能。 🔗https://twitter.com/xiaohuggg/status/1684442418723315712?s=20

5️⃣

🌐 Overture 地图基金会发布全球开放地图数据集：这个数据集由亚马逊、微软和 TomTom 等公司共同创立，包含全球近 6000 万个地点的数据。目标是通过合作创建一个全面且最新的开放地图数据集。 🔗https://twitter.com/xiaohuggg/status/1684431395987529728?s=20

6️⃣

🛠️ 分享一个下载视频字幕的工具：这个工具名为 yt-dlp，可以简单方便地下载各大网站（包括爱奇艺/腾讯/Bilibili/Youtube 等）的视频字幕。 🔗https://twitter.com/Barret_China/status/1684228477644570624?s=20

7️⃣

🎧 WavJourney：这是一个根据文本指令生成音频内容的 LLMs 系统，只需要给定指定场景的文本描述，就能生成音频讲故事的结构化脚本，并进行自动配音，生成一套完整的音频播客内容。 🔗https://twitter.com/xiaohuggg/status/1684393837249327104?s=20

8️⃣

🚀 Stability AI 发布 Stable Diffusion XL 1.0：该版本升级了参数数量和精炼器，是所有开放访问图像模型中参数数量最大的之一。 🔗https://twitter.com/xiaohuggg/status/1684385716086915072?s=20

9️⃣

🤖 专门开发了一个脏话杠精版的 GPT：有兴趣的人可以尝试体验被骂的滋味。 🔗https://twitter.com/xiaohuggg/status/1684372116186230785?s=20

🔟

🔬 当人类卵子被精子酶激活时，就会发生锌烟花爆炸：这些“火花”的大小是其发育成胚胎的能力的直接衡量标准，生命始于一道闪光，类似宇宙大爆炸。 🔗https://twitter.com/xiaohuggg/status/1684237768682262529?s=20

7 月 26 日

📚

🔔小互的推特 7 月 26 日更新 ✨✨✨✨✨✨✨✨✨

1⃣️

🐦马斯克正在抹去所有关于小蓝鸟的东西

🔗https://twitter.com/xiaohuggg/status/1684188945909940224

2⃣️

🤝OpenAI，Anthropic，Google 和 Microsoft 联合成立：“Frontier Model Forum”行业组织，专注于确保前沿 AI 模型的安全和负责任的开发。主要目标：推进 AI 安全研究，促进前沿模型开发并最小化潜在风险，识别前沿模型的安全最佳实践，分享知识，以推进负责任的 AI 开发，支持利用 AI 解决社会最大挑战的努力

🔗https://twitter.com/xiaohuggg/status/1684158150558224385?s=46

3⃣️

🎬Runway Gen-2 Image-to-Video ，案例大合集

🔗https://twitter.com/xiaohuggg/status/1684143977531052032?s=46

4⃣️

🎞️Text 2 Cinemagraph：使用文本描述创建动态电影艺术图像，使用了从单个文本提示中合成图像双胞胎的想法。这个方法会生成两个图像：一个艺术图像（静态），另一个现实图像（动态），然后分析现实图像预测其运动状态。最后这个预测的运动会被应用到艺术图像上，使整个图像动起来，从而创建一个电影图。

🔗https://twitter.com/xiaohuggg/status/1684079651646484480?s=46

5⃣️

🚀Kaiber.ai 宣布推出 Motion 功能，一种能将图片生成动画的功能，根据预览 Demo 视频来看效果还不错，现在可以申请内测排队：bit.ly/3Qb9Tvu

🔗https://twitter.com/xiaohuggg/status/1684073144116707329?s=46

6⃣️

🤖Human-Timescale Adaptive Agent：一种人工智能代理，可以像人类一样快速地适应解决 3D 空间问题。例如，3D 空间中，给定的任务是打开门，移动物体。然后，你改变其中的一些动态因素，比如物体的位置，门的开关状态等。这时代理需要利用已经获取的知识，快速适应这个新的环境，找到新的解决方案。

🔗https://twitter.com/xiaohuggg/status/1684024995192913920?s=46

7⃣️

💭深夜感慨：你说人家马斯克为了实现自己的理想，说干就干，说要学习微信，400 亿收购 Twitter，历史遗留问题多，船大不好调头，但人家大刀阔斧的大修大改，毫无顾忌！而反观扎克伯格，说是要干翻 Twitter，毫无包袱，没有压力，对手还送分之下，推出个产品畏畏缩缩，毫无新意，抄都抄不好！小家子气！

🔗https://twitter.com/xiaohuggg/status/1683879221083672576?s=46

8⃣️

📱ChatGPT 安卓客户端现已在美国、印度、孟加拉国和巴西提供下载！

🔗https://twitter.com/xiaohuggg/status/1683866436786343936?s=46

👍

🔔今日附送：

Remove Video Background：视频图像背景消除工具合集

🔗https://twitter.com/xiaohuggg/status/1684172617547403265?s=46

1、Unscreen.com

通过分析视频中的每一帧，识别出前景（即你想保留的部分）和背景（即你想移除的部分），然后自动将背景移除。这个过程完全自动化，无需用户手动选择或标记要移除的背景。

2、Remove.bg

它能自动识别出图片的前景（即你想保留的部分）和背景（即你想移除的部分），然后自动将背景移除。

3、https://www.cutout.pro/remove-video-background

无需绿屏，从真实场景视频中删除背景并替换为虚拟背景。无需单击像素、拾取颜色、绘制蒙版和移动路径。全自动，一键去除视频背景

4、app.avclabs.com

移除视频背景，特别是人像视频，无需绿幕，然后更换新的背景。

5、vidbgrem.media.io ：可以识别、检测并从视频背景中隔离人物，然后移除背景。这个过程是 100%自动的，无需选择视频中的对象、选择颜色或绘制蒙版。

6、https://www.veed.io/tools/video-background-remover

可以识别、检测并从视频中隔离背景，然后移除它。支持 MP4 或 MOV 格式的视频上传，并可以下载清晰的音频。

7、https://www.kapwing.com/tools/remove-background

借助 Kapwing 的智能背景去除工具，您可以将人物与视频或图像的背景隔离，无需绿屏。只需点击几下即可。打开 Kapwing 并上传您自己的媒体。选择图层后，单击“效果”选项卡并选择“删除背景”选项。我们的 AI 将自动删除背景！

7 月 25 日

🤖

🔔小互的推特 7 月 25 日更新 ✨✨✨✨✨✨✨✨✨

1⃣️

🔬 NVIDIA 在其#SIGGRAPH2023 展会上宣布了一系列新的技术和研究成果，这包括其在图形学研究、通用场景描述（OpenUSD）和 AI 领域的新突破。此外，NVIDIA 还展示了其最新的生成 AI 研究，包括神经渲染、3D 生成和卓越的语言能力。在会议上，NVIDIA 的研究人员还将展示其二十篇的研究论文。

🔗 "https://twitter.com/xiaohuggg/status/1683855134235979776?s=20"

2⃣️

🎥 有一个新的 AI 故事短片发布，它使用了 midjourney 生成图像，然后用@runwayml Gen 2 将这些图像转换为视频，最后由@elevenlabsio @SoundfulMusic 添加配音和配乐。影片效果令人满意。

🔗 "https://twitter.com/xiaohuggg/status/1683811470314983424?s=20"

3⃣️

🔍 3D-LLM 是一个大型的语言模型，能理解和处理 3D 数据。该模型使用 3D 点云数据作为输入，这是一种用于表示三维对象或环境的数据类型，其中每个点在三维空间中都有一个位置。3D-LLM 能够执行一系列与 3D 相关的任务，包括对 3D 空间的任何事物进行问题回答，任务分解，3D 定位，3D 辅助对话，导航等。

🔗 "https://twitter.com/xiaohuggg/status/1683789219536437249?s=20"

4⃣️

🕶 苹果公司已经开放了其 Apple Vision Pro 眼镜的开发者套件申请，开发者可以在苹果的官方网站上申请。苹果将优先考虑那些打算利用 VisionOS 特性和功能的应用程序的开发者。

🔗 "https://twitter.com/xiaohuggg/status/1683675458091761666?s=20"

5⃣️

🎼 Leap ai 现已推出了一个文字生成音乐的功能。用户只需输入文字提示，就可以生成 30 秒以内的音乐。该工具提供了各种风格的音乐，适合用于电影、游戏、播客、冥想等。

🔗 "https://twitter.com/xiaohuggg/status/1683671275481464832?s=20"

6⃣️

🎉 在 Twitter 上，一个用户（小互）在玩了三个多月后，粉丝数已经达到了 1 万。他感谢了乔爷以及其他帮助他的人，他现在准备申请 Twitter 的蓝 V 认证。

🔗 "https://twitter.com/xiaohuggg/status/1683648787871580160?s=20"

7⃣️

🌐 微软、英伟达、AMD、英特尔、思科、博通、Meta、HPE 等科技巨头在 Linux 基金会的牵头下联合成立了超以太网联盟（UEC）。他们计划开发一种新的传输协议-超以太网传输协议（UEC），以解决传统以太网性能不足的问题，这已经影响到了人工智能和高性能计算（HPC）的发展。

🔗 "https://twitter.com/xiaohuggg/status/1683635413905461249?s=20"

7 月 24 日

💡

🔔小互的推特 7 月 24 日更新 ✨✨✨✨✨✨✨✨✨

1⃣️ 📚 "Anomaly Z" 是一个由 M.J。 Romanowski 创作的连载科幻故事，讲述了一名名叫 Zane 的角色，她使用 Chronosuit（一种时间旅行装置）从未来偷取了一些重要的设备的故事。他们使用 Midjourney 生成了故事的插图。然后使用了 Gen 2 将这些插图生成视频，最后制作成了一个故事预告片。 🔗 "https://twitter.com/xiaohuggg/status/1683464007674650626?s=20"

2⃣️ 🎨 FABRIC：将人类反馈融入到图像生成过程中。当我们使用 StableDiffusion 生成图像时，这个过程通常是自动进行的，模型并不知道生成的图像是否符合人类期望。FABRIC 改变了这一点。它允许人类在每一步迭代中提供反馈，告诉模型哪些部分做得好，哪些需要改进。模型会根据这些反馈来调整下一步的生成过程。 🔗 "https://twitter.com/xiaohuggg/status/1683450394410913793?s=20"

3⃣️ 💰 OpenAI CEO Sam Altman 宣布其 Worldcoin （世界币）启动。Worldcoin 是一个包含数字货币（WLD）和数字身份（World ID）的区块链项目。Worldcoin 的目标是建立全球最大的身份和金融公共设施，让每个人都能拥有所有权。同时币安宣布世界币（WLD）将在币安上线！ 🔗 "https://twitter.com/xiaohuggg/status/1683399775629217792?s=20"

4⃣️ 🔒 白宫要求 AI 公司推水印系统防范 AI 风险。OpenAI、微软、谷歌、Meta、亚马逊、Anthropic 和 Inflection 等七家科技巨头公司宣布，将会开发出一种水印技术，添加在所有由 AI 生成的内容上。美国政府表示，这项技术将有助于在未来更安全地分享 AI 生成的文本、图像、音频，以及视频，不会在真实性上误导公众！ 🔗 "https://twitter.com/xiaohuggg/status/1683394928691515393?s=20"

5⃣️ 🔠 @Twitter 官方账号已经更名为：𝕏。应该是等域名完全过度到 http://x.com，就会更换 logo，域名还在迁移中。 🔗 "https://twitter.com/xiaohuggg/status/1683367182020018176?s=20"

6⃣️ 🎬 ShortGPT：一个强大的自动化视频制作工具，自动采集素材、编辑视频、配音、生成字幕，一气呵成，它会根据你的脚本自动从网上采集素材。还会自动合成语音，将脚本转化为口头表达。最后会将这些素材和语音合成一个完整视频。同时你输入任意 Youtube 链接或上传 mp4 文件，它不仅会翻译内容还会自动配音！ 🔗 "https://twitter.com/xiaohuggg/status/1683362214764494848?s=20"

7⃣️ 🎮 STEVE-1：文本到行为的生成模型。STEVE-1 是一个为 Minecraft 设计的生成模型，可以通过文本或视觉指令来控制游戏。例如，你可以给出文本指令，如"建造一个房子"，或者提供一个视觉指令，如一个房子的图片，STEVE-1 就会在游戏中执行这些指令。这种模型的设计使得它能够理解和执行一系列复杂的任务。 🔗 "https://twitter.com/xiaohuggg/status/1683345755086655488?s=20"

8⃣️ 💻 Llama2-webui：允许用户在任何地方（Linux/Windows/Mac）通过 gradio web UI 在 GPU 或 CPU 上运行 Llama 2。它支持 Llama-2-7B/13B/70B，并且可以使用 8-bit 或 4-bit 模式。它支持至少有 6 GB VRAM 的 GPU 推理，以及至少有 6 GB RAM 的 CPU 推理。 🔗 "https://twitter.com/xiaohuggg/status/1683335728825257985?s=20"

9⃣️ 💇♀️ 多色发色 LoRA ：可以生成多种颜色发色的 LoRA，这是一个在 LECO 上创建并进行调整的，可以生成多种颜色发色的 LoRA。使用 "hair" 作为触发词，如果只指定长度，生成的发色会非常丰富多彩。也可以指定主色，服装的颜色污染也会减少，它还有个功能就是能调整胸部大小，胸部增減滑块 LoRA。 🔗 项目地址：https://huggingface.co/sazyou-roukaku/sazyou_LoRA 🔗 "https://twitter.com/xiaohuggg/status/1683306036193824768?s=20"

1⃣️0⃣️ 🎨 芭比海默，使用了一些 AI 生成技术制作的。 🔗 "https://twitter.com/xiaohuggg/status/1683139724398202882?s=20"

7 月 23 日

📌

🔔小互的推特 7 月 23 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🧠 DishBrain：内置人脑组织的计算机芯片。澳大利亚莫纳什大学的科学家创造了一种名为 DishBrain 的半生物计算机芯片，该芯片电极中培养大约 80 万个人类和老鼠的大脑细胞。这种芯片展示出了类似于意识的特性，它在五分钟内学会了玩乒乓球游戏。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1683127193956917249?s=20"

2️⃣

💬 博主 @lauriewired 声称他发现了一种新的 ChatGPT"越狱"技术，可以绕过 OpenAI 的审查过滤系统，让 ChatGPT 干坏事，如生成勒索软件、键盘记录器等恶意软件。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1683109435001155584?s=20"

3️⃣

📚 如何将截图数据和 PDF 导入 Excel，学习了。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1683098686484803585?s=20"

4️⃣

🖼️ 使用 Midjourney 生成图像，然后用 Gen-2 生成视频。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1683089806178529280?s=20"

5️⃣

💊 Powerful Medical 是一家医疗科技公司，他们的目标是通过 AI 和机器学习技术，准确诊断和治疗心血管疾病。他们的产品包括：PMcardio：5 秒内准确解读任何心电图，并准确诊断和治疗 38 种心血管疾病。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1682964746688147456?s=20"

6️⃣

🌊 Gen 2 图片到视频功能，把静态大海照片变成波涛汹涌的大海视频。没有使用任何文字提示。只是上传照片。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1682933810055512064?s=20"

7 月 22 日

📌

🔔小互的推特 7 月 22 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🎵 Brain2Music：读取人类大脑活动并据此生成音乐。该项目由谷歌、大阪大学、NICT 和 Araya Inc 的研究团队开发。它可以从脑反应中读取被试听音乐的「类型」、「乐器编排」和「情绪」等特征，并生成基于这些特征的音乐。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1682759201876221955?s=20"

2️⃣

🎨 AnyDoor：可以将任何对象巧妙的放入到新的图像、视频场景中。它是一种基于扩散的图像生成器，可以将目标对象（例如，人、动物、物品等）在用户指定的位置以和谐的方式传送到新的场景中。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1682721078718906368?s=20"

3️⃣

🎞️ GEN 2 的的图片生成视频效果有点意思，不需要文字提示，只需要上传一张照即可，从图片的起始帧开始生成视频。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1682667423529598977?s=20"

4️⃣

🤫 宝玉 xp：同学们，发现一个秘密：Chinese-Llama-2-7b 这个微调版本是可以写小黄文的！

🔗 Twitter "https://twitter.com/xiaohuggg/status/1682645652461993984?s=20"

5️⃣

🕷️ WormGPT：反派 ChatGPT，它基于旧的 GPT-3 架构开发，但没有任何限制，例如在部署模型并根据大量黑客相关数据进行训练时不应用任何安全措施和过滤器。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1682625842214760448?s=20"

6️⃣

💡 EduBlocks：一款免费可视化编程工具，通过拖动模块即可实现编程，同时它也可以生成 Python 等编码。EduBlocks 像 Scratch 一样，是一个基于块的编程工具，让初学者可以通过拖放代码块的方式来编程，而不需要书写代码。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1682606200343642113?s=20"

7️⃣

📱 新版本的 EduBlocks 优化了移动版本的首页、项目页面和编辑器，使用户在移动设备上也能获得无缝的体验。

🔗 Twitter "https://twitter.com/xiaohuggg/status/1682606209764048897?s=20"

7 月 21 日

📌

🔔小互的推特 7 月 21 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣ 🐶 CSIRORobotics 宣布他们的机器人狗 Bluey 已经学会了自己的名字，并且可以根据语音提示进行相应的动作！Bluey 能够学习并识别自己的名字，这表明它具有一定的理解和响应能力，似乎是接入了 ChatGPT

https://twitter.com/xiaohuggg/status/1682060896728932353?s=20

2️⃣ 🗂️ Memo - AI 驱动的视频、播客转文字、字幕工具，推荐个字幕识别和翻译的工具 Memo。支持多平台，利用 Whisper 技术识别语音到到字幕，然后可以对识别的字幕进行简单的编辑。另外可以对识别的字幕翻译，支持 Google 翻译和 OpenAI。 🔗"https://twitter.com/dotey/status/1682413331146047489?s=20"

3️⃣ 🤝 OpenAI 和其他领先的 AI 实验室发布自愿承诺书：以加强 AI 技术和服务的安全性和可信度。承诺包括对他们的模型或系统进行内部和外部的红队测试，以评估可能的滥用、社会风险和国家安全问题。该公司还承诺投资于网络安全和内部威胁防护措施，以保护专有的和未发布的模型权重。 🔗"https://twitter.com/xiaohuggg/status/1682410029750837248?s=20"

4️⃣ 🖼️ 这个商品详情展示页面，咋样？有意思。查看网址"https://www.magdabutrym.com/eu/product/pf23-dress-16-black" 🔗"https://twitter.com/xiaohuggg/status/1682396358169485312?s=20"

5️⃣ 🎧 苹果 AirPods 新专利：可监测佩戴者脑电波等生物信号。这项专利使 AirPods 可以监测佩戴者脑电波、肌电图、眼电图等生物信号。为了更加准确地监测 EEG 大脑活动，需要针对佩戴者的耳形进行定制。苹果还可以监测其他生物信号，如心电图、皮肤电反应、血容量脉搏等。 🔗"https://twitter.com/xiaohuggg/status/1682366431013507072?s=20"

6️⃣ 💰 谷歌员工薪资遭泄露，软件工程师基本年薪达 71.8 万美元。该数据来自员工之间共享的电子表格，涵盖了超过 1.2 万名美国员工的信息。除了基本工资，谷歌员工的收入还包括期权和奖金，软件工程师在 2022 年能够获得最高 150 万美元的股权。 🔗"https://twitter.com/xiaohuggg/status/1682354333156016132?s=20"

7️⃣ 📹 TokenFlow：使用文本到图像扩散模型进行文本驱动的视频编辑。它的主要功能是根据给定的文本提示源视频，生成一个新的视频，新视频中的内容会符合文本提示，同时保留输入视频的空间布局和动态。比如视频中的人物正在旋转篮球或者跑步，你可以使用 TokenFlow 替换视频中的背景或者人物，或者改变人物！ 🔗"https://twitter.com/xiaohuggg/status/1682345025806667776?s=20"

8️⃣ 🎶 Suno：只需简单文字描述即可生成带有人声的音乐，Suno 宣布他们的新模型，现在可以生成带有人声的音乐，而且 AI 还能吟唱。你只需要输入一段文字描述即可，包括你需要的音乐风格和对音乐的期望，Suno 即可帮你生成 2 段 30 秒左右带歌词的音乐。 🔗"https://twitter.com/xiaohuggg/status/1682310965059280897?s=20"

9️⃣ 🎨 Artbreeder Mixer ：将多个图像神奇地混合在一起，它允许用户通过将多个图像和文本利用 AI 混合在一起来创建新图像。神奇的想法。 🔗"https://twitter.com/xiaohuggg/status/1682273715109920768?s=20"

🔟 🌐 Instaverse：将任何 2D 图像转换为一个完整的 3D 世界。你只需一次点击就创建一个可玩的 3D 世界。这个工具使用 AI 技术，无需任何编程或 3D 建模技能。只需上传你的图片，Instaverse 就会自动为你创建一个 3D 世界。 🔗"https://twitter.com/xiaohuggg/status/1682239338468483077?s=20"

1️⃣1️⃣ 🤖 OpenAI 发布了一项新功能，允许用户为 ChatGPT 设置自定义指令！用户可以添加他们希望 ChatGPT 在生成响应时考虑的偏好或要求。 🔗"https://twitter.com/xiaohuggg/status/1682208252166287360?s=20" 历史：http://waytoagi.com/xiaohu

7 月 20 日

👽

🔔小互的推特 7 月 20 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

✏️ VideoDoodles：由 Adobe 等研究人员开发的是一种编辑技术，可将动态涂鸦融入视频中，这种技术可在视频中的对象上添加动态涂鸦。同时绘制的涂鸦能够跟随对象的移动，并以适当的透视和遮挡（对象被其他物体遮挡的现象）进行表达。因此无需专业技能或大量时间，就能够创建出独特且令人印象深刻的视频。

🔗https://twitter.com/xiaohuggg/status/1682017190642614272?s=20

2️⃣

💳 微信支付全面开放绑定境外卡：利好境外开发者，腾讯宣布将深化与多个国际卡组织的合作，在近期全面有序开放境内各城市的微信支付商户网络。与腾讯合作的国际卡组织包括 Visa、Discover Global Network（含 Diners Club）、JCB、Mastercard 等。

🔗https://twitter.com/xiaohuggg/status/1681938524885651456?s=20

3️⃣

📝 AI Agent 模式：这篇博客写的好。以后基于流程类似 SaaS 的服务，都要改成 AI Agent 模式，都得是 LLM 加上“评估”（不仅仅是记忆）、“计划”、“工具使用”等三个模块。

🔗https://twitter.com/mranti/status/1681855514211418112?s=20

4️⃣

🦙 Llama2 登陆 Hugging Chat：秀儿，Llama2 登陆 Hugging Chat http://hf.co/chat

70B… 速度贼拉快，还能联网！

🔗https://twitter.com/xiaohuggg/status/1681888661670105089?s=20

5️⃣

🖼️ KartivAI：将 #webgi 3D 渲染和 AI 结合，高效批量产出广告营销素材。你只需上传素材，如你的标志或产品图片，然后描述想要的创意，Kartiv 就会使用你的描述和素材来创建吸引人的视觉效果。这些都是自动化的，实时的，并在浏览器内部运行。KartivAI 还实现了多种图形效果，同时还能生成复杂的 3D 场景。

🔗https://twitter.com/xiaohuggg/status/1681872541101727744?s=20

6️⃣

📱 Llama2 on iPhone and iPad：厉害了，Llama2 可以运行在 iPhone 和 iPad 上了

🔗https://twitter.com/dotey/status/1681817519588356098?s=20

7️⃣

🎞️ 视频扩展技术：这个将横屏视频扩展成竖屏视频的做法很聪明：导出视频的第一帧，然后用 Adobe Photoshop 中的生成填充工具对其进行扩展。然后将原始视频放在静态图像上，模糊视频的边缘，使动态视频和静态图像之间的填充不那么明显。

🔗https://twitter.com/dotey/status/1681849372106014720?s=20

7 月 19 日

🌖

🔔小互的推特 7 月 19 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣ 🎥 MoviePilotL：自动化媒体管理工具🔧，可自动搜索、下载并管理电影和电视剧资源。它可以与多种下载器（如 qBittorrent、Transmission）和媒体服务器（如 Jellyfin、Emby、Plex）配合使用，实现资源的自动下载、整理和获取详细信息。还支持通过微信、Telegram 等进行远程搜索、下载、管理。 🔗 https://twitter.com/xiaohuggg/status/1681677367566286849?s=20

2️⃣ 🦉 BuboGPT：能理解图像和音频的内容，并将这些理解与文本输入和输出相结合。由字节跳动开发的大型语言模型，可以处理包括文本、图像和音频在内的多模态输入，并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解，音频理解，以及对齐的音频-图像理解和任意音频-图像理解。 🔗 https://twitter.com/xiaohuggg/status/1681673226047430658?s=20

3️⃣ 💻 Code Interpreter API：一个开源项目，它实现了在本地运行 ChatGPT 的代码解释器。这意味着你不需要依赖任何外部的云服务来运行你的代码，只需要在你的本地安装 API，然后使用你自己的 OpenAI API Key 就可以了。可以联网以获取网络数据。但是，所有的代码执行都在本地进行，安全隐私！ 🔗 https://twitter.com/xiaohuggg/status/1681661599193665536?s=20

4️⃣ 🔄 Swap Anything：交换任何东西，只需要单击选择即可立即交换图片的面孔、人物、衣物或背景。你只需要描述你想要的变化，选择你想要编辑的元素，让 AI 来完成剩下的工作。适用于需要大量编辑图片的电子商务和营销领域。只需选择你想要编辑的区域，提供文本描述，Swap Anything 就会处理剩下的工作。 🔗 https://twitter.com/xiaohuggg/status/1681598479490244608?s=20

5️⃣ 📚 Llama-2：GPT-4 的论文只分享了很少的信息，而 Llama-2 则不同，它详细介绍了整个配方，包括模型细节、训练阶段、硬件、数据管道和注释过程。例如，论文对 RLHF 的影响进行了系统分析，并提供了漂亮的可视化效果 🔗 （https://twitter.com/xiaohuggg/status/1681570849009324032?s=20

6️⃣ 🤖 Wheelbot：一个对称反应轮单轮车，可以从任何初始位置站到它的轮子上。这个机器人的设计是对称的，其滚动轮和反应轮是相同的。无论 Wheelbot 的初始状态如何（如，它可能被放置在侧面，或被倒置），它都能通过自我调整（使用其反应轮或滚动轮）来达到一个状态，即站立在其轮子上。就像一个不倒翁！ 🔗 https://twitter.com/xiaohuggg/status/1681556920103243778?s=20

7️⃣ 🎨 DreamGenerator：利用生成性 AI 将你拍摄的照片转化为全新的形象的相机。用户可以从 30 个提示中选择，捕捉照片，然后生成一些不同风格和奇异的照片。其实就是内置了一些 prompt，看起来很新颖，但是我个人感觉没啥用，多此一举，一个 APP 就能解决。不过提供了一些人工智能结合硬件产品的思路。 🔗 https://twitter.com/xiaohuggg/status/1681501082143576065?s=20

8️⃣ 🎬 Showrunner AI：只需一个提示，就可以为你编写、动画、导演、配音、编辑节目，创造出高质量的剧集内容。他们提出了一种方法，结大型语言模型、扩散模型和多代理模拟，以生成连贯、一致且符合 IP 故事世界的场景和图像内容。通过使用提示链，他们可以引导大型语言模型生成符合用户期望和意图的内容。 🔗 "https://twitter.com/xiaohuggg/status/1681498048109879296?s=20"

9️⃣ 💭 GPT-4 & Dalí：GPT-4 在处理抽象、难以理解的问答时，其表现出乎意料的好。除了使用 GPT-4 进行处理，还尝试使用了 Dalí来对其进行渲染，结果发现 Dalí对于难以理解的内容也能进行相应的渲染。而且，Dalí在渲染抽象图像时，可以创造出一些非常奇特、新奇的画面。 🔗 "https://twitter.com/dotey/status/1681436238006616079?s=20"

🔟 🕹️ OpenAI's Microscope：这是一个帮助你理解深度学习模型的工具。Microscope 让你可以非常详细的看到模型中每一层、每一单元的响应。通过这个工具，你可以对模型有更深入的理解，找出模型的问题，并对模型进行改进。 🔗"https://twitter.com/xiaohuggg/status/1681346203152433152?s=20"

7 月 18 日

🌖

🔔小互的推特 7 月 18 日更新 ✨✨✨✨✨✨✨✨✨ 1️⃣ 🔍 StableSR 是一个用于提高图像分辨率的项目。该项目使用预训练的扩散模型，能从低分辨率图像生成高分辨率图像，无需先验知识，适用于真实世界的图像超分辨率任务。项目地址 https://iceclear.github.io/projects/stablesr/

https://twitter.com/xiaohuggg/status/1681284959406006278?s=20

2️⃣ 💻 Google Bard 正在测试插件功能。其插件预览版泄露，虽然目前插件还无法正常使用，但预示着插件上线时间接近。预计首批上线的插件包括 Google Flights、Google Hotels、Google 地图、OpenTable、Zillow、YouTube、Redfin、Instacart、Kayak，插件功能和 ChatGPT 类似。 https://twitter.com/xiaohuggg/status/1681274640440623106?s=20

3️⃣ 💡 Procedural Flowmap Preset 可以使用几何节点生成流图效果，能帮助用户轻松创建流图，例如模拟河流流动的纹理。该工具适用于 Blender 3.6 LTS 版本。 https://twitter.com/xiaohuggg/status/1681256484141940736?s=20

4️⃣ 🖌 MJ 机器人是一个 AI 绘画工具，此篇文章指导用户如何在飞书上搭建完成 MJ 机器人，从而让企业或社群在飞书上便捷使用 MJ 的 AI 绘画功能。 https://twitter.com/xiaohuggg/status/1681249633392275456?s=20

5️⃣ 🎥 Interactive Neural Video Editing （INVE）是一种实时视频编辑解决方案，可以将稀疏帧编辑一致地传播到整个视频剪辑，提高编辑效率。 https://twitter.com/xiaohuggg/status/1681179897304330241?s=20

6️⃣ 🎨 这篇文章详细介绍了如何使用 Stable Diffusion 和 ControlNet 技术生成艺术化的二维码，介绍了如何在生成的图像中隐藏文本或符号。比如创作“牛逼”二字 https://twitter.com/xiaohuggg/status/1681126973039587328?s=20

7️⃣ 💾 FlashAttention-2 是由普林斯顿自然语言处理团队发布的一个优化和加速深度学习模型中的注意力机制的算法，其效率较前一版本快了约 2 倍。 https://twitter.com/xiaohuggg/status/1681118541070860288?s=20

8️⃣ 🔧 D-ID 推出了一款专为 PowerPoint 设计的 Generative AI 插件，它可以帮助用户创建更专业、吸引人的演示，提升演示效果和观众参与度。 https://twitter.com/xiaohuggg/status/1680966429959663617?s=20

9️⃣ 📝 BloggerGPT 是一个 AI 代理，设计用于帮助扩展用户的博客。只需为 AI 代理指定一个特定的领域或主题，它就能自动撰写文章并发布到用户的博客网站。该产品由 LangChainAI 构建。 https://twitter.com/xiaohuggg/status/1680955156878495746?s=20

7 月 17 日

🌖

🔔小互的推特 7 月 17 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

📞 Air 是一个会话式 AI，可以进行长达 5-40 分钟的销售和客服电话，听起来就像真人。你可以在几分钟内创建自己的 Air，并让它进行实时通话，它能够在 5000 个独特的应用中自主执行操作。

https://twitter.com/xiaohuggg/status/1680921442844831749?s=20

2️⃣

⚽️ 法国 Orange 电信为女足世界杯推出的 2 分钟创意广告。乍一看平平无奇，但 56 秒开始极限反转…

https://twitter.com/xiaohuggg/status/1680883498721378304?s=20

7 月 16 日

📌

🔔小互的推特 7 月 16 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣ 🎨 http://Recent.Design ：专门收集推特上发布的热门 UI 设计作品。这个网站精选并展示了推特上的 UI 和交互设计作品，是设计师和设计爱好者的宝藏。提供邮件订阅服务，让你随时获取最新的设计趋势和灵感。 https://twitter.com/xiaohuggg/status/1680596018361167873?s=20

2️⃣ 🤖 波士顿动力公司机器人进化史，不容易 https://twitter.com/xiaohuggg/status/1680592377503956992?s=20

3️⃣ 👟 Ukaton：智能鞋垫可实时获取运动足部数据。他们为智能鞋垫和运动模块制作了一个 Python SDK，这个 SDK 允许开发者通过 BLE 或 WiFi 访问传感器数据。 https://twitter.com/xiaohuggg/status/1680519696595009537?s=20

4️⃣ 🦾 Meta AI 介绍了他们的新型生成模型 CM3leon。CM3leon 是一个单一的基础模型，既能进行文本到图像的生成，也能进行图像到文本的生成。它是第一个使用从文本语言模型中借鉴的配方训练的多模态模型。 https://twitter.com/xiaohuggg/status/1680469706539683840?s=20

5️⃣ 📃📊 GoogleBard 从发票图片中提取文本摘要，并以漂亮的表格格式进行总结。看来这个视图模式很实用啊，压力给到了 OpenAI。 https://twitter.com/xiaohuggg/status/1680394771125391361?s=20

更正一下子⬆️上面的这个 OCR 出来的结果是错误的，bard 做文字的图像识别还不到位

7 月 15 日

🎉

🔔小互的推特 7 月 15 日更新 ✨✨✨✨✨✨✨✨✨

1️⃣

🇨🇳 习近平对网络安全和信息化工作作出重要指示

https://mp.weixin.qq.com/s/Dxsx6UdtBjWGyFVXpa5P2Q

2️⃣

🎥🧬 DNA-Rendering：是一个大规模、高保真度的神经演员渲染库，它通过神经隐式字段表示人类演员。这个库的主要目标是为了提供一个高质量、多样性的人类行为数据集，以便在人工智能、计算机视觉和图形学等领域进行研究和开发。它提供 1500 个 ID* 服装、1187 个动作、60 个视图和高达 4096 分辨率的 675 万帧！项目地址：dna-rendering.github.io

https://twitter.com/xiaohuggg/status/1680107909546655745?

3️⃣

📚【书单推荐】马斯克创建的 xAI 的成员 Greg Yang 提到的 xAI 书单：关于@xai 空间的书是 Axler 的“Linear Algebra Done Right”和 Halmos 的“Naive Set Theory”。多年来他真正喜欢的其他数学书籍，笔者选了 10 本相对容易的书籍供参考学习。

笔者也找到了一张数学深渊图

https://twitter.com/danielw19410/status/1680045424491782146?

4️⃣

🗣️🤖 马斯克携 xAI 团队在 Twitter Space 的直播分享 xAI 主要目标和理念

https://twitter.com/xiaohuggg/status/1680067752751665152?

5️⃣

🕒📱 仅仅通过一个屏幕截图，使用 Google 的 Bard AI 在不到 4 分钟内重新创建了一个基本的 iPhone 计时器应用。

https://twitter.com/xiaohuggg/status/1680061377367646208?

6️⃣

📈🤔 Inflection AI 创始人兼 CEO@mustafasuleymn 发表了一篇文章，他提出了一个新的图灵测试，这个测试的目标是看 AI 是否能在几个月内通过零售网络平台将 10 万美元的投资赚到 100 万美元。他认为，这个测试将能更好地反映 AI 在现实世界中的能力，而不仅仅是它的语言生成能力。其实他在暗示图灵测试已经过时！

https://twitter.com/xiaohuggg/status/1679885174748884992?

7️⃣

🕊️🔄 Twitter 的内容 UI 界面将改版，全面拥抱微博，排版更紧凑，展示的图片更大，同时用户评论可以排序了，热门回复将靠前展示

https://twitter.com/xiaohuggg/status/1679875620564774912?

7 月 14 日

🎉

🔔小互的推特 7 月 14 日更新 ✨✨✨✨✨✨✨✨✨✨

1️⃣ 📽️🔍 使用 Generative fill AI （生成填充 AI ）和 Premiere Pro 将电影扩展至 9:16 https://twitter.com/xiaohuggg/status/1679760384146960384?s=20

2️⃣ 🐦💰 推特宣布启动“广告分成共享”计划，即将在推特评论区插入广告并与创作者分成。有人已经分到钱了，还挺多 https://twitter.com/xiaohuggg/status/1679679122921111552?s=20

3️⃣ 📝🤖 Google Labs 推出一款名为 NotebookLM 的 AI 笔记本产品，这是一种全新的笔记工具。这个产品旨在通过总结信息、解释复杂的想法和头脑风暴新的联系，帮助用户更快地获得洞见。使用人工智能技术来帮助用户处理和理解信息。 https://twitter.com/xiaohuggg/status/1679673732271575041?s=20

4️⃣ 🔎📸 手动启用 New Bing 多模态功能（图片聊天） 1）F12 打开浏览器控制台，输入：_w["_sydConvConfig"]。sydOptionSets += ",iycapbing,iyxapbing", _w["_sydConvConfig"].enableVisualSearch = true;输入后不要执行； 2）刷新 New Bing Chat 网页，在刷新完成之前执行上面的代码 3）就有上传图片的按钮了 https://twitter.com/Gorden_Sun/status/1679308102758178817?s=20

7 月 13 日

📌

🔔小互的推特 7 月 13 日更新 ✨✨✨✨✨✨✨✨✨✨

1️⃣ 💊🔬 Gero：使用量子计算来设计药物 Gero 是一家专注于衰老和长寿的 AI 驱动的生物技术初创公司。他们的研究团队探索了一个混合的人工智能系统（一个深度神经网络与商用量子硬件协同工作），这个系统能够提出独特的化学结构，这些结构在合成上是可行的，并具有药物样的属性。 https://twitter.com/xiaohuggg/status/1679513770287329281?s=46&t=F6BXooLyAyfvHbvr7Vw2-g

2️⃣ 🎨🖌️ Stability AI 推出了一款名为 Stable Doodle 的工具，这是一款将简单的绘图转换为动态图像的工具，有了 Stable Doodle，任何具有基本绘画技能和在线访问能力的人都可以在几秒钟内生成高质量的原创图像。这将极大地提升各种行业的能力！ https://twitter.com/xiaohuggg/status/1679482652288770050?s=46&t=F6BXooLyAyfvHbvr7Vw2-g

3️⃣ 🤖🧠 SayPlan：使用 3D 场景图结合大语言模型，让机器人能理解自然语言并执行可扩展的复杂任务规划。研究人员在两个非常大的环境中测试了他们的方法。包括多达三层楼，36 个房间，以及 140 个物体。在这样的环境中，他们都可以通过简单的语言指令，让机器人在复杂的环境中执行复杂可扩展的任务。 https://twitter.com/xiaohuggg/status/1679472711670857729?s=46&t=F6BXooLyAyfvHbvr7Vw2-g

4️⃣ 🌐📖 #AI 开源项目推荐：zyddnys/manga-image-translator 一键翻译各类图片内文字，特别适合漫画的翻译，支持 DeepL 和 ChatGPT 的 API。在线测试：cotrans.touhou.ai https://twitter.com/dotey/status/1678812082886569984?s=46&t=F6BXooLyAyfvHbvr7Vw2-g

5️⃣ 🎮🐦 使用 OpenAI 的代码解释器在 7 分钟内制作了 Flappy Bird。 https://twitter.com/xiaohuggg/status/1679277327245791232?s=46&t=F6BXooLyAyfvHbvr7Vw2-g

7 月 12 日

💡

🔔小互的推特 7 月 12 日更新 ✨✨✨✨✨✨✨✨✨✨

1️⃣ ☁️🌎 Pangu-Weather 由华为开发，通过在 39 年的全球天气数据上训练模型，使用 3D 神经网络进行准确的中程全球天气预报，盘古气象大模型能够提供全球气象秒级预报，其气象预测结果包括位势、湿度、风速、温度、海平面气压等，可以直接应用于多个气象研究细分场景。 https://twitter.com/xiaohuggg/status/1678802755102863362?s=20 论文地址：https://t.co/6XdeXLUASS

2️⃣ 🤖💬 AI Companion App：创建和训练属于你的 AI 伴侣。它提供了一套框架和工具，你可以根据自己的需求和想象，设定 AI 伴侣的个性、背景故事和能力，然后使用这个框架进行训练和部署。这样，每个人都可以拥有一个定制的 AI 伴侣，满足他们特定的需求和期望。你可以在浏览器上或通过 SMS 与你的 AI 伴侣进行聊天。 https://twitter.com/xiaohuggg/status/1678923111612416001?s=20

3️⃣ 🖼️🎥 Pika，图像调节视频生成模型。将为图像设置动画。上传图像，输入文本提示，该模型可以将该图像制作动画。 https://twitter.com/xiaohuggg/status/1678929780392222720?s=20

4️⃣ 💡📚 来看看 Code Interpreter 的 Prompt 是什么。转发自@宝玉 xp https://twitter.com/dotey/status/1678825046079336456?s=20

5️⃣ 📑🔎 Claude.ai 官方支持了 PDF 文件上传，结合 100k 的上下文，提供了丝滑的 PDF 问答体验。比如这个 19 页的全球 AI 流量变化的 PDF，让它总结出细分品类里依然在增长的 AI 网站。这个任务要求对整个文档进行理解和分析，而不是使用文本切块。目前似乎只有 Claude 能做到。转发自@orange.ai https://twitter.com/oran_ge/status/1678916243166994432?s=20

7 月 11 日

💡

🔔小互的推特 7 月 11 日更新 ✨✨✨✨✨✨✨✨✨✨

1⃣️

🚴‍♀️Urtopia Fusion：第一款集成了 ChatGPT 和内置扬声器的自行车，可以为骑行者提供个人导游服务。

主要功能：骑行者可以询问关于可能的观光地点、当地地标和景点历史的信息。具有内置 GPS 导航、防盗措施以及安全和数据记录系统。设计用于提供针对用户需求的实时帮助，并作为本地城市指南和私人导游。

https://twitter.com/xiaohuggg/status/1678436662777466882?s=20

2⃣️

❌这位老铁称 GPT-4 的详细信息被泄露。他公布了大量 GPT4 的核心信息但是并没有说明这些信息来源。原帖已删除，

有很多翻译版本：https://mp.weixin.qq.com/s/AIwinPksV_u-RQfcoCD7nw

https://twitter.com/xiaohuggg/status/1678574720869093376?s=20

3⃣️

👍Claude 2 发布编码、数学和推理方面增强，最大支持 200K 上下文，长输入，也可以上传多文件，多步输出。Claude 2 在 Python 编码测试 Codex HumanEval 上的得分从 56.0%提高到 71.2%。在 GSM8k，一大组小学数学题上，Claude 2 得分从 85.2%提高到 88.0%。支持更长的输入，轻轻松松处理几百页文档和书籍资料！

https://twitter.com/xiaohuggg/status/1678781062875594753?s=20

4⃣️

🤔ChatGPT 宕机这么久还没有恢复，令人匪夷所思，看来也没必要担心 AI 会毁灭人类

https://twitter.com/xiaohuggg/status/1678785852745580551?s=20

7 月 10 日

💡

🔔小互的推特 7 月 10 日更新 ✨✨✨✨✨✨✨✨✨✨

1️⃣

🏇🌄 这几天在外面玩，更新的慢，各位见谅。今天是沉浸式骑马的一天

https://twitter.com/xiaohuggg/status/1678397273280237569?s=20

2️⃣

🎮🕹️ Singularity - Hugging Face Open Source AI Game Jam 是一款实时游戏。游戏使用了 Stable Diffusion 和 Midjourney + CSM 技术来创建环境和 3D 角色。游戏的主题是生成一个随着角色向前移动而自我扩展的世界。未来游戏行业的发展可能是实时生成视频游戏的每一帧，这可能会使传统的计算机图形技术变得过时。

https://twitter.com/xiaohuggg/status/1678386608855470085?s=20

3️⃣

🚀🎮 利用 ChatGPT 代码解释器 5 分钟来制作一个太空射击游戏。制作过程简单

https://twitter.com/xiaohuggg/status/1678220687914283014?s=20

4️⃣

🤖🏃 Fourier GR-1 是一款通用人形机器人。由上海傅利叶智能科技公司开发。这款机器人的全身由 40 个 FSA 关节构成，最大模组峰值扭矩为 300NM。其身高 165cm，体重 55kg，步速可达 5km/h。GR-1 的运动能力表现优异，可进行直腿行走、快速行走、敏捷避障、稳健上下坡、应对冲击干扰，甚至可以与人协同完成动作。

https://twitter.com/xiaohuggg/status/1678063287647498241?s=20 历史动态 http://waytoagi.com/xiaohu

7 月 9 日

📌

🔔小互的推特 7 月 9 日更新 ✨✨✨✨✨✨✨✨✨✨

小互出去玩了今日只有两条转发

1️⃣ 📚💡ChatGPT 代码解释器高级使用指南：用例大全 https://twitter.com/xiaohuggg/status/1678017750135107584?s=20

2️⃣ 📷🎥 利用代码解释器的功能，让 ChatGPT 将图像转换为视频！ https://twitter.com/xiaohuggg/status/1677833230358286336?s=20

暑假愉快

7 月 8 日

📌

🔔小互的推特 7 月 8 日更新 ✨✨✨✨✨✨✨✨✨✨

1️⃣ 🤖📍VoxPoser: 为机器人任务打造的指令系统它结合了大语言模型和视觉-语言模型能力，能够理解自由形式的语言指令，并根据指令生成机器人的动作轨迹。简单讲：就是机器人能听懂你的指令，并会根据指令自动绘制出环境的 3D 地图，然后它根据绘制地图自主制定线路轨迹完成任务，而且不需要预先训练！" https://twitter.com/xiaohuggg/status/1677576476101873675?s=20

2️⃣ 🔧🤖宜家家具组装机器人 https://twitter.com/xiaohuggg/status/1677537464309923842?s=20

3️⃣ 🔀💻在网页版选择代码解释器模式并进行对话，客户端也会同步对话，同时客户端也支持上传文件 https://twitter.com/xiaohuggg/status/1677521535723278336?s=20

4️⃣ 🌐💬 Chrome 插件 Perplexity.ai 将搜索栏转为回答问题工具 "由于肌肉记忆，很多人都会在 Chrome 的搜索栏（也就是地址栏）直接输入关键词来搜索内容。Perplexity.ai 开发了个 Chrome 插件，直接接管了地址栏，你在地址栏输入任何关键词都会直接调用 Perplexity 来回答。思路很不错，我感觉是不是有人可以开发一个 ChatGPT 的 Chrome 插件也实现这样的功能。" https://twitter.com/xiaohuggg/status/1677509954163585024?s=20

5️⃣ 🔮🎥Effect House：TikTok 的增强现实（AR）创作工具 "Effect House：TikTok 开发的一款强大的增强现实（AR）工具。可以轻松创作、发布和分享用于 TikTok 的高品质增强特效。适合初学者、进阶设计人员及开发人员使用。它的内置功能，从高级跟踪到丰富的交互，你都可以在 TikTok 上实时的实验、创建、预览、发布和管理所有效果。" https://twitter.com/xiaohuggg/status/1677503372910551040?s=20

6️⃣ 🖼️📑通过 GPT-4 代码解释器将 PDF 转为图片 "有时候我需要把 PDF 转成图片，还需要几页合并成一张图片，以前让 GPT-4 帮我写过代码本地执行，现在简单了，直接传到 Code Interpreter，一个 Prompt 搞定！启用 Code Interpreter，上传 PDF 文件，然后输入：“请将这个 PDF 文件保存成 2 行 2 列的图片，每 4 页一张图片”" https://twitter.com/dotey/status/1677426953207382018?s=20

7️⃣ 💡💻代码解释器权限开始发放 https://twitter.com/xiaohuggg/status/1677348172266639360?s=20

7 月 7 日

🚀

🔔小互的推特 7 月 7 日更新 ✨✨✨✨✨✨✨✨✨✨

1️⃣ 🎥traw.ai：高效总结 YouTube 视频工具 traw.ai 可以帮助用户快速总结 YouTube 视频的内容，生成包含摘要内容的类似文章的页面，还能贴出相应位置的视频截图，且标注有视频的时间戳。你也可以上传本地的音视频，它也可以帮你总结。 https://twitter.com/xiaohuggg/status/1677304777980678149?s=20

2️⃣ 🎭#BRAV6：专为亚洲面孔优化的 AI 模型 #BRAV6 模型可以下载了，BRAV6 主要针对亚洲面孔进行的训练和优化，质量比 BraV5 好很多，更加真实和有质感。 https://twitter.com/xiaohuggg/status/1677294836515491840?s=20

3️⃣ 👧AI GIRL Generator：打造你心目中的梦想女孩 AI GIRL Generator 可以根据自己的喜好来生成一个自己心目中的梦想动漫女孩，从脸型到身材款式已经风格，每一个细节都可以量身打造。包含许多 Lora 模型供用户选择，还可以合并不同的 Lora 模型，生成具有特殊风格组合的角色。 https://twitter.com/xiaohuggg/status/1677255503980949505?s=20

4️⃣ 🤖VEED AI Avatars：AI 驱动的虚拟角色视频制作工具 VEED AI Avatars 可以将文本转化为由 AI 驱动的虚拟角色视频。非常逼真，口型无缝同步，有 50 多种不同的数字模型和多种的模板选择，以及支持 75 种语言和方言。 https://twitter.com/xiaohuggg/status/1677195533151248390?s=20

5️⃣ 🎭Xpression Camera：实时 AI 换脸应用 Xpression Camera 是一款适用于视频聊天和直播流的实时 AI 换脸应用。只需一张照片你就可以立即转变成任何人或任何有面部的事物，在 Zoom、Twitch 等上聊天，或者在 YouTube 上创建视频时，你可以实时重新定义你的屏幕形象。 https://twitter.com/xiaohuggg/status/1677182181733707778?s=20

6️⃣ ⚡️全球最快的 GPT-4 音频管道 Florian Juengermann 在 Twitter 上分享了他和他的团队开发的全球最快的 GPT-4 音频管道。你只需要问出问题，机器人几乎同时就能进行语音回答，延迟可以忽略不计。 https://twitter.com/xiaohuggg/status/1677156293428264960?s=20

7️⃣ 💼马斯克威胁起诉 Meta 马斯克向扎克伯格发出了律师函，威胁要起诉 Meta，称其系统性、故意和非法盗用 Twitter 的商业秘密和知识产权，以及窃取 Twitter 的数据。俩人真是到了你死我活的地步了！另外 Twitter 今天重新开放了未登录用户访问的功能 https://twitter.com/xiaohuggg/status/1677145509251915780?s=20

8️⃣ 💻OpenAI 的代码解释器开放给所有 ChatGPT Plus 用户 OpenAI 的代码解释器将向所有 ChatGPT Plus 用户开放，允许 ChatGPT 理解和执行代码，执行一些更为复杂的任务，如分析数据、创建图表、编辑文件、执行数学运算等。 https://twitter.com/xiaohuggg/status/1677140750285561856?s=20

9️⃣ 🌐OpenAI 开放 GPT-4 的 API OpenAl 宣布 GPT-4 的 API 现在对所有用户开放，无需申请。此外，GPT-3.5Turbo、DALL·E 和 Whisper API 也已全面开放。

群友烟笼寒水进行了详细的解释：

1.线上账号和 api 其实是分开不同页面的

2.免费的账号会配有一定额度的 api 使用量（是 3.5 的接口，有期限，过期需要充值才能继续用）

3.plus 账号是付费的，就是线上 gpt4.0，但是 4.0 的 api 需要另外申请才行，不随 plus 账号配送

4.现在开放了 4.0 的 api，但是只针对曾经为 api 买过单的用户开放（之前用免费额度的不算是买过单的） https://twitter.com/xiaohuggg/status/1677112919514030080?s=20

7 月 6 日

📗

🔔小互的推特 7 月 6 日更新 ✨✨✨✨✨✨✨✨✨✨

1️⃣

🌐🌐🌐 KokoMind：全方位的社交互动数据集，用于评估大语言模型在理解和引导社交互动方面的能力。数据集包含了 150 个复杂的多方社交互动场景，并配有自由文本问题和答案，所有数据由 GPT-4 生成，由人类专家进行验证。 "www.twitter.com/xiaohuggg/status/1676956615004798976?s=20"

2️⃣

🔎🔎🔎 Plugin.surf：一个用于快速找寻有用的 ChatGPT 插件的目录网站。通过分类、搜索、收藏，投票和评价功能，用户可以找到最适合自己需求的插件。 "www.twitter.com/xiaohuggg/status/1676942776351752193?s=20"

3️⃣

🗣️🗣️🗣️ Pi 支持语音通话：现在你可以通过语音与 Pi 进行交流，就像打电话一样简单。 "www.twitter.com/xiaohuggg/status/1676918802800582656?s=20"

4️⃣

🎨🎨🎨 艺术二维码生成方法教学，教程有一些复杂，需要时间研究。 "www.twitter.com/xiaohuggg/status/1676886055046496256?s=20"

5️⃣

🖼️🖼️🖼️ DragonDiffusion：一种基于扩散模型中间特征的强对应关系的细粒度图像编辑方案。能够理解图像内容，知道如何修改图像以达到想要的效果。 "www.twitter.com/xiaohuggg/status/1676876228752740356?s=20"

6️⃣

🌆🌆🌆 拉斯维加斯 MSG 球体举行点亮仪式，展示出不同画面，令人惊艳！球体成本 23 亿美金，有 18600 个座位，外立面屏幕是世界上最大的可编程 LED 屏幕！ "www.twitter.com/xiaohuggg/status/1676833974545707009?s=20"

7️⃣

🧠🧠🧠 OpenAI 预测超级人工智能：OpenAI 预计在未来十年内将出现超级人工智能，他们计划投入 20%的算力资源来研究“超级对齐”，即如何使比人类更智能的 AI 系统遵循人类的意图。 "www.twitter.com/xiaohuggg/status/1676810867281887233?s=20"

8️⃣

📲📲📲 Threads：一个新的社交 app，在没有准备好的情况下尝试挑战这个行业的老大，不过评价不佳。 "www.twitter.com/xiaohuggg/status/1676798357476614145?s=20"

9️⃣

💻💻💻 GPT-Migrate：一个项目，帮助用户轻松地将代码库从一个框架或语言迁移到另一个，使用大型语言模型（如 GPT-4-32k）来重建新的目标语言代码，并在 Docker 环境中运行新的代码库进行迭代调试。 "www.twitter.com/xiaohuggg/status/1676796863297511426?s=20"

🔟

🧠🧠🧠 I-JEPA：一种全新架构，由 Meta 的首席人工智能科学家 Yann LeCun 提出，能让人工智能系统像动物和人类一样学习和推理。通过创建和理解世界的内部模型，来预测和理解新的、未见过的情况。 "www.twitter.com/xiaohuggg/status/1676780807191658496?s=20"

1️⃣1️⃣

🌍🌍🌍 Skybox AI 2.0：一个可以通过文本提示一键生成无限的 360°虚拟世界的工具，无论是为游戏环境，还是 VR 应用创建背景，都能根据文字提示快速生成。 "www.twitter.com/xiaohuggg/status/1676768264846999552?s=20"

7 月 5 日

🙋

🔔小互的推特 7 月 5 日更新 ✨✨✨✨✨✨✨✨✨✨

1⃣️

🎉🎉🎉 Notion-to-Chatbot：允许你与任何 Notion 文档进行交谈。你可以轻松地输入你想要与之交谈的文档内容。它能够提供即时的答案，你可以提问、提取信息，甚至用 AI 对文档进行总结。这个项目的源代码已经发布，你可以在 GitHub 上查看和使用。 "www.twitter.com/xiaohuggg/status/1676605457610293250?s=20"

2⃣️

🔥🔥🔥 Hacker News 改造计划 💡💡💡

Hacker News 是一个面向全球的技术类新闻聚合社区。但这个网站整体 UI 很古朴，并且一页密密麻麻的 30 条新闻标题，让人看起来非常费劲。有人做了一个增强版：Hacker News Summary，利用 ChatGPT 的总结能力，直接将每条新闻用一两句话总结出来，大大节约了每天看新闻的时间。 "www.twitter.com/xiaohuggg/status/1676519811751501825?s=20"

3⃣️

💫💫💫 小互学习了新技能，在使用 ChatGPT 的时候，如果内容过长，你是不是经常需要手动点击“Continue generating”按钮让 GPT 继续帮你生成？每次手动点击很麻烦，有没有办法可以让浏览器自动帮你点击而且不需要安装浏览器插件？ "www.twitter.com/xiaohuggg/status/1676490076782731264?s=20"

4⃣️

🎞️🎞️🎞️ #Zeroscope 是一种新的文本到视频模型，可以生成高质量的高清视频。之前分享过，没太注意，这几天陆续看到很多分享视频，确实质量很高。重新整理下：它可以生成高质量的视频，视频的宽高比是 16:9，与电视和电脑屏幕的宽高比一样。zeroscope_v2_X 是它的一个升级，可以生成 1024x576 的分辨率的视频。 "www.twitter.com/xiaohuggg/status/1676439196377165824?s=20"

5⃣️

🔒🔒🔒 Google 隐私政策更新 🔒🔒🔒

Google 最近更新了其隐私政策，允许其使用任何公开可用的数据进行人工智能（AI）训练。

Google 将"语言模型"一词替换为"AI 模型"，并表示可能允许使用任何公开数据来构建功能和完整产品，如 Google 翻译、Bard 和 Cloud AI 能力。

这项更新于 2023 年 7 月 1 日发布 "www.twitter.com/xiaohuggg/status/1676411254431428608?s=20"

6⃣️

💻💻💻 AMD 扩大显卡支持 💻💻💻

AMD 称将扩大对消费级 RDNA 3 显卡的 ROCm 支持。AMD 已发布其用于 GPU 计算的开源平台 Radeon Open Compute（ROCm）5.6 的最新版本。将支持更多的 RDNA 2 显卡以及部分 AMD RDNA 3 工作站和消费级显卡。首批获得官方支持的显卡将是 48GB 的 Radeon PRO W7900 和 24GB 的 Radeon RX 7900 XTX。 "www.twitter.com/xiaohuggg/status/1676407698605342720?s=20"

7 月 4 日

🏆

🔔决定不抛弃马斯克的小互的推特 7 月 4 日更新

1️⃣

🤖OpenCat：一个基于 Arduino 和 Raspberry Pi 的开源四足机器人宠物框架。OpenCat 提供了一个基础的开源平台，可以创建令人惊奇的可编程步态、运动四足机器人。它可以进行复杂的运动（行走、跑步、跳跃、后空翻）。

🔗Twitter Post: twitter.com/xiaohuggg/status/1676233229907673088

💡关键词： #OpenCat #四足机器人 #Arduino #RaspberryPi

2️⃣

🎬SAM-PT：能够在动态视频分割任何内容并进行跟踪。这种技术可用于识别和追踪视频中特定对象，如人、车辆、动物等，也可用于追踪特定的特征，如颜色、形状、运动模式等。应用包括视频监控、自动驾驶、运动分析、电影制作等。

🔗Twitter Post: twitter.com/xiaohuggg/status/1676203365964075008

💡关键词： #SAMPT #视频分割 #对象跟踪

3️⃣

🔬Google 宣布其量子计算机最新进展：它能够瞬间完成现有最好的超级计算机需要 47 年才能完成的计算。这台新的量子计算机有 70 个量子比特，比 2019 年他们宣布的那台机器多了 17 个。增加更多的量子比特可以指数级地提高量子计算机的能力，这意味着新的机器比 2019 年的机器强大 241 万倍。

🔗Twitter Post: twitter.com/xiaohuggg/status/1676149614867795968

💡关键词： #Google #量子计算 #量子比特

4️⃣

🕺DisCo（Disentangled Control）：能够生成具有多样外观和灵活动作的高质量人类舞蹈图像和视频。你只需提供一个或多个包含你想在生成的舞蹈中看到的人物（前景）和环境（背景）的参考图像和一个描述舞蹈动作的姿势序列，DisCo 就能生成新的舞蹈动作，而且新的舞蹈动作够保持和参考图像的外观和环境一致。

🔗Twitter Post: twitter.com/xiaohuggg/status/1676140295304646657

💡关键词： #DisCo #AI 生成舞蹈 #动作生成

5️⃣

🏛️华尔街日报：拜登政府正准备限制中国企业使用美国云计算服务。若规定获通过，微软及亚马逊等美企在对中企提供相应服务前，将需要提前获得美国政府许可。预计商务部未来几周内公布细节。该限制措施被认为是修补漏洞，防止中企透过云服务使用英伟达（Nvidia）A100 等计算芯片。

🔗Twitter Post: twitter.com/xiaohuggg/status/1676110930973954049

💡关键词： #美中关系 #云计算服务 #政府限制

6️⃣

🎭#Brav6 模型预计将在本周发布，先看一波预览图过过眼瘾😍。

🔗Twitter Post: twitter.com/xiaohuggg/status/1676099960130138114

💡关键词： #Brav6 模型 #AI 模型预览

7️⃣

🌐由于 ChatGPT Plus 的网页浏览功能帮助用户绕过付费内容的付费墙而获取某个链接的全文，这损害内容提供者的合法利益！OpenAI 将暂时禁用浏览功能，等待修复漏洞后重新上线！🤔

🔗Twitter Post: twitter.com/xiaohuggg/status/1676086004938317825

💡关键词： #ChatGPTPlus #网页浏览功能 #OpenAI

8️⃣

🐦instagram 旗下的类似 Twitter 的应用 Threads7 月 6 号上线，大家要不要抛弃马斯克啊😂。

🔗Twitter Post: twitter.com/xiaohuggg/status/1676025546734710786

💡关键词： #Threads #Instagram #社交应用

9️⃣

🤖微软自主系统和机器人研究院发布了一篇论文，主要研究了 OpenAI 的 ChatGPT 在机器人应用中的使用。展示了 ChatGPT 在机器人学中的潜力和应用可能性。研究涵盖了机器人领域的一系列任务，从基本的逻辑、几何和数学推理，到复杂的领域如空中导航、操纵和具象化的代理。

🔗Twitter Post: twitter.com/xiaohuggg/status/1676062513870536704

💡关键词： #微软 #OpenAI #ChatGPT #机器人应用

🔟

🎮AI Game Creator：你只需要输入文字描述即可帮你开发出你需要的游戏。通俗的说就是它集合了各种 AI 工具，可以帮你完成游戏开发中的各种任务，如生成角色、背景和物体、创建动画、制作智能角色、定制角色、生成故事和视觉效果，以及设计角色扮演游戏。

🔗Twitter Post: twitter.com/xiaohuggg/status/1676052057630052352

💡关键词： #AIGameCreator #游戏开发 #AI 工具

1️⃣1️⃣

🖼️#Midjourney 5.2 发布新功能：平移。你可以通过点击放大图像中的方向箭头按钮来扩展图像。只需点击箭头，就可以将图像扩展到你想要的方向。

🔗Twitter Post: twitter.com/xiaohuggg/status/1676041789093068800

💡关键词： #Midjourney #新功能 #平移功能

1️⃣2️⃣

📚StoryBird：利用人工智能生成儿童故事图画书还能卖了赚钱 💰。你只需要输入 20-200 个单词提示语句，它就能给你生成一本完整的带有精美插图的英文故事书。而且还能在该网站和亚马逊售卖！

🔗Twitter Post: twitter.com/xiaohuggg/status/1675881515019038723

💡关键词： #StoryBird #人工智能 #儿童故事书

7 月 3 日

🙋

🔔小互的推特 7 月 3 日更新 ✨✨✨✨✨✨✨✨✨✨

1️⃣ 📚StoryBird：利用人工智能生成儿童故事图画书，还能卖了赚钱💰。你只需要输入 20-200 个单词的提示语句，它就能给你生成一本完整的带有精美插图的英文故事书。而且还能在该网站和亚马逊售卖！利用 ChatGPT 插件就能生成。附上教程： 🔗Twitter Post: twitter.com/xiaohuggg/status/1675881515019038723 💡关键词： #StoryBird #AI 生成故事图画书

2️⃣ 🗣️如何用英文解释中国科技公司常用的术语。文章列举了中国互联网公司喜欢用的五个专业术语：1。 Huidu（灰度） 2。 Lunzi（轮子） 3。 Chendian（沉淀） 4。 Dapan（大盘） 5。 Maidian（埋点）。但这些并不是我们常用的，我们一般用赋能、打通全链路、闭环、抓手、中台等。 🔗Twitter Post: twitter.com/xiaohuggg/status/1675742703110475777 💡关键词： #中国科技公司术语 #英文解释

3️⃣ 👤Generated Photos 有个人工生成的面孔库，总共有 2675894 张照片。这个工具提供了多种筛选选项，包括背景颜色、面部类型（自然或美化）、头部姿势、性别、年龄、种族、眼睛颜色、头发颜色、头发长度和情绪。这使得用户可以根据自己的需求找到最合适的面孔。 🔗Twitter Post: twitter.com/xiaohuggg/status/1675480205811654659 💡关键词： #GeneratedPhotos #AI 生成面孔库

4️⃣

👥Generated Photos 还有一个 Anonymizer 工具，你只需要上传你的照片，它就会生成一张与你相似的人工生成的照片。这张照片会保留你的肤色、年龄、性别、发长等特征，但不会泄露你的真实身份。这对于需要保护个人隐私，但又需要提供某种形象的情况（如社交媒体、网络论坛等）非常有用。

🔗Twitter Post: twitter.com/xiaohuggg/status/1675480193325240325

💡关键词： #Anonymizer 工具 #保护隐私

5️⃣

🖼️Generated Photos：这个网站提供了 10 万个不存在的人的照片，这些照片全部由 AI 生成。你可以在任何地方免费使用它们，而不必担心任何法律问题。这些照片符合 GDPR 和 CCPA 标准，没有版权、没有肖像权。同时他还有人工生成的面孔库，共有 2675894 张人脸照片。还有多种工具和数十万张多样化的数据集。

🔗Twitter Post: twitter.com/xiaohuggg/status/1675480188023615489

💡关键词： #GeneratedPhotos #不存在的人的照片 #AI 生成

6️⃣ 🎥视频：微软 AI 超级电脑解构。微软 Azure CTO Mark Russinovich 的采访，讲述了微软如何与英伟达合作构建专用的 AI 基础设施。微软自 2020 年起为 OpenAI 打造的超级电脑，包括 28.5 万 AMD CPU 内核，1 万张英伟达 V100 GPU 都以 IB（无线带宽）连接，计算能力是世界排名第五的超级电脑。 🔗Twitter Post: twitter.com/xiaohuggg/status/1675692134777896960 💡关键词： #微软 AI 超级电脑 #AI 基础设施

7 月 2 日

🌗

🔔小互的推特 7 月 2 日更新

1️⃣ 🎵洗碗打碟？Come on, baby! 👐让我看到你们的双手，开发了一个能发出唱片刮擦声的机器，让它更有乐趣！🎉 🔗Twitter Post: twitter.com/xiaohuggg/status/1675438025973829637 💡关键词： #洗碗打碟 #机器

2️⃣ 📉Twitter 的广告门户网站（ads.twitter.com）今年 5 月的访问量下降到了 190 万次，相比一年前的 250 万次，下降了 21.7%。从 4 月到 5 月，访问量基本保持不变。 🔗Twitter Post: twitter.com/xiaohuggg/status/1675424310662684672 💡关键词： #Twitter 广告门户 #访问量下降

3️⃣ 🌸这位 @janiefitzgerald 艺术家用 AI 创作了一些花的动态视频，真是非常惊艳，栩栩如生，惊叹不已！又增加了几个视频，真好看！ 🔗Twitter Post: twitter.com/xiaohuggg/status/1668177096840204288 💡关键词： #AI 艺术 #动态花卉视频

4️⃣ 💸Twitter 的 Google Cloud 合同到期欠费了，原来是没钱了说的冠冕堂皇的。 🔗Twitter Post: twitter.com/xiaohuggg/status/1675305318639878144 💡关键词： #GoogleCloud 合同 #欠费

5️⃣ 😒Twitter 不如实行摇号访问和单双号限行措施吧，脑子有问题。 🔗Twitter Post: twitter.com/xiaohuggg/status/1675300628934053890 💡关键词： #Twitter 访问 #建议

6️⃣ 🎧PodcastGPT：它可以“听取”你喜欢的播客，然后找出其中最有价值或最有趣的部分，帮你挑选出来，并将这些部分发送到任何你的播客 APP。 🔗Twitter Post: twitter.com/xiaohuggg/status/1675133509621678084 💡关键词： #PodcastGPT #播客内容筛选

7️⃣ 🧠DreamDiffusion：从大脑脑电图信号（EEG）生成高质量图像，而且无需将思想转化为文本。他们利用了预训练的文本到图像模型，并在训练过程中随机地隐藏一部分 EEG 信号，然后训练模型去预测被隐藏的部分。这样做的目的是让模型学习到 EEG 信号的内在结构和模式，从而获得更有效和更稳健的 EEG 表示。 🔗Twitter Post: twitter.com/xiaohuggg/status/1675127527290044416 💡关键词： #DreamDiffusion #EEG 图像生成

8️⃣ 🔬科学家们首次呈现了一个成年大脑的神经连线图，这个大脑来自一只雌性果蝇。这个连线图包含了大约 130,000 个神经元之间的 5x10^7 个化学突触。他们演示了如何追踪突触路径和信息流，从输入（感觉和上行神经元）到输出（运动、内分泌和下行神经元），跨越两个半球，以及在中央大脑和视觉叶之间。 🔗Twitter Post: twitter.com/xiaohuggg/status/1675115971147890694 💡关键词： #神经连线图 #果蝇大脑

7 月 1 日

🌗

🔔 小互的 7 月 1 日推特更新 🔔

✨✨✨✨✨✨✨✨✨✨

🔔小互的推特 7 月 1 日更新

1️⃣ 💡Anther AI：利用你的知识和记忆创建个人定制 LLM。这些模型可以存储你的知识和记忆🧠。你可以通过聊天💬和日记📖训练你的 AI。其目标是捕捉和保存人类的经验，以便将来的后代可以访问，也就是数字永生的概念。同时它还能记录你的声音🔊，可以像你一样发声。上传你的照片📸还能创建一个和你相似度的动画化身。 🔗Twitter Post: twitter.com/xiaohuggg/status/1675091491159699456 💡关键词： #AntherAI #个人定制 LLM

2️⃣ 🖼️Any Image to 3D：可以将复杂 2D 图像转换为 3D 模型的量产 AI 系统。你可以将你的想法、画面（比如一件家具或一个奇特的生物）记录下来。再使用像 Midjourney、stable diffusion 或 Dall-E 这样的工具将你的概念转化为实体图像。然后无需高级的技术知识，无需高级的 3D 建模技能，通过该工具即可创造出 3D 模型！ 🔗Twitter Post: twitter.com/xiaohuggg/status/1675062623111618561 💡关键词： #AnyImageto3D #2D 转 3D

3️⃣ 🤖苏黎世联邦理工学院机械工程学生开发了一种名为 "Belle" 的自主水下机器鱼🐠，它能够在不干扰其探索的微妙生态系统的情况下收集 DNA 样本并进行水下摄影📷。Belle 像真正的鱼一样移动和行为，使其能够无缝地导航水下环境，同时收集重要的生物多样性数据。 🔗Twitter Post: twitter.com/xiaohuggg/status/1675058995239993344 💡关键词： #自主水下机器鱼 #生物多样性数据收集

4️⃣ 🗣️ChatPDF 是一个开源项目，允许用户通过私有的 OpenAI 密钥与 PDF 文件进行对话。总结和分析论文、学术文章，报告总结、分析和针对细节的提问。回答任何 PDF 中的任何问题。项目地址：github.com/austin2035/chatpdf 🔗Twitter Post: twitter.com/xiaohuggg/status/1674976372094300160 💡关键词： #ChatPDF #对话式 PDF 阅读

5️⃣ 🍏以色列公司开发了一种"飞行自主机器人"。机器人由最先进的人工智能和计算机视觉算法驱动，使它们能够精细地收获果实。这些机器人能够在农场上执行多种任务。它们能收获各种不同的果实，包括苹果和核果。机器人还能收集和报告摘的每个果实的信息，如单个果实大小、重量、成熟度、疾病等的综合数据。 🔗Twitter Post: twitter.com/xiaohuggg/status/1674969368005062656 💡关键词： #飞行自主机器人 #精细果实收获

6️⃣ 💬当 token 超过一定长度后，GPT 忘记了之前的内容。通过每 5 条消息创建一个摘要，摘要以 JSON 格式保存，通过将摘要保存为 JSON 格式，可以确保即使 GPT 忘记了之前的对话，我们仍然能够追溯到先前的对话内容。这种方法有效地扩展了对话长度，让我们能够更长时间地与 GPT 进行交互，从而获得更多有用的回答。 🔗Twitter Post: twitter.com/xiaohuggg/status/1674961916303933440 💡关键词： #GPT 对话长度扩展 #JSON 格式摘要

6 月 30 日

🌗

🔔 小互的 6⃣️ 月 3⃣️0⃣️日推特更新 🔔

✨✨✨✨✨✨✨✨✨✨

1️⃣🐦 Twitter 关上了大门 🚪🔒 Twitter 网页版不再允许用户未登录的情况下浏览内容。所有网址都被重定向到注册页面。这被认为是一种防止抓取工具获取 Twitter 数据的措施。早在四月份，Twitter 就取消了未注册用户使用搜索功能。 🔗 https://twitter.com/xiaohuggg/status/1674782589805293583?s=20

2️⃣ 🔢 One-2-3-45：45 秒内将任何单一的 2D 图像转化为 3D 效果 🖼️➡️🏞️ 首先，使用一个特殊的模型来从原始的 2D 图片生成多个不同角度的 2D 图像。这就像是从不同的角度看同一个物体。然后，使用一个基于 SDF 的神经网络模型，将这些不同角度的 2D 图像"堆叠"起来，形成一个完整的 3D 形状。 🔗 https://twitter.com/xiaohuggg/status/1674746125616807936?s=20

3️⃣🤖 加州理工学院开发出了一款名为”M4”（Multi-Modal Mobility Morphobot）的能跑能飞的新型智能机器人 🚀 M4 可以实现 8 种不同运动方式，使用人工智能自主决定自己应该做什么，它可以自行决定何时行走、站立、滚动或飞行。而且还可根据周围的环境条件进行调整。 🔗 https://twitter.com/xiaohuggg/status/1674686529971830784?s=20

4️⃣📊 Character.ai 上个月网络访问量达到 2.8 亿次，环比增长 60%，平均会话时长接近 30 分钟 ⏳ 而相比之下： ChatGPT 平均 7 分钟 ⏳ http://Jasper.ai 平均 4 分钟 ⏳ http://You.com 平均 5 分钟 ⏳ http://Replika.ai平均 2 分钟 ⏳ 可见角色扮演类型的市场还是很大！ 🔗 https://twitter.com/xiaohuggg/status/1674650996948217856?s=20

5️⃣💰 Inflection AI 宣布在最新一轮融资中获得 1.3B 美元后首席执行官兼联合创始人 @mustafasuleymn 谈论公司的下一步发展 💡 🔗 https://twitter.com/xiaohuggg/status/1674614280816320512?s=20

6️⃣🎮 将 AI 接入到虚拟伴侣模拟游戏 🐕 Proxima 公司开发的一个名为 Lumari 的原型，这是一个可以感知、解释和从周围环境中实时学习的虚拟伴侣。他们以此原型开发了一个 Nemo AI 的虚拟狗，并将它接入到游戏。Nemo 是独立于游戏世界构建的。可以实时感知、解释周围环境并从环境中进行学习进化，就像真正的玩家一样。 🔗 https://twitter.com/xiaohuggg/status/1674605563957886978?s=20

7️⃣🎬 Wonder Studio 结束内测，向所有人开放了 🎉 Wonder Studio 可以自动化将现实场景中的人物转换替代成 CG 角色，还可以进行动画、灯光和合成。使用该工具不需要复杂的 3D 软件和昂贵硬件，只需要一台相机拍摄视频，然后使用该工具即可将人物替换成 CG 角色。传送门：http://wonderdynamics.com 🔗 https://twitter.com/xiaohuggg/status/1674583399795920896?s=20

8️⃣🎥 Webcam Motion Capture：通过你的电脑或智能手机的摄像头即可完全控制和制作你专属的 3D 虚拟形象 👥 只需要网络摄像头，无需购买 Leap Motion 或任何特殊设备。它就可对你进行头部追踪、眼球追踪、眨眼检测、唇形同步和上半身追踪，用来制作动态的虚拟形象！还可以将捕捉到的运动数据保存为 FBX 文件。 🔗 https://twitter.com/xiaohuggg/status/1674402628288266240?s=20

6 月 29 日

🙋

🐦 小互 6 月 29 日推特更新 📆

✨✨✨✨✨✨✨✨✨✨

1️⃣ Webcam Motion Capture 🎥🎭

这是一种革新的技术，可以通过你的电脑或智能手机的摄像头，实现对你专属 3D 虚拟形象的全面控制和定制。最多可以设置 20 个子动画，无需购买 Leap Motion 或任何特殊设备，非常实用并且方便。

👉 关键词：电脑摄像头、3D 虚拟形象、动画制作 https://twitter.com/xiaohuggg/status/1674402628288266240?s=20

2️⃣ WebPilot 的 Chrome 插件 🌐🧩

强力推荐 WebPilot 的 Chrome 插件，现在你不需要 ChatGPT Plus 就可以体验到 WebPilot 的强大功能。虽然免费额度有些少，但是其独特的功能确实值得一试。

👉 关键词：WebPilot、Chrome 插件、ChatGPT Plus https://twitter.com/xiaohuggg/status/1674394865915002881?s=20

3️⃣ 关于美团收购光年之外的观点 📝🔭

小互发表了一份关于美团收购光年之外的观点，提供了深入的见解和独到的角度，值得一读。

👉 关键词：美团、光年之外、并购观点 https://twitter.com/xiaohuggg/status/1674355454221352960?s=20

4️⃣ 微软迁移到云端 💻☁️

微软计划将 Windows 完全迁移到云端并融入 AI 功能，这可能会重新定义我们对操作系统的理解和使用方式，值得关注。

👉 关键词：微软、Windows、云端迁移 https://twitter.com/xiaohuggg/status/1674352649666441221?s=20

5️⃣ MVDiffusion 📷🔄

这是一种简单而有效的多视图图像生成方法。该系统能够从多个不同的视角生成图像，且视觉上是一致的，如能从文本提示生成全景图像等，显示了 AI 在图像生成领域的巨大潜力。

👉 关键词：多视图图像生成、AI、全景图像 https://twitter.com/xiaohuggg/status/1674329142811303936?s=20

6️⃣ Paste 🖥️📋

Paste 是一款强大的剪贴板增强工具，它会自动将您复制的所有内容保存到剪贴板历史记录中，确保您永远不会丢失任何重要内容，大大提高了工作效率。适用于 Mac 和 iOS

👉 关键词：剪贴板增强、Mac/iOS、生产力应用 https://twitter.com/xiaohuggg/status/1674310361259057152?s=20

7️⃣ 人工智能聊天机器人的新用途 🤖💬

根据媒体研究组织 NewsGuard 与《麻省理工科技评论》一份新报告，人们正在利用人工智能聊天机器人填充垃圾网站，并吸引付费广告商。超过 140 个主要品牌在这些人工智能生成的新闻网站上投放广告，其中 90%的广告由谷歌提供。这种做法可能加剧垃圾信息的传播，并浪费大量广告资金

👉关键词：AI 聊天机器人、垃圾网站、广告商 https://twitter.com/xiaohuggg/status/1674300744344932353?s=20

8️⃣ 用 AI Face Swap 马斯克大战扎克伯格的视频 🎬🤩

这是一段用 AI Face Swap 技术制作的视频，非常有趣和引人注目，可以看到 AI 技术在娱乐领域的巨大潜力。

👉 关键词：AI Face Swap、马斯克、扎克伯格 https://twitter.com/xiaohuggg/status/1674287208612892676?s=20

9️⃣ The Midjourney Cheat Sheet V5.2 📑🚀

这是一个全面而详细的 Midjourney 项目的功能和参数清单图表，可以打印出来放在工作区，帮助你更好地理解和使用 Midjourney 项目的各种功能和参数。包括了所有的基本设置和提示参数

👉 关键词：Midjourney 项目、功能参数、高级概念 https://twitter.com/xiaohuggg/status/1674250674182438912?s=20

🔟 Playground AI 的重大更新 🎨🔬

这次更新引入了混合图像编辑功能，允许用户将真实和合成图像结合起来，创作出令人惊叹的作品和逼真的图像，创作出令人惊叹的作品和逼真的图像。同时强大的协作 Canvas 编辑器，可以在其上叠加多个编辑层。

👉 关键词：Playground AI、混合图像编辑、AI 图像创作 https://twitter.com/xiaohuggg/status/1674239691506450432?s=20

1️⃣1️⃣ 一个新颖的游戏 🎮😂

这是一款新颖但是令人抓狂的游戏，要求你必须不断输入密码，以达到规则要求，无疑会带给玩家独特的游戏体验。

👉 关键词：沙雕，无聊 https://twitter.com/xiaohuggg/status/1674225123296153600?s=20

1️⃣2️⃣ Zing Coach 📸🏋️‍♂️

只需 2 张自拍照，就能获得你身体的健康扫描报告，帮助你制定健身和营养计划，小互做了亲测体验，结果让人惊喜。

👉 关键词：Zing Coach、自拍照、健康扫描报告 https://twitter.com/xiaohuggg/status/1674064760374022144?s=20

6 月 28 日

🐙

🐦 小互 6 月 28 日推特更新 📆

✨✨✨✨✨✨✨✨✨✨

1️⃣ FableForge 🖌️📖

免费 AI 生成绘本，展示了如何利用新的 AI 工具和方法来克服难题。通过利用 LangChain、OpenAI 的函数调用特性、Stable Diffusion 的图像生成能力，以及 Deep Lake 的多模态数据集存储和分析能力，创建了一个开启儿童图画书创作新前沿的应用。 👉 https://twitter.com/xiaohuggg/status/1671009581710069767?s=20

2️⃣ 转发了宝玉老师的翻译课程📚🌐

Google 的"Generative AI learning path"系列翻译 👉 https://twitter.com/xiaohuggg/status/1674051621989261314?s=20

3️⃣ 利用 ChatGPT 规划山地骑行路线 🗺️🚵♀️ 👉 https://twitter.com/xiaohuggg/status/1673943717227667458?s=20

4️⃣ SnapCalorie 🍲🔍

使用人工智能模型和手机传感器，用照片估算一顿饭中的卡路里含量。 👉 https://twitter.com/xiaohuggg/status/1673923765665931265?s=20

5️⃣ 有趣的 AR 互动 🥊📱

一边打拳击一边刷视频，刷到老铁直接给他一拳点赞，两拳收藏，以后搞不好还可以踹一脚点踩，打一巴掌刷下一个，哈哈哈哈 👉 https://twitter.com/quinn_leng/status/1673842317600632833?s=20

6️⃣ Movie Screencap 🎥🌈

高质量电影截图和影视颜色数据库。 👉 https://twitter.com/xiaohuggg/status/1673880534278356992?s=20

7️⃣ Inflection AI 💻🌐

pi 背后的模型，与 NVIDIA 和 CoreWeave 合作，开发出全球最大的计算集群。 👉 https://twitter.com/xiaohuggg/status/1673866306007994369?s=20

8️⃣ Unity 公司的新产品：Unity Muse 和 Unity Sentis 🎮🤖

Unity 公司发布两款新的 AI 产品：Unity Muse 和 Unity Sentis。 👉 https://twitter.com/xiaohuggg/status/1673857444601266176?s=20

9️⃣ ChatGPT 客户端更新 💬🔄

允许使用 Bing 联网功能，在 GPT4 拉菜单中可以选择，部分用户表示更新了也没看到。 👉 https://twitter.com/xiaohuggg/status/1673844650279567360?s=20

🔟 LayerDivider 🖼️➗

可以自动将一张图片分离成多个图层并支持导出为 psd 格式。 👉 https://twitter.com/xiaohuggg/status/1673701793170325505?s=20

6 月 27 日

🎉

🐦 小互的 6 月 27 日推特更新 📆

✨✨✨✨✨✨✨✨✨✨✨✨

1️⃣ MotionGPT 💃🏻🕺 - 统一、多功能的运动语言模型，能够将语言指令转换为 3D 人体运动！如"踢腿"或"跳舞"等。

👉 https://twitter.com/xiaohuggg/status/1673580457118797824?s=20

2️⃣ http://elevenlabs.io 🗣️🎙️

发布的语音库，各种类型声音一应俱全，所有声音都是随机生成的，且独一无二，质量上乘。
👉 https://twitter.com/xiaohuggg/status/1673571865124810753?s=20

3️⃣ LangTale Playground 👨💻👩💻

首个支持 OpenAI 函数调用的工具，不需要编写代码，提供用户友好的图形用户界面（GUI）。
👉 https://twitter.com/xiaohuggg/status/1673550688889208832?s=20

4️⃣ Photoshop 画笔工具 🎨🖌️

使用画笔工具绘制草图，然后用草图生成图像。
👉 https://twitter.com/xiaohuggg/status/1673535729799139329?s=20

5️⃣ Databricks 与 MosaicML 🤝💼

Databricks 公司已经同意以 13 亿美元的股票交易收购人工智能初创公司 MosaicML。
👉 https://twitter.com/xiaohuggg/status/1673524918313697280?s=20

6️⃣ OpenAI 的 ChatGPT 💬🤖

OpenAI 计划将其聊天机器人 ChatGPT 转变为一个“超级智能的工作个人助理”。
👉 https://twitter.com/xiaohuggg/status/1673521188222693377?s=20

7️⃣ QuestEnvSim 👓🎮

仅通过 VR 头显设备对周边环境感知，来跟踪模拟人体全身运动。
👉 https://twitter.com/xiaohuggg/status/1673511677906788354?s=20

8️⃣ RealityScan 📸🏞️

仅用手机或平板电脑拍摄照片即可创建高保真 3D 模型，只需全方位拍摄物体多张图片，它就会自动创建出高保真度的 3D 模型。
👉 https://twitter.com/xiaohuggg/status/1673270131844325376?s=20

XiaoHu.AI日报

短链接直达：XiaoHu.AI

请关注小互的 推特 𝕏：https://twitter.com/imxiaohu

8月21日

8月12日

8月5日

8 月 4 日

8 月 1 日

7 月 9 日

7月 8 日

7月1-3日

6月29-30日

6月25日

6月24日

6月9日

6月7日

5月30日

5月29日

5月27日

5月26日

5月24日

5月23日

5月21日

5月19日

5月18日

5月17日

5月15日

5月10日

5月9日

5月8日

5月7日

5月6日

5月2日

5月1日

4月30日

4月29日

4月27-28日

4月26日

4月25日

4月20-22日

4月19日

4月18日

4月17日

4月15-16日

4月14日

4月13日

4月8日

4月7日

4月4-6日

4 月 3 日

4 月 2 日

4 月 1 日

3 月 31 日

3 月 29 日

3 月 28 日

3 月 27 日

3 月 25 日

3 月 24 日

3 月 23 日

3 月 22 日

3 月 21 日

3 月 20 日

3 月 19 日

3 月 18 日

3 月 17 日

3 月 15 日

3 月 14 日

3 月 13 日

3 月 12 日

3 月 11 日

3月 10 日

3 月 3 日

3 月 2 日

3 月 1 日

2 月 29 日

2 月 28 日

2 月 27 日

2 月 26 日

2 月 25 日

2 月 24 日

请关注小互的推特 𝕏：https://twitter.com/imxiaohu

2月17日祝大家明日开工大吉

2月9日除夕快乐