在这个智能科技飞速发展的时代,百度的世界大会于8月18日与央视新闻联手直播,主题为《AI这时代,星辰大海》。你觉得这次大会有哪些值得关注的内容呢?最大的亮点又在哪里呢?
AI这时代 星辰大海–百度世界大会2021
欢迎来到《未来触手可及:AI科技周刊 – 19》,这是您专属的AI科技前沿观察站,时间是2024年11月第3周。在这个快速变化的智能时代,我会为您带来最精华、最深入的AI新闻解读和技术分析。每周,我都会挑选出过去一周内最值得关注的AI新闻和技术突破,从硅谷到中关村,从实验室到市场应用,帮助您把握全球AI科技的最新动态。
模型
字节豆包团队推出了AI图像编辑模型SeedEdit [1]
SeedEdit 是国内首个产品化的通用图像编辑模型,使用简单的自然语言就能实现换背景、风格转换,甚至在特定区域增删替换元素,完全不需要手动描边。
想试试吗?可以进入 这个链接,上传你的照片,输入编辑提示,点击“编辑”就能体验了。
此外,它还可以在即梦和豆包平台上使用。
豆包 Web:这里
即梦 Web:这里
以即梦为例,上传一张参考图,选择“智能参考”,然后根据需要输入提示词即可。

想把手枪换成如意金箍棒吗?

一句话就能给黑白老照片上色,效果时尚又舒适。

即刻造梦,豆包PixelDance模型正式上线[2]
还记得我们之前提到的目前最强视频模型PixelDance吗?
今天终于不再内测,正式在即梦AI上线了。
您可以打开即梦App或访问官网
这里
在视频模型中选择最新的S2.0 Pro或P2.0 Pro。
S2.0 Pro专注于首帧一致性,而P2.0 Pro则能极高地遵循提示词,也就是说,您的各种创意都可以尝试用P2.0 Pro来实现。

比方说,我在网上找到了一张杀手47的图片。

给它一段提示词后,生成了下面的视频。

点击观看视频
讯飞星火推出多模态交互大模型[3]
本周讯飞星火推出了多模态交互大模型SDK,让开发者可以把这个模型的能力接入到自己的应用系统产品中。

点击了解更多
这个模型结合了语音、视觉和数字人交互功能,具体包括:
语音交互:支持语音到语音的端到端建模,能敏锐感知情绪变化,依据指令调整声音的节奏、音量和角色,提供更个性化的互动体验。
视觉交互:能够“听懂世界”“认清万物”,全面感知具体背景、物流状态等信息,让任务理解更精准。
数字人交互:引入超拟人数字人技术,数字人的动作可以精准匹配语音内容,快速生成表情和动作,极大提升AI的生动性和真实感。
这些都可以应用于个人助理、智能陪练、情感陪伴、教育培训等场景。

阿里云开源代码模型Qwen2.5-Coder[4]
阿里云通义大模型团队开源了通义千问代码模型系列,共有六款Qwen2.5-Coder模型。
新发布的旗舰模型Qwen2.5-Coder-32B-Instruct在EvalPlus等十多个主流代码生成基准上刷新了开源模型的得分记录,并且在考察代码修复能力的Aider和多编程语言能力的McEval等九个基准上超越了GPT-4o,实现了开源模型对闭源模型的反超。

产品
一句话生成应用,通义代码模式正式上线[5]
通义的代码模式就是利用Qwen2.5-Coder模型,可以用一句话直接制作应用。
进入通义千问后,点击前往代码模式。这里

接下来,您可以直接输入应用需求,通义代码模式会自动生成代码。

应用会直接可以预览和下载分享。

百度发布秒哒,无需编程实现各种想法[6]
在百度世界2024大会上,百度推出了类似于通义低码模式的产品——秒哒,无需编写代码,就能实现各种创意。
百度的CEO李彦宏表示,秒哒有三个特点:无代码编程、多智能体协作和多工具调用,“我们即将迎来一个只靠想法就能赚钱的时代”,让每个人都可以像程序员一样轻松实现创意。
现在秒嗒还在内测阶段,想要体验的小伙伴们可以去申请,申请地址在这里哦:https://digital.cloud.baidu.com/mF/commonLandingPage/CTA/889605a4883041b98b16538350ea33f8
百度新推出的自由画布,真是个万能工具!
这款“自由画布”是百度文库和百度网盘合作开发的,功能强大。

https://www.zhihu.com/video/1841421950628524034
它是由文心多模态大模型驱动的万用白板,能帮你完成找资料、编辑、生成和分享等各种任务。
你可以把音频、视频、图片等素材拖到画布上,随便输入一句话,就能生成你想要的内容。
想制作数据图表或者PPT?直接在画布上就能搞定。
百度把文库里的公开知识和网盘里的私人资料结合起来,再利用AI大模型,助力各种内容创作。
关于百度的iRAG技术,让AI绘图更真实!
在2024年的百度世界大会上,除了自由画布和秒嗒,iRAG也是一款与AI绘图相关的新产品。
你可能知道,AI绘图有时会出现“幻觉”,这是什么意思呢?
例如,你让AI画个故宫,虽然看起来还不错,但细节上总会和真实的故宫有差距。

iRAG技术通过整合百度搜索的海量图片和强大的基础模型,解决了这个幻觉问题。
比如上面的图片是爱因斯坦在天坛前抽烟,左边是百度生成的,大家可以对比一下,左边看起来就像真实照片一样。
这就是iRAG解决的幻觉问题,能够精准生成特定的人物、地点和事件。
它的原理是从庞大的图库中找到与文本描述最相关的图片,然后理解、重组、创新这些图片,最终生成高质量的全新图像。
现在在文心一言上体验的,正是百度的iRAG技术。
你觉得精准吗?
ima.copilot Windows版本终于来了!
上个月介绍过的腾讯推出的桌面端Copilot ima.copilot,当时只限于Mac用户,现在Windows版本终于上线了!
https://ima.qq.com/

我觉得,腾讯的Copilot客户端通过私有知识库功能,实现了与其他产品的差异化竞争。
用户可以批量上传大量的PDF和Word文件,作为自己的私有知识库。

此外,你还可以把ima.copilot当作浏览器,随时收藏网页内容到你的私有知识库中。

这样一来,后续提问的时候,就可以直接利用你自己的知识库来回答。

秘塔AI搜索新推出“专题”板块,支持自定义知识库的AI搜索
这周秘塔AI搜索也推出了全新的“专题”板块,同样是用自定义知识库进行AI搜索。
进入秘塔AI搜索的专题页面后,可以看到创建专题的选项,用户可以上传文件来构建AI搜索。

创建专题后,可以上传文件或粘贴在线网址。

之后,你可以在专题内进行提问,这对那些有大量内部培训资料的人,快速查找信息特别有帮助。

最重要的是,这个专题可以直接提供API接口。
这样一来,你就可以低成本在企业内部实现办公助手等应用。
至于费用方面,5000点的免费额度相当于可以上传500M的文件,或进行500次API调用。如果需要增加额度,最高折扣是每1000点(即上传100M文件/进行100次API调用)只需2.6元。
硬件方面
小度AI眼镜,全球首款搭载中文大模型的AI眼镜[11]
在2024百度世界大会上,小度科技的CEO李莹推出了全球首款搭载中文大模型的原生AI眼镜——小度AI眼镜。
这款眼镜配有1600万像素的广角摄像头,重量仅为45克,续航时间长达56小时,连续听歌超过5小时,一次充电只需30分钟,用户可以随时与AI互动,化身为AI导游、百科全书、翻译助手和音乐DJ。

https://www.zhihu.com/video/1841421827156615168
这款眼镜预计明年就会上市。
雷鸟新款AI拍摄眼镜也在路上![12]
除了小度的AI眼镜,雷鸟最近也放出了预告,准备推出新款AI拍摄眼镜——雷鸟V3。
目前已知的信息是,这款眼镜将搭载高通骁龙AR1处理器。
这个高通骁龙AR1芯片专为轻薄智能眼镜设计,显著优化了功耗,并集成了第三代NPU,提升了图像增强、语音交互和图像搜索等性能。
新款AI眼镜即将来袭,互动更自然!
最近,雷鸟透露,他们正在和国内顶尖的AI大模型公司合作,计划为即将推出的眼镜打造一个基于眼镜端的强大大模型。这意味着,未来用户可以享受到更加自然的互动体验,以及更加丰富的应用场景,真是让人期待啊!

END
大家好,我是李祺,专注于微软 Power Platform 的 MVP。自2014年进入开发行业以来,我对微软的云产品有了深入了解。从2020年开始,我主要聚焦于 Power Platform,帮助微软和许多公司进行售前、培训和实施服务。最近,我还进军了 Azure OpenAI 的领域,希望能普及更多的产品知识,帮助国内用户更快上手。自2021年起,我创建了个人公众号和知乎账号【李祺 Varman】,目前已经提供了200多份 Power Platform 的中文学习资料,并持续更新与 ChatGPT 和 Azure OpenAI 相关的内容,欢迎大家到公众号的【问答社区】来咨询问题!











这次大会的AI技术亮点真的很吸引人,尤其是SeedEdit的图像编辑功能,值得一试!
这次大会听说有很多新技术,感觉AI的未来无限可能,大家一定要关注哦!
这些AI技术真是太酷了!SeedEdit能这样简单地换背景吗?效果如何呢?
看到阿里云的开源模型Qwen2.5-Coder,感觉开发者们的工作会变得更轻松了。
听说即梦上可以试用PixelDance,真想赶紧体验一下,看看能生成什么样的视频。
SeedEdit的简单操作确实让人惊艳,感觉普通人也能轻松进行创意设计,真心想试试!
AI科技周刊每周都有新内容,简直是跟上科技潮流的最佳选择!
从大会的内容来看,AI的未来确实充满惊喜,大家要多关注这些技术动态。