之前的文章中,我分享了使用谷歌的最新的图片生成模型NanoBananaPro的一些使用经验,感兴趣的可以阅读:
AI生图第1节:惊掉下巴的AI生图模型NanoBananaPro教程
AI生图第2节:Java对接谷歌NanoBananaPro模型API生图
AI生图第3节:NanoBananaPro制作表情包,已上架微信
AI生图第5节:NanoBanana制作微信春节红包封面,上架
最近一直在分享谷歌的生图模型,我分享了用NanoBananaPro制作微信表情包图片并实现了上架、微信红包封面图片并实现了上架等,从这个过程中不知道大家是否发现了这样一个现象,我们用NanoBananaPro制作的任何图片内容都可以形成单独的一套生态、一套服务,一套特定行业的解决方案,一套可以开源或者对外提供的产品。
那么如果我们生成的图片内容是关于PPT的,那么是不是可以证明NanoBananaPro可以制作PPT呢,答案是可以的。
简单的实现的PPT每一页都是图片,高级一点PPT中的图片是可以编辑的。
NanoBananaPro是一个非常厉害的大模型,每一个实际的业务想法,我们都可以变为单独的产品。本节分享NanoBananaPro输出PPT的一点经验,这里分享已有开源项目实现的PPT和我用秒哒制作的图片生成PPT的分享。
分享之前我们可以思考一下,如果让你来从架构设计上来设计NanoBananaPro生成PPT,你会如何设计呢。
目前通常的方案也是分成多个步骤实现,比如我们先准备好PPT的大纲和内容,而大纲和内容也可以让AI文本模型根据我们的知识和资料生成,有了PPT的内容,在交给图片生成模型实现图片制作,同时为了保证相关页面风格的统一,我们可以生成图片提示词的时候,添加相关说明,从而保证最终输出结果相关提示词和结构的一致性。
因此如果我们要实现NanoBananaPro实现PPT的制作,需要有文本模型、图片生成模型等内容。
目前开源项目中,有个做得不错的项目:banana-slides

目前项目的开源STAR已经有了12K,地址为:https://github.com/Anionex/banana-slides,它是一个基于nano banana pro🍌的原生AI PPT生成应用,支持想法/大纲/页面描述生成完整PPT演示文稿,自动提取附件图表、上传任意素材、口头提出修改,迈向真正的"Vibe PPT" 🎯 降低PPT制作门槛,让每个人都能快速创作出美观专业的演示文稿

网友制作的效果页面可以参考地址:https://github.com/Anionex/banana-slides/issues/2
这个项目的功能也比较强大:
灵活多样的创作路径
支持想法、大纲、页面描述三种起步方式,满足不同创作习惯。
强大的素材解析能力
开箱即用的格式导出
可自由编辑的pptx导出(Beta迭代中)
接下来我们本地电脑上操作下试试效果看看,这里我用的是API易的代理站的方式访问,因此某些配置大模型地址的时候,我配置的是大模型代理站的地址。
首先,我们克隆下代码仓库:
git clone https://github.com/Anionex/banana-slidescd banana-slides
然后复制下环境变量的文件:cp .env.example .env修改.env中的相关配置:Gemini 格式配置(当 AI_PROVIDER_FORMAT=gemini 时使用)GOOGLE_API_KEY=xxxxxxxGOOGLE_API_BASE=https://api.apiyi.comOPENAI_API_KEY=xxxxxOPENAI_API_BASE=https://api.apiyi.com/v1# 超时时间(秒),默认300秒OPENAI_TIMEOUT=300.0# 最多重试次数,减少重试避免累积超时,默认2次OPENAI_MAX_RETRIES=2
配置完成后,我们开始构建Docker镜像,项目在 Docker Hub 提供了构建好的前端和后端镜像(同步主分支最新版本),可以跳过本地构建步骤,实现快速部署:
docker compose -f docker-compose.prod.yml up -d截图:
等待一会儿,我们的镜像拉取完成后,我们浏览器访问下地址:http://localhost:3000,访问后的浏览器界面如下所示,和在线预览的是相同的地址:

接下来我们测试下相关的PPT生成服务:

单击下一步后,我们开始生成PPT的大纲,大纲生成完成后的效果如下:

有了大纲后,我们也可以进行修改更新和新增和手动删除等,没问题后,单击下一步生成页面的相关描述,如下所示:

确认无问题后,我们开始选择生成图片进行生成,等待一会儿后,我们就生成了PPT风格的效果:

第2页效果:

第3页效果:

第4页效果:

有了这个图片文件后,我们开始导出:

这里导出可以选择多种格式,目前看效果也是不错的。
目前这个开源项目中的提示词、编排流程、整体的架构设计是非常值得我们进行深入学习的。
最近几天谷歌的NanoBanana2.0模型也发布了,定位是快速的模型。对于这种PPT有些时候,我们可以使用NanoBanana2.0,可以比NanoBananaPro节省一点钱。
谷歌最新图像生成模型 Nano Banana 2 (gemini-3.1-flash-image-preview),Pro级画质、Flash级速度,支持4K输出、14种宽高比、图像搜索Grounding,按次 0.045/次,按量低至0.018/张。
相比 Nano Banana Pro 的 10 种宽高比,Nano Banana 2 新增了 1:4、4:1、1:8、8:1 四种超长/超宽比例,适合长图、信息图等特殊场景。
我们只需要更改env文件中的模型名称,将图片生成模型更改为:gemini-3.1-flash-image-preview,默认的IMAGE_MODEL是nanobananapro模型的代号。
既然我们知道这个开源项目的PPT生成的思路,那么我们可以基于百度秒哒平台实现类似的效果,这里在使用开源项目之前,我使用了秒哒做了一个简单版本的在线PPT生图效果:

这里我在秒哒上的提示词如下:
请帮我设计并规划一个功能完备、体验流畅的AI生成PPT的Web应用程序。该产品旨在通过先进的AI技术,将用户简单的文本描述快速转化为专业、美观的演示文稿。此项需求的核心目标是将AI能力与优雅的用户界面无缝结合,打造一款商业级产品。具体要求如下:总体目标开发一个通过浏览器访问的在线PPT生成工具。核心流程分步清晰:用户输入提示词 -> AI生成大纲与文本内容 -> 用户审阅确认 -> AI生成每一页的视觉设计 -> 最终导出PPT文件。整体页面设计须达到商业化产品级别,UI精致、交互流畅、视觉吸引力强。核心功能流程第一步:内容生成提供一个显著的输入区域,供用户输入PPT主题或详细的需求提示词。调用文本生成大模型,根据提示词自动生成一个完整的PPT大纲(包括标题和最多8个页面的分标题与要点内容)。生成后,在一个清晰的预览界面中向用户展示大纲和详细文本内容,并提供确认或重新编辑的选项。第二步:视觉生成与渲染用户确认文本内容后,进入本步骤。系统调用图片生成大模型,根据每一页PPT的标题和内容要点,自动生成或匹配一张符合该页主题的背景图片或主视觉图。在界面上以幻灯片预览的形式,逐页渲染出最终的PPT页面效果,包括生成的图片、标题和文本内容。第三步:下载输出所有页面渲染完成后,提供一个明显的“下载PPT”按钮。点击后,系统将生成的幻灯片(包括所有文本、布局和图片)打包成一个标准的.pptx格式文件供用户下载。明确设定单次生成的最大页数为8页。用户界面与体验设计设计风格:现代、简约、专业,符合B端或专业C端用户的审美,界面元素精细,有高级感。交互逻辑:流程引导清晰,每一步都有明确的状态提示。加载过程应有优雅的动画反馈。核心页面布局:首页/输入页:设计简洁而突出,重点引导用户输入。内容预览页:布局清晰,便于用户快速审阅和修改文本。PPT渲染预览页:以缩略图或幻灯片放映模式展示最终效果,视觉冲击力强。考虑加入一个展示历史生成记录的个人中心页面。技术实现要点前端需与至少两种AI模型API进行对接:一个用于文本生成,一个用于图片生成。需要实现一个后端服务,用于协调前后端通信、处理AI API调用、管理用户会话以及生成最终的PPT文件。整个应用需具有良好的响应式设计,确保在不同尺寸的设备上都有良好的浏览体验。
输入提示词的时候,我选择了文本模型插件、图片生成插件,这样我们也是先通过文本模型实现大纲生成,然后图片生成PPT的内容,这里我也迭代了多版:

基于百度秒哒的这个应用,会用到SUPABASE作为后端服务,目前定义了4个边缘函数:

可以实现文本的生成、图片生成任务的查询等。
如果没有秒哒账号的小伙伴,可以使用我的邀请链接进行注册哦:https://www.miaoda.cn/?invitecode=user-8wkftqpnn7cw
接下来也看下我基于百度秒哒实现的PPT生成,输入我们的测试问题:

这里我也是首先先调用文本模型生成相关的内容大纲,如下所示:

接下来我们开始进行PPT图片内容的生成,生成的进行中的效果如下所示:

等待一会儿我们基于百度秒哒生成的PPT就完成了,效果如下:

我们还可以像开源项目项目那样,给它增加上自己喜欢的功能。
本文我想告诉大家的是,AI时代,人人都是AI项目的架构师,每个人都可以根据自己的想法、自己的所见所得开发出来属于自己的项目。
本文通过开源项目实现的NanoBanana生成PPT、基于百度秒哒创建的应用实现PPT来展示谷歌这个图片生成模型的价值,以及相关想法。感兴趣的可以继续学习和创新。
喜欢本文的,可以关注、收藏、点赞、转发、分享到朋友圈哦。
喜欢的可以加入我的免费知识星球与我一起学习相关开发技术:觉醒的新世界程序员,或者我的付费知识星球获取与了解AI技术、AI图片生成等内容哦:觉醒的AI技术经验,随时与我沟通,交流技术与想法。

喜欢的也可以关注我的公众号:无处不在的技术,与我一起学习成长、共同进步,在技术的道路上越走越远。
喜欢就点个 在看呗 👇2