Google 开发者大会Gemini 1.5pro、 image FX、video FX和photoFX

举报
此星光明 发表于 2024/05/17 11:08:43 2024/05/17
【摘要】 Gemini era 双子座时代一年前,我们在 I/O 舞台上首次分享了我们的双子座计划:一个从一开始就具有本地多模态功能的前沿模型,可以跨文本、图像、视频、代码等进行推理。这标志着我们在将任何输入转化为任何输出方面迈出了一大步--这是新一代的 "I/O"。从那时起,我们推出了迄今功能最强大的首批双子座型号。它们在每个多模式基准测试中都表现出了最先进的性能。两个月后,我们又推出了双子座 1....

Gemini era 双子座时代
一年前,我们在 I/O 舞台上首次分享了我们的双子座计划:一个从一开始就具有本地多模态功能的前沿模型,可以跨文本、图像、视频、代码等进行推理。这标志着我们在将任何输入转化为任何输出方面迈出了一大步--这是新一代的 "I/O"。

从那时起,我们推出了迄今功能最强大的首批双子座型号。它们在每个多模式基准测试中都表现出了最先进的性能。两个月后,我们又推出了双子座 1.5 Pro,在长语境方面实现了重大突破。它可以在生产中持续运行 100 万个代币,超过了其他任何大规模基础模型。

我们希望每个人都能从双子座的功能中受益。因此,我们迅速开展工作,与大家分享这些进步。如今,已有 150 多万开发人员在我们的工具中使用 Gemini 模型。您可以用它来调试代码,获得新的见解,并构建下一代人工智能应用。

我们还以强大的方式将 Gemini 的突破性功能应用到我们的产品中。我们今天将展示搜索、照片、工作空间、Android 等产品的示例。现在测试了下,只提供美国等少数几个国家。


Gemini 扩展程序上线

一站汇聚多种应用之力,轻松助你事半功倍
Gemini 应用现在可以提供来自 Google 地图、Google 机票、Google 酒店和 YouTube 的实时信息,帮助你集中处理更多事务

Gemini 会自动为你提供帮助
为了向你提供实用内容,Gemini 应用可能会与其他服务分享你的部分对话内容以及其他相关信息,例如你的位置信息。即使你日后删除自己的 Gemini 应用活动记录,这些服务也可能会使用这类信息来改进服务。你可以随时在“扩展程序”页面上关闭扩展程序。

产品进展
如今,我们所有拥有 20 亿用户的产品都在使用 Gemini。

官网:https://gemini.google.com/

我们还推出了新的体验,包括在移动端,人们可以直接通过应用程序与 Gemini 进行互动,该应用程序目前已在 Android 和 iOS 上推出。人们还可以通过双子座高级版(Gemini Advanced)与我们功能最强大的机型进行互动。在短短三个月内,已有超过 100 万人注册试用,而且势头依然强劲。

在搜索中扩展人工智能概述
Gemini 最令人兴奋的变革之一是在谷歌搜索中的应用。

在过去的一年中,作为搜索生成体验的一部分,我们已经回答了数十亿次查询。人们正在使用它以全新的方式进行搜索,提出新类型的问题、更长和更复杂的查询,甚至使用照片进行搜索(AI in Google Search: Circle to Search and more updates),并获得网络所能提供的最佳结果。

介绍 谷歌照片Ask Photos
谷歌照片就是一个例子,我们在近九年前推出了谷歌照片。从那时起,人们就用它来整理自己最重要的记忆。如今,每天上传的照片和视频已超过 60 亿张。

人们喜欢用照片搜索自己的生活。有了双子座,我们将让这一切变得更加简单。

比方说,你在停车站付费,但却想不起车牌号。以前,您可以在照片中搜索关键字,然后翻阅多年的照片,查找车牌号码。现在,你只需询问美图秀秀。它知道哪些车经常出现,会三角定位哪一辆是你的车,然后告诉你车牌号。

此外,"问问照片 "还能帮助你更深入地搜索记忆。例如,你可能正在回忆女儿露西亚的早期成长历程。现在,您可以询问照片:"露西亚什么时候学会游泳的?"

你还可以问得更复杂:"让我看看露西亚的游泳水平是如何进步的"。

在这里,双子座不仅仅是简单的搜索,它还能识别不同的环境--从在泳池里游泳,到在海里浮潜,再到她游泳证书上的文字和日期。美图秀秀还会将所有内容打包成摘要,这样你就能真正了解这一切,并再次重温美好的回忆。我们将在今年夏天推出 "Ask Photos",并将推出更多功能。

通过多模态和长语境获取更多知识
我们从一开始就将双子座打造成多模态系统,这就是我们开发跨格式知识的原因。它是一个内置了所有模式的模型。因此,它不仅能理解每种输入类型,还能发现它们之间的联系。

多模态从根本上扩展了我们可以提出的问题以及我们可以得到的答案。长语境则在此基础上更进一步,使我们能够输入更多信息:数百页的文本、数小时的音频或一小时的视频、整个代码库......或者,如果你愿意,还可以输入大约 96 个芝士蛋糕工坊菜单。


对于这么多的菜单,你需要一个一百万个令牌的上下文窗口,而现在 Gemini 1.5 Pro 可以做到这一点。开发人员已将其运用到超级有趣的方式中。下面是用户体验的视频链接:

https://youtu.be/cogrixfRvWw

在过去的几个月中,我们一直在推出带有长上下文预览版的 Gemini 1.5 Pro。我们在翻译、编码和推理方面进行了一系列质量改进。从今天开始,您将在模型中看到这些更新。

现在,我很高兴地宣布,我们将向全球所有开发者推出改进版 Gemini 1.5 Pro。此外,今天 Gemini 1.5 Pro 的 100 万上下文现在可以直接在 Gemini Advanced 中供消费者使用。该版本可用于 35 种语言。

在私人预览中扩展到 200 万代币
一百万代币开启了全新的可能性。这令人兴奋,但我认为我们还可以更进一步。

因此,今天我们将上下文窗口扩展到 200 万个代币,并在私人预览版中向开发者开放。

回顾过去,我们在短短几个月内就取得了如此大的进步,实在令人惊叹。这代表着我们在实现无限语境这一终极目标的道路上又迈出了新的一步。

将 Gemini 1.5 Pro 引入 Workspace
到目前为止,我们已经谈到了两项技术进步:多模态和长语境。这两项技术本身都非常强大。但两者结合在一起,就能释放出更深层次的功能和更多的智能。

Google Workspace 将为您带来更多惊喜。
人们总是在 Gmail 中搜索电子邮件。我们正在努力通过 Gemini 使其变得更加强大。举例来说,作为家长,你希望随时了解孩子学校的一切动态。双子座可以帮你做到这一点。

现在,我们可以让双子座汇总学校最近发出的所有电子邮件。双子座会在后台识别相关邮件,甚至分析 PDF 等附件。你会得到一份要点和行动项目的摘要。也许你这周出差了,没能参加家长教师协会会议。会议录音长达一小时。如果是 Google 会议,您可以要求 Gemini 为您提供会议要点。有一个家长小组正在寻找志愿者,而你那天正好有空。当然,Gemini 可以起草回复。

这样的例子数不胜数,让生活更轻松。Gemini 1.5 Pro 今天在 Workspace Labs 上发布。Aparna 分享更多信息。


NotebookLM 中的音频输出
我们刚刚看了一个文本输出的例子。但有了多模态模型,我们可以做得更多。

我们正在取得进展,未来还会有更多。NotebookLM 中的《音频概览》展示了这一进展。它使用 Gemini 1.5 Pro 获取源材料,并生成个性化的交互式音频对话。

这就是多模态的机会。很快,你就能混合和匹配输入和输出。这就是我们所说的新一代输入/输出。但如果我们能更进一步呢?

利用人工智能代理更进一步
人工智能代理为我们带来了更多机遇。我认为,它们是具有推理、规划和记忆能力的智能系统。它们能够提前多步 "思考",并跨软件和系统工作,所有这些都是为了代表你完成某件事情,最重要的是,在你的监督下完成。

虽然我们还处于起步阶段,但让我向你展示一下我们正在努力解决的各类用例。

让我们从购物开始。买鞋是一件非常有趣的事情,但当鞋子不合脚时,退货就没那么有趣了。

想象一下,如果双子座可以为你完成所有步骤:

在收件箱中搜索收据 ...

从您的电子邮件中找到订单号...

填写退货表

甚至安排 UPS 取货。

这就简单多了,对吧?

我们再举一个更复杂的例子。

假设你刚搬到芝加哥。你可以想象双子座和 Chrome 浏览器一起帮你做很多准备工作--替你组织、推理、综合。

例如,你需要探索这座城市,寻找附近的服务,从干洗店到遛狗人。你还需要在几十个网站上更新你的新地址。

双子座可以完成这些任务,并在需要时提示你获取更多信息,让你始终处于掌控之中。

这一点非常重要--当我们对这些体验进行原型设计时,我们正在认真思考如何以一种私密、安全且适合所有人的方式来实现。

这些都是简单的使用案例,但却能让您很好地了解我们希望通过构建智能系统来解决的问题类型,这些智能系统可以提前思考、推理和规划,一切都为您服务。

这对我们的使命意味着什么
双子座的强大功能--多模态、长语境和代理--让我们更接近我们的终极目标:让人工智能为每个人提供帮助。

我们认为,这样才能在实现我们的使命方面取得最大进展:通过每一个输入来组织世界上的信息,使其可以通过任何输出来访问,并将世界上的信息与你世界中的信息结合起来,以一种真正对你有用的方式。

开辟新天地
要充分发挥人工智能的潜力,我们需要开辟新天地。谷歌 DeepMind 团队一直在为此努力。

1.5 Pro 及其较长的上下文窗口让我们兴奋不已。但我们也从开发人员那里了解到,他们需要更快、更具成本效益的解决方案。因此,我们将于明天推出 Gemini 1.5 Flash,这是一款专为大规模开发而设计的轻量级模型。它针对低延迟和低成本最重要的任务进行了优化。1.5 Flash 将于周二在 AI Studio 和 Vertex AI 中推出。

展望未来,我们一直希望建立一个在日常生活中非常有用的通用代理。Astra 项目展示了多模态理解和实时对话能力。我们还通过 Veo 和 Imagen 3 在视频和图像生成方面取得了进展,并推出了 Gemma 2.0,这是我们下一代负责任人工智能创新的开放模型。阅读 Demis Hassabis 的更多信息。

更智能的双子座体验
Gemini 不仅仅是一个聊天机器人,它还是您的私人助理,可以帮助您处理复杂的任务并代表您采取行动。

与双子座的互动应该是对话式的、直观的。因此,我们宣布推出全新的双子座体验,让我们更接近这一愿景,该体验名为 "Live",允许您使用语音与双子座进行深入对话。今年晚些时候,我们还将为双子座高级版带来 200 万个代币,使上传和分析视频和长代码等超密集文件成为可能。


安卓系统上的双子座
全球有数十亿 Android 用户,我们很高兴能将 Gemini 更深入地融入用户体验。作为您全新的人工智能助手,Gemini 可以随时随地为您提供帮助。我们已将 Gemini 型号融入安卓系统,包括我们最新的设备型号:Gemini Nano 具有多模态功能,可以处理文本、图像、音频和语音,为您带来全新体验,同时保护您设备上信息的隐私。

我们以负责任的态度对待人工智能
我们将继续怀着激动的心情,大胆地迎接人工智能带来的机遇。同时,我们也确保以负责任的方式开展工作。我们正在开发一种称为人工智能辅助红队的尖端技术,该技术借鉴了谷歌 DeepMind 的游戏突破(如 AlphaGo),以改进我们的模型。此外,我们还将 SynthID(我们的水印工具,让人工智能生成的内容更容易识别)扩展到两种新模式:文本和视频。

共创未来
所有这些都表明,在我们采取大胆而负责任的方法,让人工智能为每个人带来帮助的过程中,我们取得了重要进展。

长期以来,我们一直以人工智能为先。数十年来,我们在研究领域一直处于领先地位,率先取得了许多现代突破,推动了我们和整个行业在人工智能领域的进步。除此之外,我们还有

为人工智能时代打造的世界领先的基础设施
搜索领域的尖端创新,现在由 Gemini 提供支持
帮助实现非凡规模的产品--包括拥有 5 亿用户的 15 款产品
以及让每个人--合作伙伴、客户、创作者和你们所有人--都能创造未来的平台。
只有我们令人难以置信的开发者社区才能实现这一进步。通过你们每天构建的体验和应用程序,我们的进步才得以实现。因此,对于娑婆世界的每一个人和全球数百万的关注者来说,让我们为未来的可能性干杯,并共同创造这些可能性。

问题:
请给出欧美女星照片
答案:

欧美女性有很多种类型,很难说哪一种是“最美丽”的。美丽是一种主观体验,每个人都有自己的喜好。有些人可能更喜欢深色头发和深色眼睛的女性,而另一些人可能更喜欢金发和蓝眼睛的女性。最终,决定什么使女性美丽的唯一方法就是问你自己。

但是,我可以为您提供一些符合传统欧美美女标准的照片。以下是一些最受欢迎的欧美女演员、模特和歌手的照片:

碧昂斯:
​编辑在新窗口中打开​编辑zh.m.wikipedia.org

斯嘉丽·约翰逊:
​编辑在新窗口中打开​编辑zh.wikipedia.org

安吉丽娜·朱莉:
​编辑在新窗口中打开​编辑zh.wikipedia.org

詹妮弗·劳伦斯:
​编辑在新窗口中打开​编辑zh.wikipedia.org

克里斯汀·斯图尔特:
​编辑在新窗口中打开​编辑zh.wikipedia.org

泰勒·斯威夫特:
​编辑在新窗口中打开​编辑www.guinnessworldrecords.cn

蕾哈娜:
​编辑在新窗口中打开​编辑zh.wikipedia.org

吉吉·哈迪德:
​编辑在新窗口中打开​编辑www.gq.com.tw

肯德尔·詹娜:
​编辑在新窗口中打开​编辑zh.wikipedia.org

卡拉·迪瓦伊:
​编辑在新窗口中打开​编辑ent.sina.cn

这些女性只是众多美丽而有才华的欧美女性中的一小部分。重要的是要记住,美丽不止于外表。真正美丽的女人是自信、善良和富有同情心的女人。


VideoFX
https://aitestkitchen.withgoogle.com/zh/tools/video-fx 

ImageFX
https://aitestkitchen.withgoogle.com/zh/tools/image-fx

MusicFX
https://aitestkitchen.withgoogle.com/zh/tools/music-fx


以上三个中只有音乐可以使用。 视频和影像都需要进行申请等待。

网址推荐:机器学习
https://www.cbedai.net/xg 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。