Skip to content Skip to sidebar Skip to footer

这些前苹果员工正在将人工智能带入桌面

从左到右:Software Applications Incorporated 的 Conrad Kramer、Kim Beverett 和 Ari Weinstein。 令人愉快的复古。 迄今为止,像 ChatGPT 这样的 AI 聊天机器人一直相当没有人情味,存在于我们每天使用的应用程序和数据之外。由三名前苹果员工创办的一家名为Software Applications Incorporated的新创业公司希望改变这种状况。 该公司的首席执行官阿里·韦恩斯坦(Ari Weinstein)是一位重复的创始人,他于2017年与联合创始人兼首席技术官康拉德·克莱默(Conrad Kramer)一起将他的最后一家初创公司iOS自动化应用程序Workflow出售给了苹果。这一次,金·贝弗雷特(Kim Beverett)加入了两人的行列,他是一位拥有10年苹果经验的资深人士,曾在今年的WWDC上登台,此前曾负责监督各个团队的产品管理,包括Safari,Messages,FaceTime和用户隐私。 在他们离开苹果开始新事物后的第一次采访中,这三人告诉我,他们的重点是以一种“推动操作系统向前发展”的方式将生成式人工智能带到桌面上。虽然他们还没有产品可以展示,但他们正在使用各种大型语言模型进行原型设计,包括 OpenAI 的 GPT 和 Meta 的 Llama 2。根据韦恩斯坦的说法,最终目标是重现“你在 80 年代和 90 年代使用计算机时所感受到的魔力”。 “如果你打开Apple II或Atari,你会得到这个基本的控制台,你可以以用户身份输入基本代码,并对计算机进行编程,以做任何你想做的事情,”他解释道。“如今,情况恰恰相反。每个人都花时间在非常优化的操作系统上,这些软件被设计得非常易于使用,但并不灵活。 “我们认为语言模型和人工智能为我们提供了制作新型软件的要素” 他举了一个例子:“有时你打开了一个浏览器窗口,上面有一个时间表,你只想说,'把它添加到我的日历中',不知何故,没有办法做到这一点......我们认为,语言模型和人工智能为我们提供了制造一种新型软件的要素,这种软件可以释放这种基本的计算能力,使普通人能够使用计算机来实际解决他们的问题。 该团队对早期 PC 怀旧的热爱体现在软件应用程序网站上,该网站实际上是在浏览器选项卡中运行的 Mac OS 8。Weinstein表示,他们希望在未来一年雇用多达10名员工,其中包括一名设计师和一些机器学习专家。他们已经从 OpenAI 的 Altman、Figma 首席执行官 Dylan Field 和硅谷的其他知名人士那里筹集了 6…

Read More

亚马逊将提供人类基准测试团队来测试人工智能模型

亚马逊希望用户更好地评估人工智能模型,并鼓励更多的人参与到这一过程中来。 在 AWS re: Invent 大会期间,AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 宣布了 Bedrock 上的模型评估,现已推出预览版,适用于其存储库 Amazon Bedrock 中的模型。如果没有透明地测试模型的方法,开发人员最终可能会使用那些对于问答项目来说不够准确的模型,或者对于他们的用例来说太大的模型。 “模型选择和评估不仅仅是在开始时完成的,而是定期重复的,”Sivasubramanian说。“我们认为让人类参与进来很重要,因此我们提供了一种轻松管理人类评估工作流程和模型性能指标的方法。” Sivasubramanian在另一次采访中告诉The Verge,一些开发人员通常不知道他们是否应该为项目使用更大的模型,因为他们认为更强大的模型可以满足他们的需求。他们后来发现,他们本可以建立在一个较小的基础上。 模型评估有两个组成部分:自动评估和人工评估。在自动化版本中,开发人员可以进入他们的基岩控制台并选择要测试的模型。然后,他们可以评估模型在摘要、文本分类、问答和文本生成等任务的稳健性、准确性或毒性等指标上的性能。Bedrock 包括流行的第三方 AI 模型,如 Meta 的 Llama 2、Anthopic 的 Claude 2 和 Stability AI 的 Stable Diffusion。 虽然 AWS 提供测试数据集,但客户可以将自己的数据引入基准测试平台,以便更好地了解模型的行为方式。然后,系统会生成报告。 如果涉及人工,用户可以选择与 AWS 人工评估团队合作或他们自己的团队合作。客户必须指定任务类型(例如摘要或文本生成)、评估指标以及要使用的数据集。AWS 将为与其评估团队合作的人员提供定制的定价和时间表。 AWS负责生成式AI的副总裁Vasi Philomin在接受The Verge采访时表示,更好地了解模型的性能可以更好地指导开发。它还允许公司在使用模型进行构建之前查看模型是否不符合某些负责任的 AI 标准,例如毒性敏感性较低或过高。 “重要的是,模型为我们的客户服务,知道哪种模型最适合他们,我们正在为他们提供一种更好地评估的方法,”Philomin 说。 Sivasubramanian还表示,当人类评估AI模型时,他们可以检测到自动化系统无法检测到的其他指标,例如同理心或友好性。 Philomin说,AWS不会要求所有客户对模型进行基准测试,因为一些开发人员可能以前在Bedrock上使用过一些基础模型,或者知道这些模型可以为他们做什么。仍在探索使用哪些模型的公司可以从基准测试过程中受益。 AWS表示,虽然基准测试服务处于预览阶段,但它只会对评估期间使用的模型推理收费。 虽然没有特定的标准来对 AI 模型进行基准测试,但有一些行业普遍接受的特定指标。Philomin说,在Bedrock上进行基准测试的目标不是广泛评估模型,而是为公司提供一种方法来衡量模型对其项目的影响。

Read More