查看原文
其他

AI动态:投资者和创业者青睐的10个创业项目

Mario Gabriele Creek Labs 溪栈 2024-04-14

AI动态:投资者和创业者青睐的10个创业项目
作者:Mario Gabriele

编译:Creek Labs

执行概要


如果你只有几分钟的时间,下面的摘要为你列出了投资者、经营者和创业者需了解的最令人兴奋的AI创业项目:


  • 预测未来。我们都喜欢偶尔扮演Nostradamus(诺斯特拉达姆斯,16世纪的法国预言家——译者注)。但是,要是你能预测未来,并有很大可能是正确的呢?有人认为,多亏了像Kumo这样的公司,AI使得这越来越有可能。这款预测智能平台让用户能够“查询未来”,预测客户对新产品或业务变化的反应。

  • 增强型专家。营销人员已利用大型语言模型(LLM)来创建广告文案、博客文章等。但是,我们如何让AI的威力触达法律和医学领域呢?两个项目突显了正在取得的突破,它们帮助医生和律师更高效、更有效地工作。

  • 云工作室。曾几何时,如果想拍摄3D影像,你需要定制的昂贵硬件。最近的创新意味着这已经不再是问题。现在用户只需一部智能手机,就可以捕捉到逼真的3D图像,用于游戏素材、电商产品拍摄或创意项目。原本大型工作室才有的能力,越来越多地可在任何地方轻松获取。

  • 产品智慧的力量。仅仅利用AI是不够的;你还必须将技术包装成一个引人注目的产品。此间因为此能力而受到关注的项目是Sana,一家企业知识管理平台。据一位推荐者称,Sana巧妙而有效地利用AI,将其融入到一个有凝聚力的产品中。

  • 科学的语言。世界上充满了人类无法解读的语言。这包括生命科学(如生物学和化学)的“语言”。诸如Enveda之类的项目翻译科学领域的词汇、语法和语义,使人类能够“应答”,并研发新颖的化学物质。


人工智能的兴盛正式进入超高速发展阶段。距离我们本系列的上一期文章还不到五个月,整个领域已发生了翻天覆地的变化。回到那个古雅的11月中旬,ChatGPT尚未发布,更不用说GPT-4了。必应仍然是一个毫无头脑的落后搜索引擎,而在庞大的谷歌大厦里,“Bard”这个词并未引发热梦或恶梦。

逐渐地,我们的世界似乎是这样运作的:断断续续,然后出现令人瞠目结舌的加速和精美的发明,最后就一顿午饭的时间又突然过时了。


我们的“观察焦点”系列文章试图紧跟科技快速发展的领域。虽然没有人能够了解AI领域的每一项创新(这是一个充满活力的生命体,同时朝着数百个方向前进),但我们希望在更广泛地被市场注意到之前,能够发现引人注目的项目和趋势。为此,我们请教了一些AI领域最出色的投资者和创业者,让他们挑选他们密切关注的项目和趋势。(有趣的是,一位投资者挑选了另一位创业者选中的公司。)

以下是他们的推荐。


Harvey:您的法律助手

https://www.harvey.ai/


人工智能各层面都发生着巨大的创新。例如,有人在为编程(Magic)、图像生成和核心多模态语言(OpenAI、Anthropic、Google等)构建有趣的新定制模型。同样,工具类项目数量也在激增,从Langchain到Llama-index再到Chroma。一些项目跨越了这些界限(如OpenAI的ChatGPT),而另一些则专注于构建独立应用程序。

获得快速采用的应用程序具有的共同特点包括:

1. 专注于新颖的功能。利用LLM或其他模型的独特优势的应用程序,通常会受到热烈欢迎。构建者们会问自己:这项技术有何独特之处,是它能做到而以前的技术无法实现的?
2. 减少繁琐劳动。用轻量级机器智能替换重复性的人工劳动或核心工作流程,这类应用程序令人爱不释手。减少或消除痛苦的手工操作显而易见具有吸引力。
3. 提升人类能力。在许多情况下,完全自动化可能无法实现。因此,一些应用程序采用了“人机结合”的方法,专注于提高用户能力,而不是完全接管用户任务。人力可以用来纠正错觉或对准确性和措辞提供定性。

Harvey具备这三个特点,但与GitHub的Copilot不同,Harvey专注于法律领域。Harvey帮助律师在尽职调查、诉讼、研究和合规方面开展工作。目前,它取得了良好的开端:该公司已经与像普华永道(PwC)和安理律师事务所(Allen & Overy)这样的巨头达成了协议。


在众多人工智能创业项目中,Harvey因为以下几个关键原因而脱颖而出:

1. 合适的团队。Harvey的创始人从应用场景和技术角度理解问题。联合创始人温斯顿·温伯格(Winston Weinberg)曾在奥梅尔维尼(O'Melveny)从事反垄断诉讼,而首席执行官加布里埃尔·佩雷拉(Gabriel Pereyra)曾在Deepmind担任研究科学家。
2. 深思熟虑的方法。Harvey采取了独特的方法来评估法律团队的需求。温伯格和佩雷拉专注于尽职调查中的一些关键早期问题,客户反馈强烈。通过不断迭代,他们实现了深度用户参与。
3. 速度和专注。在选择好问题集后,Harvey的创始人迅速为特定客户需求和应用场景提供服务。Harvey的与安理等特定客户紧密合作,以确保开发是针对真正的客户痛点来进行的。这揭示了更多应用场景,深化了工作流程。

法律和合规领域是一个很好的例子,通过人工智能获得重塑——从诉讼到起草保险索赔再到代表人类客户向法院递交文件等方面。

而且不会止于此。专业的AI助手以及可以综合数据并提供答案的应用在医学(请参阅:medPaLM https://arxiv.org/pdf/2212.13138.pdf)、金融、市场营销、销售、会计等领域具有巨大潜力。


- Elad Gil和Vince Hankes,Thrive Capital合伙人


Kumo:了解未来
https://kumo.ai/


我在斯坦福大学的NVIDIA礼堂见过Jure Leskovec。这位计算机科学教授在他的“大规模挖掘数据集”课程中为一些全球最聪明的年轻工程师做了一场讲座。研究生们如饥似渴,我也是如此。Jure是技术娴熟与表达清晰的罕见结合。Jure演讲中引人入胜的一部分是他具有挑衅性的说法:在未来几年中,AI驱动的系统将能够预测未来。

如今,Jure所设想的AI革命正在变为现实。现代企业从庞大的数据踪迹中提取强有力的洞见。从客户交易(销售数据和客服工单)到内部运营(财务数据和管理)再到外部信号(网络流量和社交媒体),都可以转化为有用的知识。

Jure、Vanja Josifovski(前Pinterest和Airbnb的首席技术官)和Hema Raghavan(前LinkedIn的增长AI负责人)共同创建了Kumo。

使用Kumo,公司可以像依赖数据库查询过去一样查询未来。Kumo让客户不仅可以分析去年发生了什么,还可以看到明年可能发生什么。这样一款产品的影响可能是深远的:企业不再仅限于分析过去的事件,而是能更好地预见新机遇。用户仍会想要追踪显示错误的数据,但他们将使用Kumo来查看可能出现的正确结果。

例如,传统的客户关系管理数据库包含客户姓名、帐号和交易历史等信息。相比之下,Kumo提供了访问一个可以预测特定客户在未来一年内可能花费多少、哪些新产品最有可能帮助他们,以及可能导致客户转投竞争对手的关键因素的数据库。

Kumo使用图神经网络(GNNs)来识别公司数据中的模式和关系。GNN具有强大的预测能力,非常适合分析无法使用传统的统计或机器学习(ML)技术轻松表示的复杂、互相关联的数据。

GNN的应用将在未来十年带来巨大的变革。公司将改革其运营,以未来客户行为为中心。准确预测这种行为使公司能够提供定制的产品推荐、量身定制的促销活动和有针对性的沟通。预测分析还将应用于更广泛的应用场景,包括欺诈检测、产品设计、规划和预测。

自从与Kumo合作以来,我亲眼目睹了一个雄心勃勃、才华横溢、意志坚定的团队在AI前沿领域所取得的成果。

-Konstantine Buhler,红杉资本合伙人


ReflexAI:培训一线支持人员
https://www.reflexai.com


许多创业者正在构建基于LLM的应用程序,因为在过去的一年里,LLM已成为非常强大的平台。但我从未对那些只是为了创业而创业,或者仅仅因为发现了一项令人兴奋的趋势的旅行者和企业家感兴趣。我热爱那些已经积累了一段时间的建设者,那些拥有独特见解,并意识到他们非做不可,一定要创办那个项目的人。

这正是ReflexAI的联合创始人Sam Dorison和John Callery所具备的建设者特质。作为The Trevor Project的领导者,这个组织在LGBTQ青少年自杀预防方面开展了重要工作。他们从2019年开始尝试使用OpenAI的早期模型,例如GPT-2。他们意识到这些模型有潜力帮助培训全职代理和兼职志愿者应对危机对话,并花了几年时间来构建相应软件。他们的Crisis Contact Simulator被评为2021年TIME最佳发明之一,培训了数千名心理辅导员,更好地支持孩子们的心理健康,特别是在需要时挽救了许多生命。到了2022年,当全球都意识到GPT-3的强大时,Sam和John发现了一个更大的机会:将他们在The Trevor Project中的经验应用到构建AI驱动的支持工具,以培训、发展和赋能各组织和企业的一线团队。

ReflexAI发展迅速,早期合作伙伴包括Google.org和美国退伍军人事务部。通过模拟,他们的软件帮助培训代理商进行具有挑战性的对话,并提供可行的反馈,帮助他们随着时间推移改进互动方式。这是由一个有使命感的团队打造的产品,他们自己也曾是客户,并且在多年时间里与这些模型(包括他们从OpenAI获得早期访问权的GPT-4)一起工作。他们具备独特的地位来解决一个棘手的问题。我迫不及待地想看到他们对危机呼叫中心运营和其他领域产生的影响。

- Nikhil Basu Trivedi,Footwork联合创始人和普通合伙人


Together:分布式AI云计算

https://www.together.xyz


AI可以说正在经历它的“Linux时刻”。如今,关于开放式还是封闭式AI模型应在市场中占主导地位的争论尚无定论,这与20世纪90年代末开始的微软Windows与Linux之间的争论类似。最终的答案是“和平共处”,但Linux的开放模型在高端计算领域占据主导地位。这与移动操作系统竞争的结果有所不同,在那里,苹果iOS相对封闭的生态系统在与谷歌更具扩展性的Android竞争中占据了优势。

过去几年,包括Hugging Face、Meta、Runway和Stability在内的许多组织都专注于开发AI的开放模型和数据生态系统,此外还有EleutherAI、CarperAI、LAION等研究机构以及许多学术机构。这些项目得到了同时投资于开放和封闭AI生态系统的企业的帮助。谷歌、微软、英伟达等公司通过TensorFlow、Jax、DeepSpeed、Megatron等模型和框架为开源生态系统做出了重大贡献,即使他们也在开发专有产品。

随着AI领域的模型和数据向开放化发展,大规模计算仍依赖于少数几家大型云提供商。计算一定要是专有的吗?比特币、以太坊和其他加密网络证明了分布式大型共享计算资源池是可行的。如果我们可以重新创建这些扩展网络,但用于更高价值的工作负载,例如LLM训练和推理,那会怎样呢?

Together正试图做到这一点。这家创业公司正在构建一个分布式云计算平台,整合数据、模型和计算,使研究人员、开发者和企业能够利用人工智能的最新进展。

开放计算的一个挑战是训练基础模型的成本不断上升。我们看到这个数字从数千万美元上升到数亿美元,如果要相信传言的话。成本可能很快达到10亿美元。关键是,这些成本可能成为进入壁垒,使行业向中心化的方向发展,因为只有少数大型模型和计算提供商才能承受这样的运营成本。这与高端半导体市场的发展如出一辙。

通过降低访问和成本壁垒,Together可能确保一个充满活力的开源生态系统,使更多的企业、研究机构和个人能够参与其中。从GPT-JT和OpenChatKit(一个开源的ChatGPT)开始,Together Cloud已证明用户可以在具有100倍于传统数据中心的网络带宽的商品化异构硬件上训练基础模型。过去十年的技术依赖于云服务;AI革命可能建立在像Together这样的提供商之上。

以下摘自Import AI的一段对Together及其开源生态系统重要性的类比:

Together、LAION和Eleuther都代表了一个大趋势:期待一个分布式AI生态系统,其中开源模型由不同的团队在越来越分散的计算资源上进行训练。这里有“大教堂与市集”的影子,其中大教堂的建设者(DeepMind、OpenAI等)可以使用大量计算资源和中心化的团队,而市集的人们(Eleuther、LAION等)可获得资源虽然较少,但通过自下而上的实验实现更大的集体智慧。这类方法中的其中一个,将首先构建出我们都称之为超级智能的东西,哪种方法更成功,其政治后果将是巨大的。

– Brandon Reeves,Lux Capital的普通合伙人


PostEra:快速药物发现
https://postera.ai


AI在药物发现领域蓬勃发展。各企业正竞相生产专为特定用途设计的AI药物,以优化结合或功能。这些组织依赖于搜索可能分子结构的整个近乎无限空间的模型。这个过程提供了令人兴奋的可能性,并带来了新的挑战。例如,随着AI在预测具有理想药物属性的结构方面变得越来越好,问题越来越是:我们如何制造它们?

在将小分子药物推向临床试验的过程中,大部分时间、精力和金钱并不是花在发现药物上。相反,它们花在了引物优化上,这是一种药物化学家采用初始命中结构并迭代设计、合成和测试变体的过程。化学家这样做是为了找到具有更高效力和特异性、毒性更低的版本。这个“设计-制造-测试”优化周期可能需要数年时间,并且每个药物项目的成本可能达到数百万。

在设计-制造-测试周期中,大部分时间和金钱都花在了“制造”阶段。数百种不同的分子变体中的每一种都必须由经过高度培训的合成化学家单独合成,每种变体需要一周甚至更长时间。这阻碍了快速迭代,成为全球瓶颈,减缓了有前景的药物进入诊所的速度。

PostEra是一家应对这些挑战的公司。由Aaron Morris和剑桥大学教授Alpha Lee共同创立的PostEra在2020年初脱颖而出。这要归功于他们的项目“COVID Moonshot”。该项目利用PostEra的机器学习平台为来自全球400多名科学家的抗病毒创意排序优先级。这是AI与众包协同合作的一个强大例子,并成功识别了可供进一步开发的有前景的候选者。

PostEra的药物发现平台被称为“Proton”,它通过更明确地将合成路径预测纳入生成式机器学习来全面优化引物。它专注于消除化学合成在设计周期中的瓶颈,以实现更快的迭代和测试更多分子。Proton利用公司的“Manifold”软件系统,为任意化学结构提供实用的合成途径。Manifold基于他们团队早期使用语言模型预测化学反应结果的工作。PostEra将该平台用于其内部管道和与辉瑞的战略合作伙伴关系。

随着AI在药物发现方面变得越来越重要,像PostEra这样的企业在帮助药物进入市场方面可能发挥至关重要的作用。


– Viswa Colluru,Enveda Biosciences首席执行官;David Healey,Enveda Biosciences数据科学副总裁


Pathway Medical:增强型医生
https://www.pathway.md/


随着GPT-4的发布,2023年对于应用AI领域来说将是激动人心的一年,许多创业者都在争相打造下一个“针对‘X’的LLM”。然而,“快速行动,打破常规”在某些行业可能行得通,但在医疗健康领域却不适用。

医疗健康产业是新技术最缓慢的采纳者之一,可能也是有充分理由的。一个在预测电子邮件文本方面准确率为70%的AI模型可能会令人烦恼。但在做出影响患者结局的决策时,这是无法接受的。

如果我们想要更早地在医疗健康领域实现现代AI技术的全部影响,我们需要解决任何AI模型的基础:数据。不幸的是,在许多医疗健康应用中,获取高质量、结构化的数据仍然具有挑战性。这不再仅仅是关于大数据,即更多的数据普遍更好,而是关于智能数据以及获取与行业特定场景相关的高质量信息格式的能力。

这正是像Pathway Medical这样的企业比新入行者具有优势的地方。它已经整合并构建了大量的智能数据池,以支持医疗健康领域特定的LLM。

Pathway是一个以AI为先导的临床决策支持工具,已经花费数年时间构建一个庞大的、结构化的医学知识图谱,由专家审核以确保可靠性。通过利用先进的语言模型和这些顶级数据,Pathway旨在生成可信的输出,避免幻觉,以及基于经过充分参考和验证的信息。

其结果类似于医生的智能助手。使用Pathway,医疗专业人士可以轻松阅读相关的医学指南,获得针对患者的建议,并探讨鉴别诊断。Pathway将自己称为医生的“即时第二意见”。

随着像Pathway这样的企业的发展,我们希望看到AI在医疗健康领域的巨大潜力得以实现,改变临床医生获取和互动关键信息的方式。这应有助于简化教育和决策过程,最终提高患者结局并提高护理水平。

– Therence Bois,Valence Discovery联合创始人兼首席运营官


Luma:让每个人都能拥有3D
https://lumalabs.ai/


当我着手撰写本文时,Luma还是一家在2021年完成了一轮小额种子轮融资的小型创业公司。此后,我不得不对其进行改写。3月20日,Luma宣布由Amplify Partners领投的A轮融资。这一点也不让我感到意外。

神经辐射场(Neural Radiance Fields,简称“NeRFs”)是一项技术,简单来说,它允许您将任何设备拍摄的照片转换为完整的3D模型。与之前的3D扫描技术不同,它不需要专用的硬件(如LIDAR传感器)。输出的质量比我们以前看到的任何东西都要强得多,具有更高的视觉保真度和真实感。NeRFs可以处理光、阴影和反射。

Luma正处于部署这项技术的前沿。这家创业公司的应用程序让客户可以用智能手机捕捉逼真的3D图像。这些图像可以用作游戏素材、电子商务产品拍摄或艺术创作。

为什么这事很大?

随着VR已来到我们家门口,AR可能在不到十年的时间里出现,对逼真的3D素材的需求可能会迅速增加。此外,有理由认为,这些革命可能需要改进3D捕捉技术才能完全实现。在过去,这个过程一直很困难,昂贵,有时甚至不可能。现在它不再是了。

即使在VR和AR腾飞之前,像Luma这样的产品也可以开启令人兴奋的新应用场景。Etsy商家可以轻松捕捉正出售的桌子的3D模型。独立开发者可以用智能手机创建逼真的游戏世界。只要会拍照,它就可以变成3D。Luma的标语说得最好:“3D,终于属于每个人!”

NeRFs如何与其他技术相结合,改造未来的媒体,这是一个很有意义的话题。在短短几年内,您将观赏到用Luma生成的3D模型当背景的故事片,它由Midjourney生成的演员出演,由ChatGPT编写剧本,由ElevenLabs配音。

– Eiso Kant,Athenian创始人兼首席执行官


Coactive:解码视觉数据
https://coactive.ai/


从社交媒体视频到智能手机照片,视觉内容主导了人们的日常生活,并以前所未有的速度增长。尽管视觉内容无处不在,但它通常是非结构化的,因此是最难分析的信息形式。对于数据驱动的组织来说,错过视觉格式中的洞察是一种损失。非结构化也是一个更广泛的问题:据麻省理工学院(MIT)称,80%的企业数据是非结构化的,被困在音频、视频和Web服务器日志中。

Coactive通过机器学习为非结构化数据带来结构,帮助数据驱动的团队从图像和视频等视觉内容中获取洞察。Coactive之所以引人关注,是因为企业有巨大的机会组织和分析多媒体内容,特别是对于拥有大量视觉内容的行业。例如,零售、社交媒体、医学影像、游戏和自动驾驶汽车等。

从技术层面来看,Coactive将非结构化数据引入SQL世界,以便分析师可以对其进行注释、搜索、查询和建模。如今,最受欢迎的应用包括搜索、推荐、信任与安全以及数据分析。

借助该产品,客户可以通过API或安全的数据湖连接将原始图像或视频直接上传到Coactive的平台。然后,视觉数据在Coactive平台上进行嵌入和索引,几乎不需要人工监督或标记。接下来,用户可以通过Coactive的全托管图像搜索API和SQL接口收集洞察力并运行查询和搜索。Coactive精心设计了其UI/UX,使普通用户和数据科学家都能轻松利用并从中获得价值。

例如,一个时尚品牌可以上传大量的视觉图像和视频,并在几秒钟内定义概念和类别,而不是几天。这使品牌能够更好地了解客户如何在近乎实时的情况下与他们的产品互动。

过去几年,贝塞默(Bessemer)一直在跟踪机器学习基础设施的突破和商业智能的演变。鉴于这些趋势,企业不仅会产生大量视觉内容,而且还需要对其进行解读。

Ethan Kurzweil,Bessemer Venture Partners合伙人


Sana:企业知识捕捉
https://www.sanalabs.com/


生成式AI的风靡是真实的。Twitter上充满了各种模态的令人兴奋的技术演示,从文本到图像,再到视频等等。LLM(大型语言模型)在某些任务上的表现令人难以置信,确实让人觉得这是自手机以来的最令人激动的平台。

然而,在所有的忼奋之中,我们需要牢记,与其他伟大的技术一样,AI在触达现实时的用户体验至关重要。现在,我们看到许多基于特定点的酷炫解决方案,展示了如转录、摘要、创意写作、图像/视频生成和编码等神奇功能。

其中大部分功能可能会成为现有大厂的一部分(GitHub、Microsoft、Notion 和 Intercom 已在积极将 AI 添加到产品中),而不是独立产品,因为它们没有回答那些看似无聊的问题:谁会每天使用这个功能?在什么背景下使用?他们愿意为此付费吗?这是一个功能还是一个产品?它是否具有竞争力,你是否可以围绕它快速建立一个大型企业和生意品类?

我认为,几年前就由一些创业者创建的许多企业,在未来几年将赢得胜利,他们在生成式AI和LLM的巨大潜力变得显而易见之前就意识到了这一点。他们在构建平台(而非仅仅是工具)方面领先,通过与现实世界的接触,磨练了他们的产品感知和客户直觉。他们明白,实用性会吞噬新奇性,即使这是一个较慢的过程。

我对Sana这家公司感到兴奋,它是一家为企业提供的AI驱动的学习平台。该产品既是一个传统的学习管理系统,可以创建课程和运行实时课程,也是一个知识管理平台,可以创建一个可以通过集成到Google Workspaces、Notion、GitHub等平台的“公司大脑”。

该平台美观,支持实时协作,在核心SaaS功能方面遥遥领先于市场。但它也明显以一种微妙而有效的方式设计成了AI优先。你可以使用AI从零开始制作整个课程(文本、图像、测验),或者像一名副驾一样,通过自动检索信息和生成内容来帮助你更快地完成工作。

从长远来看,你可以想象一个生成式学习系统,它具有公司内所有事和人的完整背景,并可以通过课程以结构化的方式按需培训员工。它可以监控员工,识别知识差,制作简短且个性化的课程,并实时直接发送给个人。提高生产率的潜力是巨大的。

Sana面临的挑战是发明一个可轻松适应企业工作流程的AI优先产品。人们不喜欢一次性发生太多变化。真正的艺术在于随着时间的推移进行排序;用今天熟悉但更好10倍的体验吸引他们,然后慢慢但稳步地将他们引向全新的解决方案,使其变得更好100倍。


传统上,学习与发展(L&D)领域往往被风险投资者忽视 —— 它是一个成本中心,预算有限,很少成为 C 位的讨论话题。我们还没有看到一家市值过 100 亿美元的公司将自己定位为 L&D 平台。

但我认为有一个明显的长期趋势可能改变这一点:学习不再仅仅关注合规和人力资源。它是确保销售团队成为产品专家,开发人员能够快速上手,以及每个人都了解公司战略的关键。

知识管理、生产力和 L&D 之间的界限越来越模糊,为企业创造了更多机会。世界发展的速度越快,企业提高员工技能和迅速传播内部信息就变得越重要。

从目前为止,我看到 Sana 的执行和发展势头,他们很有机会不仅建立一个伟大的公司,而且将整个 L&D 类别演变成与今天截然不同的东西。

– Victor Riparbelli,Synthesia 的联合创始人兼首席执行官


Enveda:用化学的语言交流

AI 领域现在要关注些什么?靠。全都要看。

我们正处于人类历史上一个奇点时刻。
我们发明了一种外星智能,并(羞涩地)在应对近期技术和生意的影响方面进行摸索。但是,如果我必须用并不那么显而易见的方式来回答您的问题(型语言模型!开源!链式模型!基于GPT-X的垂直应用程序!),我会指出大型语言模型能够学习所有语言,而不仅仅是那些我们特定类型进化人类大脑能够破译的语言。

ChatGPT 和 GPT 广泛地捕捉到了时代精神,因为它们向我们反映了已知的未知。在我们可以立即理解的语言中,呈现出全新的想法、前所未见的打油诗和详尽的列表。到目前为止,以已知的人类语言呈现出全新的、未知的(以前从未说过或写过的)概念。但到这儿就完了吗?将 LLM 与互联网结合,可以开启我们集体的数字知识宝库,但仍然处于我们本可以用足够时间和资源就可做到、写出或说出的范畴。(等到 GPT-10 证明 P ≠ NP 再来找我。)

为什么不学习全新的语言,这些语言潜藏在我们的宇宙中,但从未被人类说过?

生命科学的许多(如果不是全部)领域可以被看作是具有独特语法和字母表、语法规则以及最终的语义或含义的语言。以生物学和化学为例。在语法方面,生物学使用 DNA 的 G-A-T-C 字母或氨基酸序列,而化学依赖于诸如 SMILES 字符串或质谱法等各种表示方式。在语义方面,可以将生物学的蛋白质结构和功能,以及化学的代谢物结构和链式反应作为例子。简而言之,每门生命科学都有自己独特的术语。

为了区分科学和科学语言,找到合适的术语会让人更容易理解:我们可以将生物学和化学视为各自领域的语言。我们始终被这些语言所包围,它们被我们周围的物理世界流畅地表达和传递。随着 LLM 的到来,我们迈向了一个不仅能观察,还能理解和回应的重要时刻。

我的基金 Dimension 领投的 Enveda,在这个领域做了很多引人入胜的工作。它教计算机学习化学,也就是化学的语言。Enveda 结合下一代质谱法(化学空间的一种语法表示)和 LLM,从一般难以辨识的语法胡言乱语中,形成明确的语法规则,最终揭示出化学结构和性质的语义。

这为什么重要?

1. 我们可以突然阅读数十亿年进化所带来的功能性乐高积木。(地球上的自然化学是什么,为什么生物过程在强烈的选择压力下演变为产生这些化学,而不是其他的?


2. 通过分析我们细胞内的代谢物,即 DNA、RNA 和蛋白质的基本组成部分,我们可以更好地理解人类疾病。


3. 我们可以借助这个新工具 —— 语言 —— 来应答,并设计全新的化学物质(业内人士所称的“小分子”)作为治疗方法。


- Zavain Dar,Dimension Capital 创始人兼管理合伙人


原文地址:

https://thegeneralist.substack.com/p/what-to-watch-in-ai-2

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存