利用 Steam Agent 进行 API 交互:将数据商品化推向大众可消费
Last updated
Last updated
随着大型语言模型(LLMs)在自然语言处理领域的进步,越来越多的人开始关注利用其能力简化软件交互。本文中,我们提出了一种新颖的系统,该系统集成了 LLMs,用于将自然语言输入分类为相应的 API 调用,并自动化生成调用特定 API 功能的样本数据集。通过自然语言命令,我们的系统允许用户通过简单的输入调用复杂的 API 功能,从而提高交互效率并降低 API 使用门槛,彻底将 API 消费者推向非技术群体,并可迅速实现可消费访问的商品化。
近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著进展[1, 2, 3],在从文本生成到跨金融、医疗、艺术和客户服务等多个行业的复杂问题解决等任务中表现出色[4, 5, 6, ]。这些进步也引发了人们对 LLMs 简化并优化软件交互潜力的日益探索。机器学习和先进的深度学习技术已被广泛研究,以增强软件系统的集成并优化各种应用[7, 8, 9, ]。作为进一步发展,LLMs 现正被研究为强大的工具,使软件系统对不同技术水平的用户更加直观和易用[10, 11]。
传统上,用户通过应用程序编程接口(API)与软件进行交互,这些接口对于不同软件应用程序之间的通信至关重要[12]。然而,与 API 交互通常需要对其结构、参数和特定调用有深入的理解,这对非技术用户或不熟悉 API 底层逻辑的用户构成了障碍[13]。将 LLMs 整合到 API 管理工作流程中,提供了一个通过简单、自然语言输入与 API 交互的机会,这为具有不同技术水平和需求的用户开辟了新的可能性[14, 15]。
然而,部署 LLMs 进行 API 管理涉及一些挑战,主要在于确保模型能够准确地将自然语言输入解释并分类为正确的 API 调用。鉴于 API 具有多样化的结构,且用户输入因上下文而异,开发一个可靠的系统来评估 LLM 在不同用例中的性能至关重要。为应对这些挑战,我们提出了一种集成 LLMs 的新系统,具备两大核心功能。一是利用 LLMs 来解释和分类自然语言输入,并准确映射到相应的 API 调用。另一部分是使用 LLM 自动生成针对特定 API 功能的样本数据集,这对于系统性地评估 LLM 在各种 API 分类任务中的性能至关重要。与传统方法不同,我们的框架提供了一个可扩展且可复制的解决方案,确保 API 工作流程能够以高准确性和与实际应用的相关性进行全面测试。
我们通过使用调用指令,对业内多种 API 功能进行了广泛的实验,并评估了包括 GPT-4、GPT-4o-mini、Claude 3.5 Sonnet、GPT-4o (Aug '24)、DeepSeek-V2-Chat、DeepSeek-V2.5、LLaMA-3-8B、Gemini-1.5 等在内的多个知名 LLMs 的分类能力。结果显示,模型性能存在显著差异,按准备率从高到低依次排列为:Claude 3.5 Sonnet、GPT-4o (Aug '24)、GPT-4o-mini。这些发现展示了 LLMs 在 API 分类中的潜力,强调了在不同环境下谨慎选择模型的重要性,并突显了我们的系统作为高效且实用的模块化 API 管理工具的有效性。
过去十年间,随着机器学习领域的迅速发展,其应用已扩展至多个领域,彻底改变了技术[16, 17]、医疗[18, 19, 20, 21, 22, 23]、金融[24]和道路建设[25]等行业。这些进步不仅解决了复杂的技术难题,还提供了简化的解决方案,提升了用户体验[26, 27, 28]。最具变革性的突破之一是自然语言模型的崛起。通过利用深度学习技术,自然语言界面使用户能够通过简单直观的命令与复杂系统互动[29, 30, 31, 32, 33],这大大降低了传统技术操作的门槛,使其对非专业用户也变得触手可及。
一个显著的应用是在数据查询领域,模型能够解析自然语言查询并将其转换为 SQL 等结构化命令,使非技术人员无需理解底层语法即可从数据库中检索信息[34]。除了数据查询,LLMs 已被整合到 DevOps 自动化中,允许用户使用简单命令启动和管理复杂工作流程。这种整合简化了基础设施配置、部署和系统监控等任务,通过提供更友好的交互模型,简化了传统上复杂的 DevOps 领域[35]。
同样,LLMs 的潜力正在被探索用于 API 交互。尽管现有的模型如 Codex 能够生成代码片段,但 API 调用检索领域仍处于欠发达状态[36]。API 的复杂性,通常涉及多种协议、数据格式和领域特定参数,带来了独特的挑战。
我们早于 Open Ai 发布 Swarm [37]实验性框架之前已实现多代理系统的构建、编排和部署。并将其推向至生产级,系统定义如下:
API 检索框架是一个自动化管道,能够有效处理用户查询,确保每个查询被正确分类,传递给相应的 API 函数,并将结果高效返回给用户。其结构化的工作流程可分为以下关键阶段:
系统首先接收用户输入的自然语言查询。在提示过程中,用户的输入与预定义的提示指令相结合,然后被送入 LLM。这些指令定义了 API 的层次结构,并建立了特定的输出格式规则,确保系统的响应符合 API 的结构和功能要求。输入的复杂性可能从简单问题到更复杂的命令不等。LLMs 的灵活性使得系统能够解释和处理广泛的用户输入,即使输入表述模糊不清。
一旦接收到查询,集成的LLM会将其映射到相应的 API 功能。具体而言,LLM处理查询并返回一个标签,该标签根据预定义的 API 层次结构对其进行分类。同时,检索出 API 功能输入参数所需的相关关键词。该标签决定了满足用户请求所需的 API 模块和具体功能。为确保在可用资源间高效处理,应用了负载均衡器来分发传入的查询。
标签返回后,API 标识符将请求服务器获取渲染 API 功能的路由。此步骤涉及将查询中提取的关键词动态映射到 API 功能所需的输入参数。例如:Coingecko API ,随后执行 API 调用获取,从而获得 JSON 的反馈数据。
API 调用处理完成后,结果以用户可读的方式返回。此步骤包括错误处理。如果在 API 执行过程中出现任何问题,例如无效参数或 API 调用失败,系统会向用户提供相关反馈。此外,搜索历史功能允许用户查看过去的查询,为重复交互增添了一层功能。
这一端到端框架自动化了整个 API 交互过程,最大限度地减少了人工干预,并确保用户查询得到高效且准确的处理。在提示过程中集成 API 层级结构,确保系统易于扩展,能够根据需要添加新的 API 类别和功能。
大型语言模型(LLM)可以读取 API 返回的 JSON 对象参数并将内容以自然语言可读的方式返回给用户,这将带来一系列显著的变革,从技术人员主导的局限性转变为普通用户可消费的商业模式主要体现在以下几个方面:
在大型语言模型(LLM)未参与 API 数据处理之前,API 的使用主要局限于技术人员和开发者。普通用户往往缺乏必要的技术知识,无法直接与 API 交互。这种局限性导致了以下几个弊端:
知识壁垒:普通用户需要具备一定的编程技能和 API 使用知识,才能有效利用 API 提供的数据和服务。这使得许多潜在用户被排除在外,限制了市场的广泛应用。
高成本:企业需要雇佣技术人员来开发和维护与 API 的集成,这增加了运营成本。对于数据提供商来说,不稳定的客户源,限制了他们的再创新动力。
响应速度慢:技术人员在处理 API 请求和解析数据时,往往需要花费大量时间。这导致了信息获取的延迟,影响了决策的及时性。
由于 API 的使用主要集中在技术人员手中,市场的潜力未能得到充分挖掘:
用户群体狭窄:只有具备技术背景的用户能够有效利用 API,导致市场需求的局限性。许多行业和领域的用户无法享受到 API 带来的便利。
创新受限:技术人员的主导地位限制了用户的反馈和需求,导致 API 的开发和改进缺乏多样性和创新性。市场上可能出现许多未被满足的需求。
LLM 的引入使得 API 数据处理变得更加直观和易用,普通用户也能轻松访问和利用 API 提供的数据。这种变革带来了以下好处:
降低知识门槛:用户可以通过自然语言与系统交互,无需具备编程技能。这使得更多非技术用户能够参与到数据消费中,扩大了用户基础。
提升用户体验:通过自然语言处理,用户可以更方便地获取所需信息,减少了学习成本和使用障碍。这种友好的用户体验将吸引更多用户使用相关服务。
LLM 的参与不仅提升了用户体验,还推动了市场的扩展和创新:
多样化的用户群体:随着 API 的易用性提高,更多行业的用户能够利用 API 数据进行决策和分析。这将推动市场的多样化,满足不同用户的需求。
促进创新:用户的反馈和需求将更容易被收集和分析,推动 API 的持续改进和创新。企业可以根据用户的实际需求开发新功能,提升市场竞争力。
LLM 的引入使得数据处理更加高效,用户能够实时获取信息,做出快速决策:
加快响应速度:用户可以即时获取所需数据,减少了等待时间。这对于需要快速决策的加密货币行业尤为重要。
提高工作效率:通过自动化的数据处理,用户可以将更多时间投入到分析和决策中,而不是花费在数据获取和解析上。这将显著提升工作效率。
数据提供商通过与 AI Steam Labs 的合作,双方可以构建一个创新的商业模式,将数据整合进我们的搜索系统中,形成一个独立的代理(agent),将其上架到 Agent Store 中,为用户提供便捷的数据消费服务,用户得到自然语言可读的数据,本文将探讨这一商业路径的实现方式及其潜在的商业变现模式。
V-A. 合作模式概述
AI Steam Labs 与数据提供商的合作将基于以下几个核心要素:
数据整合:将数据提供商的 API 和数据源整合进 AI Steam Labs 的搜索系统中,以将其转化为用户可读的消费方式,用户可以通过该平台访问和消费数据。
独立代理:数据提供商将作为独立的 Agent 在 Agent Store 上运行,用户可以直接与这些代理交互,获取所需的数据服务。
消费积分系统:用户在平台上消费数据时,将使用消费积分进行支付。积分的消耗将与数据的使用量(如1M tokens的消耗量)挂钩,形成透明的消费机制。
消费积分系统将是这一商业模式的核心,具体实现方式如下:
积分获取:用户可以通过稳定币进行小额支付获取消费积分,也可通过注册奖励、推荐好友、参与活动等。这将激励用户积极参与平台的使用。
积分消耗:用户在使用数据服务时,按照 1M tokens 的消耗量扣除相应的积分。例如,若 1M tokens 的消耗量为 10000 积分,用户在消费数据时将根据实际使用量扣除相应的积分。
积分管理:平台将提供用户积分的管理界面,用户可以随时查看积分余额、消费记录和获取方式,提升用户体验。
V-C. 收益分成模式
为了实现营收,AI Steam Labs 与数据提供商将采用收益分成的模式,具体如下:
分成比例:AI Steam Labs 与数据提供商的分成比例为3:7,即 AI Steam Labs 获得 30% 的收入,而数据提供商获得 70% 的收入。这一比例反映了数据提供商在数据提供和维护中的重要性。
收入来源:收入将主要来自用户在平台上消费数据所产生的积分费用。随着用户基数的扩大和数据消费的增加,双方的收入将实现可观的增长。
透明的结算机制:平台将建立透明的结算机制,定期向数据提供商结算收入,确保双方的利益得到保障。
V-D. 用户价值与市场潜力
这一商业路径不仅为 AI Steam Labs 和数据提供商创造了新的营收机会,也为用户提供了显著的价值:
便捷的数据访问:用户可以在一个平台上轻松访问多种数据服务,减少了在不同平台之间切换的麻烦。
灵活的消费方式:通过消费积分,用户可以根据自身需求灵活消费数据,提升了用户的参与感和满意度。
市场扩展:随着数据消费的普及,AI Steam Labs 可以吸引更多用户和数据提供商,进一步扩大市场份额。
V-E. 未来展望
随着技术的不断进步和市场需求的变化,AI Steam Labs 与数据提供商的合作模式将不断演进。未来可能的扩展方向包括:
多样化的数据服务:引入更多类型的数据提供商,丰富平台的数据服务种类,满足不同用户的需求。
智能推荐系统:利用 AI 技术分析用户的消费行为,提供个性化的数据推荐,提升用户体验。
跨平台合作:与其他平台和服务提供商合作,拓展数据消费的场景和应用,形成更广泛的生态系统。
AI Steam Labs 可以构建一个创新的商业路径,实现数据消费的便捷化和市场的扩展。消费积分机制和收益分成模式将为双方创造可持续的营收机会,同时为用户提供更高的价值和体验。这一商业模式不仅符合当前市场趋势,也为未来的发展奠定了坚实的基础。
[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin.Attention is all you need.In Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS’17, page 6000–6010, Red Hook, NY, USA, 2017. Curran Associates Inc.
[2] Jacob Devlin.Bert: Pre-training of deep bidirectional transformers for language understanding.arXiv preprint arXiv:1810.04805, 2018.
[3] Renrui Zhang, Ziyao Zeng, Ziyu Guo, and Yafeng Li.Can language understand depth?In Proceedings of the 30th ACM International Conference on Multimedia, pages 6868–6874, 2022.
[4] Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, and Gideon Mann.Bloomberggpt: A large language model for finance.arXiv preprint arXiv:2303.17564, 2023.
[5] Qixin Deng, Qikai Yang, Ruibin Yuan, Yipeng Huang, Yi Wang, Xubo Liu, Zeyue Tian, Jiahao Pan, Ge Zhang, Hanfeng Lin, et al.Composerx: Multi-agent symbolic music composition with llms.arXiv preprint arXiv:2404.18081, 2024.
[6] Yixiao Yuan, Yangchen Huang, Yu Ma, Xinjin Li, Zhenglin Li, Yiming Shi, and Huapeng Zhou.Rhyme-aware chinese lyric generator based on gpt.arXiv preprint arXiv:2408.10130, 2024.
[7] Yijie Weng and Jianhao Wu.Big data and machine learning in defence.International Journal of Computer Science and Information Technology, 16(2), 2024.
[8] Yiyi Tao, Yiling Jia, Nan Wang, and Hongning Wang.The fact: Taming latent factor models for explainability with factorization trees.In Proceedings of the 42nd international ACM SIGIR conference on research and development in information retrieval, pages 295–304, 2019.
[9] Yukun Song.Deep Learning Applications in the Medical Image Recognition.American Journal of Computer Science and Technology, 2(2):22–26, July 2019.
[10] Yuelyu Ji, Zhuochun Li, Rui Meng, Sonish Sivarajkumar, Yanshan Wang, Zeshui Yu, Hui Ji, Yushui Han, Hanyu Zeng, and Daqing He.Rag-rlrc-laysum at biolaysumm: Integrating retrieval-augmented generation and readability control for layman summarization of biomedical texts.arXiv preprint arXiv:2405.13179, 2024.
[11] Tommaso Calò and Luigi De Russis.Leveraging large language models for end-user website generation.In International Symposium on End User Development, pages 52–61. Springer, 2023.
[12] Roy Thomas Fielding.Architectural styles and the design of network-based software architectures.University of California, Irvine, 2000.
[13] Cesare Pautasso, Olaf Zimmermann, and Frank Leymann.Restful web services vs.” big”’web services: making the right architectural decision.In Proceedings of the 17th international conference on World Wide Web, pages 805–814, 2008.
[14] Yaobo Liang, Chenfei Wu, Ting Song, Wenshan Wu, Yan Xia, Yu Liu, Yang Ou, Shuai Lu, Lei Ji, Shaoguang Mao, et al.Taskmatrix. ai: Completing tasks by connecting foundation models with millions of apis.Intelligent Computing, 3:0063, 2024.
[15] Yifan Song, Weimin Xiong, Dawei Zhu, Wenhao Wu, Han Qian, Mingbo Song, Hailiang Huang, Cheng Li, Ke Wang, Rong Yao, et al.Restgpt: Connecting large language models with real-world restful apis.arXiv preprint arXiv:2306.06624, 2023.
[16] Yixin Jin, Wenjing Zhou, Meiqi Wang, Meng Li, Xintao Li, Tianyu Hu, and Xingyuan Bu.Online learning of multiple tasks and their relationships: Testing on spam email data and eeg signals recorded in construction fields.arXiv preprint arXiv:2406.18311, 2024.
[17] Yiyi Tao.Meta learning enabled adversarial defense.In 2023 IEEE International Conference on Sensors, Electronics and Computer Engineering (ICSECE), pages 1326–1330. IEEE, 2023.
[18] Yiru Gong, Qimin Zhang, Huili Zheng, Zheyan Liu, and Shaohan Chen.Graphical Structural Learning of rs-fMRI data in Heavy Smokers.arXiv preprint arXiv:2409.08395, 2024.
[19] Wanyu Bian, Albert Jang, Liping Zhang, Xiaonan Yang, Zachary Stewart, and Fang Liu.Diffusion modeling with domain-conditioned prior guidance for accelerated mri and qmri reconstruction.IEEE Transactions on Medical Imaging, 2024.
[20] Yumeng Yang, Ashley Gilliam, Ethan B Ludmir, and Kirk Roberts.Exploring the generalization of cancer clinical trial eligibility classifiers across diseases.arXiv preprint arXiv:2403.17135, 2024.
[21] Huili Zheng, Qimin Zhang, Yiru Gong, Zheyan Liu, and Shaohan Chen.Identification of prognostic biomarkers for stage iii non-small cell lung carcinoma in female nonsmokers using machine learning.arXiv preprint arXiv:2408.16068, 2024.
[22] Wanyu Bian, Yunmei Chen, and Xiaojing Ye.An optimal control framework for joint-channel parallel mri reconstruction without coil sensitivities.Magnetic Resonance Imaging, 89:1–11, 2022.
[23] Xintao Li and Sibei Liu.Predicting 30-day hospital readmission in medicare patients: Insights from an lstm deep learning model.medRxiv, 2024.doi:10.1101/2024.09.08.24313212.
[24] Siqiao Zhao, Zhikang Dong, Zeyu Cao, and Raphael Douady.Hedge fund portfolio construction using polymodel theory and itransformer.arXiv preprint arXiv:2408.03320, 2024.
[25] Han-Cheng Dan, Peng Yan, Jiawei Tan, Yinchao Zhou, and Bingjie Lu.Multiple distresses detection for asphalt pavement using improved you only look once algorithm based on convolutional neural network.International Journal of Pavement Engineering, 25(1):2308169, 2024.
[26] Yunyi Zhu, Cedric Honnet, Yixiao Kang, Junyi Zhu, Angelina J Zheng, Kyle Heinz, Grace Tang, Luca Musk, Michael Wessely, and Stefanie Mueller.Demonstration of chromocloth: Re-programmable multi-color textures through flexible and portable light source.In Adjunct Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology, pages 1–3, 2023.
[27] Yukun Song, Parth Arora, Rajandeep Singh, Srikanth T. Varadharajan, Malcolm Haynes, and Thad Starner.Going Blank Comfortably: Positioning Monocular Head-Worn Displays When They are Inactive.In Proceedings of the 2023 International Symposium on Wearable Computers, pages 114–118, Cancun, Quintana Roo Mexico, October 2023. ACM.
[28] Yixiao Kang, Zhenglin Zhang, Meiqi Zhao, Xuanhui Yang, and Xubo Yang.Tie memories to e-souvenirs: Hybrid tangible ar souvenirs in the museum.In Adjunct Proceedings of the 35th Annual ACM Symposium on User Interface Software and Technology, pages 1–3, 2022.
[29] Xinhao Zhang, Zaitian Wang, Lu Jiang, Wanfu Gao, Pengfei Wang, and Kunpeng Liu.Tfwt: Tabular feature weighting with transformer.arXiv preprint arXiv:2405.08403, 2024.
[30] Yuelyu Ji, Yuhe Gao, Runxue Bao, Qi Li, Disheng Liu, Yiming Sun, and Ye Ye.Prediction of covid-19 patients’ emergency room revisit using multi-source transfer learning.In 2023 IEEE 11th International Conference on Healthcare Informatics (ICHI), pages 138–144. IEEE, 2023.
[31] Ziyao Zeng, Daniel Wang, Fengyu Yang, Hyoungseob Park, Stefano Soatto, Dong Lao, and Alex Wong.Wordepth: Variational language prior for monocular depth estimation.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9708–9719, 2024.
[32] Xiaojing Fan and Chunliang Tao.Towards resilient and efficient llms: A comparative study of efficiency, performance, and adversarial robustness.arXiv preprint arXiv:2408.04585, 2024.
[33] Jinghan Zhang, Xiting Wang, Yiqiao Jin, Changyu Chen, Xinhao Zhang, and Kunpeng Liu.Prototypical reward network for data-efficient rlhf.arXiv preprint arXiv:2406.06606, 2024.
[34] Muhammad Shahzaib Baig, Azhar Imran, Aman Ullah Yasin, Abdul Haleem Butt, and Muhammad Imran Khan.Natural language to sql queries: A review.International Journal of Innovations in Science Technology, 4:147–162, 2022.
[35] Deep Mehta, Kartik Rawool, Subodh Gujar, and Bowen Xu.Automated devops pipeline generation for code repositories using large language models.arXiv preprint arXiv:2312.13225, 2023.
[36] Gabriel Poesia, Oleksandr Polozov, Vu Le, Ashish Tiwari, Gustavo Soares, Christopher Meek, and Sumit Gulwani.Synchromesh: Reliable code generation from pre-trained language models.arXiv preprint arXiv:2201.11227, 2022.