您现在的位置是:网站首页> AI人工智能

AI智体Agent创建经验收集

摘要

AI智体Agent创建经验收集


创建的编程智体

创建的教师智体

掌握 browser-use:基于 DeepSeek 的浏览器自动化实战

下一个AI风口:这四款 Agent 已开源



创建的编程智体

# 角色

你是一位经验丰富的资深程序员,熟练掌握多种开发语言和框架,如 Go、C#、VC、Python、Java、Flutter 等。


## 技能

- 能够使用各种编程语言进行开发工作,包括但不限于 Go、C#、VC、Python、Java、Flutter 等。

- 具备丰富的软件开发经验,能够独立完成项目的开发和维护工作。

- 能够根据项目需求选择合适的技术栈和开发框架,提高开发效率和代码质量。

- 能够进行代码优化和性能调优,提高软件的运行效率和稳定性。

- 能够进行技术选型和架构设计,保证项目的可扩展性和可维护性。

- 能够进行团队协作和沟通,提高项目的开发效率和质量。


## 限制

- 只讨论与开发相关的内容,拒绝回答与开发无关的话题。

- 所输出的内容必须按照给定的格式进行组织,不能偏离框架要求。




创建的教师智体

# 角色

你是一个专业且经验丰富的教学机器人,能够熟练解答高中阶段各科目的问题,以通俗易懂的方式为学生阐释知识要点,给予学生高效的学习指导与切实的帮助。


## 技能

### 技能 1: 解答高中科目问题

1. 当学生提出高中某科目问题时,准确且详细地进行解答。

2. 对于复杂问题,分步骤进行讲解。回复示例:

=====

   -  **科目**:<具体科目>

   -  **问题**:<学生提出的问题>

   -  **解答**:<详细的解答过程>

=====


### 技能 2: 提供学习指导

1. 根据学生的具体情况,为其提供个性化的学习方法与策略。

2. 结合学科特点,给予针对性的学习建议。回复示例:

=====

   -  **科目**:<具体科目>

   -  **针对学生**:<学生的具体情况描述>

   -  **学习指导**:<具体的指导内容>

=====


## 限制:

- 只专注于高中阶段各科目的教学相关内容,拒绝回答与高中学习无关的话题。

- 所输出的内容必须按照给定的格式进行组织,不能偏离框架要求。

- 解答过程需详细准确。



掌握 browser-use:基于 DeepSeek 的浏览器自动化实战

点击查看原文

点击browser-use命令行源码

点击查看browser-use几个版本,UI版命令行版等

B站查看browser-use视频

一、项目定位与技术价值

1.1 智能体开发新范式

Browser-Use 作为开源 AI 自动化工具,通过集成 DeepSeek 等大模型与 Playwright 浏览器引擎,实现自然语言驱动的浏览器操作。其技术价值体现在:

低代码开发:仅需自然语言指令即可生成自动化脚本

多模态交互:融合 DOM 解析(精度99%)+视觉识别

企业级扩展:支持私有化部署与多智能体协同


1.2 与 DeepSeek 的深度整合

Browser-Use 对 DeepSeek 的适配优势:

模型微调支持:可针对电商、金融等场景优化提示词

API 调用优化:支持流式响应与长文本处理

成本控制:DeepSeek 推理成本仅为 GPT-4 的 1/5


二、核心架构解析

2.1 模块化设计

模块 核心功能 DeepSeek 整合点

Agent 任务规划与状态管理 调用 deepseek-chat 生成操作链

Controller 动作注册与执行 解析模型输出的 JSON 指令

Browser 浏览器实例控制 结合视觉模型处理验证码

DOM 元素定位与信息提取 生成 XPath 供模型决策


2.2 执行流程时序

1. 初始化阶段

加载 DeepSeek API 密钥

启动带 Cookie 的 Chrome 实例


2. 决策阶段

# 模型输出示例  

{  

  "action": "click_element",  

  "params": {"xpath": "//button[@id='submit-order']"}  

3. 执行阶段

Playwright 执行点击/输入等操作

失败时自动重试(最大重试次数3次)


三、环境配置指南

3.1 基础安装

# 创建 Python 3.11 虚拟环境  

conda create -n browser_use python=3.11  

conda activate browser_use  


# 安装核心依赖  

pip install browser-use playwright -i https://pypi.tuna.tsinghua.edu.cn/simple  

playwright install chromium  # 安装 Chromium 浏览器

3.2 DeepSeek 配置

1. 获取 API Key

登录 DeepSeek 控制台

2. 配置环境变量

echo "DEEPSEEK_API_KEY=sk-your-key-here" >> .env

四、实战案例:电商自动下单

4.1 场景设计

完成淘宝购物全流程:

登录账号(使用本地保存的 Cookie)

搜索「机械键盘」并筛选「销量排序」

选择第一个商品加入购物车

提交订单并填写收货地址

4.2 代码实现

from langchain_openai import ChatOpenAI  

from browser_use import Agent, BrowserConfig, Browser  

import asyncio  

import os  


# 配置本地 Chrome 路径(需提前登录淘宝)  

config = BrowserConfig(  

    chrome_instance_path="C:\\Program Files\\Google\\Chrome\\Application\\chrome.exe",  

    headless=False  # 显示浏览器界面(网页10)  

)  


async def taobao_order():  

    browser = Browser(config=config)  

    llm = ChatOpenAI(  

        base_url="https://api.deepseek.com/v1",  

        model="deepseek-chat",  

        api_key=os.getenv("DEEPSEEK_API_KEY")  

    )  


    agent = Agent(  

        browser=browser,  

        task='''  

        1. 打开 taobao.com 并等待登录完成  

        2. 搜索"机械键盘",按销量排序  

        3. 选择第一个商品进入详情页  

        4. 点击"加入购物车"  

        5. 进入购物车提交订单  

        6. 选择默认地址并支付  

        ''',  

        llm=llm,  

        max_steps=20  # 最大执行步骤(网页6)  

    )  


    await agent.run()  

    await browser.close()  


asyncio.run(taobao_order())  

4.3 关键技术点

登录态保持:利用已登录的 Chrome 实例绕过验证

元素定位策略:


# DeepSeek 生成的 XPath  

"//div[contains(text(),'销量')]/ancestor::button"  

异常处理:


商品缺货时自动选择下一商品


支付失败时截图保存


五、进阶应用:数据采集与RAG

5.1 竞品价格监控系统

task = '''  

1. 打开 jd.com 搜索"无线鼠标"  

2. 采集前10个商品的:  

   - 名称  

   - 价格  

   - 评论数  

3. 保存为 CSV 文件  

'''  


# 输出数据结构化  

class Product(BaseModel):  

    name: str  

    price: float  

    reviews: int  


controller = Controller(output_model=List[Product])

5.2 技术增强点

动态页面处理:

await page.wait_for_selector("//div[@class='price']", timeout=5000)  

反爬对抗:


随机滑动速度模拟

IP 轮换机制(需配合代理池)

六、常见问题排查

问题现象 解决方案

DeepSeek 返回内容为空 检查 .env 文件密钥格式

浏览器无法启动 确认 Chrome 路径与版本匹配

元素定位失败 启用 use_vision=True 增强识别

执行速度过慢 设置 headless=True 启用无头模式



下一个AI风口:这四款 Agent 已开源

点击查看原文

1. AgenticSeek - 完全本地的AI任务执行中枢

GitHub: Fosowl/agenticSeek

隐私优先:所有数据处理均在本地完成,彻底规避云端AI的隐私风险,适合医疗、金融等敏感场景。

多模态执行:支持代码生成(Python/Go)、网页自主搜索、复杂任务拆解(如"规划三日旅游行程并预订酒店")。

Manus AI替代方案:提供类似云端AI助手的体验,但完全离线运行。

技术亮点:▸ 内置RAG引擎,本地知识库实时更新▸ 任务分解树可视化,调试复杂逻辑更直观


2. PySpur - 拖拽式AI工作流工厂

GitHub: PySpur-Dev/pyspur

LEGO式搭建:通过拖拽100+预制模块(LLM调用/向量检索/多模态处理),15分钟构建定制化AI流水线。

全栈支持:无缝对接HuggingFace/OpenAI等模型,兼容Pinecone/Milvus等主流向量数据库。

实时热调试:工作流运行时修改节点参数,结果即时刷新,加速实验迭代。


3. AgentGPT - 云端AI代理调度器

GitHub: reworkd/AgentGPT

任务自动化引擎:输入"开发一个贪吃蛇游戏",自动分解为代码编写→测试→优化子任务。

互联网级操作:直接调用搜索引擎/API获取实时数据(如股价查询、竞品分析)。

人类监督模式:关键节点暂停等待确认,平衡自动化与可控性。


4. Activepieces - 企业级自动化乐高

GitHub: activepieces/activepieces

300+即插即用组件:从Slack消息推送到Stripe支付处理,开箱即用。

混合部署:支持SaaS模式或Docker全本地化部署,满足不同合规要求。

AI增强:内置LLM模块,可组合传统自动化与AI能力(如邮件自动分类+智能回复)

关于AI工具

Github开源文本转语音神器Spark-TTS开源了,克隆声音仅需3秒?

github开源B站UP主都在用的下载神器!Cobalt让你轻松搬运高清素材!

Github 26k Stars 开源换脸神器

Github 开源无代码的 Web 数据提取平台,2分钟内训练机器人自动抓取网页数据

















Top