MySQL, Oracle, Linux, 软件架构及大数据技术知识分享平台

网站首页 > 精选文章 / 正文

Deepseek+MCP 实现多平台数据批量采集

2025-05-26 16:15 huorong 精选文章 7 ℃ 0 评论

主要流程说明：

初始化阶段：
创建 Host 类实例
发现并注册 MCP 服务器的能力（浏览器操作功能）
数据提取流程：
extract_data 函数是主要入口点
创建 Host 实例并处理用户指令
构建系统提示和上下文
发送给 LLM 进行规划和执行
LLM 交互循环：
管理上下文窗口大小，防止 token 超限
调用 LLM API 获取响应
解析 LLM 响应，识别工具调用
执行工具（浏览器操作）
将结果添加到上下文并再次发送给 LLM
公告爬取流程：
scrape_announcements 函数爬取招标公告
调用 extract_data 获取公告列表
解析 JSON 数据并筛选前一日公告
遍历公告列表，提取详情
获取 HTML 内容和附件链接
下载附件并上传到 MinIO
保存数据到 CSV
文件下载流程：
处理 cookies 和请求参数
发送 HEAD 请求获取文件信息
提取文件名并确保包含扩展名
根据服务器支持选择多线程或单线程下载
返回本地文件名
HTML 获取流程：
使用 Playwright 启动浏览器
访问 URL 并等待页面加载
清理页面元素（删除脚本、样式等）
获取 HTML 内容和 Cookies
关闭浏览器并返回结果

通过 LLM 的智能规划和浏览器自动化技术，实现了灵活的网页数据爬取功能，特别适合于结构复杂、需要交互操作的网站。

运行结果截图

数据入库

后续待解决问题

LLM实现动态网站翻页LLM实现json解析，上下文context过长问题部分附件下载需要验证码或者cookie

Tags：minio删除文件

上一篇：慕课 SpringBoot2.X+Vue+UniAPP,全栈开发医疗小程序
下一篇：今日实践:让Loki丝滑般的数据切换

猜你喜欢

2025-05-26 2.2k star，一款业界领先的私有云+在线文档管理系统
2025-05-26 Linux面板8.0.54 测试版-已上线
2025-05-26 安装新版的QAnything(支持双显卡运行)搭建智能客服系统
2025-05-26 RAGFlow:深度文档理解的RAG引擎、大海捞针测试、API集成业务!
2025-05-26 使用 Cursor 帮我量身打造了一款 MarkDown To 公众号的桌面端应用
2025-05-26 Redis大Key问题如何排查?如何解决?
2025-05-26 TestCenter测试管理工具
2025-05-26 Util应用框架后端概述
2025-05-26 Rclone 使用文档
2025-05-26 今日实践:让Loki丝滑般的数据切换

控制面板: 您好，欢迎到访网站！
登录后台查看权限

网站分类

最新留言