食用前提:科学上网和 OpenAI API key (不要讨论,不要交流,自行解决)、python 基础知识、linux 基本使用技能、 IDE 推荐使用 VS Code 并安装 python 插件
以下代码在 ubuntu 22.04 环境下验证通过 1、准备 python 环境 # 安装依赖包 [backcolor=rgba(0, 0, 0, 0.03)]sudo apt-get install python3.10 python3.10-venv wget
# 创建 venv 环境 [backcolor=rgba(0, 0, 0, 0.03)]/usr/bin/python3.10 -m venv --system-site-packages ~/envs/dev
# 激活 venv 环境 [backcolor=rgba(0, 0, 0, 0.03)]source ~/envs/dev/bin/activate
2、准备项目相关素材 # 创建应用目录 [backcolor=rgba(0, 0, 0, 0.03)]mkdir ~/caoz && cd ~/caoz
# 下载曹大公众号 html 文件 [backcolor=rgba(0, 0, 0, 0.03)]wget https://asset.aivip.fun/static/caoz/html.tar.gz
# 解压缩文件备用 [backcolor=rgba(0, 0, 0, 0.03)]tar xf html.tar.gz
# 创建必要的目录 [backcolor=rgba(0, 0, 0, 0.03)]mkdir txt db
# 下载 ipynb 文件 [backcolor=rgba(0, 0, 0, 0.03)]wget https://asset.aivip.fun/static/caoz/main.ipynb
# 下载 requirements.txt 文件 [backcolor=rgba(0, 0, 0, 0.03)]wget https://asset.aivip.fun/static/caoz/requirements.txt
# 配置 pip 使用国内镜像,创建并编辑 ~/.pip/pip.conf [backcolor=rgba(0, 0, 0, 0.03)][global]
timeout = 6000
index-url = https://pypi.tuna.tsinghua.edu.cn/simple/
trusted-host = pypi.tuna.tsinghua.edu.cn
# 安装运行 ipynb 所需依赖 [backcolor=rgba(0, 0, 0, 0.03)]pip install jupyter ipykernel ipywidgets
# 安装项目所需依赖包 [backcolor=rgba(0, 0, 0, 0.03)]pip install -r requirements.txt
# 运行 vscode [backcolor=rgba(0, 0, 0, 0.03)]code .
# 选择 python 环境
# 选择 main.ipynb 填写自己的 OPENAI_API_KEY 后即可单步运行 ,第一次需要完整执行所有步骤,后续查询问题时只需要执行 "初始化" 和 "查询" 这两步
# 值得注意的是 1、代码设计的思想是尽量解耦,减少状态依赖 比如我们已经批量把 html 文件成功转换为 txt 文件并保存。下一步就是直接从目录中加载 txt 文件列表而无需再执行 html 转换的操作。 我们已经把向量数据保存在向量数据库中,那么真正提供服务的时候我们只需要从向量数据库中加载数据即可
2、代码只实现了基础功能,没有调优,不能直接用在生产环节中
|