Posts

AI手段抓取电池信息、整理数据、微调大语言模型并支持图片检索的解决方案，可以将该项目分为以下几个核心模块： 1. 信息抓取与数据采集模块目标：使用AI技术从网络上抓取关于各种电池（如锂电池、铅酸电池、固态电池等）的文本数据和相关图片。实现方式：网页抓取工具：使用网络爬虫技术（如Python的Scrapy、BeautifulSoup或Selenium等）从各大网站自动获取关于电池的公开信息。可以抓取的数据包括电池类型、参数、用途、制造商信息、性能评测等。图片抓取：使用如Google Images或Bing Images API来获取相关电池的图片。通过AI技术过滤无关或低质量的图片。考虑点：需要确保符合网络抓取的法律合规性，并考虑API使用的费用和限制。数据格式统一化，如文本数据的清洗和规范化处理，图像数据的格式调整等。 2. 数据处理与存储模块目标：对抓取到的数据进行处理、分类和存储，以支持后续的大语言模型微调及图片检索。实现方式：文本数据处理：数据清洗：去除冗余信息、处理缺失数据、移除噪声（如广告或非相关文本）。数据标注：将不同类型的电池信息进行分类，并为每条信息打标签。图像数据处理：图像的分类与标签：根据电池类型为图像打标签，以便后续检索。使用如OpenCV或深度学习模型（如ResNet）来检测图像的质量和相关性。存储：文本数据存储：可以使用关系型数据库（如MySQL/PostgreSQL）来存储结构化数据，或者使用NoSQL数据库（如MongoDB）来存储半结构化和非结构化数据。图像存储：可以使用对象存储服务（如AWS S3，Azure Blob Storage），并结合数据库存储图像元数据。 3. 大语言模型选择与微调模块目标：基于处理过的数据选择合适的大语言模型并进行微调，以使其能够回答关于电池的各种问题。实现方式：模型选择：选择开源大语言模型，如OpenAI的GPT、Google的BERT、Meta的LLaMA等，依据项目需求选择基础模型。微调：使用先前抓取和整理的电池相关数据对模型进行微调，确保模型能够在领域特定知识上表现出色。采用如transformers库中的微调工具，对模型进行进一步优化。考虑点：选择合适的微调策略，如全模型微调（fine-tuning）或仅对某些层进行微调。确保模型能够正确地回答电池相关的技术问题，同时保证输出的可靠性和一致性。 4. 模型验证模块目标：验证微调后的大语言模型在电池领域的表现，确保其能够正确回答与电池相关的问题。实现方式：测试集构建：创建涵盖不同类型电池及相关领域的测试集，以评估模型在不同情况下的回答准确性。自动化测试：使用如pytest等工具来进行自动化测试，检查模型在多种场景下的表现。用户反馈机制：建立反馈机制，记录用户提出的电池相关问题和模型回答的准确性，以进一步优化模型。 5. 支持图片检索与查询模块目标：支持基于图像的查询功能，即通过输入图片来获取电池相关信息。实现方式：图像特征提取：使用预训练的深度学习模型（如VGG、ResNet）提取电池图片的特征向量。图像检索引擎：使用如FAISS、Elasticsearch等工具构建基于图像特征的检索引擎，可以通过上传图片来检索相似的电池图片和相关信息。增强查询功能：支持用户通过自然语言结合图像进行查询，比如输入“这是什么电池”并上传图片，模型给出对应的电池类型和相关信息。方案总结数据采集：使用网络爬虫和图片API，抓取并整理电池的文本和图像数据。数据存储：结构化存储文本和图像信息，确保数据一致性和查询高效性。模型微调：选择开源大语言模型，使用采集的数据进行微调。模型验证：通过测试集和用户反馈验证模型的性能。图片检索：使用图像特征提取与检索引擎实现基于图像的电池信息查询。这样，一个涵盖信息抓取、数据处理、模型微调与验证、图片查询的完整方案就可以实现。...

Faiss简介 Faiss(Facebook AI Similarity Search)是由Facebook AI研究团队开发的一个高效的向量相似性搜索和聚类库。它具有以下主要特点: 为稠密向量提供高效的相似度搜索和聚类功能。支持多种检索方法,可以根据需求在速度和准确性之间权衡。搜索速度快,可以处理十亿级别的向量数据。可以存储在内存或磁盘中。使用C++实现,并提供Python接口。大部分算法支持GPU加速。核心原理 Faiss的核心原理是基于索引和查询操作: 索引阶段:将输入向量转换为指定维度,通过聚类算法分组,每个聚类中心作为原型向量构建索引。查询阶段:计算查询向量与原型向量的距离,快速定位最相似的聚类中心,完成相似向量检索。采用增量式聚类、分布式计算等优化策略提高性能。常用索引算法 Faiss提供多种索引算法,主要包括: IndexFlatL2:暴力搜索,精确但速度慢。 IndexIVFFlat:倒排文件索引,使用K-means聚类加速搜索。 IndexHNSW:基于图的索引,在高维空间中效果好。 IndexPQ:乘积量化索引,压缩向量以节省内存。选择索引算法时需要考虑向量数量、内存占用、检索时间、召回率等因素。使用方法 Faiss的基本使用流程如下: 安装Faiss库: python conda install faiss-cpu -c pytorch # CPU版本创建索引: python import faiss dimension = 64 # 向量维度 index = faiss.IndexFlatL2(dimension) 添加向量: python vectors = np.random.random((1000000, dimension)).astype('float32') index.add(vectors) 搜索相似向量: python k = 4 # 返回最相似的4个向量 D, I = index.search(query_vector, k) 应用场景 Faiss在多个领域有广泛应用: 智能客服:快速检索相似问题和答案。图像处理:图像检索和分类。推荐系统:查找相似用户或物品。自然语言处理:文本相似度计算。语音识别:音频特征匹配。总之,Faiss作为一个高效的向量检索库,在处理大规模高维向量数据时表现出色,为各种机器学习和人工智能应用提供了强大的支持。...

https://llm.mlc.ai/docs/install/mlc_llm 环境安装 conda create -n mlc_llm python=3.10 Mac cpu+metal macuser03@macuser03noMacBook-Pro study_001 % conda activate mlc_llm (mlc_llm) macuser03@macuser03noMacBook-Pro study_001 % python -m pip install --pre -U -f https://mlc.ai/wheels mlc-llm-nightly mlc-ai-nightly Always check if conda is installed properly in macOS using the command below: (mlc_llm) macuser03@macuser03noMacBook-Pro study_001 % conda info | grep platform platform : osx-64 It should return “osx-64” for Mac with Intel chip, and “osx-arm64” for Mac with Apple chip. We need git-lfs in the system, you can install it via...

https://arthurchiao.art/blog/transformers-from-scratch-zh/#434-%E5%AE%8C%E6%95%B4%E5%B7%A5%E4%BD%9C%E6%B5%81 https://arthurchiao.art/articles-zh/

https://arthurchiao.art/blog/how-to-train-a-gpt-assistant-zh/

估算Transformer模型的显存需求:显存需求 ≈ 模型参数 + 优化器状态 + 梯度 + 激活值 + 临时缓冲区模型参数: 模型参数 = 参数数量 * 4 字节 (假设使用float32) 优化器状态: 对于Adam优化器: 优化器状态 = 参数数量 * 8 字节 (两个状态变量,每个4字节) 梯度: 梯度 = 参数数量 * 4 字节激活值: 激活值 ≈ 批次大小 * 序列长度 * 隐藏维度 * 层数 * 4 字节 * C (C是一个常数,通常在2-4之间,取决于具体实现) 临时缓冲区: 临时缓冲区 ≈ 批次大小 * 序列长度 * 隐藏维度 * 4 字节 * D (D是另一个常数,通常在1-2之间) 因此,更细化的公式可以表示为:显存需求 ≈ 参数数量 * 16 字节 +...

pictrack migrate -- revision --autogenerate -m "Add all models" pictrack migrate -- upgrade head pictrack migrate -- downgrade -1

使用Docker搭建PyPI服务器的步骤如下: 创建目录结构: text mkdir -p /path/to/pypi/{packages,auth} 创建认证文件: text htpasswd -sc /path/to/pypi/auth/htpasswd.txt username 创建docker-compose.yml文件: text version: "3" services: pypi: image: pypiserver/pypiserver:latest ports: - "8080:8080" volumes: - /path/to/pypi/packages:/data/packages - /path/to/pypi/auth:/data/auth command: -P /data/auth/htpasswd.txt -a update,download,list -o /data/packages restart: always 启动服务: text docker-compose up -d 上传包到 /path/to/pypi/packages 目录配置pip使用: text pip config set global.index-url http://server_ip:8080/simple pip config set global.trusted-host server_ip 安装包: text pip install package_name 主要配置说明: 将包文件挂载到容器的 /data/packages 将认证文件挂载到 /data/auth 指定认证文件路径和允许的操作暴露8080端口这样就可以快速搭建一个基于Docker的私有PyPI服务器。可以根据需要调整认证、存储位置等配置。

https://pyloong.github.io/pythonic-project-guidelines/practices/web/#39 开发环境搭建安装虚拟环境工具:poetry brew install pipx pipx install poetry pipx ensurepath pipx upgrade poetry(需要时) 项目初始化初始化项目结构 mkdir pictrack cd pictrack mkdir -p src/pictrack/ touch src/pictrack/__init__.py mkdir tests touch tests/__init__.py % tree . ├── README.md ├── src │ └── pictrack │ └── __init__.py └── tests └── __init__.py 4 directories, 3 files 初始化项目虚拟环境： poetry init % cat pyproject.toml [tool.poetry] name = "pictrack" version = "0.1.0" description = "" authors = ["yongjiangshi <[email protected]>"] readme = "README....