教程
信息差
资源
软件工具
技术笔记
AIGC
视频
Search
1
使用AI实现高精度钢琴曲转谱Piano Transcription简明使用教程
37,794 阅读
2
使用ESP8266Wifi模块制作Wifi杀手
37,467 阅读
3
unravel 让图片唱歌详细教程 Real Time Image Animation 项目
27,386 阅读
4
佳能相机刷Magic Lantern魔灯固件
23,501 阅读
5
战地3 正版账号免费分享!
16,213 阅读
教程
信息差
资源
软件工具
技术笔记
AIGC
视频
Search
标签搜索
python
前端
环境搭建
空镜素材
Ubuntu
markdown
神器
黑苹果
编码
技巧
Git
数据库
开发
下载工具
Youtube
CDN
PDF
OST
电影原声带
音乐
易小灯塔
累计撰写
176
篇文章
累计收到
44
条评论
首页
栏目
教程
信息差
资源
软件工具
技术笔记
AIGC
视频
页面
搜索到
175
篇与
的结果
2024-10-28
收藏级动态壁纸资源!新海诚《你的名字》4K全部空镜素材整理!
{bilibili bvid="BV1UU1aYbEUJ" page=""/}以下是新海诚《你的名字》4K拆好分类的空镜视频的素材,4K高清无水印! 为避免资源失效,请尽快下载保存!你的名字 4K全片镜头拆分链接:https://pan.xunlei.com/s/VOAHkkeuiBXzJKZ8q9rzIN-QA1?pwd=gv2g#你的名字 4K空镜素材合集链接:https://pan.xunlei.com/s/VOAHkT_yUCxgtEKQFS8BaZN5A1?pwd=xgsa#你的名字 4K空镜素材合并链接:https://pan.xunlei.com/s/VOANTtZdVkokUradGP97w5pkA1?pwd=mu33#你的名字 钢琴纯音乐BGM链接:https://pan.xunlei.com/s/VOAHkW1i2kbZy0kO_dQxAAW7A1?pwd=ykew#复制这段内容后打开手机迅雷App,查看更方便
2024年10月28日
23 阅读
0 评论
0 点赞
2024-10-24
纯享!新海诚《言叶之庭》切好的空镜素材 动态壁纸资源
{bilibili bvid="BV13d1KYfE6N" page=""/}以下是拆好的空镜视频的素材,高清无水印!为避免资源失效,请尽快下载保存!言叶之庭 全镜头拆分https://pan.xunlei.com/s/VO9x98hSYzmgiFd-g7aZCZoVA1?pwd=hut2#{cloud title="言叶之庭 全镜头拆分" type="default" url="https://pan.xunlei.com/s/VO9x98hSYzmgiFd-g7aZCZoVA1?pwd=hut2#" password=""/}言叶之庭 全风景空镜合集https://pan.xunlei.com/s/VO9x9DIFVkokUradGP8ywr9CA1?pwd=xr86#{cloud title="言叶之庭 全风景空镜合集" type="default" url="https://pan.xunlei.com/s/VO9x9DIFVkokUradGP8ywr9CA1?pwd=xr86#" password=""/}言叶之庭 全风景空镜合并https://pan.xunlei.com/s/VO9x9F-fM4QiVvOwdB3a14SFA1?pwd=f59h#{cloud title="言叶之庭 全风景空镜合并" type="default" url="https://pan.xunlei.com/s/VO9x9F-fM4QiVvOwdB3a14SFA1?pwd=f59h#" password=""/}言叶之庭 空镜视频背景音乐https://pan.xunlei.com/s/VO9x9BAJM4QiVvOwdB3a11dWA1?pwd=n2zs#{cloud title="言叶之庭 空镜视频背景音乐" type="default" url="https://pan.xunlei.com/s/VO9x9BAJM4QiVvOwdB3a11dWA1?pwd=n2zs#" password=""/}
2024年10月24日
12 阅读
0 评论
0 点赞
2024-10-23
新海诚《秒速五厘米》空镜素材 动态壁纸资源
{bilibili bvid="BV1vGyoYTEnh" page=""/}秒速五厘米 全镜头拆分https://pan.quark.cn/s/3f63b27a043f{cloud title="秒速五厘米 全镜头拆分" type="default" url="https://pan.quark.cn/s/3f63b27a043f" password=""/}https://pan.xunlei.com/s/VO9t9BjCTruTRFvTjj8ARXQyA1?pwd=xwyf#{cloud title="秒速五厘米 全镜头拆分" type="default" url="https://pan.xunlei.com/s/VO9t9BjCTruTRFvTjj8ARXQyA1?pwd=xwyf#" password=""/}秒速五厘米 全空镜合集https://pan.quark.cn/s/1beeda8ebc62{cloud title="秒速五厘米 全空镜合集" type="default" url="https://pan.quark.cn/s/1beeda8ebc62" password=""/}https://pan.xunlei.com/s/VO9t94o4OyqqTWf82SibZfzfA1?pwd=htua#{cloud title="秒速五厘米 全空镜合集" type="default" url="https://pan.xunlei.com/s/VO9t94o4OyqqTWf82SibZfzfA1?pwd=htua#" password=""/}秒速五厘米 全空镜合并https://pan.quark.cn/s/71b773c7b77d{cloud title="秒速五厘米 全空镜合并" type="default" url="https://pan.quark.cn/s/71b773c7b77d" password=""/}https://pan.xunlei.com/s/VO9t8zguM4QiVvOwdB3ZeSXcA1?pwd=bxnf#{cloud title="秒速五厘米 全空镜合并" type="default" url="https://pan.xunlei.com/s/VO9t8zguM4QiVvOwdB3ZeSXcA1?pwd=bxnf#" password=""/}秒速五厘米 空镜背景音乐https://pan.quark.cn/s/3e237ae602fd{cloud title="秒速五厘米 空镜背景音乐" type="default" url="https://pan.quark.cn/s/3e237ae602fd" password=""/}https://pan.xunlei.com/s/VO9t8iz-VkjQ5uO3uhOBMA7fA1?pwd=zfgd#{cloud title="秒速五厘米 空镜背景音乐" type="default" url="https://pan.quark.cn/s/3e237ae602fd" password=""/}
2024年10月23日
22 阅读
0 评论
0 点赞
2024-10-14
Telegram 超强资源解析下载机器人分享
Telegram也叫电报,是个国外的聊天工具,懂的都懂, 提供频道、群组、机器人等功能。这里收集了多种功能不同的资源解析下载机器人使用方法, 复制以下框内容到Telegram的收藏里, 即可使用@Music163bot 网易云音乐下载 @DouYintg_bot 抖音 tiktok 有图比 X推特 小红书等视频图集解析(支持去水印) @web2album_bot 支持推特、weibo、小红书、reddit 解析,支持长截图分割 @bilibiliparse_bot 支持B站、 抖音、 小红书、 推特、 Ins、 油管、 Tiktok、 快手、 皮皮虾、虎扑、 weibo解析 @douyin_download_bot 支持 B站、抖音、小红书、推特、 Ins、FB、油管、Tiktok、快手、皮皮虾、虎扑、weibo、快手、Pinterest解析 @ParsehubBot 支持抖音 B站 油管 TikTok 小红书 推特 贴吧 niconico FB weibo @icbcbot 支持 抖音、Tiktok、推特、ins、weibo等 @GLBetabot 妙妙小工具Beta 支持的功能太多了,也支持很多网站下载,详见官网 https://wiki.getletbot.com/basic.html @download_it_bot 大多数网站都能下载 @twitt er_loli_bot @xx_video_download_bot 推特下载 @reddit_download_bot @RDTDownloaderBOT reddit下载器 @MultiSaverXbot @MultidownloadRobot @utubebot @YtbDownBot @YTfinderbot @VideoDlpBot @DownloadsMasterBot @publicmediashare_bot @tisavebot @CatdlBot @Youthub_bot @yt_loadbot @YoutubdlNRbot @YTubeDL_bot @youtub eDownloader7Bot @youtu beCTBot @MediaMagnetXBot 国外的下载机器人 @bilifeedbot B站下载 @Pixiv_bot pixiv下载 @Cctv365bot 电影搜索机器人@Music163bot 网易云音乐下载@DouYintg_bot 抖音 tiktok 有图比 X推特 小红书等视频图集解析(支持去水印)@web2album_bot 支持推特、weibo、小红书、reddit 解析,支持长截图分割@bilibiliparse_bot 支持B站、 抖音、 小红书、 推特、 Ins、 油管、 Tiktok、 快手、 皮皮虾、虎扑、 weibo解析@douyin_download_bot 支持 B站、抖音、小红书、推特、 Ins、FB、油管、Tiktok、快手、皮皮虾、虎扑、weibo、快手、Pinterest解析@ParsehubBot 支持抖音 B站 油管 TikTok 小红书 推特 贴吧 niconico FB weibo@icbcbot 支持 抖音、Tiktok、推特、ins、weibo等@GLBetabot 妙妙小工具Beta 支持的功能太多了,也支持很多网站下载,详见官网 https://wiki.getletbot.com/basic.html@download_it_bot 大多数网站都能下载@twitt er_loli_bot @xx_video_download_bot 推特下载@reddit_download_bot @RDTDownloaderBOT reddit下载器@MultiSaverXbot @MultidownloadRobot @utubebot @YtbDownBot @YTfinderbot @VideoDlpBot @DownloadsMasterBot @publicmediashare_bot @tisavebot @CatdlBot @Youthub_bot @yt_loadbot @YoutubdlNRbot @YTubeDL_bot @youtub eDownloader7Bot @youtu beCTBot @MediaMagnetXBot 国外的下载机器人@bilifeedbot B站下载@Pixiv_bot pixiv下载@Cctv365bot 电影搜索机器人例如网易云音乐下载机器人, 复制链接给机器人, 即可获得下载, 还是高品质的FLAC格式的音乐, 下载完成将音乐后上传的网易云的音乐云盘, 就可以解除VIP限制了https://music.163.com/song?id=1927389937&userid=10069955「Bones」- Imagine Dragons专辑: Bones网易云音乐 #flac 18.70MB 947.93kbpsvia @Music163bot
2024年10月14日
60 阅读
0 评论
0 点赞
2024-10-14
《网络谜踪》 电影原声带 Torin Borrowdale - Searching OST (Original Motion Picture Soundtrack).flac
网易云音乐和QQ音乐的都收费了, 找了一圈找到了资源, 分享给大家夸克网盘https://pan.quark.cn/s/58ec93fc15b5{cloud title="《网络谜踪》 电影原声带 Torin Borrowdale - Searching OST (Original Motion Picture Soundtrack).flac" type="default" url="https://pan.quark.cn/s/58ec93fc15b5" password=""/}迅雷网盘https://pan.xunlei.com/s/VO99Vdk24vBeOro2DKqB0WPhA1?pwd=c3ph#{cloud title="《网络谜踪》 电影原声带 Torin Borrowdale - Searching OST (Original Motion Picture Soundtrack).flac" type="default" url="https://pan.xunlei.com/s/VO99Vdk24vBeOro2DKqB0WPhA1?pwd=c3ph#" password=""/}Music By:Torin Borrowdale所属类型:犯罪 剧情 悬疑采样比特/率:16bit/44.1kHz音源格式:FLAC比特率:479 kbps (平均值)音轨类型:tracks名称大小01. New User.flac18.3 MB02. 4 Hours of Peaceful and Relaxing Instrumental Music.flac5.4 MB03. Missed Calls.flac6.9 MB04. Private Accounts.flac9.5 MB05. No Reception.flac3.0 MB06. San Jose Missing Persons.flac6.2 MB07. Detective Rosemary Vick.flac4.5 MB08. Searching.flac28.3 MB09. Saved Casts.flac8.5 MB10. Barbosa Chillin.flac9.6 MB11. #FindMargot.flac24.2 MB12. Fins.flac10.9 MB13. Viewer Discretion Advised.flac6.5 MB14. Kim_Home_Videos.flac10.8 MB15. Search by Image.flac9.6 MB16. MemorialOne.flac11.6 MB17. FWD- Confession.flac20.6 MB18. Breaking News.flac8.0 MB19. Epilogue.flac4.8 MB20. Searching End Titles.flac10.3 MB
2024年10月14日
27 阅读
0 评论
0 点赞
2024-10-12
MinerU 0.8.0 环境一键包 使用教程 (更新WebUI)
介绍最近发现了一款工具大语言语料处理神器-MinerU, 非常适合在RAG等应用场景中使用, 开源免费MinerU其中的一个功能是将 PDF 转化为 markdown 格式的工具, 对PDF文档提取的效果目前是市面上效果比较好的, 最新的版本还支持了PDF中表格的识别MinerU 官方仓库: https://github.com/opendatalab/MinerU装环境相对麻烦, 为此我制作了Windows系统的环境一键包, 下面就介绍下环境一键包的使用(在Windows11正常运行, 其他系统未测, 如有问题, 可以留言)下载地址MinerU环境一键包下载地址 链接: https://pan.quark.cn/s/ab68ea646a8c{cloud title="MinerU环境一键包" type="default" url="https://pan.quark.cn/s/ab68ea646a8c" password=""/}搞不定环境的可以用这个 里面有使用说明文档下载后解压即可使用之前需要安装里面的cuda, 安装cuda的教程自行百度, 如果已经安装请忽略如果之前安装有cuda这个报错的, 可以卸载之前的cuda, 安装里边的cuda11.8版本使用解压后即可运行点击运行gradio版.bat 运行gradio网页版 和 https://www.modelscope.cn/studios/OpenDataLab/MinerU 功能一样点击运行web版.bat 运行web网页版功能和 https://opendatalab.com/OpenSourceTools/Extractor/PDF 一样文件说明目录python为嵌入版的环境, 已经安装了所有依赖想深入使用, 可以配合官方说明文档使用, 下面是一些简要说明magic-pdf.json为配置文件, 使用的方式和官方一样small_ocr.pdf 为测试用pdf文件app.py 为gradio网页在线版 和 https://www.modelscope.cn/studios/OpenDataLab/MinerU 功能一样运行方式, 在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令./python/python.exe app.pydemo.py 为官方运行示例运行方式, 在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令./python/python.exe demo.py 如果要对Python环境里边的包进行操作的, 将原有的pip install xxx换成./python/python.exe -m pip install xxx就可以了扩展使用命令行使用官方的命令使用magic-pdf -p {some_pdf} -o {some_output_dir} -m auto在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令./python/Scripts/magic-pdf.exe -p {some_pdf} -o {some_output_dir} -m auto例如./python/Scripts/magic-pdf.exe -p small_ocr.pdf或者路径填magic-pdf.exe所在的绝对路径, 例如G:/MinerU/python/Scripts/magic-pdf.exe -p small_ocr.pdf开发使用在pycharm里环境变量填python/python.exe所在目录更新版本更新命令./python/python.exe -m pip install --upgrade magic-pdf更新后需修改文件python/Lib/site-packages/magic_pdf/libs/config_reader.py把13-14行红框替换为如下代码# 获取当前目录 current_dir = os.getcwd() print("当前目录为: ", current_dir) # 定义配置文件名常量 CONFIG_FILE_NAME = os.path.join(current_dir, "magic-pdf.json") print("配置路径为: ", CONFIG_FILE_NAME)在69行最用红框处插入如下代码models_dir = os.path.join(current_dir, models_dir) print(f"模型目录为: {models_dir}")这样路径才不会报错
2024年10月12日
60 阅读
1 评论
0 点赞
2024-10-12
影视飓风 《清晰度不如4年前!视频变糊是你的错觉吗?》 视频备份
影视飓风谈 B 站视频画质与过度压缩问题的新视频因“多方原因”阻力而下架,我找到了视频备份,有需要的可以下载夸克网盘:https://pan.quark.cn/s/765e179eed67{cloud title="清晰度不如4年前!视频变糊是你的错觉吗_-影视飓风.mp4" type="default" url="https://pan.quark.cn/s/765e179eed67" password=""/}
2024年10月12日
43 阅读
0 评论
0 点赞
2023-09-30
2023年AI文字声音图像实用工具整理
提示: 点击左边图标可以看目录一. 文字对话ChatGPT大名鼎鼎的ChatGPT是一个由OpenAI开发的人工智能聊天机器人,它可以根据用户的问题和指令提供详细的回答和创造性的内容。ChatGPT还可以与用户进行对话,理解用户的意图和需求,并提供个性化的建议和服务。订阅PLUS还能使用更强大的GPT4, 以及插件等功能。缺点就是非付费用户只能用GPT3.5,订阅费比较贵, 20美元一个月, 并且对国内用户支付不友好, 账号容易封号。官网: https://chat.openai.com/NewBingNewbing是微软基于OpenAI的大语言模型开发的新一代搜索引擎, 还可以与用户进行聊天,理解用户的意图和需求,并提供个性化的建议和服务。优点: 使用的是GPT4, 可以联网查询实时信息, 可以阅读网页文章, 以及本地PDF缺点: 需要代理, 需要微软非国区账号,需要edge浏览器, 不支持API调用, 如果需要API调用需要bypass官网:https://www.bing.com/PoePoe机器人是一个由美版知乎Quora推出的AI聊天平台,它可以让用户与多个不同的AI机器人进行实时在线交流,包括多个大语言模型ChatGPT、GPT4、Sage、Claude、Dragonfly等。优点: 基本包含国外主流的大语言模型,可以预制prompt定制机器人,标准机器人免费,逻辑性高的GPT4,Claude+订阅后也可以使用,注册和付费都很友好,网页APP都有,官方ChatGPT平替,缺点: 除了需要代理没什么缺点官网: https://poe.com/文心一言文心一言是百度基于知识增强大语言模型开发的人工智能聊天机器人,它在搜索问答、内容创作生成、智能办公等众多领域都有更广阔的想象空间。优点:无需代理使用,多模态能生成图等,支持API调用,回答效果差不多等于GPT3.5缺点:回答内容可能受法律法规影响限制比较多。官网:https://yiyan.baidu.com/讯飞星火讯飞星火是科大讯飞推出的新一代认知智能大模型,它可以理解和执行用户的自然语言指令,提供语言理解、知识问答、逻辑推理、数学题解答、代码理解与编写等多种能力。讯飞星火还可以与用户进行对话,协助用户完成内容创作、文本扩写、文本润色等任务,是一个集搜索、聊天和创作于一体的平台优点:无需代理使用,支持API调用,回答效果差不多等于GPT3.5缺点:回答内容可能受法律法规影响限制比较多。官网:https://xinghuo.xfyun.cn/通译千问通译千问是阿里云开发的一个基于大语言模型的人工智能聊天机器人,它可以理解和执行用户的自然语言指令,提供搜索、问答、创作等多种能力。通译千问还可以与用户进行对话,协助用户完成内容创作、文本扩写、文本润色等任务,是一个集搜索、聊天和创作于一体的平台。优点:无需代理使用,支持API调用,回答效果差不多等于GPT3.5缺点:回答内容可能受法律法规影响限制比较多。https://tongyi.aliyun.com/GPT4All可离线部署的大语言模型,支持多种模型比如LLaMa等,可以与用户进行对话。优点:可离线部署,部署简单,回答效果差于GPT3.5, 支持CPU,GPU跑缺点:对配置要求比较高,回答效果没GPT3.5好。阅读ChatDOCChatDOC是一款基于ChatGPT的AI文件阅读工具,它可以快速解析、定位和总结上传的pdf文件内容。用户可以以聊天的形式对文档内容进行提问,ChatDOC能在几秒钟内给出问题的答案,并附上引用的文档段落。ChatDOC可以帮助用户更高效、更深入地阅读和理解文档,是一个集搜索、问答和阅读于一体的平台官网:https://chatdoc.com/ChatPDFChatPDF是一个基于ChatGPT的AI文件阅读工具,它可以快速解析、定位和总结上传的pdf文件内容。用户可以以聊天的形式对文档内容进行提问,ChatPDF能在几秒钟内给出问题的答案,并附上引用的文档段落。ChatPDF可以帮助用户更高效、更深入地阅读和理解文档,是一个集搜索、问答和阅读于一体的平台¹²³。官网:https://www.chatpdf.com/ChatGPT BoxChatGPT Box 是一个基于ChatGPT的人工智能聊天机器人浏览器插件,它可以让用户在浏览器中与ChatGPT进行对话,获取信息、知识和灵感。该插件具有以下特点:可以在任何页面上随时调出聊天对话框,或者进入独立的对话页面。可以对任何页面进行摘要,或者使用右键菜单进行其他操作。支持多种API模式,包括Web API、GPT-3.5、GPT-4、New Bing、Self-Hosted、Azure、Poe等。可以与各种常用网站进行集成,如Reddit、Quora、YouTube、GitHub、GitLab、StackOverflow、知乎、哔哩哔哩等。可以对所有主流搜索引擎进行集成,并且支持自定义查询。可以使用选择工具和右键菜单对选中的文本进行各种任务,如翻译、摘要、润色、情感分析、段落划分、代码解释等。该插件是一个集搜索、聊天和创作于一体的平台,它可以让用户在一个位置进行搜索、聊天和创建所有内容。项目地址:https://github.com/josStorer/chatGPTBox写作Writeathon写拉松是一款内容创作工具,从获取灵感、内容记录、整理到输出等写作工作流,为创作者提供多种功能。离线写作,本地存储,无需担心网络问题。Markdown语法,支持语法提示、代码高亮、数学公式等。实时目录,可以根据Markdown标题自动生成目录。导出功能,可以一键导出所有页面,支持Markdown、PDF、HTML等格式。Writeathon有网页版、桌面版和移动版,用户可以根据自己的喜好选择合适的版本官网: https://www.writeathon.cn/iThinkScenAI自动写作神器,一款以AI技术为核心,涵盖100多个日常写作场景的AI写作神器。使用它,可以大大提升我们的工作效率,一键生成各类文案,无论是小红书文案、日报周报文案,还是OKR文案、点评文案,都能轻松应对。官网: https://app.ithinkai.world/WPS AIWPS AI是一款基于大语言模型的人工智能应用,它可以为用户提供智能文档写作、阅读理解和问答、智能人机交互的能力。WPS AI可以与WPS办公套件无缝集成,让用户在办公、写作、文档处理等方面实现更高效、更智能的体验官网: https://ai.wps.cn/Notion AINotion AI是一款内置于Notion中的人工智能助手,它可以帮助用户快速撰写、编辑、总结文本内容,并提供集思广益的功能。Notion AI利用大规模的语言模型和数据收集,能自动整理笔记、改正错别字、列出文章重点、翻译、制作表格等。Notion AI是一个集搜索、聊天和创作于一体的平台,它可以让用户在一个位置进行搜索、聊天和创建所有内容。官网: https://www.notion.so/开发GitHub CopilotGitHub Copilot是一个人工智能配对程序员,它可以帮助你更快、更少地编写代码的一个编程助手插件。它从注释和代码中提取上下文,以立即建议单个行和整个函数。GitHub Copilot由GitHub、OpenAI和微软开发的生成式AI模型提供支持。它可以作为Visual Studio Code、Visual Studio、Neovim和JetBrains的扩展。GitHub Copilot可以根据自然语言提示或者正在编辑的代码上下文为开发者提供代码建议,支持多种编程语言,如Python、JavaScript、TypeScript、Ruby和Go等。GitHub Copilot还可以帮助开发者学习新的语言或框架,解决bug,生成测试用例等。缺点: 需要联外网, 10美元一个月, 不过可以在某宝购买学生认证, 一年几十块CursorCursor编辑器是一个基于GPT-4的代码编辑器,它可以根据用户的自然语言指令或者正在编辑的代码上下文为用户提供代码建议,支持多种编程语言,如Python、Java、C/C#、JavaScript等。Cursor编辑器还可以帮助用户重构、理解和优化代码,提高开发效率。Cursor编辑器是一个集搜索、聊天和创作于一体的平台,它可以让用户在一个位置进行搜索、聊天和创建所有内容。Cursor编辑器由微软、OpenAI和Anysphere合作开发,利用了最先进的大语言模型GPT-4的能力。Cursor编辑器有网页版、桌面版和移动版,用户可以根据自己的喜好选择合适的版本。Cursor编辑器有免费版和付费版,付费版可以享受更多的功能和服务。优点: 使用的是GPT-4缺点: 收费比较高, 独立编辑器, 不支持当做vscode插件使用官网:https://cursor.sh/CodeGeeXCodeGeeX是一个基于大语言模型的人工智能编程助手,它可以实现自动代码生成、代码翻译、自动编写注释等功能,支持20多种编程语言。CodeGeeX由清华大学、华为、鹏城实验室和Anysphere合作开发,利用了最先进的CodeGeeX2-6B模型的能力。CodeGeeX是一个集搜索、聊天和创作于一体的平台,它可以让用户在一个位置进行搜索、聊天和创建所有内容。CodeGeeX有网页版12,桌面版和移动版,用户可以根据自己的喜好选择合适的版本官网: https://codegeex.cn/zh-CN知识库/客服FastGPTFastGPT 是一个基于大语言模型(LLM)的知识库问答系统,它可以帮助用户快速构建智能的对话应用。FastGPT 有以下几个特点:它提供了开箱即用的数据处理和模型调用能力,用户可以通过简单的配置就能使用多种 LLM 模型进行对话,例如 GPT-3、GPT-Neo、GPT-J 等。它支持通过 Flow 可视化进行工作流编排,用户可以灵活地设计复杂的问答场景,例如知识库搜索、文本内容提取、HTTP 扩展等。它还提供了丰富的知识库预处理功能,用户可以从不同的来源导入知识库,例如 URL 读取、CSV 批量导入等,并对知识库进行修改和删除。它还支持 OpenAPI 接口,用户可以通过 API 方式调用 FastGPT 的功能,实现与其他应用的集成。项目地址:https://github.com/labring/FastGPT智能体/AI AgentAuto-GPTAuto-GPT是一个开源的人工智能应用程序,它可以使用OpenAI的大型语言模型GPT-4或GPT-3.5来自动执行多步骤的项目,而不需要人工不断地给它提示和指令。它可以理解用户用自然语言描述的目标,并将其分解为子任务,然后利用互联网和其他工具来完成这些子任务。Auto-GPT的主要特点有:它可以自主地行动,而不需要人工代理来提示其每一项行动。它可以执行各种类型的项目,包括编程、写作、绘画、研究、娱乐等。它可以管理短期和长期的记忆,通过读写数据库和文件来存储和获取信息。它可以处理互联网上的各种操作,如网页搜索、网页表单和API交互等。项目地址: https://github.com/Significant-Gravitas/AutoGPTMetaGPTMetaGPT是一个利用AI技术来简化和自动化软件开发过程的强大工具。它可以通过一个单行的需求,生成一个完整的项目,大大减少了项目开发的初始阶段所需的时间和精力。MetaGPT的核心思想是将不同的角色分配给不同的GPT,形成一个协作的软件实体,来解决复杂的任务。MetaGPT内部包括产品经理、架构师、项目经理、工程师等角色。它提供了一个软件公司的整个流程,以及精心设计的标准操作流程(SOP)。MetaGPT将SOP编码为提示,以增强结构化的协调。MetaGPT利用装配线范式,将多样化的角色分配给各种代理人,从而建立了一个能够有效和协调地分解复杂多代理人协作问题的框架。MetaGPT在协作软件工程基准测试上的实验表明,与现有的基于聊天的多代理人系统相比,MetaGPT生成了更一致和正确的解决方案。这突显了将人类领域知识集成到多代理人系统中的潜力,从而为解决复杂的现实世界挑战创造了新的机会。项目地址:https://github.com/geekan/MetaGPT二. 声音语音识别WhisperWhisper是一个人工智能语音识别系统,它由OpenAI开发,可以在多种语言和任务上实现高精度和鲁棒性的语音转文字和语音翻译。Whisper可以应对不同的口音、背景噪音和专业术语,还可以进行语言识别、时间戳标注等功能。Whisper是一个开源的项目,可以作为构建有用应用和进行进一步研究的基础。优点:可以离线部署处理, 语言识别效果好。Github相关项目链接Buzz: https://github.com/chidiwilliams/buzz WhisperDesktop: https://github.com/Const-me/Whisper 繁体简体字幕转换工具: https://github.com/xiaoxinpro/ChineseSubtitleConversionTool通义听悟通义听悟是一款基于阿里云通义千问大模型开发的AI应用,它主要针对音视频内容进行转写、检索、摘要和整理,比如用大模型自动做笔记、整理访谈、提取PPT等。通义听悟可以帮助用户高效地完成对音视频内容的记录、转写、摘要、整理和分析,实现通义大模型能力与场景化应用的结合,成为人人都可亲手体验和使用的效率工具。官网:https://tingwu.aliyun.com/飞书妙计飞书妙记是一款智能会议纪要工具,它可以将音视频内容转录为可搜索、可翻译、可高亮的文字笔记,帮助用户高效回顾和沉淀会议内容。飞书妙记支持多种场景,如会议、培训、访谈、课堂等,可以实现实时语音转文字、关键词提取、评论互动、内容分享等功能。飞书妙记是飞书的一个子产品,可以与飞书会议无缝集成,也可以单独使用。官网:https://www.feishu.cn/product/minutes文本转语音/语音克隆微软TTS微软TTS是微软的文本转语音服务,它可以将文本转换为逼真的语音。微软TTS利用了人工智能和神经网络技术,让合成的语音具有表现力和情感,适应不同的场景和用例。微软TTS支持多种语言和方言,可以自定义语音模型和参数,还可以在云端或容器边缘部署。微软TTS是Azure AI服务的一部分,可以与其他微软产品无缝集成,提供安全、可靠、灵活的语音解决方案。相关网站: https://azure.microsoft.com/zh-cn/products/ai-services/speech-to-texttts-vue这个项目是一个基于微软TTS的应用,它可以将文本转换为逼真的语音。它使用了Electron等技术,构建了一个简洁、高效、专注的用户界面。项目官网:https://loker-page.lgwawork.com/home.html Github地址:https://github.com/LokerL/tts-vue 微软TTS SSML语法说明:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/speech-synthesis-markup-voice原神在线TTS基于Bert-VITS2的原神+崩铁全角色文本转语音实现在线使用:https://genshinvoice.top/仓库地址:https://github.com/Stardust-minus/Bert-VITS2 演示:https://www.bilibili.com/video/BV1hp4y1K78ESo-VITS-SVCSo-vits-svc(SoftVC VITS Singing Voice Conversion)是一款开源免费AI声音克隆软件,最近大火的AI孙燕姿周杰伦唱歌利用的也是这一技术。so-vits-svc可以通过学习一个人的声音,对另一首歌做音色替换。所需的样本量较少,且少量的训练时间就可以得到不错的效果。演示:https://www.bilibili.com/video/BV1Cc411H74DSo-VITS-SVC 4.1 整合包: https://www.yuque.com/umoubuton/ueupp5VALL-EXVALL-E X 是一个强大而创新的多语言文本转语音(TTS)开源声音克隆和合成大模型,最初由微软发布。不同于VITS的声纹复制,更侧重于文本转语音。项目地址:https://github.com/Plachtaa/VALL-E-X介绍演示:https://www.bilibili.com/video/BV1Dh4y1K7qJHugging Face在线体验:https://huggingface.co/spaces/Plachta/VALL-E-X Google Colab在线体验:https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing声音处理UVR5全称为Ultimate Vocal Remover 5,是一款基于深度神经网络的人声伴奏分离工具。它被誉为目前最优秀的人声伴奏分离工具之一,而且开源免费。项目地址:https://github.com/Anjok07/ultimatevocalremoverguiMVSEP-MDX23MVSEP-MDX23是一个基于人工智能的人声伴奏分离工具,它可以将音乐文件分离为四个部分:低音、鼓、人声和其他。它使用了Demucs4、MDX和Ultimate Vocal Remover等多个神经网络模型的结合,实现了高质量和高速度的音乐分离效果。听说是目前最强的人声伴奏分离工具, 比UVR5好项目地址: https://github.com/ZFTurbo/MVSEP-MDX23-music-separation-model效果演示: https://www.bilibili.com/video/BV1Sh4y1r7Ym/Piano transcription基于此工具基于 字节跳动GiantMIDI-Piano项目实现最全钢琴转谱扒谱工具。项目地址:https://github.com/bytedance/piano_transcription效果演示:https://www.bilibili.com/video/BV1ia411A7ur/三. 图像AI绘画Stable Diffusion大名鼎鼎的Stable Diffusion是一个非常先进和有趣的图像生成工具,它可以为创作者和爱好者提供一个新的方式来表达自己的想象。它可以生成各种各样的图像,比如风景、人物、动物、建筑等等,只要给出一个简单的描述,就可以看到惊人的效果。秋葉aaaki的WebUI一键整合包https://www.bilibili.com/video/BV1iM4y1y7oA只剩一瓶辣椒酱的ComfyUI工作流版一键整合包https://www.bilibili.com/video/BV1694y1W76LNenly同学的Stable Diffusion系统教程https://space.bilibili.com/1814756990lora模型训练器秋葉aaaki版https://www.bilibili.com/video/BV1AL411q7Ub朱尼酱的赛博炼丹https://www.bilibili.com/video/BV1zu411W7LW在线SD/模型站C站: https://civitai.com/吐司AI: https://tusiart.com/哩布哩布:https://www.liblib.ai/海艺AI:https://www.seaart.ai/LightFlow工作流社区https://www.lightflow.ai/Stable Diffusion插件推荐待完善....Midjourney大名鼎鼎的Midjourney的主要产品是一个能够将文本描述转化为高质量艺术作品的人工智能平台。换句话说,它能够理解用户的任何请求,并将其转换为某种创造性的视觉表达。官网:https://www.midjourney.com妙鸭相机妙鸭相机是一款在线生成专业质感大片的AI相机,拥有时尚、好玩的风格模板,让你快速拥有百变照片,掌握引爆社交圈的流量密码!使用流程很简单,只需要上传20张包含人脸或上半身的照片,支付9.9元,就可以生成一个专属数字分身,然后挑选模板,就可以得到各种风格的写真。官网: https://www.miaoya.cn/AI换脸RoopRoop换脸是一种使用Python开发的深度AI视频照片换脸工具,只需提供一张照片即可,10秒换脸。可以用于照片,视频,直播。可以作为StableDiffusion的插件使用, 也可以独立使用。StableDiffusion插件地址:https://github.com/s0md3v/sd-webui-roop万能君的软件库的一键打包版本https://www.bilibili.com/video/BV1rH4y1S7UXDeepFaceLiveDeepFaceLive是一种使用Python开发的深度AI视频换脸工具,它可以实现不依赖于原始说话者的声音特征转换。可用于视频,直播。项目地址有打包版本,有模型下载。项目地址:https://github.com/iperov/DeepFaceLive降噪优化Topaz DeNoise AITopaz DeNoise AI是一款功能非常强大且实用的图片降噪软件,用户只需调整基础参数即可马上消除图片中的噪点,让图片变得更加的精美,让图片的细节得到优化,让照片看上去更加的清晰。DxO PureRAWDxO PureRAW是一款智能的RAW照片编辑处理工具,这款软件可以帮助大家保留图像细节,消除噪音,让图像效果达到完美平衡。图像识别SAMMeta的图像分割模型 SAM 是一个可以根据不同类型的提示(如文本、点、框等)来生成高质量的分割掩码的人工智能平台。换句话说,它能够理解用户的任何请求,并将其转换为某种创造性的视觉表达。SAM 的主要特点是:它可以分割任何图像中的任何对象,即使是它在训练过程中没有见过的。它可以使用多种类型的提示,包括文本、点、框、涂鸦、掩码等,来指定要分割的内容。它可以处理不明确或模糊的提示,并生成多个有效的掩码。它可以与用户进行多轮交互,通过记忆提示来优化分割结果。它可以为分割掩码提供语义标签,以便用户更好地理解和编辑。SAM 是基于一个包含超过 10 亿个掩码的大规模数据集 SA-1B 进行训练的。这个数据集是由 Meta 的研究人员使用 SAM 自身来交互式地注释图像而创建的,从而实现了模型和数据集的相互提升.项目地址: https://github.com/facebookresearch/segment-anythingdemo地址: https://segment-anything.com/YOLOv8YOLO是一个实时的物体检测算法,它可以使用一个神经网络来同时进行物体的分类和位置的预测。YOLO的名字来源于英文的“You Only Look Once”,意思是它只需要看一次图像就可以完成检测任务。YOLO相比于其他的物体检测算法,有以下几个优点:它速度很快,可以达到每秒数百帧的检测速率。它准确度很高,可以在各种场景和数据集上取得优秀的结果。它易于使用,只需要安装ultralytics包,就可以在几分钟内开始使用YOLO。YOLO目前已经发展到第八代版本,即YOLOv8,它在前几代版本的基础上引入了新的特性和改进,提升了性能和灵活性。YOLOv8支持多种视觉AI任务,包括检测、分割、姿态估计、跟踪和分类。这种多功能性使得用户可以利用YOLOv8的能力应用于不同的领域和场景。官方文档: https://docs.ultralytics.com/
2023年09月30日
877 阅读
0 评论
1 点赞
2023-09-13
用LightFlow插件快速复现Stable Diffusion作品
Stable Diffusion虽然有ComfyUI工作流版本,但上手还是有点难度, 而WebUI版虽然做的相对简单, 也有原图导入参数的方式, 但有些参数比如ControlNet等都不能设置, 偶然发现一个LightFlow插件,能快速复现整个工作流,就像使用Photoshop的PSD文件那样方便,大大降低了使用门槛。这款插件呢是由腾讯开源的插件 LightFlow。它可以帮你一键保存工作流。它可以帮助你一键保存所有工作流数据(包括垫图和其他第三方插件设置),下次使用只需拖入.flow文件,就能快速复现整个工作流,就像使用Photoshop的PSD文件那样方便。更可以的是,LightFlow 插件还专门配备了一个可以上传和下载 SD 工作流的开源社区,里面有各种大神上传的工作流,我们只需要下载就可以复制大神们的工作流啦!如果之前没玩过SD的话, 推荐使用B站赛博菩萨秋葉aaaki的一键整合包, 具体下载和使用方式https://www.bilibili.com/video/BV1iM4y1y7oA/安装完成后我们打开SD, LightFlow 插件需要从网址进行安装, 也可以下载安装,选择在线安装就可以了, 在SD右边选择扩展=>从网址安装, 输入 git 地址,然后点击安装,重启 SD 就可以了。git项目地址为: https://github.com/Tencent/LightDiffusionFlow有些用SD的会使用多个ControlNet, 建议把 ControlNet Unit 的数量设置到 4 以上。进入 SD 的设置页面,找到 ControlNet 选项,修改以下参数数量就可以了。接下来我们打开LightFlow社区官网: https://www.lightflow.ai/下载想要的工程文件, 然后拖入插件选项框就可以了我这里用我之前制作的暗藏玄坤图来做示例https://www.lightflow.ai/detail/an-cang-xuan-kun-tu参数可以自动设置, 如果有缺少的模型也会给出提示, 如果碰到缺少的模型, 去模型网站下载即可C站: https://civitai.com/吐司: https://tusiart.com/哩布:https://www.liblib.ai/LightFlow不仅会保存第三方插件的参数以及 ControlNet 的参数,还会保存 ControlNet 中上传的图片,在还原工作流的时候可以自动把图片也还原到 ControlNet 中点击生成后即可生成和原作者一模一样的图LightFlow 不仅支持上传文件,还支持读取 PNG Info 功能,把由 SD 生成的图片拖入框中就可以实现 PNG Info 的功能。我们也可以上传我们自己觉得不错的工作流文件,一起共建社区。
2023年09月13日
542 阅读
0 评论
0 点赞
2023-09-04
轻小说离线AI翻译工具Yaku
简介Yaku是作者用600多本轻小说训练了中日翻译模型.根据作者介绍, 翻译效果比谷歌翻译, 百度翻译有道等机翻效果要好, 比GPT4模型翻译效果差些, GPT4很贵, 而且有某些限制(你懂的), 使用Yaku来看未有翻译版的轻小说是一个不错的选择.由于使用的台版的轻小说, 所以先会翻译成台版繁体中文, 再转为简体, 有些名词会有台版小说的名名词, 虽然称不上完美,但是整体的效果还是不错的。作者是B站的UP主CjangCjengh原贴: 我用600多本轻小说训练了中日翻译模型https://www.bilibili.com/video/BV1b44y1F7VL/项目代码https://github.com/CjangCjengh/YakuYaku这个项目是可以使用GPU显卡加速进行翻译的, 我试了下翻译450k的物语系列的<死物语>上篇, 笔记本CPU是 i7 11800H 显卡是3070跑了两小时翻译完, CPU占用100%, GPU占用60%左右, 显存占用7.5G左右, 翻译效果还不错。有兴趣的可以去下载来看下效果西尾维新《死物语》上+下 日版原文+机翻链接:https://pan.baidu.com/s/1DLuZxm0-mBIqxMDDByrzYQ?pwd=1111 作者只打包了CPU的运行环境的版本, 但我们可以自己安装环境来使用GPU版本, 以加快翻译速度, 如果没有nvidia显卡, 那么用作者打包的CPU版本即可使用git拉取项目到本地, 或者下载项目到本地git clone https://github.com/CjangCjengh/YakuYaku.git在项目根目录下新建文件夹models, 下载项目介绍上所需的两个模型放入models里如果访问不了的话, 也可以下载我百度盘打包的链接: https://pan.baidu.com/s/1Z3IIAyDby2zXHUFSvcLuoA?pwd=a7zp 提取码: a7zp安装环境01 安装Python环境我这里选择python-3.10.8版本, 如果装有可以略过这个步骤, 在03步选择你python对应的pytouch版本https://www.python.org/ftp/python/3.10.8/python-3.10.8-amd64.exe安装完成后, 按住windows+r打开命令提示符, 输入python出现python界面后即代表安装成功02 安装Python依赖环境输入下面命令, 升级pip版本python -m pip install --upgrade pip 在项目目录下输入cmd进入命令行, 安装依赖环境pip install -r .\requirements.txt 03 CUDA环境首先nvidia升级你的显卡驱动到最新https://www.nvidia.cn/Download/index.aspx?lang=cn下载cuda环境包并安装https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_local下载pytouch并安装https://pytorch.org/按截图选择对应的版本复制安装参数在命令行输入安装, 如下pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121使用安装好环境后我们就可以使用了, 在项目目录输入cmd, 在命令行输入python YakuYaku.py即可启动, 并且可以使用GPU CUDA进行加速小提示: 如果选择繁简转换选项会花费更多的时间
2023年09月04日
990 阅读
0 评论
3 点赞
2023-08-18
最近传的很火的坤坤抽象图原图合集,并附上LightFlow工程文件
之前用Stable Diffusion随手制做的图, 暗藏玄鸡。 本来打算是用来做头像的, 觉得挺好玩就发在了几个AI绘画群, 没想到在各大平台都传得很火, 所以弄个合集,并且付上可一键复刻制作基于LightFlow插件的工程文件
2023年08月18日
3,259 阅读
2 评论
23 点赞
2023-08-01
坚果pro2刷电信补丁解决VoLTE无信号问题
原贴发在贴吧被百度贴吧系统删除, 这里是备份有台坚果pro2旧手机, 在电信升级之后, 2G基站下线没法打电话和接电话了,在设置里边打开VoLTE通话, 会显示 已断开连接,没法接打电话接电话在网上搜索一番后, 发现是有解决办法的, 就是刷入个坚果pro2的电信VoLTE补丁就行不算教程, 只是记录一下问题解决的过程, 如果你刷机出现了问题, 我不负责刷这个补丁需要第三方Recovery, 而且是需要新版本, 我试了奇兔的那个rec好像是不行的这里使用TWRP3.3.1新版本如果你是旧版本的可以使用rec下通过刷入新版本的rec来更新到新的rec你手机没刷过机之前, 需要用9008模式刷入第三方rec一. 刷机线准备刷机线一根, 搜9008数据线就行, 或者拿现有的一根数据线制作就行了, 需要剪开接线接线, 网上有教程这里不描述.这一步的目的是进入到9008刷机模式, 进入以后如果觉得数据线连接不稳定可以在进入以后换上正常的数据线二.下载资源坚果pro2全部资源链接:https://pan.baidu.com/s/1TCarLSqrEpvCAsvDrDMEDQ?pwd=1111 坚果pro2 VoLTE补丁资源链接:https://pan.baidu.com/s/1ul9tiChidwtarZ5e9tdnDw?pwd=1111 1.第三方Recovery 这里使用TWRP3.3.1新版本2.刷机工具, 需要一台电脑操作, QPST和9008模式的驱动3.电信补丁三.刷机操作1.安装QPST以及驱动没啥困难的, 解压后安装就行安装完可以在C:\Program Files (x86)\Qualcomm\QPST\bin 目录下找到QPST.exe2.坚果pro2的电信VoLTE补丁包通过数据线或其他方式传到手机内最好是放到根目录, 方便找,3.手机关机, 按住刷机线的按钮连接电脑连接后可以在设备管理器看到9008的端口设备4.打开QPST.exe, 选中TWRP3.3.1刷入刷入成功后, 拔数据线, 按住下键和开机键开机, 看到锤子logo亮起放开, 进入到rec在rec下刷入补丁包实测官方版本系统也是可以的, 不用双清也是可以的, 不root也是可以的刷入完重启就可以了, 可以看到 VoLTE 已连接, 不root也不会掉!
2023年08月01日
1,939 阅读
0 评论
4 点赞
2023-07-12
使用Stable Diffusion垫图制作创意融合图片
引子起因是一个玩摄影的朋友发了一个牛逼的照片,一开始我以为是真的, 对这个摄影的打光赞叹了一番, 打光还真是牛, 打光打得好手机也能拍出这样的图, 后来有看到别的群里发了几张类似的, 我感觉不太对, 感觉是AI制作的, 还发帖问了下是不是AI, 后来才知道是模型大佬麦橘制作的.然后问了下制作方法, 有段时间没玩AI了, 知道了制作方法后很快就复刻了几张, 好了, 废话不多说, 下面演示一下制作过程, 给大家提供一些思路二维码/艺术字/光影光效/创意LOGO都可以制作, 只有换成不同的底图就行环境准备如果之前没玩过SD的话, 推荐使用B站赛博菩萨秋葉aaaki的一键整合包, 网上整合包比较多, 这里推荐秋叶的整合包, 比较方便, 无需自己搭环境, 还可以一键更新, 具体下载和使用方式https://www.bilibili.com/video/BV1iM4y1y7oA/如果电脑性能不不行, 可以直接使用在线版, 可以使用吐司, 哩布哩布, 海艺等, 都会每天送一些额度使用离线版接下来需要安装ControlNet插件, 并下好插件对应的模型。ControlNet模型链接: https://pan.baidu.com/s/1jBeuuTi-rMvm1U2UCN746g?pwd=9x6k 提取码: 9x6k 放入sd-webui-aki-v4\models\ControlNet文件夹内素材准备使用PS或其他工具制作一张黑底白字的图片, 并保存。或直接拿一张主体比较分明的图,比如logo图等。分辨率一般选512x768, 或者768x768例图上手制作打开AI绘画,主模型随意, 在提示词添加想要生成的图, 如夜景, 女孩在黑暗的房间等我这里使用主模型是麦橘写实v6 https://civitai.com/models/43331?modelVersionId=94640正向词night scene反向词EasyNegative,在ControlNet选择上传第3步制作的图片, 选择tile(分块)点击生成, 并调整提示词和ControlNet控制权重不断优化, 直到生成满意的图技巧: ControlNet控制权重0.5,引导介入时机0.02其他参数见图和平时使用AI绘画没什么不同, 起作用的关键是ControlNet插件的tile(分块)引导生成, 不同的组合有不同的效果.吐司, 哩布哩布, 海艺等在线平台也是一样的, 只是界面有些不同分享几张成果图
2023年07月12日
895 阅读
0 评论
0 点赞
2023-04-08
ChatGPT处理超长文本限制的四种思路
在GPT和类似的大语言模型中,文本被切割成称为"tokens"的小单位进行处理。一个token可以是一个字符,也可以是一个单词,这取决于分词策略。GPT模型有一个最大token限制,表示模型能够处理的最大输入长度。这个限制是由模型的架构和超参数决定的,它是为了平衡模型的计算复杂性和资源消耗而设定的。Token 限制包括了输入和输出,也就是你在一次对话中提交给 ChatGPT 的内容和 ChatGPT 输出的内容不能超过模型规定的 Token 数量。比如 ChatGTP 3.5 的 Token 限制是 4096,ChatGPT 4 的 Token 限制是 8192。以后可能会支持的Token 数更高, 但我们比较复杂的问题时, 往往很轻易就能超过这个上限。ChatGPT阅读理解和逻辑能力是比较好的, ChatGPT刚出来我就想过, 如果我输入一本书的内容给他会怎么样?把整个项目的源码全部给他,让他根据需求改代码会怎么样?把一个技术文档给他, 让他根据需求写代码会怎么样。。。后来发现是不现实的, 会有token限制。其实还有很多场景需要解决这个token限制,也就是长文本问题。下面就从几个思路看看怎么解决超长文本限制的问题。压缩法在处理token限制之前, 先明白 tokens 咋回事先看看OpenAI官方的介绍:什么是代币以及如何计算它们?https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-themOpenAI 官方的 Tokenizer 可以用于计算内容的token数。https://platform.openai.com/tokenizer在官方的 Tokenizer网站输入中文"我爱你"和英文"i love you"对比一下tokens 不是指 prompt 字符串的长度,token指的是一段话中可能被分出来的词汇。比如:i love you,就是三个token,分别为 「i」「love」「you」。不同语言token计算不一样,比如中文的「我爱你」其实是算 5 个 token,因为它会先把内容转成 unicode。简单来说就是tokens是文本的一部分,不一定和单词对应,它们的数量取决于文本的长度和语言。tokens的数量影响了API的请求和计费。语言转换压缩法根据上边的对token的了解, 我们可以这样操作, 先把中文转换为英文, 再去发送请求。这样就能减少的token的大小, 达到某个程度上解决超长文本限制的问题。当然,缺点也是很多的,语言的转换可能会丢失原有语义,机翻的话效果没那么好, 使用GPT进行翻译又而外增加了token消耗,得不偿失。在某个场景或许是用得上的,可以作为一种技术储备。摘要压缩法还有一个压缩思路, 就是通过一些技术手段或者直接用GPT提炼压缩成短文本,比如删除冗余信息,提取关键信息,使用缩略语等。这种方法可以保留文本的核心内容,但是可能会丢失一些细节信息和语义信息。应用场景:如果我们想要用GPT来阅读一篇论文,我们可以先用一些摘要技术或者关键词提取技术将论文压缩成一个短摘要或者一个关键词列表,然后用GPT生成一个对论文的理解或者评价。然后进行索引,方便搜寻。对论文的某一段有疑问,在根据摘要的索引找到对应的文章句子进行发送给GPT提问, 这样就能用于辅助阅读一篇长论文了。额外话:之前看到一个关于压缩很有趣的观点, 有兴趣可以去阅读下。压缩即泛化,泛化即智能https://zhuanlan.zhihu.com/p/615554635ChatGPT是网上所有文本模糊的图片https://baijiahao.baidu.com/s?id=1757454901451803072&wfr=spider&for=pc切分法如果我们向朋友发送一个5G的文件, 而软件最大限制是1GB, 那怎么发呢?可以用压缩分卷的形式拆成5个1GB的文件,分5次发送就可以解决。同理如果发送要发送的文本太大, 我们可以将长文本切分成若干个短文本,然后分别输入模型,最后将输出结果拼接起来。这种方法简单易实现,但是可能会损失文本之间的上下文信息和连贯性。例如,如果我们想要用GPT来写一篇博客文章,我们可以将文章切分成若干个段落或者小节,然后分别用GPT生成每个段落或者小节的内容,最后将它们拼接起来形成完整的文章。但是这样做可能会导致文章缺乏整体的逻辑和结构。切分法缺点显而易见,就是可能会丢失上下文的关联。适合上下文关联不强的场景。比如翻译一本英文小说的场景, 按句切按页切会丢失上下文的关联, 造成逻辑和结构问题。切分如果切得恰当,比如按一章节进行切分, 可以减少丢失上下文的关联导致的逻辑性问题。Embedding什么是Embedding?Embedding是一种将输入文本(单词、句子等)转换为连续向量表示的过程。在GPT模型中,也使用了词向量的技术,将文本中的每个单词映射到一个连续的向量空间,这个向量空间可以捕捉到单词之间的语义和语法关系。举个例子,考虑以下输入文本:"I love to play soccer."词语嵌入(Word Embedding):首先,每个单词("I", "love", "to", "play", "soccer")被映射到模型的嵌入空间,其中每个单词对应一个向量表示。例如,"love"可能被映射为一个包含多个浮点数值的向量,如[0.2, 0.8, -0.4, ...]。位置嵌入(Position Embedding):为了捕捉输入文本中单词的顺序和位置信息,位置嵌入将每个单词的位置编码为一个向量。例如,第一个单词"I"的位置嵌入向量可能是[0.1, -0.3, 0.5, ...],第二个单词"love"的位置嵌入向量可能是[-0.2, 0.4, -0.1, ...],以此类推。什么是向量数据?使用OpenAI的Embedding接口将输入文本(如句子或段落)中的每个单词或符号转换为连续的向量表示。这些向量被称为嵌入向量,它们捕捉了单词在语义和上下文方面的信息。让我们通过一个具体的例子来说明GPT的嵌入向量数据:考虑以下输入文本:"The cat is sitting on the mat."对于这个文本,GPT模型中的嵌入层将为其中的每个单词生成一个嵌入向量。假设每个嵌入向量的维度为100,那么每个单词将被表示为一个100维的向量。例如,对于单词 "cat",它的嵌入向量可能是一个长度为100的向量,如 [0.2, -0.1, 0.5, ...]。同样地,其他单词(如 "sitting"、"mat")也会有相应的嵌入向量。这些嵌入向量的生成是通过GPT模型在大规模文本语料上进行预训练得到的。在预训练过程中,模型学习到了单词之间的上下文关系和语义信息。因此,嵌入向量在向量空间中的相对位置可以反映单词之间的语义相似性。例如,对于类似的单词 "cat" 和 "dog",它们的嵌入向量在向量空间中可能会比较接近,因为它们在语义上相关。相反,与它们不相关的单词(如 "car")的嵌入向量可能会与它们较远。这样,通过使用GPT的嵌入向量,我们可以将输入文本中的离散单词转换为连续的向量表示,从而为模型提供了一种更好地理解和处理自然语言数据的方式。这些向量可以用于各种下游任务,如文本分类、情感分析、文本生成等。什么是向量数据库?向量数据库是一种专门用于存储和查询向量数据的数据库系统。它们提供高效的向量操作和相似性搜索功能。Embedding 可以以多种格式存储,其中 JSON 是一种常见的格式之一。向量数据库(Vector Database)是一种专门用于存储和检索向量数据的数据库系统。它们提供高效的向量索引和查询功能,允许用户根据向量之间的相似性进行快速搜索和分析。使用向量数据库的主要原因是向量数据的特殊性质。传统的数据库通常适用于标量或结构化数据,而对于高维向量数据(如嵌入向量、图像特征向量、音频特征向量等),传统数据库的查询和索引方法往往效率较低。向量数据库通过使用专门的索引结构和查询算法,能够高效地处理向量数据,提供更快的查询速度和更好的检索准确性。向量数据库的优势包括:高效的相似度搜索:向量数据库可以根据向量之间的相似度,快速找到最相似的向量。这在许多应用场景中非常有用,如图像搜索、推荐系统、聚类分析等。扩展性:向量数据库通常能够处理大规模的向量数据集,并具备良好的水平扩展性,可以在需要时轻松添加更多的存储和计算资源。灵活的查询功能:向量数据库提供了各种灵活的查询功能,可以支持范围查询、K近邻查询、相似度匹配等多种查询类型。一些常见的向量数据库包括:PostgreSQL:PostgreSQL是另一个常见的关系型数据库,它提供了更丰富的数据类型和功能。Faiss:Facebook AI Research 开源的向量索引库,提供了高效的相似度搜索和向量聚类功能。Milvus:一个开源的向量数据库引擎,支持高性能的相似度搜索和向量存储。Annoy:一个快速的C++库,用于在大规模数据集上进行近似最近邻搜索。Elasticsearch:一个流行的分布式搜索和分析引擎,可以通过插件支持向量数据的索引和查询。这只是一小部分向量数据库的例子,还有其他许多向量数据库可用,具体选择取决于应用需求和性能要求。使用嵌入(Embedding)来解决长文本限制问题是一种常见的方法。嵌入是将文本或实体表示为低维稠密向量的技术,可以将高维的文本表示转化为固定长度的向量,从而克服原始文本长度的限制。以下是一些具体的操作方式和示例场景:文本嵌入模型:使用预训练的文本嵌入模型(如Word2Vec、GloVe、BERT等)可以将单词或短语转换为向量表示。这样,长文本可以通过将其分解为单词或短语,并将它们的嵌入向量进行平均或拼接,得到整个文本的嵌入表示。这种方式可以用于各种场景,例如情感分析、文本分类、文本相似度计算等。示例场景:在一个知识库中,每篇文章都有较长的文本描述。可以使用预训练的文本嵌入模型,将每个文章的文本描述转换为固定长度的嵌入向量。然后,可以计算用户查询与知识库中文章的相似度,基于相似度进行匹配和推荐相关文章。序列嵌入模型:对于长文本序列,如文章、评论或对话,可以使用序列嵌入模型(如LSTM、Transformer等)来获取整个序列的嵌入表示。这种方式会考虑序列中的上下文信息,并生成一个固定长度的向量表示整个序列。这对于文本生成、机器翻译、对话建模等任务非常有用。示例场景:在一个问答系统中,用户输入一个较长的问题,需要将其转换为向量表示并与知识库中的答案进行匹配。可以使用序列嵌入模型,将问题和答案分别转换为嵌入向量,然后计算它们之间的相似度,以找到最相关的答案。文本摘要:对于长文本,可以使用文本摘要模型(如Seq2Seq模型)生成一个简洁的摘要,将长文本压缩为固定长度的摘要向量。这对于新闻摘要、文档摘要等任务非常有用。示例场景:在一个新闻聚合应用中,用户可以浏览大量的新闻文章。为了提供更好的用户体验,可以使用文本摘要模型将每篇新闻文章压缩为简洁的摘要向量,以便用户快速浏览并选择感兴趣的文章。这些是一些使用嵌入来解决长文本限制问题的操作方式和示例场景。具体的选择取决于应用需求和数据特点。嵌入技术可以帮助我们从长文本中提取有用的信息并转换为固定长度的向量表示,从而应对长文本带来的挑战。模型微调OpenAI 的微调(fine-tuning)是指在预训练的语言模型基础上,使用特定的数据集对模型进行进一步的训练,以适应特定的任务或领域。微调可以使模型更好地理解和生成与特定任务相关的文本。要解决长文本输入限制的问题,可以使用 OpenAI 的微调技术来对语言模型进行适应。以下是使用微调技术解决长文本输入限制的一般步骤:数据集准备:准备一个与所需任务相关的数据集,其中包含长文本示例。这可以是一个包含长文本样本的文本数据集,或者是一个特定任务的标注数据集,例如长文本分类或生成任务。模型选择:选择一个适合任务的预训练语言模型作为基础模型。OpenAI 提供了各种预训练模型,如GPT-3、GPT-2等。根据任务需求和计算资源,选择一个合适的模型。微调模型:使用准备好的数据集对预训练模型进行微调。微调的过程包括加载预训练模型的权重,将任务相关的数据输入模型,并通过反向传播优化模型参数。微调的目标是使模型适应特定任务,并提高模型在长文本输入上的性能。超参数调整:微调过程中,可能需要进行一些超参数的调整,如学习率、批次大小和训练轮数。这些超参数的选择可以通过实验和验证集上的性能评估来进行调整。测试和评估:在微调完成后,对模型进行测试和评估。使用一组测试集或实际应用场景的数据,评估模型在长文本输入上的性能和效果。通过微调技术,可以使预训练模型更好地理解和处理长文本输入。预训练模型具有对语言的广泛理解能力,而微调可以帮助模型针对特定任务或领域进行优化,以解决长文本输入限制的问题。总结总之,在GPT这样的预训练语言模型中,长文本输入是一个普遍存在且有待解决的问题。根据不同的场景和任务,可以采用不同的思路和方案来解决这个问题,比如切分,压缩,向量化,模型微调等,也可以综合起来运用。这些方案各有优缺点,需要根据实际情况进行选择和优化。
2023年04月08日
1,834 阅读
0 评论
0 点赞
2023-03-16
试用ChatGPT API接口并实现上下文对话
之前发现ChatGPT居然能够有记忆功能, 能够记得之前聊过什么, 终于感觉机器有点人性化了, 很好奇是怎么实现的.经过查资料, 发现很简单, 其实ChatGPT并没有真正"记忆"功能, 而是把历史聊天记录一并发过去了, API接口处理的字数也是有限制的, 如果聊得够多, 他就会丢弃"忘记"最早聊过的内容.现在就让我们试试使用ChatGPT的API实现带上下文功能的对话.官方文档地址: https://platform.openai.com/docs/首先我们需要先创建API KEY,这个 API KEY 是用于 HTTP 请求身份验证的,可以创建多个。到OpenAI官网创建API KEY, 没有账号的要先去弄个账号, 账号网上有注册教程, 也可以直接购买现成的。创建地址:https://platform.openai.com/account/api-keys注意 API 调用是收费的,新注册账号会赠送一些额度安装官方的openai库pip install openaiChatGPT API调用示例:import os import openai # 设置API key openai.api_key = os.getenv("OPENAI_API_KEY") # 给ChatGPT发送请求 completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[ {"role": "user", "content": "Hello!"} ] ) # 打印请求结果 print(completion.choices[0].message)Role角色参数详解user 表示提交prompt的一方。 assistant 表示给出completion响应的一方,实际上就是ChatGPT本身。 system message里role为system,是为了让ChatGPT在对话过程中设定自己的行为,不含上下文的对话import os import openai openai.api_key = os.getenv("OPENAI_API_KEY") while True: content = input("User: ") messages = [{"role": "user", "content": content}] completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=messages ) chat_response = completion answer = chat_response.choices[0].message.content print(f'ChatGPT: {answer}')上面这个实现里,每次只发送了当前输入的信息,并没有发送对话的历史记录,所以ChatGPT无法知道上下文。我们来看对话效果如下:User: 你好 ChatGPT: 你好!我是AI助手,有什么可以帮到您的吗? User: 我刚才说了什么 ChatGPT: 很抱歉,由于我是AI语音助手,无法得知您刚才说了什么,请您再次告知。包含聊天记录的案例import openai openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "Who won the world series in 2020?"}, {"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."}, {"role": "user", "content": "Where was it played?"} ] )上面这段代码里,使用了3种角色的role,这个messages发送给ChatGPT后,ChatGPT就有了上下文,知道作为user的我们说了什么,也知道作为assistant的自己回答了什么。想通过API实现包含上下文信息的多轮对话的关键就是用好role字段。改进一下, 包含上下文的对话import os import openai openai.api_key = os.getenv("OPENAI_API_KEY") messages = [] while True: content = input("User: ") messages.append({"role": "user", "content": content}) completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=messages ) chat_response = completion answer = chat_response.choices[0].message.content print(f'ChatGPT: {answer}') messages.append({"role": "assistant", "content": answer})上面这个实现里,每次发送请求给ChatGPT时,把历史对话记录也一起发送,所以ChatGPT知道对话的上下文。我们来看对话效果如下:User: 你好 ChatGPT: 你好!我是AI助手,有什么需要帮忙的吗? User: 我刚才说了什么 ChatGPT: 你刚才说了 "你好"。目前发现的问题这只是个简单的测试, 目前还是有很多问题的.token限制问题: 由于是累加的, 聊天达到一定的数量后, 就会超出token限制.API是按照token数量收费的, 由于每次都带之前的聊天, 对token消耗也很大.
2023年03月16日
1,045 阅读
0 评论
0 点赞
1
2
...
12