2023年AI文字声音图像实用工具整理

易小灯塔
2023-09-30 / 0 评论 / 877 阅读 / 正在检测是否收录...
温馨提示:
本文最后更新于2023年10月11日,已超过411天没有更新,若内容或图片失效,请留言反馈。
提示: 点击左边图标可以看目录

一. 文字

对话

ChatGPT

大名鼎鼎的ChatGPT是一个由OpenAI开发的人工智能聊天机器人,它可以根据用户的问题和指令提供详细的回答和创造性的内容。ChatGPT还可以与用户进行对话,理解用户的意图和需求,并提供个性化的建议和服务。

订阅PLUS还能使用更强大的GPT4, 以及插件等功能。

缺点就是非付费用户只能用GPT3.5,订阅费比较贵, 20美元一个月, 并且对国内用户支付不友好, 账号容易封号。

官网: https://chat.openai.com/

NewBing

Newbing是微软基于OpenAI的大语言模型开发的新一代搜索引擎, 还可以与用户进行聊天,理解用户的意图和需求,并提供个性化的建议和服务。

优点: 使用的是GPT4, 可以联网查询实时信息, 可以阅读网页文章, 以及本地PDF

缺点: 需要代理, 需要微软非国区账号,需要edge浏览器, 不支持API调用, 如果需要API调用需要bypass

官网:https://www.bing.com/

Poe

Poe机器人是一个由美版知乎Quora推出的AI聊天平台,它可以让用户与多个不同的AI机器人进行实时在线交流,包括多个大语言模型ChatGPT、GPT4、Sage、Claude、Dragonfly等。

优点: 基本包含国外主流的大语言模型,可以预制prompt定制机器人,标准机器人免费,逻辑性高的GPT4,Claude+订阅后也可以使用,注册和付费都很友好,网页APP都有,官方ChatGPT平替,

缺点: 除了需要代理没什么缺点

官网: https://poe.com/

文心一言

文心一言是百度基于知识增强大语言模型开发的人工智能聊天机器人,它在搜索问答、内容创作生成、智能办公等众多领域都有更广阔的想象空间。

优点:无需代理使用,多模态能生成图等,支持API调用,回答效果差不多等于GPT3.5

缺点:回答内容可能受法律法规影响限制比较多。

官网:https://yiyan.baidu.com/

讯飞星火

讯飞星火是科大讯飞推出的新一代认知智能大模型,它可以理解和执行用户的自然语言指令,提供语言理解、知识问答、逻辑推理、数学题解答、代码理解与编写等多种能力。讯飞星火还可以与用户进行对话,协助用户完成内容创作、文本扩写、文本润色等任务,是一个集搜索、聊天和创作于一体的平台

优点:无需代理使用,支持API调用,回答效果差不多等于GPT3.5

缺点:回答内容可能受法律法规影响限制比较多。

官网:https://xinghuo.xfyun.cn/

通译千问

通译千问是阿里云开发的一个基于大语言模型的人工智能聊天机器人,它可以理解和执行用户的自然语言指令,提供搜索、问答、创作等多种能力。通译千问还可以与用户进行对话,协助用户完成内容创作、文本扩写、文本润色等任务,是一个集搜索、聊天和创作于一体的平台。

优点:无需代理使用,支持API调用,回答效果差不多等于GPT3.5

缺点:回答内容可能受法律法规影响限制比较多。

https://tongyi.aliyun.com/

GPT4All

可离线部署的大语言模型,支持多种模型比如LLaMa等,可以与用户进行对话。

优点:可离线部署,部署简单,回答效果差于GPT3.5, 支持CPU,GPU跑

缺点:对配置要求比较高,回答效果没GPT3.5好。

阅读

ChatDOC

ChatDOC是一款基于ChatGPT的AI文件阅读工具,它可以快速解析、定位和总结上传的pdf文件内容。用户可以以聊天的形式对文档内容进行提问,ChatDOC能在几秒钟内给出问题的答案,并附上引用的文档段落。ChatDOC可以帮助用户更高效、更深入地阅读和理解文档,是一个集搜索、问答和阅读于一体的平台

官网:https://chatdoc.com/

ChatPDF

ChatPDF是一个基于ChatGPT的AI文件阅读工具,它可以快速解析、定位和总结上传的pdf文件内容。用户可以以聊天的形式对文档内容进行提问,ChatPDF能在几秒钟内给出问题的答案,并附上引用的文档段落。ChatPDF可以帮助用户更高效、更深入地阅读和理解文档,是一个集搜索、问答和阅读于一体的平台¹²³。

官网:https://www.chatpdf.com/

ChatGPT Box

ChatGPT Box 是一个基于ChatGPT的人工智能聊天机器人浏览器插件,它可以让用户在浏览器中与ChatGPT进行对话,获取信息、知识和灵感。该插件具有以下特点:

  • 可以在任何页面上随时调出聊天对话框,或者进入独立的对话页面。
  • 可以对任何页面进行摘要,或者使用右键菜单进行其他操作。
  • 支持多种API模式,包括Web API、GPT-3.5、GPT-4、New Bing、Self-Hosted、Azure、Poe等。
  • 可以与各种常用网站进行集成,如Reddit、Quora、YouTube、GitHub、GitLab、StackOverflow、知乎、哔哩哔哩等。
  • 可以对所有主流搜索引擎进行集成,并且支持自定义查询。
  • 可以使用选择工具和右键菜单对选中的文本进行各种任务,如翻译、摘要、润色、情感分析、段落划分、代码解释等。

该插件是一个集搜索、聊天和创作于一体的平台,它可以让用户在一个位置进行搜索、聊天和创建所有内容。

项目地址:https://github.com/josStorer/chatGPTBox

写作

Writeathon

写拉松是一款内容创作工具,从获取灵感内容记录、整理输出写作工作流,为创作者提供多种功能。

  • 离线写作,本地存储,无需担心网络问题。
  • Markdown语法,支持语法提示、代码高亮、数学公式等。
  • 实时目录,可以根据Markdown标题自动生成目录。
  • 导出功能,可以一键导出所有页面,支持Markdown、PDF、HTML等格式。

Writeathon有网页版、桌面版和移动版,用户可以根据自己的喜好选择合适的版本

官网: https://www.writeathon.cn/

iThinkScen

AI自动写作神器,一款以AI技术为核心,涵盖100多个日常写作场景的AI写作神器。

使用它,可以大大提升我们的工作效率,一键生成各类文案,无论是小红书文案、日报周报文案,还是OKR文案、点评文案,都能轻松应对。

官网: https://app.ithinkai.world/

WPS AI

WPS AI是一款基于大语言模型的人工智能应用,它可以为用户提供智能文档写作、阅读理解和问答、智能人机交互的能力。WPS AI可以与WPS办公套件无缝集成,让用户在办公、写作、文档处理等方面实现更高效、更智能的体验

官网: https://ai.wps.cn/

Notion AI

Notion AI是一款内置于Notion中的人工智能助手,它可以帮助用户快速撰写、编辑、总结文本内容,并提供集思广益的功能。Notion AI利用大规模的语言模型和数据收集,能自动整理笔记、改正错别字、列出文章重点、翻译、制作表格等。Notion AI是一个集搜索、聊天和创作于一体的平台,它可以让用户在一个位置进行搜索、聊天和创建所有内容。
官网: https://www.notion.so/

开发

GitHub Copilot

GitHub Copilot是一个人工智能配对程序员,它可以帮助你更快、更少地编写代码的一个编程助手插件。它从注释和代码中提取上下文,以立即建议单个行和整个函数。GitHub Copilot由GitHub、OpenAI和微软开发的生成式AI模型提供支持。它可以作为Visual Studio Code、Visual Studio、Neovim和JetBrains的扩展。

GitHub Copilot可以根据自然语言提示或者正在编辑的代码上下文为开发者提供代码建议,支持多种编程语言,如Python、JavaScript、TypeScript、Ruby和Go等。GitHub Copilot还可以帮助开发者学习新的语言或框架,解决bug,生成测试用例等。

缺点: 需要联外网, 10美元一个月, 不过可以在某宝购买学生认证, 一年几十块

Cursor

Cursor编辑器是一个基于GPT-4的代码编辑器,它可以根据用户的自然语言指令或者正在编辑的代码上下文为用户提供代码建议,支持多种编程语言,如Python、Java、C/C#、JavaScript等。Cursor编辑器还可以帮助用户重构、理解和优化代码,提高开发效率。Cursor编辑器是一个集搜索、聊天和创作于一体的平台,它可以让用户在一个位置进行搜索、聊天和创建所有内容。Cursor编辑器由微软、OpenAI和Anysphere合作开发,利用了最先进的大语言模型GPT-4的能力。Cursor编辑器有网页版、桌面版和移动版,用户可以根据自己的喜好选择合适的版本。Cursor编辑器有免费版和付费版,付费版可以享受更多的功能和服务。
优点: 使用的是GPT-4
缺点: 收费比较高, 独立编辑器, 不支持当做vscode插件使用

官网:https://cursor.sh/

CodeGeeX

CodeGeeX是一个基于大语言模型的人工智能编程助手,它可以实现自动代码生成、代码翻译、自动编写注释等功能,支持20多种编程语言。CodeGeeX由清华大学、华为、鹏城实验室和Anysphere合作开发,利用了最先进的CodeGeeX2-6B模型的能力。CodeGeeX是一个集搜索、聊天和创作于一体的平台,它可以让用户在一个位置进行搜索、聊天和创建所有内容。CodeGeeX有网页版12,桌面版和移动版,用户可以根据自己的喜好选择合适的版本

官网: https://codegeex.cn/zh-CN

知识库/客服

FastGPT

FastGPT 是一个基于大语言模型(LLM)的知识库问答系统,它可以帮助用户快速构建智能的对话应用。FastGPT 有以下几个特点:

  • 它提供了开箱即用的数据处理和模型调用能力,用户可以通过简单的配置就能使用多种 LLM 模型进行对话,例如 GPT-3、GPT-Neo、GPT-J 等。
  • 它支持通过 Flow 可视化进行工作流编排,用户可以灵活地设计复杂的问答场景,例如知识库搜索、文本内容提取、HTTP 扩展等。
  • 它还提供了丰富的知识库预处理功能,用户可以从不同的来源导入知识库,例如 URL 读取、CSV 批量导入等,并对知识库进行修改和删除。
  • 它还支持 OpenAPI 接口,用户可以通过 API 方式调用 FastGPT 的功能,实现与其他应用的集成。

项目地址:https://github.com/labring/FastGPT

智能体/AI Agent

Auto-GPT

Auto-GPT是一个开源的人工智能应用程序,它可以使用OpenAI的大型语言模型GPT-4或GPT-3.5来自动执行多步骤的项目,而不需要人工不断地给它提示和指令。它可以理解用户用自然语言描述的目标,并将其分解为子任务,然后利用互联网和其他工具来完成这些子任务。

Auto-GPT的主要特点有:

  • 它可以自主地行动,而不需要人工代理来提示其每一项行动。
  • 它可以执行各种类型的项目,包括编程、写作、绘画、研究、娱乐等。
  • 它可以管理短期和长期的记忆,通过读写数据库和文件来存储和获取信息。
  • 它可以处理互联网上的各种操作,如网页搜索、网页表单和API交互等。

项目地址: https://github.com/Significant-Gravitas/AutoGPT

MetaGPT

MetaGPT是一个利用AI技术来简化和自动化软件开发过程的强大工具。它可以通过一个单行的需求,生成一个完整的项目,大大减少了项目开发的初始阶段所需的时间和精力。

MetaGPT的核心思想是将不同的角色分配给不同的GPT,形成一个协作的软件实体,来解决复杂的任务。

MetaGPT内部包括产品经理、架构师、项目经理、工程师等角色。它提供了一个软件公司的整个流程,以及精心设计的标准操作流程(SOP)。

MetaGPT将SOP编码为提示,以增强结构化的协调。MetaGPT利用装配线范式,将多样化的角色分配给各种代理人,从而建立了一个能够有效和协调地分解复杂多代理人协作问题的框架。MetaGPT在协作软件工程基准测试上的实验表明,与现有的基于聊天的多代理人系统相比,MetaGPT生成了更一致和正确的解决方案。这突显了将人类领域知识集成到多代理人系统中的潜力,从而为解决复杂的现实世界挑战创造了新的机会。

项目地址:https://github.com/geekan/MetaGPT

二. 声音

语音识别

Whisper

Whisper是一个人工智能语音识别系统,它由OpenAI开发,可以在多种语言和任务上实现高精度和鲁棒性的语音转文字和语音翻译。Whisper可以应对不同的口音、背景噪音和专业术语,还可以进行语言识别、时间戳标注等功能。Whisper是一个开源的项目,可以作为构建有用应用和进行进一步研究的基础。

优点:可以离线部署处理, 语言识别效果好。

Github相关项目链接

Buzz: https://github.com/chidiwilliams/buzz

WhisperDesktop: https://github.com/Const-me/Whisper

繁体简体字幕转换工具: https://github.com/xiaoxinpro/ChineseSubtitleConversionTool

通义听悟

通义听悟是一款基于阿里云通义千问大模型开发的AI应用,它主要针对音视频内容进行转写、检索、摘要和整理,比如用大模型自动做笔记、整理访谈、提取PPT等。通义听悟可以帮助用户高效地完成对音视频内容的记录、转写、摘要、整理和分析,实现通义大模型能力与场景化应用的结合,成为人人都可亲手体验和使用的效率工具。
官网:https://tingwu.aliyun.com/

飞书妙计

飞书妙记是一款智能会议纪要工具,它可以将音视频内容转录为可搜索、可翻译、可高亮的文字笔记,帮助用户高效回顾和沉淀会议内容。飞书妙记支持多种场景,如会议、培训、访谈、课堂等,可以实现实时语音转文字、关键词提取、评论互动、内容分享等功能。飞书妙记是飞书的一个子产品,可以与飞书会议无缝集成,也可以单独使用。

官网:https://www.feishu.cn/product/minutes

文本转语音/语音克隆

微软TTS

微软TTS是微软的文本转语音服务,它可以将文本转换为逼真的语音。微软TTS利用了人工智能和神经网络技术,让合成的语音具有表现力和情感,适应不同的场景和用例。微软TTS支持多种语言和方言,可以自定义语音模型和参数,还可以在云端或容器边缘部署。微软TTS是Azure AI服务的一部分,可以与其他微软产品无缝集成,提供安全、可靠、灵活的语音解决方案。

相关网站: https://azure.microsoft.com/zh-cn/products/ai-services/speech-to-text

tts-vue

这个项目是一个基于微软TTS的应用,它可以将文本转换为逼真的语音。它使用了Electron等技术,构建了一个简洁、高效、专注的用户界面。

项目官网:https://loker-page.lgwawork.com/home.html

Github地址:https://github.com/LokerL/tts-vue

微软TTS SSML语法说明:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/speech-synthesis-markup-voice

原神在线TTS

基于Bert-VITS2的原神+崩铁全角色文本转语音实现

在线使用:https://genshinvoice.top/

仓库地址:https://github.com/Stardust-minus/Bert-VITS2

演示:https://www.bilibili.com/video/BV1hp4y1K78E

So-VITS-SVC

So-vits-svc(SoftVC VITS Singing Voice Conversion)是一款开源免费AI声音克隆软件,最近大火的AI孙燕姿周杰伦唱歌利用的也是这一技术。so-vits-svc可以通过学习一个人的声音,对另一首歌做音色替换。所需的样本量较少,且少量的训练时间就可以得到不错的效果。

演示:https://www.bilibili.com/video/BV1Cc411H74D

So-VITS-SVC 4.1 整合包: https://www.yuque.com/umoubuton/ueupp5

VALL-EX

VALL-E X 是一个强大而创新的多语言文本转语音(TTS)开源声音克隆和合成大模型,最初由微软发布。

不同于VITS的声纹复制,更侧重于文本转语音。

项目地址:https://github.com/Plachtaa/VALL-E-X

介绍演示:https://www.bilibili.com/video/BV1Dh4y1K7qJ

Hugging Face在线体验:https://huggingface.co/spaces/Plachta/VALL-E-X

Google Colab在线体验:https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing

声音处理

UVR5

全称为Ultimate Vocal Remover 5,是一款基于深度神经网络的人声伴奏分离工具。它被誉为目前最优秀的人声伴奏分离工具之一,而且开源免费。

项目地址:https://github.com/Anjok07/ultimatevocalremovergui

MVSEP-MDX23

MVSEP-MDX23是一个基于人工智能的人声伴奏分离工具,它可以将音乐文件分离为四个部分:低音、鼓、人声和其他。它使用了Demucs4、MDX和Ultimate Vocal Remover等多个神经网络模型的结合,实现了高质量和高速度的音乐分离效果。

听说是目前最强的人声伴奏分离工具, 比UVR5好

项目地址: https://github.com/ZFTurbo/MVSEP-MDX23-music-separation-model

效果演示: https://www.bilibili.com/video/BV1Sh4y1r7Ym/

Piano transcription

基于此工具基于 字节跳动GiantMIDI-Piano项目实现最全钢琴转谱扒谱工具。

项目地址:https://github.com/bytedance/piano_transcription

效果演示:https://www.bilibili.com/video/BV1ia411A7ur/

三. 图像

AI绘画

Stable Diffusion

大名鼎鼎的Stable Diffusion是一个非常先进和有趣的图像生成工具,它可以为创作者和爱好者提供一个新的方式来表达自己的想象。它可以生成各种各样的图像,比如风景、人物、动物、建筑等等,只要给出一个简单的描述,就可以看到惊人的效果。

秋葉aaaki的WebUI一键整合包

https://www.bilibili.com/video/BV1iM4y1y7oA

只剩一瓶辣椒酱的ComfyUI工作流版一键整合包

https://www.bilibili.com/video/BV1694y1W76L

Nenly同学的Stable Diffusion系统教程

https://space.bilibili.com/1814756990

lora模型训练器秋葉aaaki

https://www.bilibili.com/video/BV1AL411q7Ub

朱尼酱的赛博炼丹

https://www.bilibili.com/video/BV1zu411W7LW

在线SD/模型站

C站: https://civitai.com/

吐司AI: https://tusiart.com/

哩布哩布:https://www.liblib.ai/

海艺AI:https://www.seaart.ai/

LightFlow工作流社区

https://www.lightflow.ai/

Stable Diffusion插件推荐

待完善....

Midjourney

大名鼎鼎的Midjourney的主要产品是一个能够将文本描述转化为高质量艺术作品的人工智能平台。换句话说,它能够理解用户的任何请求,并将其转换为某种创造性的视觉表达。

官网:https://www.midjourney.com

妙鸭相机

妙鸭相机是一款在线生成专业质感大片的AI相机,拥有时尚、好玩的风格模板,让你快速拥有百变照片,掌握引爆社交圈的流量密码!使用流程很简单,只需要上传20张包含人脸或上半身的照片,支付9.9元,就可以生成一个专属数字分身,然后挑选模板,就可以得到各种风格的写真。

官网: https://www.miaoya.cn/

AI换脸

Roop

Roop换脸是一种使用Python开发的深度AI视频照片换脸工具,只需提供一张照片即可,10秒换脸。

可以用于照片,视频,直播。

可以作为StableDiffusion的插件使用, 也可以独立使用。

StableDiffusion插件地址:https://github.com/s0md3v/sd-webui-roop

万能君的软件库的一键打包版本

https://www.bilibili.com/video/BV1rH4y1S7UX

DeepFaceLive

DeepFaceLive是一种使用Python开发的深度AI视频换脸工具,它可以实现不依赖于原始说话者的声音特征转换。

可用于视频,直播。

项目地址有打包版本,有模型下载。

项目地址:https://github.com/iperov/DeepFaceLive

降噪优化

Topaz DeNoise AI

Topaz DeNoise AI是一款功能非常强大且实用的图片降噪软件,用户只需调整基础参数即可马上消除图片中的噪点,让图片变得更加的精美,让图片的细节得到优化,让照片看上去更加的清晰。

DxO PureRAW

DxO PureRAW是一款智能的RAW照片编辑处理工具,这款软件可以帮助大家保留图像细节,消除噪音,让图像效果达到完美平衡。

图像识别

SAM

Meta的图像分割模型 SAM 是一个可以根据不同类型的提示(如文本、点、框等)来生成高质量的分割掩码的人工智能平台。换句话说,它能够理解用户的任何请求,并将其转换为某种创造性的视觉表达。

SAM 的主要特点是:

  • 它可以分割任何图像中的任何对象,即使是它在训练过程中没有见过的。
  • 它可以使用多种类型的提示,包括文本、点、框、涂鸦、掩码等,来指定要分割的内容。
  • 它可以处理不明确或模糊的提示,并生成多个有效的掩码。
  • 它可以与用户进行多轮交互,通过记忆提示来优化分割结果。
  • 它可以为分割掩码提供语义标签,以便用户更好地理解和编辑。

SAM 是基于一个包含超过 10 亿个掩码的大规模数据集 SA-1B 进行训练的。这个数据集是由 Meta 的研究人员使用 SAM 自身来交互式地注释图像而创建的,从而实现了模型和数据集的相互提升.

项目地址: https://github.com/facebookresearch/segment-anything

demo地址: https://segment-anything.com/

YOLOv8

YOLO是一个实时的物体检测算法,它可以使用一个神经网络来同时进行物体的分类和位置的预测。YOLO的名字来源于英文的“You Only Look Once”,意思是它只需要看一次图像就可以完成检测任务。YOLO相比于其他的物体检测算法,有以下几个优点:

  • 它速度很快,可以达到每秒数百帧的检测速率。
  • 它准确度很高,可以在各种场景和数据集上取得优秀的结果。
  • 它易于使用,只需要安装ultralytics包,就可以在几分钟内开始使用YOLO。
    YOLO目前已经发展到第八代版本,即YOLOv8,它在前几代版本的基础上引入了新的特性和改进,提升了性能和灵活性。YOLOv8支持多种视觉AI任务,包括检测、分割、姿态估计、跟踪和分类。这种多功能性使得用户可以利用YOLOv8的能力应用于不同的领域和场景。

官方文档: https://docs.ultralytics.com/

1

评论 (0)

取消