长亭百川云 - 文章详情

大模型最新情报

未闻Code

83

2024-07-13

近期长时间大量网上冲浪,收集整理了很多大模型世界最新动态。

量大管饱,大家可以挑感兴趣的研究一下,目录如下:

  • Claude 3.5 Sonnet

  • Google 新发布的 Gemma 2!9B & 27B 的底座!

  • 苹果和EPFL联合开源的多模态模型训练框架:4M

  • OpenAI 开发了一个名为 CriticGPT 的模型

  • B站 BiliBili开源了Index-1.9B模型

  • Qwen2 接上 SD3 Medium 文生图

  • DeepSeek-Coder-V2:代码和数学能力超越GPT-4的开源模型

  • Google 的 Video-to-Audio 技术

  • 由 Google Imagen 2 模型驱动的字母表生成器

  • 微软开源的一个文本编码器Glyph-ByT5-v2。

  • Streamer-Sales:一个直播卖货大模型

  • 蚂蚁开源首个 GraphRAG 框架!

  • RAG2SQL开源工具

  • LlamaIndex 数据处理、RAG 、Agentic RAG  PPT 和代码

  • OmniParse:支持多模态的数据结构化的平台

  • Pipecat:一个可用于构建语音和多模态对话的 AI 开源框架

Claude 3.5 Sonnet

Anthropic 发布 3.5 系列首个模型: Claude 3.5 Sonnet,这也是 Anthropic 目前最强大模型!

朋友们用起来😎(最近风好严重,老章也惨遭封号😂):https://claude.ai

Google 新发布的 Gemma 2!9B & 27B 的底座!

Google发布其开源模型 Gemma 2

  • 全新的架构设计 性能大幅提升

  • Gemma 2拥有9B和27B参数规模,相比第一代模型在推理效率和安全性上有显著提升。

  • 27B的Gemma 2在同等规模模型中表现最佳,甚至可与体积两倍的模型竞争。

  • 优化在各种硬件上高速运行,从高端桌面、游戏笔记本和云端设置上都能实现高效运行。

模型: http://huggingface.co/google
报告: https://ai.google.dev/gemma
试玩https://huggingface.co/spaces/huggingface-projects/gemma-2-9b-it

苹果和EPFL联合开源的多模态模型训练框架:4M

苹果和EPFL联合开源的多模态模型训练框架,业界良心,含金量巨高!支持数十种模态和任务,读图能力支持表面法线、深度图、图片分割、物体检测、图片描述。画图能力支持线框补图、画深度图和表面法线、基于深度图和区域修改图片。支持微调来适配新类型的任务

项目地址https://4m.epfl.ch
在线体验https://huggingface.co/spaces/EPFL-VILAB/4M
Githubhttps://github.com/apple/ml-4m
论文https://arxiv.org/abs/2406.09406

OpenAI 开发了一个名为 CriticGPT 的模型

CriticGPT,一种基于GPT-4训练优化的模型,专门用于来发现ChatGPT中的代码错误。

通过与人类合作CriticGPT能够显著减少模型幻觉,同时保持高效的错误检测能力。

当前的LLM模型如ChatGPT等,在生成复杂代码时,即使是经验丰富的专家也难以可靠地评估其输出的质量和正确性。CriticGPT通过训练模型生成自然语言评论,帮助人类更准确地评估代码,从而弥补了人类评估的局限性。

研究发现,在CriticGPT的帮助下,人们审查ChatGPT代码的表现比没有帮助时高出60%。

B站 BiliBili开源了Index-1.9B模型

Index-1.9B系列是Index系列模型中的轻量版本

1.9B包含:Index-1.9B base : 基座模型,具有 19亿 非词嵌入参数量,在2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先
Index-1.9B pure : 基座模型的对照组,与base具有相同的参数和训练策略,不同之处在于严格过滤了该版本语料中所有指令相关的数据,以此来验证指令对benchmark的影响
Index-1.9B chat : 基于index-1.9B base通过SFT和DPO对齐后的对话模型,由于预训练中引入了较多互联网社区语料,聊天的趣味性明显更强
Index-1.9B character : 在SFT和DPO的基础上引入了RAG来实现fewshots角色扮演定制

模型

github:https://github.com/bilibili/Index-1.9B

Index-1.9B-Chat:https://huggingface.co/IndexTeam/Index-1.9B-Chat

Qwen2 接上 SD3 Medium 文生图

支持中文输入,会自动优化并输出英文提示词

工作流https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

Qwen2 插件https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-2

DeepSeek-Coder-V2:代码和数学能力超越GPT-4的开源模型

DeepSeek-Coder-V2:首个开源模型在编码和数学方面超越 GPT4-Turbo

在编码和数学方面表现出色,超越 GPT4-Turbo、Claude3-Opus、Gemini-1.5Pro、Codestral。支持 338 种编程语言,上下文长度为 128K。全面开源,提供两种尺寸:230B(也提供 API 访问)和 16B。

输出性能达 5000-10000 token/s,百万输出 Token 2元 ,对标 Mistral 的代码模型 Codestral,DeepSeek 开源具备顶尖代码和数学推理能力的 DeepSeek Coder V2

开放论文,模型和代码,支持 236B 和 16B,支持微调并开放 API 服务

**项目地址:**https://github.com/deepseek-ai/DeepSeek-Coder-V2

Google 的 Video-to-Audio 技术

视频生成模型正在以惊人的速度发展,但许多当前系统只能生成无声输出。让生成的电影栩栩如生的下一个重要步骤之一是为这些无声视频创建配乐。

谷歌分享了视频转音频 (V2A) 技术的进展,该技术使同步视听生成成为可能。V2A 将视频像素与自然语言文本提示相结合,为屏幕上的动作生成丰富的音景。

详情https://deepmind.google/discover/blog/generating-audio-for-video/

由 Google Imagen 2 模型驱动的字母表生成器

谷歌这个项目可根据提示词创造各种字母形式,然后用它来书写各种内容 非常适合制作标题或封面艺术!

传送门 : https://labs.google/gentype

我也生成了一个:章北海

水果主题

海洋主题

微软开源的一个文本编码器Glyph-ByT5-v2。

支持使用十多种语言生成图片。

还搭配了一个使用这个文本编码器的 SDXL 模型,可以直接生成中文海报和内容。

从演示来看排版都挺好的。

  1. 创建了一个高质量的多语言字形文本和图形设计数据集,包含超过100万个字形文本对和1000万个图形设计图像文本对,覆盖另外九种语言;

  2. 构建了一个多语言视觉段落基准数据集,包括1000个提示,每种语言100个,用于评估多语言视觉拼写准确性;

  3. 采用最新的步进感知偏好学习方法,提高了视觉美学质量。

模型下载https://huggingface.co/GlyphByT5/Glyph-SDXL-v2

可以在这个 huggingface 空间里面体验,支持通过画框进行自定义排版。

https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2

Streamer-Sales:一个直播卖货大模型

能自动卖货 同时实时回答客户任何问题😂

它能根据商品特点自动生成吸引用户的解说文案,支持将语音输入转换为文字,便于主播在直播过程中与观众互动。

同时还能生成带有情感的语音输出,使解说更加生动自然。还能一键生成数字人。

甚至支持 Agent 通过网络查询快递信息。

GitHub: https://github.com/PeterH0323/Streamer-Sales

在线体验:https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales

蚂蚁开源首个 GraphRAG 框架!

构建生产级别的 AI Native Agent 应用!支持图可视化和详细示例代码!

  • 继承 DB-GPT 的知识图谱、向量库、图数据库等基础能力实现

  • 数据处理:提供三元组抽取、Cypher插入、TuGraph 存储

  • 数据查询与生成:查询关键词抽取,图相似度匹配

项目地址https://github.com/eosphoros-ai/DB-GPT

RAG2SQL开源工具

8K Stars!Text2SQL还不够?试试更精准的RAG2SQL开源工具

官网https://vanna.ai

Github: https://github.com/vanna-ai/vanna

LlamaIndex 数据处理、RAG 、Agentic RAG  PPT 和代码

LlamaIndex团队在 @databricks举办的 @Data_AI_Summit数据 AI 峰会上分享了如何构建能够处理复杂文档的高级 RAG 应用💥⚡️,几乎涵盖了目前数据处理、RAG 、Agentic RAG 等顶级前沿的理念并开放了 PPT 和代码!👍

PPT: https://docs.google.com/presentation/d/1yiuHEQEAhWEvVskbD9jwmfjopznVeZGwwWUzBIZ\_P9U/edit?usp=sharing

OmniParse:支持多模态的数据结构化的平台

输入文档、表格、视频、音频、网页等数据,OmniParse可以把数据清洗成结构化的数据,然后可以用于微调和RAG。

Githubhttps://github.com/adithya-s-k/omniparse

Pipecat:一个可用于构建语音和多模态对话的 AI 开源框架

你可以用它来创建私人教练、会议助手、儿童故事讲述玩具、客服机器人等 AI 语音助手。

GitHubhttps://github.com/pipecat-ai/pipecat

END

加入未闻 Code·知识星球

获取每日最新AI速报!

未闻 Code·知识星球开放啦!

一对一答疑爬虫相关问题

职业生涯咨询

面试经验分享

每周直播分享

......

未闻 Code·知识星球期待与你相见~

一二线大厂在职员工

十多年码龄的编程老鸟

国内外高校在读学生

中小学刚刚入门的新人

在“未闻 Code技术交流群”等你来!

入群方式:添加微信“mekingname”,备注“粉丝群”(谢绝广告党,非诚勿扰!)

相关推荐
关注或联系我们
添加百川云公众号,移动管理云安全产品
咨询热线:
4000-327-707
百川公众号
百川公众号
百川云客服
百川云客服

Copyright ©2024 北京长亭科技有限公司
icon
京ICP备 2024055124号-2