家人们,今天来给大家唠唠Anthropic推出的Claude 3.5 Sonnet和Claude 3.5 Haiku模型😜。更新后的Claude 3.5 Sonnet那可真是厉害了,在程序能力方面显著提高。SWE-bench验证得分从33.4%提高到49.0%,这可是业内最佳得分🎉。TAU-bench得分也有提升,在零售领域从62.6%到69.2%,航空领域从36.0%到46.0%。
家人们,今天来给大家唠唠Anthropic推出的Claude 3.5 Sonnet和Claude 3.5 Haiku模型😜。更新后的Claude 3.5 Sonnet那可真是厉害了,在程序能力方面显著提高。SWE-bench验证得分从33.4%提高到49.0%,这可是业内最佳得分🎉。TAU-bench得分也有提升,在零售领域从62.6%到69.2%,航空领域从36.0%到46.0%。
还有新的Claude 3.5 Haiku模型,在很多人工智能基准测试中表现优秀。而且价格不变,性能提升,对于开发者和企业来说太有吸引力啦👍。大家觉得怎么样?