
Claude'un düşüncelerini dile çevirmek
Claude gibi AI modelleri kelimelerle konuşur ama sayılarla düşünür. Bu sayılara aktivasyon denir ve Claude'un düşüncelerini kodlar, ancak bizim okuyabileceğimiz bir dilde değildir. AI modellerinin aktivasyonlarını okunabilir metne çeviren Doğal Dil Otomatik Kodlayıcıları (NLA'lar) tanıtıyoruz. NLA'lar, modellerimizi güvenlik açısından test etme yöntemimizi geliştirmemize ve neden böyle davrandıklarını daha iyi anlamamıza yardımcı oldu. Bu araştırma hakkında daha fazla bilgi için blogumuzu okuyun: https://www.anthropic.com/research/natural-language-autoencoders
















