OpenAI ogłosiło dziś GPT-4, model językowy AI nowej generacji, który potrafi czytać zdjęcia i wyjaśniać, co się na nich znajduje – podają wpis na blogu badawczym.
Chat GPT-3 wziął świat przez burzę, ale do tej pory model językowy głębokiego uczenia akceptował tylko wejścia tekstowe. GPT-4 będzie akceptował również obrazy jako podpowiedzi.
„Generuje wyjścia tekstowe podane na wejściach składających się z przeplatającego się tekstu i obrazów” – pisze dziś OpenAI. „W różnych domenach – w tym w dokumentach z tekstem i zdjęciami, diagramami lub zrzutami ekranu – GPT-4 wykazuje podobne zdolności jak na wejściach tylko tekstowych”
Co to oznacza w praktyce, to że chatbot AI będzie mógł analizować to, co znajduje się na obrazie. Na przykład, może powiedzieć użytkownikowi, co jest niezwykłego w poniższym zdjęciu mężczyzny prasującego swoje ubrania, gdy jest przyczepiony do taksówki.
W zeszłym tygodniu szef techniczny Microsoft Germany Andreas Braun powiedział, że GPT-4 będzie „oferować zupełnie inne możliwości – na przykład filmy wideo.”
Jednak według dzisiejszej zapowiedzi, nie było żadnej wzmianki o wideo w ramach GPT-4, a jedynym elementem multimodalnym jest wprowadzanie obrazów – znacznie mniej niż oczekiwano.
Microsoft już wcześniej zaprezentował multimodalny model języka operującego na różnych formatach o nazwie Kosmos-1.
W prezentacji Kosmos-1, SI może czytać obrazy wraz ze zdjęciem. Na przykład zdjęcie zegara pokazującego godzinę 10:10 jest wprowadzane do SI z pytaniem „The time now?” Na co SI odpowiada: „10:10 na dużym zegarze”


Może również powiedzieć widzowi, jaki konkretny rodzaj fryzury nosi kobieta lub rozpoznaje plakat filmowy i może powiedzieć użytkownikowi, kiedy ten film będzie miał premierę.
Nowa era
Podczas wydarzenia „AI in Focus – Digital Kickoff” w Niemczech, do Brauna dołączyła dyrektor generalna Microsoft Germany, Marianne Janik, która opisuje ChatGPT jako „moment iPhone’a”
Jej zdaniem nie chodzi o zastąpienie miejsc pracy, ale o wykonywanie powtarzalnych zadań w inny sposób niż dotychczas, Heise zgłoszenia.
„Zakłócenia nie muszą oznaczać utraty miejsc pracy” – mówi. „Potrzeba będzie wielu ekspertów, aby wykorzystanie AI stało się wartością dodaną”
Chat GPT stał się szalenie popularny, stając się najszybciej rozwijającą się aplikacją konsumencką w historii, która osiągnęła 100 milionów użytkowników.
OpenAI, które obsługuje również DALL-E, było m.in skrytykowany przez jej współzałożyciela Elona Muska, który opuścił firmę w 2018 roku.
„OpenAI został stworzony jako open source (dlatego nazwałem go „Open” AI), firma non-profit, aby służyć jako przeciwwaga dla Google, ale teraz stał się zamkniętą, maksymalnie dochodową firmą skutecznie kontrolowaną przez Microsoft” – napisał 17 lutego. „Zupełnie nie to, co zamierzałem”
Bemerkungen
Wird geladen…