Explained: Neural networks (Polski)

wpis w: Articles | 0

w ciągu ostatnich 10 lat najlepiej działające systemy sztucznej inteligencji — takie jak rozpoznawacze mowy na smartfonach lub najnowszy automatyczny Tłumacz Google — powstały dzięki technice zwanej ” deep learning.”

deep learning to w rzeczywistości nowa nazwa podejścia do sztucznej inteligencji, zwanego sieciami neuronowymi, które od ponad 70 lat wchodzą i wychodzą z mody., Sieci neuronowe zostały po raz pierwszy zaproponowane w 1944 roku przez Warrena McCullougha i Waltera Pitts ' a, dwóch naukowców z University of Chicago, którzy przenieśli się do MIT w 1952 roku jako członkowie-założyciele tzw. pierwszego wydziału nauk kognitywnych.

Sieci neuronowe były głównym obszarem badań zarówno neuronauki, jak i Informatyki do 1969 roku, kiedy to, zgodnie z wiedzą informatyczną, zostały zabite przez matematyków MIT Marvina Minsky ' ego i Seymoura Paperta, którzy rok później zostali współdyrektorami nowego laboratorium sztucznej inteligencji MIT.,

technika ta cieszyła się odrodzeniem w latach 80., w pierwszej dekadzie nowego stulecia ponownie popadła w eclipse i powróciła jak w drugiej, napędzana w dużej mierze zwiększoną mocą obliczeniową układów graficznych.

„istnieje taka idea, że idee w nauce są trochę jak epidemie wirusów”, mówi Tomaso Poggio, Eugene McDermott profesor mózgu i nauk kognitywnych w MIT, badacz w MIT McGovern Institute for Brain Research i dyrektor Centrum mózgów, umysłów i maszyn MIT., „Najwyraźniej istnieje pięć lub sześć podstawowych szczepów wirusów grypy i najwyraźniej każdy z nich wraca z okresem około 25 lat. Ludzie zarażają się, rozwijają odpowiedź immunologiczną, więc nie zarażają się przez następne 25 lat. A potem jest nowe pokolenie, które jest gotowe na zarażenie tym samym szczepem wirusa. W nauce ludzie zakochują się w pomyśle, podniecają się nim, zabijają go na śmierć, a potem się uodporniają — mają go dość. Więc pomysły powinny mieć taką samą częstotliwość!,”

Sieci neuronowe są sposobem uczenia maszynowego, w którym komputer uczy się wykonywać pewne zadanie, analizując przykłady treningu. Zazwyczaj przykłady zostały ręcznie oznaczone z góry. Na przykład system rozpoznawania obiektów może być zasilany tysiącami oznakowanych obrazów samochodów, domów, filiżanek do kawy itp., a na obrazach znajdzie wzorce wizualne, które konsekwentnie korelują z konkretnymi etykietami.

wzorowana luźno na ludzkim mózgu sieć neuronowa składa się z tysięcy, a nawet milionów prostych węzłów przetwarzania, które są gęsto ze sobą połączone., Większość dzisiejszych sieci neuronowych jest zorganizowana w warstwy węzłów i są one „feed-forward”, co oznacza, że dane przemieszczają się przez nie tylko w jednym kierunku. Pojedynczy węzeł może być połączony z kilkoma węzłami w warstwie pod nią, z której otrzymuje dane, oraz z kilkoma węzłami w warstwie nad nią, do których wysyła dane.

do każdego połączenia przychodzącego węzeł przypisze numer znany jako „waga.”Gdy sieć jest aktywna, węzeł otrzymuje inną pozycję danych — inną liczbę — na każdym ze swoich połączeń i mnoży ją przez powiązaną wagę., Następnie dodaje otrzymane produkty razem, dając jedną liczbę. Jeśli liczba ta jest poniżej wartości progowej, węzeł nie przekazuje danych do następnej warstwy. Jeśli liczba przekroczy wartość progową, węzeł „odpala”, co w dzisiejszych sieciach neuronowych zazwyczaj oznacza wysłanie liczby — sumy ważonych wejść-wzdłuż wszystkich swoich wychodzących połączeń.

Kiedy sieć neuronowa jest trenowana, wszystkie jej wagi i progi są początkowo ustawiane na wartości losowe., Dane treningowe są przekazywane do dolnej warstwy-warstwy wejściowej – i przechodzą przez kolejne warstwy, mnożone i dodawane w złożony sposób, aż w końcu docierają, radykalnie przekształcone, na warstwę wyjściową. Podczas treningu wagi i progi są stale dostosowywane, aż dane treningowe z tymi samymi etykietami konsekwentnie dają podobne wyniki.

umysły i maszyny

Sieci neuronowe opisane przez McCullougha i Pittsa w 1944 roku miały progi i ciężary, ale nie były ułożone w Warstwy, a naukowcy nie określili żadnego mechanizmu treningowego., McCullough i Pitts wykazali, że sieć neuronowa może w zasadzie obliczyć dowolną funkcję, którą mógłby komputer cyfrowy. Rezultatem była bardziej neuronauka niż Informatyka: chodziło o to, aby zasugerować, że ludzki mózg może być uważany za urządzenie obliczeniowe.

Sieci neuronowe są nadal cennym narzędziem do badań neuronaukowych. Na przykład, poszczególne układy sieci lub zasady regulacji wag i progów odtworzyły zaobserwowane cechy ludzkiej neuroanatomii i poznania, co wskazuje, że uchwyciły one coś o tym, jak mózg przetwarza informacje.,

pierwsza sieć neuronowa, Perceptron, została zademonstrowana przez psychologa Uniwersytetu Cornell Franka Rosenblatta w 1957 roku. Konstrukcja Perceptron była podobna do nowoczesnej sieci neuronowej, z tym wyjątkiem, że miała tylko jedną warstwę z regulowanymi ciężarami i progami, umieszczoną między warstwami wejściowymi i wyjściowymi.,

Perceptrony były aktywnym obszarem badań zarówno w psychologii, jak i raczkującej dyscyplinie informatyki do 1959 roku, kiedy Minsky i Papert opublikowali książkę zatytułowaną „Perceptrons”, która wykazała, że wykonywanie pewnych dość powszechnych obliczeń na Perceptronach byłoby niepraktycznie czasochłonne.

„oczywiście wszystkie te ograniczenia znikają, jeśli weźmiemy maszyny, które są trochę bardziej skomplikowane — jak dwie warstwy” – mówi Poggio. Ale w tym czasie książka miała mrożący wpływ na badania sieci neuronowych.,

„musisz umieścić te rzeczy w kontekście historycznym” – mówi Poggio. „Kłócili się o programowanie-o języki takie jak Lisp. Niewiele lat wcześniej ludzie nadal używali komputerów analogowych. W tym czasie nie było jasne, że programowanie jest drogą do zrobienia. Myślę, że trochę przesadzili, ale jak zwykle nie jest czarno-biały. Jeśli myślisz o tym jako o tej konkurencji między komputerem analogowym i komputerem cyfrowym, walczyli o to, co w tamtym czasie było słuszne.,”

okresowość

jednak w latach 80. naukowcy opracowali algorytmy modyfikacji wag i progów sieci neuronowych, które były wystarczająco wydajne dla sieci z więcej niż jedną warstwą, usuwając wiele ograniczeń zidentyfikowanych przez Minsky ' ego i Paperta. Pole przeżywało renesans.

ale intelektualnie jest coś niesatysfakcjonującego w sieciach neuronowych. Wystarczające szkolenie może zmienić ustawienia sieci do tego stopnia, że może ona z pożytkiem klasyfikować dane, ale co oznaczają te ustawienia?, Na jakie cechy obrazu patrzy rozpoznawacz obiektów i w jaki sposób łączy je w charakterystyczne sygnatury wizualne samochodów, domów i filiżanek do kawy? Patrząc na wagę poszczególnych połączeń nie odpowie na to pytanie.

w ostatnich latach informatycy zaczęli wymyślać pomysłowe metody wyprowadzania strategii analitycznych przyjętych przez sieci neuronowe. Ale w latach 80. strategie sieci były nie do odczytania., Tak więc na przełomie wieków sieci neuronowe zostały zastąpione przez maszyny wektorowe wsparcia, alternatywne podejście do uczenia maszynowego, które opiera się na bardzo czystej i eleganckiej matematyce.

niedawny odrodzenie się sieci neuronowych — rewolucja głębokiego uczenia-pochodzi dzięki uprzejmości branży gier komputerowych. Złożone obrazy i szybkie tempo dzisiejszych gier wideo wymagają sprzętu, który może nadążyć, a rezultatem jest jednostka przetwarzania grafiki (GPU), która pakuje tysiące stosunkowo prostych rdzeni przetwarzania na jednym chipie., Naukowcy szybko zorientowali się, że architektura GPU jest niezwykle podobna do sieci neuronowej.

nowoczesne układy GPU umożliwiły sieci jednowarstwowe z lat 60.i dwu-lub trzywarstwowe z lat 80. rozkwitły w sieci 10 -, 15 -, a nawet 50-warstwowe z dzisiejszych czasów. Do tego odnosi się” głębokie „w” głębokim uczeniu się ” – głębokość warstw sieci. Obecnie deep learning jest odpowiedzialny za najlepsze systemy w prawie każdej dziedzinie badań nad sztuczną inteligencją.,

pod maską

nieprzezroczystość sieci jest nadal niepokojąca dla teoretyków, ale na tym froncie też jest postęp. Oprócz kierowania Centrum mózgów, umysłów i maszyn (Cbmm), Poggio prowadzi program badawczy centrum w teoretycznych ramach inteligencji. Niedawno Poggio i jego koledzy z CBMM opublikowali trzyczęściowe teoretyczne badanie sieci neuronowych.,

pierwsza część, która została opublikowana w zeszłym miesiącu w International Journal of Automation and Computing, dotyczy zakresu obliczeń, które mogą być wykonywane w sieciach głębokiego uczenia i kiedy sieci Głębokie oferują przewagę nad płytszymi., Część druga i trzecia, które zostały opublikowane jako raporty techniczne CBMM, dotyczą problemów globalnej optymalizacji lub zagwarantowania, że sieć znalazła ustawienia, które najlepiej odpowiadają jej danym treningowym, i overfittingowi, lub przypadków, w których sieć staje się tak dostrojona do specyfiki swoich danych treningowych, że nie uogólnia się do innych przypadków z tych samych kategorii.,

istnieje jeszcze wiele teoretycznych pytań, na które należy odpowiedzieć, ale praca naukowców CBMM może pomóc w zapewnieniu, że sieci neuronowe w końcu przerwą cykl pokoleniowy, który przyniósł im i z łaski przez siedem dekad.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *