AI-assistent med Raspberry Pi: Prosjekter fra den virkelige verden, maskinvare og en praktisk guide

  • Raspberry Pi 4/5 muliggjør stemme- og språkassistenter med VOSK, raskere hvisking og lette LLM-er.
  • AI-settet med Hailo-8L tilbyr 13 TOPS og integreres i Raspberry Pi OS (libcamera/picamera2).
  • Hybridarkitekturer: lokal transkripsjon og ekstern LLM via Ollama/Meshnet for balanse mellom ytelse og personvern.

AI-assistent med Raspberry Pi

Hvis du tenker på å sette opp en AI-assistent med Raspberry PiDu er på rett sted: i dag er kombinasjonen av stemme-, syns- og språkmodeller allerede mulig i disse små SBC-ene, både med Raspberry Pi 4 og den kraftigere Raspberry Pi 5. Det finnes reelle prosjekter som demonstrerer dette, og det finnes også offisielt tilbehør som bringer AI-akselerasjon om bord for å ta det et skritt videre.

I denne artikkelen finner du en svært komplett oversikt: fra en stemmeaktivert hjemmeassistent basert på Pi 4 og verktøy som VOSK og Ollama...opp til en Pi 5 som kjører wake word, transkripsjon og lokal inferens med kompakte modeller som Qwen3:1.7bo og Gemma3:1b. Du vil også se hvordan AI-settet med Hailo-8L NPU passer inn i Pi 5, hvilke biblioteker som skal brukes til gjenkjenning og TTS, og hvorfor det er avgjørende å prioritere sikkerhet hjemme og på arbeidsplassen.

Hvorfor bygge en AI-assistent med Raspberry Pi

informasjon om hjemmeautomatisering
Relatert artikkel:
Informasjon om hjemmeautomasjon: praktisk guide, bruksområder og trender

En smart assistent på en Raspberry Pi lar deg kontrollere enheter, svare på spørsmål og automatisere rutiner til en lav kostnad og med minimalt strømforbruk; med andre ord, det er en ideell plattform for Lær, lag prototyper og distribuer stemme- og språkfunksjoner uten å alltid være avhengig av skyen.

Med en Raspberry Pi kan du integrere mikrofoner, kameraer og små skjermer, samt programmere i Python, Java eller C++. Dette åpner døren for prosjekter som spenner fra et stemmeaktivert statuspanel til et adgangskontrollsystem med ansiktsgjenkjenning, og til og med en hjemmebot som... lytte, tolke og handle i henhold til dine bestillinger.

Raspberry Pi 4 vs. Raspberry Pi 5: kraft og muligheter

Raspberry Pi 4 demonstrerte at en lokal stemmeassistent er mulig hvis du velger riktig stabel. Raspberry Pi 5 akselererer imidlertid ikke bare CPU og GPU, men legger også til PCIe-tilkobling for høytytende tilbehør og forbedrer porter og båndbredde, slik at den totale opplevelsen blir mer sømløs.

Blant Pi 5s spesifikasjoner finner man blant annet en ARM Cortex-A76-prosessor på opptil 2,4 GHz, opptil 8 GB LPDDR4X RAM, Wi-Fi 5, Bluetooth 5.0/BLE og to mikro-HDMI-porter med 4K-utgang ved 60 Hz. Kombinert med et robust sett med sensorer lar dette assistenten håndtere samtidige oppgaver sømløst og vedlikeholde lav ventetid i stemmeinteraksjon.

ASRAI: et ekte prosjekt med Pi 4 som fokuserer på personvern og kontroll

En genial produsent skapte ASRAI, en stemmeaktivert assistent bygget på en Raspberry Pi 4 Model B med en 3,5-tommers GPIO-skjerm og et Sony PlayStation Eye-kamera. Den virkelige perlen er PlayStation Eye: den inkluderer en fire-mikrofon-gruppe som enkelt kan kobles fra Pi-en, og på bruktmarkedet kan den finnes for nesten ingenting, noe som gjør den til et skikkelig kupp. kupp for lydopptak med grunnleggende stråledannelse.

I prosjektet kjører Pi 4 VOSK lokalt for offline talegjenkjenning og kobler seg over nettverket til en LLM som ligger på forfatterens egen PC via et OpenAI-kompatibelt API-punkt gjennom Ollama. For å få denne tilkoblingen til å fungere hvor som helst, aktiverte skaperen NordVPNs Meshnet, og oppnådde dermed en privat og allestedsnærværende lenke uten å eksponere tjenester direkte for Internett.

Tanken er å laste ned opptaks-, vekkeord- og lokal transkripsjonsfunksjonen til Pi-en med VOSK, mens språkgenerering håndteres av en kraftigere modell på en annen maskin ved hjelp av et OpenAI-type API eksponert av Ollama og tilgjengelig takket være Meshnet; på denne måten balanseres ytelse og personvern.

For et «menneskelig» preg inkluderer prosjektet bilder for å sove eller lytte på den lille skjermen. Hvis du er interessert i å kopiere det, deler skaperen de nødvendige ressursene, og det er nyttig å ha en... 3D-printer og sveisemaskin for montering og justering av mikrofonoppsettet.

Initiativet ble fremhevet av spesialiserte medier og minner om andre Rhasspy-lignende tilnærminger innen designfilosofi: lokal anerkjennelse og modulær orkestrering. Det er til og med omtaler av nære samarbeidspartnere som forvandlet sin Pi til AI-assistent og analyserte ytelsen til ulike AI-er på Raspberry Pi 5 for å veilede de som vurderer å ta generasjonsspranget.

Offisielt AI-sett for Raspberry Pi 5: Rask vei til akselerasjon

Hvis du foretrekker å ta det til neste nivå, legger AI-settet for Raspberry Pi 5 til en Hailo-8L NPU oppå en forhåndsinstallert M.2 2242 som kobles til M.2 HAT+. Denne kombinasjonen gir opptil 13 TOPS for effektiv kantinferens, frigjør CPU-en fra intensiv arbeidsbelastning og lar assistenten kjøre visuelle eller lydmodeller med lavere latens og forbruk.

Pakken leveres komplett: en stabelbar GPIO-header, avstandsstykker, skruer, en fleksibel båndkabel for å koble AI-kortet til Pi 5s PCIe-buss og en passende kjøleribbe for å holde temperaturene under kontroll. Den fysiske installasjonen er enkel, og deretter distribueres programvaren. apt på Raspberry Pi OS.

  • Hailo AI-modul med Hailo-8L NPU
  • Raspberry Pi M.2 HAT+ for Raspberry Pi 5
  • Forhåndsinstallert termisk pute mellom modul og HAT+
  • Monteringssett med avstandsstykker og skruer
  • Stabelbar 16 mm GPIO-kontakt og flat PCIe-kabel

Integreringen av Hailo-enheten i Raspberry Pi OS-miljøet er moden: den fungerer med libcamera, rpicam-apper og picamera2 og programvareøkosystemet (Hailo-, HailoRT- og HailoTappas-drivere) installeres direkte via pakkebehandleren. På denne måten er grunnlaget for en datasynassistent (f.eks. ansikts- eller bevegelsesgjenkjenning) klart. minimal friksjon.

Bruksområder: fra hjemmekontroll til samtaleassistent

Med en Pi 5 og AI-settet kan du sette opp alt fra et ansiktsgjenkjenningssystem for adgangskontroll til et samtalebasert hjemmeassistent «Håndfri.» En enkel robot med grunnleggende navigasjon som mottar talekommandoer og svarer med talesyntese gjennom en høyttaler.

Hvis du ikke ønsker akseleratorer, er en hybridtilnærming som ASRAI (lokal talebehandling og ekstern LLM) eller en fulllokal tilnærming med de nyeste kompakte modellene også mulig. Nøkkelen er å finjustere modellstørrelsen, kvantiseringen og lydpipeline for å sikre en sømløs opplevelse. smidig og stabil på den tilgjengelige maskinvaren.

Nøkkelprogramvare for stemme og språk på Raspberry Pi

For talegjenkjenning uten nett er VOSK et trygt valg på Raspberry Pi. Alternativer som PocketSphinx er også nyttige, og hvis du foretrekker skytjenester, finnes det integrasjoner med motorer som Google Speech Recognition; mange prosjekter prioriterer imidlertid personvern og lav latensslik at den lokale transkripsjonen vinner terreng.

For lokal talesyntese tilbyr pyttsx3 en grunnleggende TTS uten eksterne avhengigheter. Når det gjelder LLM-komponenten, forenkler Ollama serveringsmodeller med et "OpenAI-kompatibelt" endepunkt, noe som gjør det enkelt å koble til tilpassede skript eller eksisterende klienter. Med denne tilnærmingen kan Pi-en din orkestrere pipelinen og delegere generering til en [spesifikk applikasjon/verktøy - kontekst nødvendig]. det mektigste laget.

En 100 % Pi 5 miniagent: våkneord, transkripsjon og lokal inferens

En entusiast har demonstrert at en Raspberry Pi 5 med 16 GB RAM kan kjøre hele syklusen: utløse orddeteksjon med VOSK, transkripsjon med raskere hvisking og inferens med kompakte LLM-er som Qwen3:1.7 av Gemma3:1b, alt lokalt. Det er en optimaliseringsutfordring, men det kan gjøres; depotet og blogginnlegget som dokumenterer det er en flott ressurs. min for læring om finjustering og ressursforvaltning.

Lærdommen fra dette eksemplet er tydelig: med velvalgte modeller, kvantisering og en strømlinjeformet pipeline, reagerer Pi 5 med rimelige tider. Hvis prosjektet krever mer prosessorkraft, er det alltid muligheten til å bruke Hailo-8L for persepsjonsoppgaver (syn, lyd) og opprettholde en lett lokal LLM eller stole på en Ekstern server kompatibel.

Komme i gang: operativsystem, biblioteker og prosjektstruktur

For å maksimere ressursene anbefaler mange utviklere Raspbian (Raspberry Pi OS) i Lite-varianten, som reduserer bruken av tjenester og basisminne. Derfra installerer du tale-, TTS- og orkestreringsbibliotekene du trenger. Med Python er det enkelt å bygge en funksjonell og skalerbar prototype. godt separerte moduler.

En oppskrift på boot Det vanlige inkluderer:

  1. Installer Raspberry Pi OS Lite og installer systemoppdateringer.
  2. Konfigurer lyd (mikrofoner og høyttaler), kamera hvis aktuelt, og test med arecord/aplay.
  3. Installer pakker som Talegjenkjenning (hvis du skal bruke skytjenester) eller VOSK/PocketSphinx for offline, og pyttsx3 for lokal TTS.
  4. Velg din LLM-backend: lokal med Ollama og små modeller, eller kompatibel fjernkontroll.
  5. Kod hovedløkken i Python: lytt, transkriber, tolk (NLP) og utfør handlinger.

I NLP-laget kan du starte med enkle intensjoner og regler, og innlemme LLM etter hvert som du går fremover. For kommandoutførelse, definer adaptere per enhet eller tjeneste (for eksempel lys, klimaanlegg, påminnelser), slik at assistenten opprettholder en ren og utvidbar kjerne.

Tilkobling og orkestrering: alt passer sammen med et godt nettverk

Pi har Wi-Fi 5 og Bluetooth 5.0/BLE, slik at den kan kommunisere trådløst med lyspærer, høyttalere og sensorer. Når eksterne tjenester eller flere maskiner er involvert, forenkler et privat nettverksstruktur som NordVPNs Meshnet Pis evne til å "se" en ekstern modellserver uten å eksponere porter for omverdenen, og opprettholder dermed kontroll og sikkerhet.

Hvis du planlegger å distribuere veiviseren på tvers av forskjellige miljøer, bør du vurdere containere for inferenskomponentene eller multimediepipelines. En struktur med separate tjenester (ASR, TTS, LLM, orchestrator) lar deg skalere komponenter og flytte arbeidsbelastninger til en annen node. minimal påvirkning i resten av systemet.

Sikkerhet: beste praksis og sårbarheter for overvåking

En assistent lytter alltid til omgivelsene sine og kommuniserer med andre enheter, så cybersikkerhet er kritisk. Start med å holde systemet og bibliotekene oppdatert for å redusere kjente angrep, og aktiver kryptering for all kommunikasjon mellom enheter. Å skille IoT-nettverket fra resten av hjemmet er ett tiltak. billig og effektivt.

Det er verdt å gjennomgå råd om IoT og mellomvare, og å være oppmerksom på offentlige sårbarheter som CVE-2021-22945 o CVE-2021-22946 Blant annet fungerer de som påminnelser om å revidere avhengigheter og raskt installere oppdateringer. Målet er at assistenten din skal være nyttig uten å bli en byrde. en risikovektor.

Integrasjon med kamera og datasyn

Hvis assistenten din har et kamera, fungerer Pi 5 bra med libcamera og rpicam-apper. I tillegg tilrettelegger picamera2 programmatisk tilgang til videostrømmer. Med Hailo-8L blir oppgaver som objektgjenkjenning og ansiktsgjenkjenning raskere og mer effektive, noe som muliggjør scenarier med tilgangskontroll eller kontekstsensitiv hjemmeautomatisering.

En vanlig tilnærming er å holde visjonen hos Pi og delegere tolkning på høyt nivå til LLM («hvis du kjenner igjen X, spør meg om jeg skal åpne døren»). Ved å dele kun metadata eller resultater, ikke råbilder, forbedrer du personvernet og reduserer båndbredde nødvendig.

Praktiske eksempler som fungerer

– ASRAI på Pi 4: PlayStation Eye-mikrofoner (4 mikrofoner), 3,5-tommers GPIO-skjerm, lokal VOSK, ekstern LLM via Ollama og tilkobling hvor som helst med Meshnet. Det krever 3D-printing og litt lodding, men resultatet er en assistent. smidig og diskret.

– Pi 5 «alt-i-ett»: våkneord med VOSK, transkripsjon med raskere hvisking og lokal inferens med Qwen3:1.7 av Gemma3:1b. Nøkkelen er optimalisering og begrensning av størrelsen på modellene for å opprettholde rimelige latenser; det tilhørende depotet er et levende guide for å justere prosjektet ditt.

– Pi 5 med AI-sett: ansiktsgjenkjenning for tilgang, kontekstuell reaksjon med akselererte synsmodeller og en lett LLM for samtale; Hailo-, HailoRT- og HailoTappas-drivere kan installeres via apt og kompatibilitet med libcamera og picamera2 integrert i selve enheten. Raspberry Pi OS.

Gode ​​utviklings- og vedlikeholdspraksiser

Strukturer koden i moduler: lydopptak, ASR, NLP, utførelse, TTS og, hvis aktuelt, visjon. Legg til nyttige logger og en feilsøkingsmodus for å identifisere flaskehalser. Automatiser grunnleggende tester (f.eks. forhåndsdefinerte intensjoner) for å unngå å bryte regresjoner når du legger til nye funksjoner.

På maskinvaresiden, vær oppmerksom på strøm og ventilasjon, spesielt hvis du legger til en NPU eller jobber med tunge belastninger. En god kjøleribbe og anstendig luftstrøm forhindrer termisk struping og opprettholder en stabil opplevelse. kontinuerlig samtale.

Fellesskap og regler: Del prosjektene dine på riktig måte

Hvis du skal publisere assistenten din i Raspberry Pi-fellesskap, husk at det er verdsatt å forklare hvordan du gjorde det, ikke bare å vise resultatet. Unngå spam og all støtende oppførsel, og selvfølgelig ingen utrygge elektriske praksiser; i tillegg til å lære mer, vil du opprettholde en sunt miljø og nyttig for alle.

Når du deler, dokumenter maskinvaren din, viktige trinn, avhengigheter, lydinnstillinger og modeller som brukes. Dette hjelper andre med å gjenskape arbeidet ditt og gir verdifull tilbakemelding. Til syvende og sist akselererer dette samarbeidet prosjektet ditt mer enn noen annen metode. isolert triks.

Hva du kan forvente av ytelse og hvordan du bestemmer deg for arkitektur

– Hvis du ønsker personvern og full kontroll, kan du velge lokal ASR og TTS, og en kompakt LLM på Pi 5 eller betjent av Ollama på ditt private Meshnet-nettverk. På denne måten opererer du edge-first og holder taledata sikre. under ditt tak.

– Hvis du trenger fyldigere svar og ikke har noe imot å bruke skyen, eliminerer ekstern LLM flaskehalsen. Pi-en fungerer da som den orkestrerende hjernen, kontrollerer sensorer og aktuatorer og administrerer taleøkten med akseptabel ventetid.

– Hvis assistenten din trenger å «se», er AI-settet med Hailo-8L det vinnende valget: 13 TOPS for kantsyn, drivere via apt og et økosystem støttet av Raspberry Pi OS. Kombiner dette med en mellomklasse LLM utenfor Pi-en, og du vil få en flott opplevelse. rund og balansert.

– Hvis du velger et fullstendig lokalt oppsett, velg optimaliserte modeller (Qwen3:1.7b, Gemma3:1b eller tilsvarende) og vær oppmerksom på lydrutingen. Å bruke Faster Whisper for transkripsjon og VOSK for tekstbehandling i kjølvannet har allerede vist seg å være en fordel. levedyktig vei på Pi 5 med 16 GB.

Til syvende og sist kombinerer det å bygge en AI-assistent med en Raspberry Pi lett tilgjengelige komponenter: billig maskinvare som en gjenbrukt PlayStation Eye, programvare som VOSK eller faster-whisper, OpenAI-kompatible endepunkter via Ollama, og om nødvendig den ekstra fordelen med Hailo-8L på en Pi 5. Med fokus på sikkerhet (oppdateringer, separate nettverk, kryptering) og tydelig dokumentasjon er det enkelt å gå fra idé til en fullt funksjonell AI-assistent. funksjonell assistent som fungerer bra i stuen eller på kontoret.