ಹೊಸ ವಿಧಾನವು AI ಚಾಟ್‌ಬಾಟ್‌ಗಳು ವಿಫಲಗೊಳ್ಳದೆ ಇಡೀ ದಿನ ಸಂವಹನ ನಡೆಸಲು ಅನುಮತಿಸುತ್ತದೆ | Duda News

ಜನರು ದೀರ್ಘಕಾಲದವರೆಗೆ ChatGPT ನಂತಹ AI ಚಾಟ್‌ಬಾಟ್‌ಗಳೊಂದಿಗೆ ಮಾತನಾಡುವಾಗ, ಕೆಲವೊಮ್ಮೆ ಸಂಭಾಷಣೆಯು ನಿಧಾನವಾಗಲು ಪ್ರಾರಂಭಿಸುತ್ತದೆ. ಏಕೆಂದರೆ ಈ ಬಾಟ್‌ಗಳು ದೊಡ್ಡ ಭಾಷೆಯ ಮಾದರಿಗಳು ಎಂಬ ದೊಡ್ಡ ಕಂಪ್ಯೂಟರ್ ಪ್ರೋಗ್ರಾಂಗಳನ್ನು ಬಳಸುತ್ತವೆ. ಈ ಮಾದರಿಗಳು ಸಾಕಷ್ಟು ಡೇಟಾದಿಂದ ಕಲಿಯುವ ಸೂಪರ್-ಸ್ಮಾರ್ಟ್ ಯಂತ್ರಗಳಂತೆ.

ಈ ಮಾದರಿಗಳು ನಿಮ್ಮ ಪ್ರಶ್ನೆ ಪದಗಳನ್ನು ಟೋಕನ್‌ಗಳೆಂದು ಕರೆಯುವ ಸಣ್ಣ ತುಂಡುಗಳಾಗಿ ಒಡೆಯುತ್ತವೆ. ಈ ಟೋಕನ್‌ಗಳು ಹೇಗೆ ಒಟ್ಟಿಗೆ ಹೊಂದಿಕೊಳ್ಳುತ್ತವೆ ಮತ್ತು ಹೊಸ ವಾಕ್ಯಗಳನ್ನು ರೂಪಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸಲು ಅವರು ಗಮನ ಕಾರ್ಯವಿಧಾನವನ್ನು ಬಳಸುತ್ತಾರೆ.

ವಿಶಿಷ್ಟವಾಗಿ, ಚಾಟ್‌ಬಾಟ್ KV ಕ್ಯಾಶ್ ಎಂಬ ಹೆಸರಿನಲ್ಲಿರುವ ಇತ್ತೀಚಿನ ಟೋಕನ್‌ಗಳನ್ನು ನೆನಪಿಸಿಕೊಳ್ಳುತ್ತದೆ. ಆದರೆ ಈ ಮೆಮೊರಿ ತುಂಬಾ ದೊಡ್ಡದಾದರೆ ಅದು ಕೆಲಸವನ್ನು ನಿಧಾನಗೊಳಿಸುತ್ತದೆ. ಅಲ್ಲದೆ, ಕಡಿಮೆ ಟೋಕನ್‌ಗಳನ್ನು ನೆನಪಿಸಿಕೊಂಡರೆ ಬೋಟ್ ಕಾರ್ಯಕ್ಷಮತೆ ಕುಸಿಯುತ್ತದೆ.

ಉದಾಹರಣೆಗೆ, 4,096 ಟೋಕನ್‌ಗಳವರೆಗೆ ನೆನಪಿಡುವ ಚಾಟ್‌ಬಾಟ್ ಅನ್ನು ಕಲ್ಪಿಸಿಕೊಳ್ಳಿ, ಆದರೆ ಒಂದು ವಿಶಿಷ್ಟವಾದ ಶೈಕ್ಷಣಿಕ ಪತ್ರಿಕೆಯು ಸುಮಾರು 10,000 ಟೋಕನ್‌ಗಳನ್ನು ಹೊಂದಿರುತ್ತದೆ. ಇದು ಒಂದು ಸಮಸ್ಯೆ!

ಎಂಐಟಿ ಮತ್ತು ಇತರೆಡೆಯ ವಿಜ್ಞಾನಿಗಳ ತಂಡವು ಸ್ವಲ್ಪ ಸಮಯದವರೆಗೆ ಮಾತನಾಡಿದ ನಂತರ ಚಾಟ್‌ಬಾಟ್‌ಗಳು ಗ್ಲಿಚ್ ಮಾಡಲು ಪ್ರಾರಂಭಿಸಲು ಆಶ್ಚರ್ಯಕರ ಕಾರಣವನ್ನು ಕಂಡುಹಿಡಿದಿದೆ. ಆದರೆ ಸಂಭಾಷಣೆ ಸುಗಮವಾಗಿ ನಡೆಯಲು ಸರಳವಾದ ಪರಿಹಾರವನ್ನೂ ಅವರು ರೂಪಿಸಿದರು.

ಸಂಭಾಷಣೆಯ ಸಮಯದಲ್ಲಿ ಚಾಟ್‌ಬಾಟ್‌ಗಳು ವಿಷಯಗಳನ್ನು ನೆನಪಿಟ್ಟುಕೊಳ್ಳುವ ವಿಧಾನವನ್ನು ಬದಲಾಯಿಸುವುದನ್ನು ಅವರ ಟ್ರಿಕ್ ಒಳಗೊಂಡಿರುತ್ತದೆ. ಕೆಲವು ವಿಧಾನಗಳಿಗೆ ಸಂಗ್ರಹವು ತನ್ನ ಸಾಮರ್ಥ್ಯಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಯನ್ನು ಹಿಡಿದಿಟ್ಟುಕೊಳ್ಳುವ ಅಗತ್ಯವಿರುತ್ತದೆ, ಇದರಿಂದಾಗಿ ಚಾಟ್‌ಬಾಟ್ ಮೊದಲ ಡೇಟಾವನ್ನು ಮರೆತುಬಿಡುತ್ತದೆ. ಇದು ಮಾದರಿ ವಿಫಲಗೊಳ್ಳಲು ಕಾರಣವಾಗಬಹುದು.

ಆದರೆ StreamingLLM ಎಂಬ ಹೊಸ ವಿಧಾನದೊಂದಿಗೆ, ಚಾಟ್‌ಬಾಟ್ ಪ್ರಮುಖ ಮಾಹಿತಿಯ ಮೊದಲ ತುಣುಕುಗಳನ್ನು ನೆನಪಿಸಿಕೊಳ್ಳುತ್ತದೆ. 4 ಮಿಲಿಯನ್‌ಗಿಂತಲೂ ಹೆಚ್ಚು ಪದಗಳನ್ನು ಹೊಂದಿರುವ ಸಂಭಾಷಣೆಗಳಂತಹ ದೀರ್ಘ ಸಂಭಾಷಣೆಗಳ ಸಮಯದಲ್ಲಿಯೂ ಸಹ ಚಾಟ್ ಮಾಡುವುದನ್ನು ಇದು ಅವರಿಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ!

ಇತರ ವಿಧಾನಗಳಿಗೆ ಹೋಲಿಸಿದರೆ, StreamingLLM 22 ಪಟ್ಟು ಹೆಚ್ಚು ವೇಗವಾಗಿರುತ್ತದೆ. ಚಾಟ್‌ಬಾಟ್‌ಗಳು ಕ್ರ್ಯಾಶ್ ಆಗದೆ ದಿನವಿಡೀ ಕೆಲಸ ಮಾಡಬಹುದು, ಅವುಗಳನ್ನು ಬರೆಯಲು, ಸಂಪಾದಿಸಲು ಅಥವಾ ಕೋಡಿಂಗ್ ಮಾಡಲು ಉತ್ತಮ ಸಹಾಯಕರನ್ನಾಗಿ ಮಾಡುತ್ತದೆ.

ಎಲೆಕ್ಟ್ರಿಕಲ್ ಇಂಜಿನಿಯರಿಂಗ್ ಮತ್ತು ಕಂಪ್ಯೂಟರ್ ಸೈನ್ಸ್ (EECS) ನಲ್ಲಿ ಪದವಿ ವಿದ್ಯಾರ್ಥಿ ಮತ್ತು ಸ್ಟ್ರೀಮಿಂಗ್‌ಎಲ್‌ಎಲ್‌ಎಂನಲ್ಲಿನ ಕಾಗದದ ಪ್ರಮುಖ ಲೇಖಕ ಗುವಾಂಗ್‌ಕ್ಸುವಾನ್ ಕ್ಸಿಯಾವೊ ಹೇಳಿದರು, “ಈಗ, ಈ ವಿಧಾನದೊಂದಿಗೆ, ನಾವು ಈ ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ನಿರಂತರವಾಗಿ ನಿಯೋಜಿಸಬಹುದು. ಚಾಟ್‌ಬಾಟ್ ಅನ್ನು ರಚಿಸುವ ಮೂಲಕ ನಾವು ಯಾವಾಗಲೂ ಚಾಟ್ ಮಾಡಬಹುದು ಮತ್ತು ನಮ್ಮ ಇತ್ತೀಚಿನ ಸಂಭಾಷಣೆಗಳ ಆಧಾರದ ಮೇಲೆ ಯಾವಾಗಲೂ ನಮಗೆ ಪ್ರತಿಕ್ರಿಯಿಸಬಹುದು, ನಾವು ಈ ಚಾಟ್‌ಬಾಟ್‌ಗಳನ್ನು ಕೆಲವು ಹೊಸ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಲ್ಲಿ ಬಳಸಬಹುದು.

ತಮ್ಮ ಹೊಸ ಕಾಗದದಲ್ಲಿ, ಮೊದಲ ಟೋಕನ್ ಅನ್ನು ಸಂಗ್ರಹದಲ್ಲಿ ಇಡುವುದರಿಂದ ಮಾದರಿಯು ಟ್ರ್ಯಾಕ್‌ನಲ್ಲಿ ಉಳಿಯಲು ಏಕೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ ಎಂಬುದನ್ನು ಸಂಶೋಧಕರು ಅನ್ವೇಷಿಸಿದ್ದಾರೆ.

ಸಂಭಾಷಣೆಯ ಮೊದಲ ಪದವು ಮುಂದಿನ ಪದವನ್ನು ಊಹಿಸಲು ಅಗತ್ಯವಿಲ್ಲದಿದ್ದರೂ ಸಹ, ಮಾದರಿಯು ಸನ್ನಿವೇಶವನ್ನು ಉತ್ತಮವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ನಂತರ ಬರುವ ಎಲ್ಲವನ್ನೂ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಇದು ಆರಂಭಿಕ ಹಂತವಾಗಿದೆ.

ಆದ್ದರಿಂದ, ಚಾಟ್‌ಬಾಟ್ ಮೊದಲ ಟೋಕನ್ ಅನ್ನು ನೆನಪಿಟ್ಟುಕೊಳ್ಳುವುದನ್ನು ಖಾತ್ರಿಪಡಿಸಿಕೊಳ್ಳುವ ಮೂಲಕ, ಬಹಳಷ್ಟು ಮಾಹಿತಿಯೊಂದಿಗೆ ವ್ಯವಹರಿಸುವಾಗಲೂ ಅದು ತನ್ನ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಬಹುದು.

ಕೆಲವು ಮಾದರಿಗಳು ತಮ್ಮ ಗಮನ ಕಾರ್ಯವಿಧಾನಗಳಲ್ಲಿ ಸಾಫ್ಟ್‌ಮ್ಯಾಕ್ಸ್ ಕಾರ್ಯಾಚರಣೆಯನ್ನು ಬಳಸುತ್ತವೆ, ಅಲ್ಲಿ ಪ್ರತಿ ಟೋಕನ್ ಇತರ ಟೋಕನ್‌ಗಳಿಗೆ ಅದರ ಸಂಬಂಧವನ್ನು ಸೂಚಿಸುವ ಸ್ಕೋರ್ ಅನ್ನು ಪಡೆಯುತ್ತದೆ. ಸ್ಕೋರ್‌ಗಳು 1 ವರೆಗೆ ಸೇರಿಸುವ ಅಗತ್ಯವಿದೆ, ಆದರೆ ಅನೇಕ ಟೋಕನ್‌ಗಳು ನಿಕಟವಾಗಿ ಸಂಬಂಧ ಹೊಂದಿಲ್ಲದ ಕಾರಣ ಅವು ಸಾಮಾನ್ಯವಾಗಿ ಕಡಿಮೆಯಾಗಿರುತ್ತವೆ. ಆದ್ದರಿಂದ, ಮಾದರಿಯು ಉಳಿದ ಗಮನವನ್ನು ಮೊದಲ ಟೋಕನ್‌ನಲ್ಲಿ ಇರಿಸುತ್ತದೆ.

ಹೆಚ್ಚುವರಿ ಗಮನ ಸೆಳೆಯುವ ಈ ಮೊದಲ ಟೋಕನ್ ಅನ್ನು ಸಂಶೋಧಕರು “ಗಮನ ಸಿಂಕ್” ಎಂದು ಕರೆಯುತ್ತಾರೆ.

EECS ನಲ್ಲಿ ಸಹಾಯಕ ಪ್ರಾಧ್ಯಾಪಕ, MIT-IBM ವ್ಯಾಟ್ಸನ್ AI ಲ್ಯಾಬ್‌ನ ಸದಸ್ಯ ಮತ್ತು NVIDIA ಯಲ್ಲಿನ ಪ್ರತಿಷ್ಠಿತ ವಿಜ್ಞಾನಿ ಸಾಂಗ್ ಹ್ಯಾನ್ ಹೇಳಿದರು, “ನಮಗೆ ಗಮನ ಸಿಂಕ್ ಅಗತ್ಯವಿದೆ, ಮತ್ತು ಮಾದರಿಯು ಮೊದಲ ಟೋಕನ್ ಅನ್ನು ಗಮನ ಸಿಂಕ್ ಆಗಿ ಬಳಸಲು ನಿರ್ಧರಿಸುತ್ತದೆ ಏಕೆಂದರೆ ಅದು ಜಾಗತಿಕವಾಗಿ ಗೋಚರಿಸುತ್ತದೆ – ಪ್ರತಿ ಇತರ ಟೋಕನ್ ಅದನ್ನು ನೋಡಬಹುದು. ಮಾದರಿ ಡೈನಾಮಿಕ್ಸ್ ಅನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಲು ನಾವು ಯಾವಾಗಲೂ ಕ್ಯಾಶ್‌ನಲ್ಲಿ ಗಮನ ಸಿಂಕ್‌ಗಳನ್ನು ಇರಿಸಿಕೊಳ್ಳಬೇಕು.

StreamingLLM ಅನ್ನು ರಚಿಸುವಲ್ಲಿ, ಮೆಮೊರಿ ಸಂಗ್ರಹದ ಆರಂಭದಲ್ಲಿ ಗಮನ ಸಿಂಕ್‌ಗಳು ಎಂದು ಕರೆಯಲ್ಪಡುವ ನಾಲ್ಕು ವಿಶೇಷ ಟೋಕನ್‌ಗಳನ್ನು ಇರಿಸುವುದು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂದು ಸಂಶೋಧಕರು ಕಂಡುಕೊಂಡಿದ್ದಾರೆ. ಹೊಸ ಪದಗಳನ್ನು ಸೇರಿಸಿದಾಗ ಮತ್ತು ಹಳೆಯ ಪದಗಳನ್ನು ತೆಗೆದುಹಾಕಿದಾಗ, ಪ್ರತಿ ಪದವು ಸಾಲಿನಲ್ಲಿ ತನ್ನ ಮೂಲ ಸ್ಥಾನವನ್ನು ಉಳಿಸಿಕೊಳ್ಳಬೇಕು ಎಂದು ಅವರು ಕಲಿತರು.

ಈ ಎರಡು ತಂತ್ರಗಳನ್ನು ಒಟ್ಟುಗೂಡಿಸಿ, ಸ್ಟ್ರೀಮಿಂಗ್‌ಎಲ್‌ಎಲ್‌ಎಂ ನಿಧಾನಗೊಳಿಸದೆ ನಿರಂತರ ಚಾಟ್ ಅನ್ನು ನಿರ್ವಹಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ, ಮತ್ತು ಇದು ಕೆಲವು ಲೆಕ್ಕಾಚಾರಗಳನ್ನು ಮರುಮಾಡುವ ಅಗತ್ಯವಿರುವ ಯಾವುದೇ ವಿಧಾನಕ್ಕಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ಉದಾಹರಣೆಗೆ, 256 ಪದಗಳ ಮೆಮೊರಿ ಸಂಗ್ರಹದೊಂದಿಗೆ, ಎರಡನೇ ವಿಧಾನವು ಹೊಸ ಪದವನ್ನು ಪತ್ತೆಹಚ್ಚಲು 63 ಮಿಲಿಸೆಕೆಂಡುಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ, ಆದರೆ StreamingLLM ಕೇವಲ 31 ಮಿಲಿಸೆಕೆಂಡುಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಆದರೆ ಸಂಗ್ರಹವು 4,096 ಪದಗಳಿಗೆ ಬೆಳೆದರೆ, ಎರಡನೆಯ ವಿಧಾನವು 1,411 ಮಿಲಿಸೆಕೆಂಡುಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ, ಆದರೆ StreamingLLM ವೇಗವಾಗಿ ಉಳಿಯುತ್ತದೆ, ಕೇವಲ 65 ಮಿಲಿಸೆಕೆಂಡುಗಳು ಬೇಕಾಗುತ್ತದೆ.

ಯಾಂಗ್ ಯು, ಸಿಂಗಾಪುರದ ನ್ಯಾಷನಲ್ ಯೂನಿವರ್ಸಿಟಿಯ ಕಂಪ್ಯೂಟರ್ ಸೈನ್ಸ್‌ನ ಅಧ್ಯಕ್ಷೀಯ ಯುವ ಪ್ರಾಧ್ಯಾಪಕ, ಈ ಕೆಲಸದಲ್ಲಿ ಭಾಗಿಯಾಗಿಲ್ಲ ಹೇಳಿದರು, “ಸ್ಟ್ರೀಮಿಂಗ್‌ಎಲ್‌ಎಲ್‌ಎಮ್‌ನ ನವೀನ ವಿಧಾನ, ಸಿಂಕ್ ಕಾರ್ಯವಿಧಾನಗಳ ಸುತ್ತ ಕೇಂದ್ರೀಕೃತವಾಗಿದೆ, 4 ಮಿಲಿಯನ್ ಟೋಕನ್‌ಗಳ ಉದ್ದದ ಪಠ್ಯಗಳನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವಾಗಲೂ ಸ್ಥಿರವಾದ ಮೆಮೊರಿ ಬಳಕೆ ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಖಾತ್ರಿಗೊಳಿಸುತ್ತದೆ. ಈ ಸಾಮರ್ಥ್ಯವು ಕೇವಲ ಪ್ರಭಾವಶಾಲಿಯಾಗಿಲ್ಲ; ಇದು ಪರಿವರ್ತಕವಾಗಿದೆ, ಸ್ಟ್ರೀಮಿಂಗ್‌ಎಲ್‌ಎಲ್‌ಎಂ ಅನ್ನು ವಿವಿಧ AI ಅಪ್ಲಿಕೇಶನ್‌ಗಳಿಗೆ ಅನ್ವಯಿಸಲು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ. StreamingLM ನ ಕಾರ್ಯಕ್ಷಮತೆ ಮತ್ತು ಬಹುಮುಖತೆಯು ಅದನ್ನು ಉದಯೋನ್ಮುಖ ತಂತ್ರಜ್ಞಾನವೆಂದು ಗುರುತಿಸುತ್ತದೆ, ಇದು AI- ಚಾಲಿತ ಉತ್ಪಾದನೆಯ ಅಪ್ಲಿಕೇಶನ್‌ಗಳನ್ನು ನಾವು ಅನುಸರಿಸುವ ವಿಧಾನವನ್ನು ಕ್ರಾಂತಿಗೊಳಿಸಲು ಹೊಂದಿಸಲಾಗಿದೆ.

ಸಂಶೋಧನೆಯಲ್ಲಿ ಭಾಗಿಯಾಗದ ಕಾರ್ನೆಗೀ ಮೆಲಾನ್ ವಿಶ್ವವಿದ್ಯಾನಿಲಯದ ಯಂತ್ರ ಕಲಿಕೆ ಮತ್ತು ಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನ ವಿಭಾಗದ ಸಹಾಯಕ ಪ್ರಾಧ್ಯಾಪಕ ಟಿಯಾನ್ಕಿ ಚೆನ್ ಒಪ್ಪಿಕೊಂಡರು. “ಎಲ್‌ಎಲ್‌ಎಂ ಅನ್ನು ಸ್ಟ್ರೀಮಿಂಗ್ ಮಾಡುವುದರಿಂದ ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳ ಸಂಭಾಷಣೆಯ ಉದ್ದದ ಸುಗಮ ವಿಸ್ತರಣೆಯನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ. ಉತ್ತಮ ಯಶಸ್ಸಿನೊಂದಿಗೆ ಐಫೋನ್‌ಗಳಲ್ಲಿ ಮಿಸ್ಟ್ರಲ್ ಮಾದರಿಗಳ ನಿಯೋಜನೆಯನ್ನು ಸಕ್ರಿಯಗೊಳಿಸಲು ನಾವು ಇದನ್ನು ಬಳಸುತ್ತಿದ್ದೇವೆ.

ಜರ್ನಲ್ ಉಲ್ಲೇಖ:

  1. ಗುವಾಂಗ್ಕ್ಸುವಾನ್ ಕ್ಸಿಯಾವೊ, ಯುವಾಂಡಾಂಗ್ ಟಿಯಾನ್, ಬೀಡಿ ಚೆನ್, ಸಾಂಗ್ ಹಾನ್ ಮತ್ತು ಮೈಕ್ ಲೆವಿಸ್. ಗಮನ ಸಿಂಕ್‌ನೊಂದಿಗೆ ಸಮರ್ಥ ಸ್ಟ್ರೀಮಿಂಗ್ ಭಾಷಾ ಮಾದರಿ. arXiv:2309.17453v3